Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

Highload++ ಮತ್ತು DataFest Minsk 2019 ರಲ್ಲಿ ನನ್ನ ಭಾಷಣಗಳನ್ನು ಆಧರಿಸಿದೆ.

ಇಂದು ಅನೇಕರಿಗೆ, ಮೇಲ್ ಆನ್‌ಲೈನ್ ಜೀವನದ ಅವಿಭಾಜ್ಯ ಅಂಗವಾಗಿದೆ. ಅದರ ಸಹಾಯದಿಂದ, ನಾವು ವ್ಯವಹಾರ ಪತ್ರವ್ಯವಹಾರವನ್ನು ನಡೆಸುತ್ತೇವೆ, ಹಣಕಾಸು, ಹೋಟೆಲ್ ಬುಕಿಂಗ್, ಆದೇಶಗಳನ್ನು ನೀಡುವುದು ಮತ್ತು ಹೆಚ್ಚಿನವುಗಳಿಗೆ ಸಂಬಂಧಿಸಿದ ಎಲ್ಲಾ ರೀತಿಯ ಪ್ರಮುಖ ಮಾಹಿತಿಯನ್ನು ಸಂಗ್ರಹಿಸುತ್ತೇವೆ. 2018 ರ ಮಧ್ಯದಲ್ಲಿ, ಮೇಲ್ ಅಭಿವೃದ್ಧಿಗಾಗಿ ನಾವು ಉತ್ಪನ್ನ ತಂತ್ರವನ್ನು ರೂಪಿಸಿದ್ದೇವೆ. ಆಧುನಿಕ ಮೇಲ್ ಹೇಗಿರಬೇಕು?

ಮೇಲ್ ಇರಬೇಕು ಬುದ್ಧಿವಂತ, ಅಂದರೆ, ಹೆಚ್ಚುತ್ತಿರುವ ಮಾಹಿತಿಯ ಪರಿಮಾಣವನ್ನು ನ್ಯಾವಿಗೇಟ್ ಮಾಡಲು ಬಳಕೆದಾರರಿಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ: ಫಿಲ್ಟರ್, ರಚನೆ ಮತ್ತು ಅದನ್ನು ಅತ್ಯಂತ ಅನುಕೂಲಕರ ರೀತಿಯಲ್ಲಿ ಒದಗಿಸಿ. ಅವಳು ಇರಬೇಕು ಉಪಯುಕ್ತ, ನಿಮ್ಮ ಮೇಲ್‌ಬಾಕ್ಸ್‌ನಲ್ಲಿಯೇ ವಿವಿಧ ಕಾರ್ಯಗಳನ್ನು ಪರಿಹರಿಸಲು ನಿಮಗೆ ಅವಕಾಶ ಮಾಡಿಕೊಡುತ್ತದೆ, ಉದಾಹರಣೆಗೆ, ದಂಡವನ್ನು ಪಾವತಿಸಿ (ದುರದೃಷ್ಟವಶಾತ್, ನಾನು ಬಳಸುವ ಕಾರ್ಯ). ಮತ್ತು ಅದೇ ಸಮಯದಲ್ಲಿ, ಮೇಲ್ ಮಾಹಿತಿ ರಕ್ಷಣೆಯನ್ನು ಒದಗಿಸಬೇಕು, ಸ್ಪ್ಯಾಮ್ ಅನ್ನು ಕಡಿತಗೊಳಿಸಬೇಕು ಮತ್ತು ಹ್ಯಾಕಿಂಗ್ ವಿರುದ್ಧ ರಕ್ಷಿಸಬೇಕು, ಅಂದರೆ ಸುರಕ್ಷಿತ.

ಈ ಪ್ರದೇಶಗಳು ಹಲವಾರು ಪ್ರಮುಖ ಸಮಸ್ಯೆಗಳನ್ನು ವ್ಯಾಖ್ಯಾನಿಸುತ್ತವೆ, ಅವುಗಳಲ್ಲಿ ಹೆಚ್ಚಿನವು ಯಂತ್ರ ಕಲಿಕೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಪರಿಹರಿಸಬಹುದು. ಕಾರ್ಯತಂತ್ರದ ಭಾಗವಾಗಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾದ ಈಗಾಗಲೇ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ವೈಶಿಷ್ಟ್ಯಗಳ ಉದಾಹರಣೆಗಳು ಇಲ್ಲಿವೆ - ಪ್ರತಿ ದಿಕ್ಕಿಗೆ ಒಂದು.

  • ಸ್ಮಾರ್ಟ್ ಉತ್ತರಿಸಿ. ಮೇಲ್ ಸ್ಮಾರ್ಟ್ ಪ್ರತ್ಯುತ್ತರ ವೈಶಿಷ್ಟ್ಯವನ್ನು ಹೊಂದಿದೆ. ನರಮಂಡಲವು ಪತ್ರದ ಪಠ್ಯವನ್ನು ವಿಶ್ಲೇಷಿಸುತ್ತದೆ, ಅದರ ಅರ್ಥ ಮತ್ತು ಉದ್ದೇಶವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುತ್ತದೆ ಮತ್ತು ಪರಿಣಾಮವಾಗಿ ಮೂರು ಅತ್ಯಂತ ಸೂಕ್ತವಾದ ಪ್ರತಿಕ್ರಿಯೆ ಆಯ್ಕೆಗಳನ್ನು ನೀಡುತ್ತದೆ: ಧನಾತ್ಮಕ, ಋಣಾತ್ಮಕ ಮತ್ತು ತಟಸ್ಥ. ಪತ್ರಗಳಿಗೆ ಉತ್ತರಿಸುವಾಗ ಸಮಯವನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಉಳಿಸಲು ಇದು ಸಹಾಯ ಮಾಡುತ್ತದೆ ಮತ್ತು ಆಗಾಗ್ಗೆ ಪ್ರಮಾಣಿತವಲ್ಲದ ಮತ್ತು ತಮಾಷೆಯ ರೀತಿಯಲ್ಲಿ ಪ್ರತಿಕ್ರಿಯಿಸುತ್ತದೆ.
  • ಇಮೇಲ್‌ಗಳನ್ನು ಗುಂಪು ಮಾಡುವುದುಆನ್‌ಲೈನ್ ಸ್ಟೋರ್‌ಗಳಲ್ಲಿನ ಆರ್ಡರ್‌ಗಳಿಗೆ ಸಂಬಂಧಿಸಿದೆ. ನಾವು ಸಾಮಾನ್ಯವಾಗಿ ಆನ್‌ಲೈನ್‌ನಲ್ಲಿ ಶಾಪಿಂಗ್ ಮಾಡುತ್ತೇವೆ ಮತ್ತು ನಿಯಮದಂತೆ, ಪ್ರತಿ ಆರ್ಡರ್‌ಗೆ ಅಂಗಡಿಗಳು ಹಲವಾರು ಇಮೇಲ್‌ಗಳನ್ನು ಕಳುಹಿಸಬಹುದು. ಉದಾಹರಣೆಗೆ, ಅತಿದೊಡ್ಡ ಸೇವೆಯಾದ ಅಲೈಕ್ಸ್‌ಪ್ರೆಸ್‌ನಿಂದ, ಒಂದು ಆದೇಶಕ್ಕಾಗಿ ಬಹಳಷ್ಟು ಅಕ್ಷರಗಳು ಬರುತ್ತವೆ ಮತ್ತು ಟರ್ಮಿನಲ್ ಸಂದರ್ಭದಲ್ಲಿ ಅವರ ಸಂಖ್ಯೆ 29 ವರೆಗೆ ತಲುಪಬಹುದು ಎಂದು ನಾವು ಲೆಕ್ಕ ಹಾಕಿದ್ದೇವೆ. ಆದ್ದರಿಂದ, ಹೆಸರಿಸಲಾದ ಎಂಟಿಟಿ ರೆಕಗ್ನಿಷನ್ ಮಾದರಿಯನ್ನು ಬಳಸಿ, ನಾವು ಆರ್ಡರ್ ಸಂಖ್ಯೆಯನ್ನು ಹೊರತೆಗೆಯುತ್ತೇವೆ ಮತ್ತು ಪಠ್ಯದಿಂದ ಇತರ ಮಾಹಿತಿ ಮತ್ತು ಎಲ್ಲಾ ಅಕ್ಷರಗಳನ್ನು ಒಂದೇ ಥ್ರೆಡ್‌ನಲ್ಲಿ ಗುಂಪು ಮಾಡಿ. ನಾವು ಆದೇಶದ ಕುರಿತು ಮೂಲಭೂತ ಮಾಹಿತಿಯನ್ನು ಪ್ರತ್ಯೇಕ ಬಾಕ್ಸ್‌ನಲ್ಲಿ ಪ್ರದರ್ಶಿಸುತ್ತೇವೆ, ಇದು ಈ ರೀತಿಯ ಇಮೇಲ್‌ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವುದನ್ನು ಸುಲಭಗೊಳಿಸುತ್ತದೆ.

    Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

  • ಆಂಟಿಫಿಶಿಂಗ್. ಫಿಶಿಂಗ್ ನಿರ್ದಿಷ್ಟವಾಗಿ ಅಪಾಯಕಾರಿ ಮೋಸದ ಇಮೇಲ್ ಪ್ರಕಾರವಾಗಿದೆ, ದಾಳಿಕೋರರು ಹಣಕಾಸಿನ ಮಾಹಿತಿಯನ್ನು (ಬಳಕೆದಾರರ ಬ್ಯಾಂಕ್ ಕಾರ್ಡ್‌ಗಳನ್ನು ಒಳಗೊಂಡಂತೆ) ಮತ್ತು ಲಾಗಿನ್‌ಗಳನ್ನು ಪಡೆಯಲು ಪ್ರಯತ್ನಿಸುವ ಸಹಾಯದಿಂದ. ಅಂತಹ ಪತ್ರಗಳು ದೃಷ್ಟಿ ಸೇರಿದಂತೆ ಸೇವೆಯಿಂದ ಕಳುಹಿಸಲಾದ ನೈಜ ಅಕ್ಷರಗಳನ್ನು ಅನುಕರಿಸುತ್ತವೆ. ಆದ್ದರಿಂದ, ಕಂಪ್ಯೂಟರ್ ವಿಷನ್ ಸಹಾಯದಿಂದ, ನಾವು ಲೋಗೊಗಳು ಮತ್ತು ದೊಡ್ಡ ಕಂಪನಿಗಳ ಅಕ್ಷರಗಳ ವಿನ್ಯಾಸ ಶೈಲಿಯನ್ನು ಗುರುತಿಸುತ್ತೇವೆ (ಉದಾಹರಣೆಗೆ, Mail.ru, Sber, Alfa) ಮತ್ತು ನಮ್ಮ ಸ್ಪ್ಯಾಮ್ ಮತ್ತು ಫಿಶಿಂಗ್ ವರ್ಗೀಕರಣಗಳಲ್ಲಿ ಪಠ್ಯ ಮತ್ತು ಇತರ ವೈಶಿಷ್ಟ್ಯಗಳೊಂದಿಗೆ ಇದನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುತ್ತೇವೆ. .

ಯಂತ್ರ ಕಲಿಕೆ

ಸಾಮಾನ್ಯವಾಗಿ ಇಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಬಗ್ಗೆ ಸ್ವಲ್ಪ. ಮೇಲ್ ಹೆಚ್ಚು ಲೋಡ್ ಮಾಡಲಾದ ವ್ಯವಸ್ಥೆಯಾಗಿದೆ: 1,5 ಮಿಲಿಯನ್ DAU ಬಳಕೆದಾರರಿಗೆ ದಿನಕ್ಕೆ ಸರಾಸರಿ 30 ಶತಕೋಟಿ ಅಕ್ಷರಗಳು ನಮ್ಮ ಸರ್ವರ್‌ಗಳ ಮೂಲಕ ಹಾದುಹೋಗುತ್ತವೆ. ಸುಮಾರು 30 ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಗಳು ಎಲ್ಲಾ ಅಗತ್ಯ ಕಾರ್ಯಗಳು ಮತ್ತು ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತವೆ.

ಪ್ರತಿಯೊಂದು ಅಕ್ಷರವು ಸಂಪೂರ್ಣ ವರ್ಗೀಕರಣ ಪೈಪ್ಲೈನ್ ​​ಮೂಲಕ ಹೋಗುತ್ತದೆ. ಮೊದಲಿಗೆ ನಾವು ಸ್ಪ್ಯಾಮ್ ಅನ್ನು ಕಡಿತಗೊಳಿಸುತ್ತೇವೆ ಮತ್ತು ಉತ್ತಮ ಇಮೇಲ್ಗಳನ್ನು ಬಿಡುತ್ತೇವೆ. ಆಂಟಿಸ್ಪ್ಯಾಮ್ನ ಕೆಲಸವನ್ನು ಬಳಕೆದಾರರು ಹೆಚ್ಚಾಗಿ ಗಮನಿಸುವುದಿಲ್ಲ, ಏಕೆಂದರೆ 95-99% ಸ್ಪ್ಯಾಮ್ ಸೂಕ್ತ ಫೋಲ್ಡರ್ನಲ್ಲಿ ಕೊನೆಗೊಳ್ಳುವುದಿಲ್ಲ. ಸ್ಪ್ಯಾಮ್ ಗುರುತಿಸುವಿಕೆ ನಮ್ಮ ಸಿಸ್ಟಮ್‌ನ ಅತ್ಯಂತ ಪ್ರಮುಖ ಭಾಗವಾಗಿದೆ ಮತ್ತು ಅತ್ಯಂತ ಕಷ್ಟಕರವಾಗಿದೆ, ಏಕೆಂದರೆ ಸ್ಪ್ಯಾಮ್ ವಿರೋಧಿ ಕ್ಷೇತ್ರದಲ್ಲಿ ರಕ್ಷಣಾ ಮತ್ತು ದಾಳಿ ವ್ಯವಸ್ಥೆಗಳ ನಡುವೆ ನಿರಂತರ ಹೊಂದಾಣಿಕೆ ಇದೆ, ಇದು ನಮ್ಮ ತಂಡಕ್ಕೆ ನಿರಂತರ ಎಂಜಿನಿಯರಿಂಗ್ ಸವಾಲನ್ನು ಒದಗಿಸುತ್ತದೆ.

ಮುಂದೆ, ನಾವು ಜನರು ಮತ್ತು ರೋಬೋಟ್‌ಗಳಿಂದ ಅಕ್ಷರಗಳನ್ನು ಪ್ರತ್ಯೇಕಿಸುತ್ತೇವೆ. ಜನರಿಂದ ಇಮೇಲ್‌ಗಳು ಅತ್ಯಂತ ಮುಖ್ಯವಾದವು, ಆದ್ದರಿಂದ ನಾವು ಅವರಿಗೆ ಸ್ಮಾರ್ಟ್ ಪ್ರತ್ಯುತ್ತರದಂತಹ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಒದಗಿಸುತ್ತೇವೆ. ರೋಬೋಟ್‌ಗಳ ಪತ್ರಗಳನ್ನು ಎರಡು ಭಾಗಗಳಾಗಿ ವಿಂಗಡಿಸಲಾಗಿದೆ: ವಹಿವಾಟು - ಇವು ಸೇವೆಗಳಿಂದ ಪ್ರಮುಖ ಪತ್ರಗಳಾಗಿವೆ, ಉದಾಹರಣೆಗೆ, ಖರೀದಿಗಳ ದೃಢೀಕರಣಗಳು ಅಥವಾ ಹೋಟೆಲ್ ಕಾಯ್ದಿರಿಸುವಿಕೆಗಳು, ಹಣಕಾಸು ಮತ್ತು ಮಾಹಿತಿ - ಇವು ವ್ಯಾಪಾರ ಜಾಹೀರಾತು, ರಿಯಾಯಿತಿಗಳು.

ವಹಿವಾಟಿನ ಇಮೇಲ್‌ಗಳು ವೈಯಕ್ತಿಕ ಪತ್ರವ್ಯವಹಾರಕ್ಕೆ ಸಮಾನ ಪ್ರಾಮುಖ್ಯತೆಯನ್ನು ಹೊಂದಿವೆ ಎಂದು ನಾವು ನಂಬುತ್ತೇವೆ. ಅವರು ಕೈಯಲ್ಲಿರಬೇಕು, ಏಕೆಂದರೆ ನಾವು ಆಗಾಗ್ಗೆ ಆರ್ಡರ್ ಅಥವಾ ಏರ್ ಟಿಕೆಟ್ ಕಾಯ್ದಿರಿಸುವಿಕೆಯ ಬಗ್ಗೆ ಮಾಹಿತಿಯನ್ನು ತ್ವರಿತವಾಗಿ ಕಂಡುಹಿಡಿಯಬೇಕು ಮತ್ತು ಈ ಪತ್ರಗಳನ್ನು ಹುಡುಕಲು ನಾವು ಸಮಯವನ್ನು ಕಳೆಯುತ್ತೇವೆ. ಆದ್ದರಿಂದ, ಅನುಕೂಲಕ್ಕಾಗಿ, ನಾವು ಅವುಗಳನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಆರು ಮುಖ್ಯ ವರ್ಗಗಳಾಗಿ ವಿಂಗಡಿಸುತ್ತೇವೆ: ಪ್ರಯಾಣ, ಆದೇಶಗಳು, ಹಣಕಾಸು, ಟಿಕೆಟ್‌ಗಳು, ನೋಂದಣಿಗಳು ಮತ್ತು ಅಂತಿಮವಾಗಿ, ದಂಡಗಳು.

ಮಾಹಿತಿ ಪತ್ರಗಳು ಅತಿದೊಡ್ಡ ಮತ್ತು ಪ್ರಾಯಶಃ ಕಡಿಮೆ ಪ್ರಾಮುಖ್ಯತೆಯ ಗುಂಪು, ಇದು ತಕ್ಷಣದ ಪ್ರತಿಕ್ರಿಯೆಯ ಅಗತ್ಯವಿರುವುದಿಲ್ಲ, ಏಕೆಂದರೆ ಅಂತಹ ಪತ್ರವನ್ನು ಓದದಿದ್ದರೆ ಬಳಕೆದಾರರ ಜೀವನದಲ್ಲಿ ಗಮನಾರ್ಹವಾದ ಏನೂ ಬದಲಾಗುವುದಿಲ್ಲ. ನಮ್ಮ ಹೊಸ ಇಂಟರ್‌ಫೇಸ್‌ನಲ್ಲಿ, ನಾವು ಅವುಗಳನ್ನು ಎರಡು ಥ್ರೆಡ್‌ಗಳಾಗಿ ಕುಗ್ಗಿಸುತ್ತೇವೆ: ಸಾಮಾಜಿಕ ನೆಟ್‌ವರ್ಕ್‌ಗಳು ಮತ್ತು ಸುದ್ದಿಪತ್ರಗಳು, ಹೀಗೆ ದೃಷ್ಟಿಗೋಚರವಾಗಿ ಇನ್‌ಬಾಕ್ಸ್ ಅನ್ನು ತೆರವುಗೊಳಿಸುತ್ತದೆ ಮತ್ತು ಪ್ರಮುಖ ಸಂದೇಶಗಳನ್ನು ಮಾತ್ರ ಗೋಚರಿಸುತ್ತದೆ.

Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

ಶೋಷಣೆ

ಹೆಚ್ಚಿನ ಸಂಖ್ಯೆಯ ವ್ಯವಸ್ಥೆಗಳು ಕಾರ್ಯಾಚರಣೆಯಲ್ಲಿ ಬಹಳಷ್ಟು ತೊಂದರೆಗಳನ್ನು ಉಂಟುಮಾಡುತ್ತವೆ. ಎಲ್ಲಾ ನಂತರ, ಯಾವುದೇ ಸಾಫ್ಟ್‌ವೇರ್‌ನಂತೆ ಕಾಲಾನಂತರದಲ್ಲಿ ಮಾದರಿಗಳು ಕುಸಿಯುತ್ತವೆ: ವೈಶಿಷ್ಟ್ಯಗಳು ಒಡೆಯುತ್ತವೆ, ಯಂತ್ರಗಳು ವಿಫಲಗೊಳ್ಳುತ್ತವೆ, ಕೋಡ್ ವಕ್ರವಾಗುತ್ತದೆ. ಹೆಚ್ಚುವರಿಯಾಗಿ, ಡೇಟಾ ನಿರಂತರವಾಗಿ ಬದಲಾಗುತ್ತಿದೆ: ಹೊಸದನ್ನು ಸೇರಿಸಲಾಗುತ್ತದೆ, ಬಳಕೆದಾರರ ನಡವಳಿಕೆಯ ಮಾದರಿಗಳು ರೂಪಾಂತರಗೊಳ್ಳುತ್ತವೆ, ಇತ್ಯಾದಿ, ಆದ್ದರಿಂದ ಸರಿಯಾದ ಬೆಂಬಲವಿಲ್ಲದ ಮಾದರಿಯು ಕಾಲಾನಂತರದಲ್ಲಿ ಕೆಟ್ಟದಾಗಿ ಮತ್ತು ಕೆಟ್ಟದಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.

ಆಳವಾದ ಯಂತ್ರ ಕಲಿಕೆಯು ಬಳಕೆದಾರರ ಜೀವನದಲ್ಲಿ ತೂರಿಕೊಳ್ಳುತ್ತದೆ ಎಂಬುದನ್ನು ನಾವು ಮರೆಯಬಾರದು, ಅವರು ಪರಿಸರ ವ್ಯವಸ್ಥೆಯ ಮೇಲೆ ಹೆಚ್ಚಿನ ಪ್ರಭಾವವನ್ನು ಬೀರುತ್ತಾರೆ ಮತ್ತು ಇದರ ಪರಿಣಾಮವಾಗಿ, ಮಾರುಕಟ್ಟೆ ಆಟಗಾರರು ಹೆಚ್ಚು ಆರ್ಥಿಕ ನಷ್ಟಗಳು ಅಥವಾ ಲಾಭಗಳನ್ನು ಪಡೆಯಬಹುದು. ಆದ್ದರಿಂದ, ಹೆಚ್ಚಿನ ಸಂಖ್ಯೆಯ ಪ್ರದೇಶಗಳಲ್ಲಿ, ಆಟಗಾರರು ML ಅಲ್ಗಾರಿದಮ್‌ಗಳ ಕೆಲಸಕ್ಕೆ ಹೊಂದಿಕೊಳ್ಳುತ್ತಿದ್ದಾರೆ (ಕ್ಲಾಸಿಕ್ ಉದಾಹರಣೆಗಳೆಂದರೆ ಜಾಹೀರಾತು, ಹುಡುಕಾಟ ಮತ್ತು ಈಗಾಗಲೇ ಉಲ್ಲೇಖಿಸಲಾದ ಆಂಟಿಸ್ಪ್ಯಾಮ್).

ಅಲ್ಲದೆ, ಯಂತ್ರ ಕಲಿಕೆ ಕಾರ್ಯಗಳು ಒಂದು ವಿಶಿಷ್ಟತೆಯನ್ನು ಹೊಂದಿವೆ: ಯಾವುದೇ, ಚಿಕ್ಕದಾದ, ವ್ಯವಸ್ಥೆಯಲ್ಲಿನ ಬದಲಾವಣೆಯು ಮಾದರಿಯೊಂದಿಗೆ ಬಹಳಷ್ಟು ಕೆಲಸವನ್ನು ಉಂಟುಮಾಡಬಹುದು: ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವುದು, ಮರುತರಬೇತಿ, ನಿಯೋಜನೆ, ಇದು ವಾರಗಳು ಅಥವಾ ತಿಂಗಳುಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಬಹುದು. ಆದ್ದರಿಂದ, ನಿಮ್ಮ ಮಾದರಿಗಳು ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಪರಿಸರವು ವೇಗವಾಗಿ ಬದಲಾಗುತ್ತದೆ, ಅವುಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಹೆಚ್ಚು ಶ್ರಮ ಬೇಕಾಗುತ್ತದೆ. ಒಂದು ತಂಡವು ಬಹಳಷ್ಟು ವ್ಯವಸ್ಥೆಗಳನ್ನು ರಚಿಸಬಹುದು ಮತ್ತು ಅದರ ಬಗ್ಗೆ ಸಂತೋಷಪಡಬಹುದು, ಆದರೆ ಹೊಸದನ್ನು ಮಾಡಲು ಅವಕಾಶವಿಲ್ಲದೆಯೇ ಅದರ ಎಲ್ಲಾ ಸಂಪನ್ಮೂಲಗಳನ್ನು ಅವುಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಖರ್ಚು ಮಾಡಬಹುದು. ಆಂಟಿಸ್ಪ್ಯಾಮ್ ತಂಡದಲ್ಲಿ ನಾವು ಒಮ್ಮೆ ಅಂತಹ ಪರಿಸ್ಥಿತಿಯನ್ನು ಎದುರಿಸಿದ್ದೇವೆ. ಮತ್ತು ಬೆಂಬಲವನ್ನು ಸ್ವಯಂಚಾಲಿತಗೊಳಿಸಬೇಕು ಎಂಬ ಸ್ಪಷ್ಟ ತೀರ್ಮಾನವನ್ನು ಅವರು ಮಾಡಿದರು.

ಆಟೊಮೇಷನ್

ಏನು ಸ್ವಯಂಚಾಲಿತ ಮಾಡಬಹುದು? ಬಹುತೇಕ ಎಲ್ಲವೂ, ವಾಸ್ತವವಾಗಿ. ಯಂತ್ರ ಕಲಿಕೆಯ ಮೂಲಸೌಕರ್ಯವನ್ನು ವ್ಯಾಖ್ಯಾನಿಸುವ ನಾಲ್ಕು ಕ್ಷೇತ್ರಗಳನ್ನು ನಾನು ಗುರುತಿಸಿದ್ದೇನೆ:

  • ಮಾಹಿತಿ ಸಂಗ್ರಹ;
  • ಹೆಚ್ಚುವರಿ ತರಬೇತಿ;
  • ನಿಯೋಜಿಸು;
  • ಪರೀಕ್ಷೆ ಮತ್ತು ಮೇಲ್ವಿಚಾರಣೆ.

ಪರಿಸರವು ಅಸ್ಥಿರವಾಗಿದ್ದರೆ ಮತ್ತು ನಿರಂತರವಾಗಿ ಬದಲಾಗುತ್ತಿದ್ದರೆ, ಮಾದರಿಯ ಸುತ್ತಲಿನ ಸಂಪೂರ್ಣ ಮೂಲಸೌಕರ್ಯವು ಮಾದರಿಗಿಂತ ಹೆಚ್ಚು ಮುಖ್ಯವಾಗಿದೆ. ಇದು ಉತ್ತಮ ಹಳೆಯ ರೇಖೀಯ ವರ್ಗೀಕರಣವಾಗಬಹುದು, ಆದರೆ ನೀವು ಸರಿಯಾದ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ನೀಡಿದರೆ ಮತ್ತು ಬಳಕೆದಾರರಿಂದ ಉತ್ತಮ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಪಡೆದರೆ, ಇದು ಎಲ್ಲಾ ಗಂಟೆಗಳು ಮತ್ತು ಸೀಟಿಗಳೊಂದಿಗೆ ಸ್ಟೇಟ್-ಆಫ್-ದಿ-ಆರ್ಟ್ ಮಾದರಿಗಳಿಗಿಂತ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.

ಪ್ರತಿಕ್ರಿಯೆ ಲೂಪ್

ಈ ಚಕ್ರವು ಡೇಟಾ ಸಂಗ್ರಹಣೆ, ಹೆಚ್ಚುವರಿ ತರಬೇತಿ ಮತ್ತು ನಿಯೋಜನೆಯನ್ನು ಸಂಯೋಜಿಸುತ್ತದೆ - ವಾಸ್ತವವಾಗಿ, ಸಂಪೂರ್ಣ ಮಾದರಿ ನವೀಕರಣ ಚಕ್ರ. ಇದು ಏಕೆ ಮುಖ್ಯ? ಮೇಲ್ನಲ್ಲಿ ನೋಂದಣಿ ವೇಳಾಪಟ್ಟಿಯನ್ನು ನೋಡಿ:

Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಡೆವಲಪರ್ ಆಂಟಿ-ಬೋಟ್ ಮಾದರಿಯನ್ನು ಅಳವಡಿಸಿದ್ದಾರೆ ಅದು ಬಾಟ್‌ಗಳನ್ನು ಇಮೇಲ್‌ನಲ್ಲಿ ನೋಂದಾಯಿಸುವುದನ್ನು ತಡೆಯುತ್ತದೆ. ನಿಜವಾದ ಬಳಕೆದಾರರು ಮಾತ್ರ ಉಳಿಯುವ ಮೌಲ್ಯಕ್ಕೆ ಗ್ರಾಫ್ ಇಳಿಯುತ್ತದೆ. ಎಲ್ಲವೂ ಅದ್ಭುತವಾಗಿದೆ! ಆದರೆ ನಾಲ್ಕು ಗಂಟೆಗಳು ಕಳೆದವು, ಬಾಟ್‌ಗಳು ತಮ್ಮ ಸ್ಕ್ರಿಪ್ಟ್‌ಗಳನ್ನು ತಿರುಚುತ್ತವೆ ಮತ್ತು ಎಲ್ಲವೂ ಸಾಮಾನ್ಯ ಸ್ಥಿತಿಗೆ ಮರಳುತ್ತವೆ. ಈ ಅನುಷ್ಠಾನದಲ್ಲಿ, ಡೆವಲಪರ್ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಸೇರಿಸಲು ಮತ್ತು ಮಾದರಿಯನ್ನು ಮರುತರಬೇತಿ ಮಾಡಲು ಒಂದು ತಿಂಗಳು ಕಳೆದರು, ಆದರೆ ಸ್ಪ್ಯಾಮರ್ ನಾಲ್ಕು ಗಂಟೆಗಳಲ್ಲಿ ಹೊಂದಿಕೊಳ್ಳಲು ಸಾಧ್ಯವಾಯಿತು.

ತುಂಬಾ ಅಸಹನೀಯವಾಗಿ ನೋವಿನಿಂದ ಇರಬಾರದು ಮತ್ತು ನಂತರ ಎಲ್ಲವನ್ನೂ ಮತ್ತೆ ಮಾಡಬೇಕಾಗಿಲ್ಲ, ಪ್ರತಿಕ್ರಿಯೆ ಲೂಪ್ ಹೇಗಿರುತ್ತದೆ ಮತ್ತು ಪರಿಸರವು ಬದಲಾದರೆ ನಾವು ಏನು ಮಾಡುತ್ತೇವೆ ಎಂಬುದರ ಕುರಿತು ನಾವು ಆರಂಭದಲ್ಲಿ ಯೋಚಿಸಬೇಕು. ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವುದರೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸೋಣ - ಇದು ನಮ್ಮ ಅಲ್ಗಾರಿದಮ್‌ಗಳಿಗೆ ಇಂಧನವಾಗಿದೆ.

ಮಾಹಿತಿ ಸಂಗ್ರಹ

ಆಧುನಿಕ ನರಗಳ ಜಾಲಗಳಿಗೆ, ಹೆಚ್ಚು ಡೇಟಾ, ಉತ್ತಮ, ಮತ್ತು ಅವುಗಳು ವಾಸ್ತವವಾಗಿ, ಉತ್ಪನ್ನದ ಬಳಕೆದಾರರಿಂದ ಉತ್ಪತ್ತಿಯಾಗುತ್ತವೆ ಎಂಬುದು ಸ್ಪಷ್ಟವಾಗಿದೆ. ಡೇಟಾವನ್ನು ಗುರುತಿಸುವ ಮೂಲಕ ಬಳಕೆದಾರರು ನಮಗೆ ಸಹಾಯ ಮಾಡಬಹುದು, ಆದರೆ ನಾವು ಇದನ್ನು ದುರುಪಯೋಗಪಡಿಸಿಕೊಳ್ಳಲು ಸಾಧ್ಯವಿಲ್ಲ, ಏಕೆಂದರೆ ಕೆಲವು ಹಂತದಲ್ಲಿ ಬಳಕೆದಾರರು ನಿಮ್ಮ ಮಾದರಿಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸಲು ಆಯಾಸಗೊಳ್ಳುತ್ತಾರೆ ಮತ್ತು ಇನ್ನೊಂದು ಉತ್ಪನ್ನಕ್ಕೆ ಬದಲಾಯಿಸುತ್ತಾರೆ.

ಅತ್ಯಂತ ಸಾಮಾನ್ಯವಾದ ತಪ್ಪುಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ (ಇಲ್ಲಿ ನಾನು ಆಂಡ್ರ್ಯೂ ಎನ್‌ಜಿಯನ್ನು ಉಲ್ಲೇಖಿಸುತ್ತೇನೆ) ಪರೀಕ್ಷಾ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿನ ಮೆಟ್ರಿಕ್‌ಗಳ ಮೇಲೆ ಹೆಚ್ಚು ಗಮನಹರಿಸುವುದು ಮತ್ತು ಬಳಕೆದಾರರ ಪ್ರತಿಕ್ರಿಯೆಯ ಮೇಲೆ ಅಲ್ಲ, ಇದು ವಾಸ್ತವವಾಗಿ ಕೆಲಸದ ಗುಣಮಟ್ಟದ ಮುಖ್ಯ ಅಳತೆಯಾಗಿದೆ, ಏಕೆಂದರೆ ನಾವು ರಚಿಸುತ್ತೇವೆ ಬಳಕೆದಾರರಿಗಾಗಿ ಒಂದು ಉತ್ಪನ್ನ. ಬಳಕೆದಾರರಿಗೆ ಅರ್ಥವಾಗದಿದ್ದರೆ ಅಥವಾ ಮಾದರಿಯ ಕೆಲಸವನ್ನು ಇಷ್ಟಪಡದಿದ್ದರೆ, ಎಲ್ಲವೂ ಹಾಳಾಗುತ್ತದೆ.

ಆದ್ದರಿಂದ, ಬಳಕೆದಾರರು ಯಾವಾಗಲೂ ಮತ ಚಲಾಯಿಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ ಮತ್ತು ಪ್ರತಿಕ್ರಿಯೆಗಾಗಿ ಸಾಧನವನ್ನು ನೀಡಬೇಕು. ಮೇಲ್ಬಾಕ್ಸ್ನಲ್ಲಿ ಹಣಕಾಸುಗೆ ಸಂಬಂಧಿಸಿದ ಪತ್ರವು ಬಂದಿದೆ ಎಂದು ನಾವು ಭಾವಿಸಿದರೆ, ನಾವು ಅದನ್ನು "ಹಣಕಾಸು" ಎಂದು ಗುರುತಿಸಬೇಕು ಮತ್ತು ಬಳಕೆದಾರರು ಕ್ಲಿಕ್ ಮಾಡಬಹುದಾದ ಬಟನ್ ಅನ್ನು ಸೆಳೆಯಬೇಕು ಮತ್ತು ಇದು ಹಣಕಾಸು ಅಲ್ಲ ಎಂದು ಹೇಳಬಹುದು.

ಪ್ರತಿಕ್ರಿಯೆ ಗುಣಮಟ್ಟ

ಬಳಕೆದಾರರ ಪ್ರತಿಕ್ರಿಯೆಯ ಗುಣಮಟ್ಟದ ಬಗ್ಗೆ ಮಾತನಾಡೋಣ. ಮೊದಲನೆಯದಾಗಿ, ನೀವು ಮತ್ತು ಬಳಕೆದಾರರು ಒಂದು ಪರಿಕಲ್ಪನೆಯಲ್ಲಿ ವಿಭಿನ್ನ ಅರ್ಥಗಳನ್ನು ಹಾಕಬಹುದು. ಉದಾಹರಣೆಗೆ, ನೀವು ಮತ್ತು ನಿಮ್ಮ ಉತ್ಪನ್ನ ನಿರ್ವಾಹಕರು "ಹಣಕಾಸು" ಎಂದರೆ ಬ್ಯಾಂಕಿನಿಂದ ಬಂದ ಪತ್ರಗಳು ಎಂದು ಭಾವಿಸುತ್ತಾರೆ, ಮತ್ತು ಬಳಕೆದಾರರು ಅಜ್ಜಿಯ ಪಿಂಚಣಿ ಬಗ್ಗೆ ಬರೆದ ಪತ್ರವು ಹಣಕಾಸುವನ್ನು ಉಲ್ಲೇಖಿಸುತ್ತದೆ ಎಂದು ಭಾವಿಸುತ್ತಾರೆ. ಎರಡನೆಯದಾಗಿ, ಯಾವುದೇ ತರ್ಕವಿಲ್ಲದೆ ಗುಂಡಿಗಳನ್ನು ಒತ್ತುವುದನ್ನು ಬುದ್ದಿಹೀನವಾಗಿ ಇಷ್ಟಪಡುವ ಬಳಕೆದಾರರಿದ್ದಾರೆ. ಮೂರನೆಯದಾಗಿ, ಬಳಕೆದಾರನು ತನ್ನ ತೀರ್ಮಾನಗಳಲ್ಲಿ ಆಳವಾಗಿ ತಪ್ಪಾಗಿ ಗ್ರಹಿಸಬಹುದು. ನಮ್ಮ ಅಭ್ಯಾಸದಿಂದ ಒಂದು ಗಮನಾರ್ಹ ಉದಾಹರಣೆಯೆಂದರೆ ವರ್ಗೀಕರಣದ ಅನುಷ್ಠಾನ ನೈಜೀರಿಯನ್ ಸ್ಪ್ಯಾಮ್, ಬಹಳ ತಮಾಷೆಯ ರೀತಿಯ ಸ್ಪ್ಯಾಮ್, ಅಲ್ಲಿ ಆಫ್ರಿಕಾದಲ್ಲಿ ಇದ್ದಕ್ಕಿದ್ದಂತೆ ಕಂಡುಬರುವ ದೂರದ ಸಂಬಂಧಿಯಿಂದ ಹಲವಾರು ಮಿಲಿಯನ್ ಡಾಲರ್‌ಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಲು ಬಳಕೆದಾರರನ್ನು ಕೇಳಲಾಗುತ್ತದೆ. ಈ ವರ್ಗೀಕರಣವನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಿದ ನಂತರ, ನಾವು ಈ ಇಮೇಲ್‌ಗಳ ಮೇಲಿನ “ಸ್ಪ್ಯಾಮ್ ಅಲ್ಲ” ಕ್ಲಿಕ್‌ಗಳನ್ನು ಪರಿಶೀಲಿಸಿದ್ದೇವೆ ಮತ್ತು ಅವುಗಳಲ್ಲಿ 80% ರಸಭರಿತ ನೈಜೀರಿಯನ್ ಸ್ಪ್ಯಾಮ್ ಎಂದು ತಿಳಿದುಬಂದಿದೆ, ಇದು ಬಳಕೆದಾರರು ಅತ್ಯಂತ ಮೋಸಹೋಗಬಹುದು ಎಂದು ಸೂಚಿಸುತ್ತದೆ.

ಮತ್ತು ಗುಂಡಿಗಳನ್ನು ಜನರು ಮಾತ್ರ ಕ್ಲಿಕ್ ಮಾಡಬಹುದೆಂದು ಮರೆಯಬಾರದು, ಆದರೆ ಬ್ರೌಸರ್ ಎಂದು ನಟಿಸುವ ಎಲ್ಲಾ ರೀತಿಯ ಬಾಟ್ಗಳು. ಆದ್ದರಿಂದ ಕಚ್ಚಾ ಪ್ರತಿಕ್ರಿಯೆ ಕಲಿಕೆಗೆ ಒಳ್ಳೆಯದಲ್ಲ. ಈ ಮಾಹಿತಿಯೊಂದಿಗೆ ನೀವು ಏನು ಮಾಡಬಹುದು?

ನಾವು ಎರಡು ವಿಧಾನಗಳನ್ನು ಬಳಸುತ್ತೇವೆ:

  • ಲಿಂಕ್ ಮಾಡಲಾದ ML ನಿಂದ ಪ್ರತಿಕ್ರಿಯೆ. ಉದಾಹರಣೆಗೆ, ನಾವು ಆನ್‌ಲೈನ್ ಆಂಟಿ-ಬೋಟ್ ವ್ಯವಸ್ಥೆಯನ್ನು ಹೊಂದಿದ್ದೇವೆ, ಇದು ನಾನು ಹೇಳಿದಂತೆ, ಸೀಮಿತ ಸಂಖ್ಯೆಯ ಚಿಹ್ನೆಗಳ ಆಧಾರದ ಮೇಲೆ ತ್ವರಿತ ನಿರ್ಧಾರವನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. ಮತ್ತು ವಾಸ್ತವವಾಗಿ ನಂತರ ಕೆಲಸ ಮಾಡುವ ಎರಡನೇ, ನಿಧಾನ ವ್ಯವಸ್ಥೆ ಇದೆ. ಇದು ಬಳಕೆದಾರ, ಅವನ ನಡವಳಿಕೆ ಇತ್ಯಾದಿಗಳ ಕುರಿತು ಹೆಚ್ಚಿನ ಡೇಟಾವನ್ನು ಹೊಂದಿದೆ. ಪರಿಣಾಮವಾಗಿ, ಹೆಚ್ಚು ತಿಳುವಳಿಕೆಯುಳ್ಳ ನಿರ್ಧಾರವನ್ನು ತೆಗೆದುಕೊಳ್ಳಲಾಗುತ್ತದೆ; ಅದರ ಪ್ರಕಾರ, ಇದು ಹೆಚ್ಚಿನ ನಿಖರತೆ ಮತ್ತು ಸಂಪೂರ್ಣತೆಯನ್ನು ಹೊಂದಿದೆ. ಈ ವ್ಯವಸ್ಥೆಗಳ ಕಾರ್ಯಾಚರಣೆಯಲ್ಲಿನ ವ್ಯತ್ಯಾಸವನ್ನು ನೀವು ತರಬೇತಿ ಡೇಟಾದಂತೆ ಮೊದಲನೆಯದಕ್ಕೆ ನಿರ್ದೇಶಿಸಬಹುದು. ಹೀಗಾಗಿ, ಸರಳವಾದ ವ್ಯವಸ್ಥೆಯು ಯಾವಾಗಲೂ ಹೆಚ್ಚು ಸಂಕೀರ್ಣವಾದ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಸಮೀಪಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತದೆ.
  • ವರ್ಗೀಕರಣ ಕ್ಲಿಕ್ ಮಾಡಿ. ನೀವು ಪ್ರತಿ ಬಳಕೆದಾರರ ಕ್ಲಿಕ್ ಅನ್ನು ಸರಳವಾಗಿ ವರ್ಗೀಕರಿಸಬಹುದು, ಅದರ ಸಿಂಧುತ್ವ ಮತ್ತು ಉಪಯುಕ್ತತೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಬಹುದು. ನಾವು ಇದನ್ನು ಆಂಟಿಸ್ಪ್ಯಾಮ್ ಮೇಲ್‌ನಲ್ಲಿ ಮಾಡುತ್ತೇವೆ, ಬಳಕೆದಾರರ ಗುಣಲಕ್ಷಣಗಳು, ಅವರ ಇತಿಹಾಸ, ಕಳುಹಿಸುವವರ ಗುಣಲಕ್ಷಣಗಳು, ಪಠ್ಯ ಮತ್ತು ವರ್ಗೀಕರಣದ ಫಲಿತಾಂಶವನ್ನು ಬಳಸಿ. ಪರಿಣಾಮವಾಗಿ, ಬಳಕೆದಾರರ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಮೌಲ್ಯೀಕರಿಸುವ ಸ್ವಯಂಚಾಲಿತ ವ್ಯವಸ್ಥೆಯನ್ನು ನಾವು ಪಡೆಯುತ್ತೇವೆ. ಮತ್ತು ಅದನ್ನು ಕಡಿಮೆ ಬಾರಿ ಮರುತರಬೇತಿ ಮಾಡಬೇಕಾಗಿರುವುದರಿಂದ, ಅದರ ಕೆಲಸವು ಎಲ್ಲಾ ಇತರ ವ್ಯವಸ್ಥೆಗಳಿಗೆ ಆಧಾರವಾಗಬಹುದು. ಈ ಮಾದರಿಯಲ್ಲಿ ಮುಖ್ಯ ಆದ್ಯತೆಯು ನಿಖರತೆಯಾಗಿದೆ, ಏಕೆಂದರೆ ತಪ್ಪಾದ ಡೇಟಾದ ಮಾದರಿಯ ತರಬೇತಿಯು ಪರಿಣಾಮಗಳಿಂದ ತುಂಬಿರುತ್ತದೆ.

ನಾವು ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸುತ್ತಿರುವಾಗ ಮತ್ತು ನಮ್ಮ ML ಸಿಸ್ಟಮ್‌ಗಳಿಗೆ ಹೆಚ್ಚಿನ ತರಬೇತಿ ನೀಡುತ್ತಿರುವಾಗ, ನಾವು ಬಳಕೆದಾರರ ಬಗ್ಗೆ ಮರೆಯಬಾರದು, ಏಕೆಂದರೆ ನಮಗೆ ಸಾವಿರಾರು, ಗ್ರಾಫ್‌ನಲ್ಲಿ ಲಕ್ಷಾಂತರ ದೋಷಗಳು ಅಂಕಿಅಂಶಗಳಾಗಿವೆ ಮತ್ತು ಬಳಕೆದಾರರಿಗೆ ಪ್ರತಿ ದೋಷವು ದುರಂತವಾಗಿದೆ. ಉತ್ಪನ್ನದಲ್ಲಿನ ನಿಮ್ಮ ದೋಷದೊಂದಿಗೆ ಬಳಕೆದಾರರು ಹೇಗಾದರೂ ಬದುಕಬೇಕು ಎಂಬ ಅಂಶದ ಜೊತೆಗೆ, ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಸ್ವೀಕರಿಸಿದ ನಂತರ, ಭವಿಷ್ಯದಲ್ಲಿ ಇದೇ ರೀತಿಯ ಪರಿಸ್ಥಿತಿಯನ್ನು ತೆಗೆದುಹಾಕಲಾಗುವುದು ಎಂದು ಅವರು ನಿರೀಕ್ಷಿಸುತ್ತಾರೆ. ಆದ್ದರಿಂದ, ಬಳಕೆದಾರರಿಗೆ ಮತ ಚಲಾಯಿಸುವ ಅವಕಾಶವನ್ನು ನೀಡುವುದು ಯಾವಾಗಲೂ ಯೋಗ್ಯವಾಗಿದೆ, ಆದರೆ ML ಸಿಸ್ಟಮ್‌ಗಳ ನಡವಳಿಕೆಯನ್ನು ಸರಿಪಡಿಸಲು, ಉದಾಹರಣೆಗೆ, ಪ್ರತಿ ಪ್ರತಿಕ್ರಿಯೆ ಕ್ಲಿಕ್‌ಗೆ ವೈಯಕ್ತಿಕ ಹ್ಯೂರಿಸ್ಟಿಕ್‌ಗಳನ್ನು ರಚಿಸುವುದು; ಮೇಲ್‌ನ ಸಂದರ್ಭದಲ್ಲಿ, ಇದು ಫಿಲ್ಟರ್ ಮಾಡುವ ಸಾಮರ್ಥ್ಯವಾಗಿರಬಹುದು. ಈ ಬಳಕೆದಾರರಿಗಾಗಿ ಕಳುಹಿಸುವವರ ಮತ್ತು ಶೀರ್ಷಿಕೆಯಿಂದ ಅಂತಹ ಪತ್ರಗಳು.

ಅರೆ-ಸ್ವಯಂಚಾಲಿತ ಅಥವಾ ಹಸ್ತಚಾಲಿತ ಮೋಡ್‌ನಲ್ಲಿ ಬೆಂಬಲಿಸಲು ಕೆಲವು ವರದಿಗಳು ಅಥವಾ ವಿನಂತಿಗಳ ಆಧಾರದ ಮೇಲೆ ನೀವು ಮಾದರಿಯನ್ನು ನಿರ್ಮಿಸುವ ಅಗತ್ಯವಿದೆ ಇದರಿಂದ ಇತರ ಬಳಕೆದಾರರು ಇದೇ ರೀತಿಯ ಸಮಸ್ಯೆಗಳಿಂದ ಬಳಲುತ್ತಿಲ್ಲ.

ಕಲಿಕೆಗಾಗಿ ಹ್ಯೂರಿಸ್ಟಿಕ್ಸ್

ಈ ಹ್ಯೂರಿಸ್ಟಿಕ್ಸ್ ಮತ್ತು ಊರುಗೋಲುಗಳಲ್ಲಿ ಎರಡು ಸಮಸ್ಯೆಗಳಿವೆ. ಮೊದಲನೆಯದು, ನಿರಂತರವಾಗಿ ಹೆಚ್ಚುತ್ತಿರುವ ಊರುಗೋಲುಗಳನ್ನು ನಿರ್ವಹಿಸುವುದು ಕಷ್ಟಕರವಾಗಿದೆ, ದೀರ್ಘಾವಧಿಯಲ್ಲಿ ಅವುಗಳ ಗುಣಮಟ್ಟ ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಹೊರತುಪಡಿಸಿ. ಎರಡನೆಯ ಸಮಸ್ಯೆಯೆಂದರೆ ದೋಷವು ಆಗಾಗ್ಗೆ ಆಗದಿರಬಹುದು ಮತ್ತು ಮಾದರಿಯನ್ನು ಮತ್ತಷ್ಟು ತರಬೇತಿ ಮಾಡಲು ಕೆಲವು ಕ್ಲಿಕ್‌ಗಳು ಸಾಕಾಗುವುದಿಲ್ಲ. ಕೆಳಗಿನ ವಿಧಾನವನ್ನು ಅನ್ವಯಿಸಿದರೆ ಈ ಎರಡು ಸಂಬಂಧವಿಲ್ಲದ ಪರಿಣಾಮಗಳನ್ನು ಗಮನಾರ್ಹವಾಗಿ ತಟಸ್ಥಗೊಳಿಸಬಹುದು ಎಂದು ತೋರುತ್ತದೆ.

  1. ನಾವು ತಾತ್ಕಾಲಿಕ ಊರುಗೋಲನ್ನು ರಚಿಸುತ್ತೇವೆ.
  2. ನಾವು ಅದರಿಂದ ಡೇಟಾವನ್ನು ಮಾದರಿಗೆ ಕಳುಹಿಸುತ್ತೇವೆ, ಸ್ವೀಕರಿಸಿದ ಡೇಟಾವನ್ನು ಒಳಗೊಂಡಂತೆ ಅದು ನಿಯಮಿತವಾಗಿ ನವೀಕರಿಸುತ್ತದೆ. ಇಲ್ಲಿ, ಸಹಜವಾಗಿ, ತರಬೇತಿ ಸೆಟ್ನಲ್ಲಿನ ಡೇಟಾದ ಗುಣಮಟ್ಟವನ್ನು ಕಡಿಮೆ ಮಾಡದಂತೆ ಹ್ಯೂರಿಸ್ಟಿಕ್ಸ್ ಹೆಚ್ಚಿನ ನಿಖರತೆಯನ್ನು ಹೊಂದಿರುವುದು ಮುಖ್ಯವಾಗಿದೆ.
  3. ನಂತರ ನಾವು ಊರುಗೋಲನ್ನು ಪ್ರಚೋದಿಸಲು ಮಾನಿಟರಿಂಗ್ ಅನ್ನು ಹೊಂದಿಸುತ್ತೇವೆ ಮತ್ತು ಸ್ವಲ್ಪ ಸಮಯದ ನಂತರ ಊರುಗೋಲು ಇನ್ನು ಮುಂದೆ ಕಾರ್ಯನಿರ್ವಹಿಸದಿದ್ದರೆ ಮತ್ತು ಸಂಪೂರ್ಣವಾಗಿ ಮಾದರಿಯಿಂದ ಮುಚ್ಚಲ್ಪಟ್ಟಿದ್ದರೆ, ನೀವು ಅದನ್ನು ಸುರಕ್ಷಿತವಾಗಿ ತೆಗೆದುಹಾಕಬಹುದು. ಈಗ ಈ ಸಮಸ್ಯೆ ಮತ್ತೆ ಎದುರಾಗುವ ಸಾಧ್ಯತೆ ಇಲ್ಲ.

ಆದ್ದರಿಂದ ಊರುಗೋಲುಗಳ ಸೈನ್ಯವು ತುಂಬಾ ಉಪಯುಕ್ತವಾಗಿದೆ. ಮುಖ್ಯ ವಿಷಯವೆಂದರೆ ಅವರ ಸೇವೆ ತುರ್ತು ಮತ್ತು ಶಾಶ್ವತವಲ್ಲ.

ಹೆಚ್ಚುವರಿ ತರಬೇತಿ

ಮರುತರಬೇತಿ ಎನ್ನುವುದು ಬಳಕೆದಾರರು ಅಥವಾ ಇತರ ವ್ಯವಸ್ಥೆಗಳಿಂದ ಪ್ರತಿಕ್ರಿಯೆಯ ಪರಿಣಾಮವಾಗಿ ಪಡೆದ ಹೊಸ ಡೇಟಾವನ್ನು ಸೇರಿಸುವ ಪ್ರಕ್ರಿಯೆ ಮತ್ತು ಅದರ ಮೇಲೆ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಮಾದರಿಯನ್ನು ತರಬೇತಿ ಮಾಡುವುದು. ಹೆಚ್ಚುವರಿ ತರಬೇತಿಯೊಂದಿಗೆ ಹಲವಾರು ಸಮಸ್ಯೆಗಳಿರಬಹುದು:

  1. ಮಾದರಿಯು ಹೆಚ್ಚುವರಿ ತರಬೇತಿಯನ್ನು ಬೆಂಬಲಿಸದಿರಬಹುದು, ಆದರೆ ಮೊದಲಿನಿಂದ ಮಾತ್ರ ಕಲಿಯಿರಿ.
  2. ಪ್ರಕೃತಿಯ ಪುಸ್ತಕದಲ್ಲಿ ಎಲ್ಲಿಯೂ ಹೆಚ್ಚುವರಿ ತರಬೇತಿಯು ಉತ್ಪಾದನೆಯಲ್ಲಿ ಕೆಲಸದ ಗುಣಮಟ್ಟವನ್ನು ಸುಧಾರಿಸುತ್ತದೆ ಎಂದು ಬರೆಯಲಾಗಿಲ್ಲ. ಆಗಾಗ್ಗೆ ವಿರುದ್ಧವಾಗಿ ಸಂಭವಿಸುತ್ತದೆ, ಅಂದರೆ, ಕ್ಷೀಣತೆ ಮಾತ್ರ ಸಾಧ್ಯ.
  3. ಬದಲಾವಣೆಗಳು ಅನಿರೀಕ್ಷಿತವಾಗಿರಬಹುದು. ಇದು ನಮಗೆ ನಾವೇ ಗುರುತಿಸಿಕೊಂಡ ಸೂಕ್ಷ್ಮ ಅಂಶವಾಗಿದೆ. A/B ಪರೀಕ್ಷೆಯಲ್ಲಿ ಹೊಸ ಮಾದರಿಯು ಪ್ರಸ್ತುತದಕ್ಕೆ ಹೋಲಿಸಿದರೆ ಒಂದೇ ರೀತಿಯ ಫಲಿತಾಂಶಗಳನ್ನು ತೋರಿಸಿದರೂ ಸಹ, ಅದು ಒಂದೇ ರೀತಿಯಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಎಂದು ಇದರ ಅರ್ಥವಲ್ಲ. ಅವರ ಕೆಲಸವು ಕೇವಲ ಒಂದು ಶೇಕಡಾದಲ್ಲಿ ಭಿನ್ನವಾಗಿರಬಹುದು, ಇದು ಹೊಸ ದೋಷಗಳನ್ನು ತರಬಹುದು ಅಥವಾ ಈಗಾಗಲೇ ಸರಿಪಡಿಸಲಾದ ಹಳೆಯದನ್ನು ಹಿಂತಿರುಗಿಸಬಹುದು. ಪ್ರಸ್ತುತ ದೋಷಗಳೊಂದಿಗೆ ಹೇಗೆ ಬದುಕಬೇಕೆಂದು ನಮಗೆ ಮತ್ತು ಬಳಕೆದಾರರಿಗೆ ಈಗಾಗಲೇ ತಿಳಿದಿದೆ, ಮತ್ತು ಹೆಚ್ಚಿನ ಸಂಖ್ಯೆಯ ಹೊಸ ದೋಷಗಳು ಉದ್ಭವಿಸಿದಾಗ, ಬಳಕೆದಾರರು ಏನಾಗುತ್ತಿದೆ ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಾಧ್ಯವಿಲ್ಲ, ಏಕೆಂದರೆ ಅವರು ಊಹಿಸಬಹುದಾದ ನಡವಳಿಕೆಯನ್ನು ನಿರೀಕ್ಷಿಸುತ್ತಾರೆ.

ಆದ್ದರಿಂದ, ಹೆಚ್ಚುವರಿ ತರಬೇತಿಯಲ್ಲಿ ಪ್ರಮುಖ ವಿಷಯವೆಂದರೆ ಮಾದರಿಯನ್ನು ಸುಧಾರಿಸಲಾಗಿದೆ ಎಂದು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳುವುದು, ಅಥವಾ ಕನಿಷ್ಠ ಹದಗೆಡುವುದಿಲ್ಲ.

ನಾವು ಹೆಚ್ಚುವರಿ ತರಬೇತಿಯ ಬಗ್ಗೆ ಮಾತನಾಡುವಾಗ ಮನಸ್ಸಿಗೆ ಬರುವ ಮೊದಲ ವಿಷಯವೆಂದರೆ ಸಕ್ರಿಯ ಕಲಿಕೆಯ ವಿಧಾನ. ಇದರ ಅರ್ಥ ಏನು? ಉದಾಹರಣೆಗೆ, ವರ್ಗೀಕರಣವು ಇಮೇಲ್ ಹಣಕಾಸುಗೆ ಸಂಬಂಧಿಸಿದೆ ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸುತ್ತದೆ ಮತ್ತು ಅದರ ನಿರ್ಧಾರದ ಗಡಿಯ ಸುತ್ತಲೂ ನಾವು ಲೇಬಲ್ ಮಾಡಲಾದ ಉದಾಹರಣೆಗಳ ಮಾದರಿಯನ್ನು ಸೇರಿಸುತ್ತೇವೆ. ಇದು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ, ಉದಾಹರಣೆಗೆ, ಜಾಹೀರಾತಿನಲ್ಲಿ, ಅಲ್ಲಿ ಸಾಕಷ್ಟು ಪ್ರತಿಕ್ರಿಯೆಗಳಿವೆ ಮತ್ತು ನೀವು ಆನ್‌ಲೈನ್‌ನಲ್ಲಿ ಮಾದರಿಯನ್ನು ತರಬೇತಿ ಮಾಡಬಹುದು. ಮತ್ತು ಕಡಿಮೆ ಪ್ರತಿಕ್ರಿಯೆ ಇದ್ದರೆ, ಉತ್ಪಾದನಾ ಡೇಟಾ ವಿತರಣೆಗೆ ಸಂಬಂಧಿಸಿದಂತೆ ನಾವು ಹೆಚ್ಚು ಪಕ್ಷಪಾತದ ಮಾದರಿಯನ್ನು ಪಡೆಯುತ್ತೇವೆ, ಅದರ ಆಧಾರದ ಮೇಲೆ ಕಾರ್ಯಾಚರಣೆಯ ಸಮಯದಲ್ಲಿ ಮಾದರಿಯ ನಡವಳಿಕೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುವುದು ಅಸಾಧ್ಯ.

Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

ವಾಸ್ತವವಾಗಿ, ಹಳೆಯ ಮಾದರಿಗಳನ್ನು, ಈಗಾಗಲೇ ತಿಳಿದಿರುವ ಮಾದರಿಗಳನ್ನು ಸಂರಕ್ಷಿಸುವುದು ಮತ್ತು ಹೊಸದನ್ನು ಪಡೆದುಕೊಳ್ಳುವುದು ನಮ್ಮ ಗುರಿಯಾಗಿದೆ. ಇಲ್ಲಿ ನಿರಂತರತೆ ಮುಖ್ಯವಾಗಿದೆ. ನಾವು ಆಗಾಗ್ಗೆ ಹೊರತೆಗೆಯಲು ಹೆಚ್ಚಿನ ಶ್ರಮವನ್ನು ತೆಗೆದುಕೊಂಡ ಮಾದರಿಯು ಈಗಾಗಲೇ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿದೆ, ಆದ್ದರಿಂದ ನಾವು ಅದರ ಕಾರ್ಯಕ್ಷಮತೆಯ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಬಹುದು.

ಮೇಲ್ನಲ್ಲಿ ವಿವಿಧ ಮಾದರಿಗಳನ್ನು ಬಳಸಲಾಗುತ್ತದೆ: ಮರಗಳು, ರೇಖೀಯ, ನರ ಜಾಲಗಳು. ಪ್ರತಿಯೊಂದಕ್ಕೂ ನಾವು ನಮ್ಮದೇ ಆದ ಹೆಚ್ಚುವರಿ ತರಬೇತಿ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ತಯಾರಿಸುತ್ತೇವೆ. ಹೆಚ್ಚುವರಿ ತರಬೇತಿಯ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ, ನಾವು ಹೊಸ ಡೇಟಾವನ್ನು ಮಾತ್ರ ಸ್ವೀಕರಿಸುತ್ತೇವೆ, ಆದರೆ ಸಾಮಾನ್ಯವಾಗಿ ಹೊಸ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಸಹ ಸ್ವೀಕರಿಸುತ್ತೇವೆ, ಕೆಳಗಿನ ಎಲ್ಲಾ ಅಲ್ಗಾರಿದಮ್ಗಳಲ್ಲಿ ನಾವು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುತ್ತೇವೆ.

ರೇಖೀಯ ಮಾದರಿಗಳು

ನಾವು ಲಾಜಿಸ್ಟಿಕ್ ರಿಗ್ರೆಶನ್ ಅನ್ನು ಹೊಂದಿದ್ದೇವೆ ಎಂದು ಹೇಳೋಣ. ನಾವು ಈ ಕೆಳಗಿನ ಘಟಕಗಳಿಂದ ನಷ್ಟದ ಮಾದರಿಯನ್ನು ರಚಿಸುತ್ತೇವೆ:

  • ಹೊಸ ಡೇಟಾದಲ್ಲಿ ಲಾಗ್‌ಲಾಸ್;
  • ನಾವು ಹೊಸ ವೈಶಿಷ್ಟ್ಯಗಳ ತೂಕವನ್ನು ಕ್ರಮಬದ್ಧಗೊಳಿಸುತ್ತೇವೆ (ನಾವು ಹಳೆಯದನ್ನು ಮುಟ್ಟುವುದಿಲ್ಲ);
  • ಹಳೆಯ ಮಾದರಿಗಳನ್ನು ಸಂರಕ್ಷಿಸಲು ನಾವು ಹಳೆಯ ಡೇಟಾದಿಂದ ಕಲಿಯುತ್ತೇವೆ;
  • ಮತ್ತು, ಬಹುಶಃ, ಪ್ರಮುಖ ವಿಷಯ: ನಾವು ಹಾರ್ಮೋನಿಕ್ ರೆಗ್ಯುಲರೈಸೇಶನ್ ಅನ್ನು ಸೇರಿಸುತ್ತೇವೆ, ಇದು ರೂಢಿಯ ಪ್ರಕಾರ ಹಳೆಯ ಮಾದರಿಗೆ ಹೋಲಿಸಿದರೆ ತೂಕವು ಹೆಚ್ಚು ಬದಲಾಗುವುದಿಲ್ಲ ಎಂದು ಖಾತರಿಪಡಿಸುತ್ತದೆ.

ಪ್ರತಿಯೊಂದು ನಷ್ಟದ ಘಟಕವು ಗುಣಾಂಕಗಳನ್ನು ಹೊಂದಿರುವುದರಿಂದ, ಅಡ್ಡ-ಮೌಲ್ಯಮಾಪನದ ಮೂಲಕ ಅಥವಾ ಉತ್ಪನ್ನದ ಅವಶ್ಯಕತೆಗಳ ಆಧಾರದ ಮೇಲೆ ನಾವು ನಮ್ಮ ಕಾರ್ಯಕ್ಕಾಗಿ ಸೂಕ್ತ ಮೌಲ್ಯಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಬಹುದು.

Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

ಮರಗಳು

ನಿರ್ಧಾರ ಮರಗಳಿಗೆ ಹೋಗೋಣ. ಮರಗಳ ಹೆಚ್ಚುವರಿ ತರಬೇತಿಗಾಗಿ ನಾವು ಈ ಕೆಳಗಿನ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ಸಂಗ್ರಹಿಸಿದ್ದೇವೆ:

  1. ಉತ್ಪಾದನೆಯು 100-300 ಮರಗಳ ಅರಣ್ಯವನ್ನು ನಡೆಸುತ್ತದೆ, ಇದು ಹಳೆಯ ಡೇಟಾ ಸೆಟ್ನಲ್ಲಿ ತರಬೇತಿ ಪಡೆದಿದೆ.
  2. ಕೊನೆಯಲ್ಲಿ ನಾವು M = 5 ತುಣುಕುಗಳನ್ನು ತೆಗೆದುಹಾಕುತ್ತೇವೆ ಮತ್ತು 2M = 10 ಹೊಸದನ್ನು ಸೇರಿಸುತ್ತೇವೆ, ಸಂಪೂರ್ಣ ಡೇಟಾ ಸೆಟ್ನಲ್ಲಿ ತರಬೇತಿ ನೀಡಲಾಗುತ್ತದೆ, ಆದರೆ ಹೊಸ ಡೇಟಾಗೆ ಹೆಚ್ಚಿನ ತೂಕದೊಂದಿಗೆ, ಇದು ಮಾದರಿಯಲ್ಲಿ ಹೆಚ್ಚುತ್ತಿರುವ ಬದಲಾವಣೆಯನ್ನು ಸ್ವಾಭಾವಿಕವಾಗಿ ಖಾತರಿಪಡಿಸುತ್ತದೆ.

ನಿಸ್ಸಂಶಯವಾಗಿ, ಕಾಲಾನಂತರದಲ್ಲಿ, ಮರಗಳ ಸಂಖ್ಯೆಯು ಮಹತ್ತರವಾಗಿ ಹೆಚ್ಚಾಗುತ್ತದೆ ಮತ್ತು ಸಮಯವನ್ನು ಪೂರೈಸಲು ಅವುಗಳನ್ನು ನಿಯತಕಾಲಿಕವಾಗಿ ಕಡಿಮೆ ಮಾಡಬೇಕು. ಇದನ್ನು ಮಾಡಲು, ನಾವು ಈಗ ಸರ್ವತ್ರ ಜ್ಞಾನ ಬಟ್ಟಿ ಇಳಿಸುವಿಕೆಯನ್ನು (ಕೆಡಿ) ಬಳಸುತ್ತೇವೆ. ಅದರ ಕಾರ್ಯಾಚರಣೆಯ ತತ್ವದ ಬಗ್ಗೆ ಸಂಕ್ಷಿಪ್ತವಾಗಿ.

  1. ನಾವು ಪ್ರಸ್ತುತ "ಸಂಕೀರ್ಣ" ಮಾದರಿಯನ್ನು ಹೊಂದಿದ್ದೇವೆ. ನಾವು ಅದನ್ನು ತರಬೇತಿ ಡೇಟಾ ಸೆಟ್‌ನಲ್ಲಿ ರನ್ ಮಾಡುತ್ತೇವೆ ಮತ್ತು ಔಟ್‌ಪುಟ್‌ನಲ್ಲಿ ವರ್ಗ ಸಂಭವನೀಯತೆಯ ವಿತರಣೆಯನ್ನು ಪಡೆಯುತ್ತೇವೆ.
  2. ಮುಂದೆ, ಗುರಿ ವೇರಿಯಬಲ್ ಆಗಿ ವರ್ಗ ವಿತರಣೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಮಾದರಿಯ ಫಲಿತಾಂಶಗಳನ್ನು ಪುನರಾವರ್ತಿಸಲು ನಾವು ವಿದ್ಯಾರ್ಥಿ ಮಾದರಿಯನ್ನು (ಈ ಸಂದರ್ಭದಲ್ಲಿ ಕಡಿಮೆ ಮರಗಳನ್ನು ಹೊಂದಿರುವ ಮಾದರಿ) ತರಬೇತಿ ನೀಡುತ್ತೇವೆ.
  3. ನಾವು ಡೇಟಾ ಸೆಟ್ ಮಾರ್ಕ್ಅಪ್ ಅನ್ನು ಯಾವುದೇ ರೀತಿಯಲ್ಲಿ ಬಳಸುವುದಿಲ್ಲ ಮತ್ತು ಆದ್ದರಿಂದ ನಾವು ಅನಿಯಂತ್ರಿತ ಡೇಟಾವನ್ನು ಬಳಸಬಹುದು ಎಂಬುದನ್ನು ಇಲ್ಲಿ ಗಮನಿಸುವುದು ಮುಖ್ಯವಾಗಿದೆ. ಸಹಜವಾಗಿ, ನಾವು ವಿದ್ಯಾರ್ಥಿ ಮಾದರಿಯ ತರಬೇತಿ ಮಾದರಿಯಾಗಿ ಯುದ್ಧದ ಸ್ಟ್ರೀಮ್‌ನಿಂದ ಡೇಟಾ ಮಾದರಿಯನ್ನು ಬಳಸುತ್ತೇವೆ. ಹೀಗಾಗಿ, ತರಬೇತಿ ಸೆಟ್ ಮಾದರಿಯ ನಿಖರತೆಯನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು ನಮಗೆ ಅನುಮತಿಸುತ್ತದೆ, ಮತ್ತು ಸ್ಟ್ರೀಮ್ ಮಾದರಿಯು ಉತ್ಪಾದನಾ ವಿತರಣೆಯಲ್ಲಿ ಇದೇ ರೀತಿಯ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಖಾತರಿಪಡಿಸುತ್ತದೆ, ತರಬೇತಿ ಸೆಟ್ನ ಪಕ್ಷಪಾತವನ್ನು ಸರಿದೂಗಿಸುತ್ತದೆ.

Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

ಈ ಎರಡು ತಂತ್ರಗಳ ಸಂಯೋಜನೆಯು (ಮರಗಳನ್ನು ಸೇರಿಸುವುದು ಮತ್ತು ಜ್ಞಾನ ಬಟ್ಟಿ ಇಳಿಸುವಿಕೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಅವುಗಳ ಸಂಖ್ಯೆಯನ್ನು ನಿಯತಕಾಲಿಕವಾಗಿ ಕಡಿಮೆ ಮಾಡುವುದು) ಹೊಸ ಮಾದರಿಗಳ ಪರಿಚಯ ಮತ್ತು ಸಂಪೂರ್ಣ ನಿರಂತರತೆಯನ್ನು ಖಾತ್ರಿಗೊಳಿಸುತ್ತದೆ.

KD ಸಹಾಯದಿಂದ, ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ತೆಗೆದುಹಾಕುವುದು ಮತ್ತು ಅಂತರಗಳ ಮೇಲೆ ಕೆಲಸ ಮಾಡುವಂತಹ ಮಾದರಿ ವೈಶಿಷ್ಟ್ಯಗಳ ಮೇಲೆ ನಾವು ವಿಭಿನ್ನ ಕಾರ್ಯಾಚರಣೆಗಳನ್ನು ಸಹ ನಿರ್ವಹಿಸುತ್ತೇವೆ. ನಮ್ಮ ಸಂದರ್ಭದಲ್ಲಿ, ಡೇಟಾಬೇಸ್‌ನಲ್ಲಿ ಸಂಗ್ರಹವಾಗಿರುವ ಹಲವಾರು ಪ್ರಮುಖ ಅಂಕಿಅಂಶಗಳ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು (ಕಳುಹಿಸುವವರು, ಪಠ್ಯ ಹ್ಯಾಶ್‌ಗಳು, URL ಗಳು, ಇತ್ಯಾದಿ) ನಾವು ಹೊಂದಿದ್ದೇವೆ, ಅದು ವಿಫಲಗೊಳ್ಳುತ್ತದೆ. ತರಬೇತಿ ಸೆಟ್ನಲ್ಲಿ ವೈಫಲ್ಯದ ಸಂದರ್ಭಗಳು ಸಂಭವಿಸದ ಕಾರಣ ಮಾದರಿಯು ಸಹಜವಾಗಿ, ಘಟನೆಗಳ ಅಂತಹ ಬೆಳವಣಿಗೆಗೆ ಸಿದ್ಧವಾಗಿಲ್ಲ. ಅಂತಹ ಸಂದರ್ಭಗಳಲ್ಲಿ, ನಾವು ಕೆಡಿ ಮತ್ತು ವರ್ಧನೆ ತಂತ್ರಗಳನ್ನು ಸಂಯೋಜಿಸುತ್ತೇವೆ: ಡೇಟಾದ ಭಾಗಕ್ಕೆ ತರಬೇತಿ ನೀಡುವಾಗ, ನಾವು ಅಗತ್ಯ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ತೆಗೆದುಹಾಕುತ್ತೇವೆ ಅಥವಾ ಮರುಹೊಂದಿಸುತ್ತೇವೆ ಮತ್ತು ನಾವು ಮೂಲ ಲೇಬಲ್‌ಗಳನ್ನು (ಪ್ರಸ್ತುತ ಮಾದರಿಯ ಔಟ್‌ಪುಟ್‌ಗಳು) ತೆಗೆದುಕೊಳ್ಳುತ್ತೇವೆ ಮತ್ತು ವಿದ್ಯಾರ್ಥಿ ಮಾದರಿಯು ಈ ವಿತರಣೆಯನ್ನು ಪುನರಾವರ್ತಿಸಲು ಕಲಿಯುತ್ತದೆ. .

Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

ಹೆಚ್ಚು ಗಂಭೀರವಾದ ಮಾದರಿಯ ಕುಶಲತೆಯು ಸಂಭವಿಸುತ್ತದೆ ಎಂದು ನಾವು ಗಮನಿಸಿದ್ದೇವೆ, ಥ್ರೆಡ್ ಮಾದರಿಯ ಹೆಚ್ಚಿನ ಶೇಕಡಾವಾರು ಅಗತ್ಯವಿದೆ.

ವೈಶಿಷ್ಟ್ಯವನ್ನು ತೆಗೆದುಹಾಕಲು, ಸರಳವಾದ ಕಾರ್ಯಾಚರಣೆಗೆ ಹರಿವಿನ ಒಂದು ಸಣ್ಣ ಭಾಗ ಮಾತ್ರ ಬೇಕಾಗುತ್ತದೆ, ಏಕೆಂದರೆ ಕೇವಲ ಒಂದೆರಡು ವೈಶಿಷ್ಟ್ಯಗಳು ಬದಲಾಗುತ್ತವೆ ಮತ್ತು ಪ್ರಸ್ತುತ ಮಾದರಿಯನ್ನು ಒಂದೇ ಸೆಟ್‌ನಲ್ಲಿ ತರಬೇತಿ ನೀಡಲಾಗಿದೆ - ವ್ಯತ್ಯಾಸವು ಕಡಿಮೆಯಾಗಿದೆ. ಮಾದರಿಯನ್ನು ಸರಳೀಕರಿಸಲು (ಮರಗಳ ಸಂಖ್ಯೆಯನ್ನು ಹಲವಾರು ಬಾರಿ ಕಡಿಮೆ ಮಾಡುವುದು), ಈಗಾಗಲೇ 50 ರಿಂದ 50 ಅಗತ್ಯವಿದೆ. ಮತ್ತು ಮಾದರಿಯ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಗಂಭೀರವಾಗಿ ಪರಿಣಾಮ ಬೀರುವ ಪ್ರಮುಖ ಅಂಕಿಅಂಶಗಳ ವೈಶಿಷ್ಟ್ಯಗಳ ಲೋಪಗಳಿಗೆ, ಕೆಲಸವನ್ನು ಮಟ್ಟಗೊಳಿಸಲು ಇನ್ನೂ ಹೆಚ್ಚಿನ ಹರಿವು ಅಗತ್ಯವಿದೆ. ಎಲ್ಲಾ ರೀತಿಯ ಅಕ್ಷರಗಳ ಮೇಲೆ ಹೊಸ ಲೋಪ-ನಿರೋಧಕ ಮಾದರಿ.

Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

ಫಾಸ್ಟ್‌ಟೆಕ್ಸ್ಟ್

ಫಾಸ್ಟ್‌ಟೆಕ್ಸ್ಟ್‌ಗೆ ಹೋಗೋಣ. ಪದದ ಪ್ರಾತಿನಿಧ್ಯವು (ಎಂಬೆಡಿಂಗ್) ಪದದ ಎಂಬೆಡಿಂಗ್ ಮೊತ್ತ ಮತ್ತು ಅದರ ಎಲ್ಲಾ ಅಕ್ಷರದ ಎನ್-ಗ್ರಾಂಗಳು, ಸಾಮಾನ್ಯವಾಗಿ ಟ್ರಿಗ್ರಾಮ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ ಎಂದು ನಾನು ನಿಮಗೆ ನೆನಪಿಸುತ್ತೇನೆ. ಸಾಕಷ್ಟು ಟ್ರಿಗ್ರಾಮ್‌ಗಳು ಇರುವುದರಿಂದ, ಬಕೆಟ್ ಹ್ಯಾಶಿಂಗ್ ಅನ್ನು ಬಳಸಲಾಗುತ್ತದೆ, ಅಂದರೆ, ಸಂಪೂರ್ಣ ಜಾಗವನ್ನು ನಿರ್ದಿಷ್ಟ ಸ್ಥಿರ ಹ್ಯಾಶ್‌ಮ್ಯಾಪ್ ಆಗಿ ಪರಿವರ್ತಿಸುತ್ತದೆ. ಪರಿಣಾಮವಾಗಿ, ತೂಕದ ಮ್ಯಾಟ್ರಿಕ್ಸ್ ಅನ್ನು ಪದಗಳ ಸಂಖ್ಯೆ + ಬಕೆಟ್‌ಗಳಿಗೆ ಒಳಗಿನ ಪದರದ ಆಯಾಮದೊಂದಿಗೆ ಪಡೆಯಲಾಗುತ್ತದೆ.

ಹೆಚ್ಚುವರಿ ತರಬೇತಿಯೊಂದಿಗೆ, ಹೊಸ ಚಿಹ್ನೆಗಳು ಕಾಣಿಸಿಕೊಳ್ಳುತ್ತವೆ: ಪದಗಳು ಮತ್ತು ಟ್ರಿಗ್ರಾಮ್ಗಳು. ಫೇಸ್‌ಬುಕ್‌ನಿಂದ ಸ್ಟ್ಯಾಂಡರ್ಡ್ ಫಾಲೋ-ಅಪ್ ತರಬೇತಿಯಲ್ಲಿ ಗಮನಾರ್ಹವಾದದ್ದೇನೂ ನಡೆಯುವುದಿಲ್ಲ. ಕ್ರಾಸ್-ಎಂಟ್ರೊಪಿ ಹೊಂದಿರುವ ಹಳೆಯ ತೂಕಗಳನ್ನು ಮಾತ್ರ ಹೊಸ ಡೇಟಾದಲ್ಲಿ ಮರುತರಬೇತಿ ನೀಡಲಾಗುತ್ತದೆ. ಹೀಗಾಗಿ, ಹೊಸ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಬಳಸಲಾಗುವುದಿಲ್ಲ; ಸಹಜವಾಗಿ, ಈ ವಿಧಾನವು ಉತ್ಪಾದನೆಯಲ್ಲಿನ ಮಾದರಿಯ ಅನಿರೀಕ್ಷಿತತೆಗೆ ಸಂಬಂಧಿಸಿದ ಎಲ್ಲಾ ಮೇಲಿನ-ವಿವರಿಸಿದ ಅನಾನುಕೂಲಗಳನ್ನು ಹೊಂದಿದೆ. ಅದಕ್ಕಾಗಿಯೇ ನಾವು FastText ಅನ್ನು ಸ್ವಲ್ಪ ಮಾರ್ಪಡಿಸಿದ್ದೇವೆ. ನಾವು ಎಲ್ಲಾ ಹೊಸ ತೂಕಗಳನ್ನು (ಪದಗಳು ಮತ್ತು ಟ್ರಿಗ್ರಾಮ್‌ಗಳು) ಸೇರಿಸುತ್ತೇವೆ, ಸಂಪೂರ್ಣ ಮ್ಯಾಟ್ರಿಕ್ಸ್ ಅನ್ನು ಅಡ್ಡ-ಎಂಟ್ರೊಪಿಯೊಂದಿಗೆ ವಿಸ್ತರಿಸುತ್ತೇವೆ ಮತ್ತು ರೇಖೀಯ ಮಾದರಿಯೊಂದಿಗೆ ಸಾದೃಶ್ಯದ ಮೂಲಕ ಹಾರ್ಮೋನಿಕ್ ಕ್ರಮಬದ್ಧಗೊಳಿಸುವಿಕೆಯನ್ನು ಸೇರಿಸುತ್ತೇವೆ, ಇದು ಹಳೆಯ ತೂಕದಲ್ಲಿ ಅತ್ಯಲ್ಪ ಬದಲಾವಣೆಯನ್ನು ಖಾತರಿಪಡಿಸುತ್ತದೆ.

Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

ಸಿಎನ್ಎನ್

ಕನ್ವಲ್ಯೂಷನಲ್ ನೆಟ್‌ವರ್ಕ್‌ಗಳು ಸ್ವಲ್ಪ ಹೆಚ್ಚು ಸಂಕೀರ್ಣವಾಗಿವೆ. ಕೊನೆಯ ಪದರಗಳು CNN ನಲ್ಲಿ ಪೂರ್ಣಗೊಂಡರೆ, ಸಹಜವಾಗಿ, ನೀವು ಹಾರ್ಮೋನಿಕ್ ಕ್ರಮಬದ್ಧಗೊಳಿಸುವಿಕೆಯನ್ನು ಅನ್ವಯಿಸಬಹುದು ಮತ್ತು ನಿರಂತರತೆಯನ್ನು ಖಾತರಿಪಡಿಸಬಹುದು. ಆದರೆ ಸಂಪೂರ್ಣ ನೆಟ್ವರ್ಕ್ನ ಹೆಚ್ಚುವರಿ ತರಬೇತಿ ಅಗತ್ಯವಿದ್ದರೆ, ಅಂತಹ ಕ್ರಮಬದ್ಧಗೊಳಿಸುವಿಕೆಯನ್ನು ಇನ್ನು ಮುಂದೆ ಎಲ್ಲಾ ಪದರಗಳಿಗೆ ಅನ್ವಯಿಸಲಾಗುವುದಿಲ್ಲ. ಆದಾಗ್ಯೂ, ಟ್ರಿಪ್ಲೆಟ್ ಲಾಸ್ ಮೂಲಕ ಪೂರಕ ಎಂಬೆಡಿಂಗ್‌ಗಳನ್ನು ತರಬೇತಿ ಮಾಡುವ ಆಯ್ಕೆ ಇದೆ (ಮೂಲ ಲೇಖನ).

ಟ್ರಿಪಲ್ ನಷ್ಟ

ಆಂಟಿ-ಫಿಶಿಂಗ್ ಕಾರ್ಯವನ್ನು ಉದಾಹರಣೆಯಾಗಿ ಬಳಸಿಕೊಂಡು, ಸಾಮಾನ್ಯ ಪರಿಭಾಷೆಯಲ್ಲಿ ಟ್ರಿಪ್ಲೆಟ್ ನಷ್ಟವನ್ನು ನೋಡೋಣ. ನಾವು ನಮ್ಮ ಲೋಗೋವನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತೇವೆ, ಹಾಗೆಯೇ ಇತರ ಕಂಪನಿಗಳ ಲೋಗೋಗಳ ಧನಾತ್ಮಕ ಮತ್ತು ಋಣಾತ್ಮಕ ಉದಾಹರಣೆಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತೇವೆ. ನಾವು ಮೊದಲನೆಯ ನಡುವಿನ ಅಂತರವನ್ನು ಕಡಿಮೆಗೊಳಿಸುತ್ತೇವೆ ಮತ್ತು ಎರಡನೆಯ ನಡುವಿನ ಅಂತರವನ್ನು ಗರಿಷ್ಠಗೊಳಿಸುತ್ತೇವೆ, ತರಗತಿಗಳ ಹೆಚ್ಚಿನ ಸಾಂದ್ರತೆಯನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು ನಾವು ಇದನ್ನು ಸಣ್ಣ ಅಂತರದಿಂದ ಮಾಡುತ್ತೇವೆ.

Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

ನಾವು ನೆಟ್‌ವರ್ಕ್‌ಗೆ ಮತ್ತಷ್ಟು ತರಬೇತಿ ನೀಡಿದರೆ, ನಮ್ಮ ಮೆಟ್ರಿಕ್ ಸ್ಥಳವು ಸಂಪೂರ್ಣವಾಗಿ ಬದಲಾಗುತ್ತದೆ ಮತ್ತು ಅದು ಹಿಂದಿನದಕ್ಕೆ ಸಂಪೂರ್ಣವಾಗಿ ಹೊಂದಿಕೆಯಾಗುವುದಿಲ್ಲ. ವಾಹಕಗಳನ್ನು ಬಳಸುವ ಸಮಸ್ಯೆಗಳಲ್ಲಿ ಇದು ಗಂಭೀರ ಸಮಸ್ಯೆಯಾಗಿದೆ. ಈ ಸಮಸ್ಯೆಯನ್ನು ಹೋಗಲಾಡಿಸಲು, ತರಬೇತಿಯ ಸಮಯದಲ್ಲಿ ನಾವು ಹಳೆಯ ಎಂಬೆಡಿಂಗ್‌ಗಳಲ್ಲಿ ಮಿಶ್ರಣ ಮಾಡುತ್ತೇವೆ.

ನಾವು ತರಬೇತಿ ಸೆಟ್‌ಗೆ ಹೊಸ ಡೇಟಾವನ್ನು ಸೇರಿಸಿದ್ದೇವೆ ಮತ್ತು ಮೊದಲಿನಿಂದ ಮಾದರಿಯ ಎರಡನೇ ಆವೃತ್ತಿಗೆ ತರಬೇತಿ ನೀಡುತ್ತಿದ್ದೇವೆ. ಎರಡನೇ ಹಂತದಲ್ಲಿ, ನಾವು ನಮ್ಮ ನೆಟ್‌ವರ್ಕ್‌ಗೆ (ಫೈನ್‌ಟ್ಯೂನಿಂಗ್) ಮತ್ತಷ್ಟು ತರಬೇತಿ ನೀಡುತ್ತೇವೆ: ಮೊದಲು ಕೊನೆಯ ಲೇಯರ್ ಪೂರ್ಣಗೊಂಡಿದೆ, ಮತ್ತು ನಂತರ ಸಂಪೂರ್ಣ ನೆಟ್‌ವರ್ಕ್ ಅನ್ನು ಫ್ರೀಜ್ ಮಾಡಲಾಗುತ್ತದೆ. ತ್ರಿವಳಿಗಳನ್ನು ರಚಿಸುವ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ, ನಾವು ತರಬೇತಿ ಪಡೆದ ಮಾದರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಎಂಬೆಡಿಂಗ್ಗಳ ಭಾಗವನ್ನು ಮಾತ್ರ ಲೆಕ್ಕ ಹಾಕುತ್ತೇವೆ, ಉಳಿದವು - ಹಳೆಯದನ್ನು ಬಳಸಿ. ಹೀಗಾಗಿ, ಹೆಚ್ಚುವರಿ ತರಬೇತಿಯ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ, ನಾವು ಮೆಟ್ರಿಕ್ ಸ್ಪೇಸ್ v1 ಮತ್ತು v2 ಹೊಂದಾಣಿಕೆಯನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳುತ್ತೇವೆ. ಹಾರ್ಮೋನಿಕ್ ಕ್ರಮಬದ್ಧಗೊಳಿಸುವಿಕೆಯ ವಿಶಿಷ್ಟ ಆವೃತ್ತಿ.

Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

ಸಂಪೂರ್ಣ ವಾಸ್ತುಶಿಲ್ಪ

ನಾವು ಇಡೀ ವ್ಯವಸ್ಥೆಯನ್ನು ಆಂಟಿಸ್ಪ್ಯಾಮ್ ಅನ್ನು ಉದಾಹರಣೆಯಾಗಿ ಪರಿಗಣಿಸಿದರೆ, ನಂತರ ಮಾದರಿಗಳು ಪ್ರತ್ಯೇಕವಾಗಿಲ್ಲ, ಆದರೆ ಪರಸ್ಪರ ಗೂಡುಕಟ್ಟುತ್ತವೆ. ನಾವು ಚಿತ್ರಗಳು, ಪಠ್ಯ ಮತ್ತು ಇತರ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತೇವೆ, CNN ಮತ್ತು ವೇಗದ ಪಠ್ಯವನ್ನು ಬಳಸಿಕೊಂಡು ನಾವು ಎಂಬೆಡಿಂಗ್‌ಗಳನ್ನು ಪಡೆಯುತ್ತೇವೆ. ಮುಂದೆ, ಎಂಬೆಡಿಂಗ್‌ಗಳ ಮೇಲೆ ವರ್ಗೀಕರಣಗಳನ್ನು ಅನ್ವಯಿಸಲಾಗುತ್ತದೆ, ಇದು ವಿವಿಧ ವರ್ಗಗಳಿಗೆ ಸ್ಕೋರ್‌ಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ (ಅಕ್ಷರಗಳ ಪ್ರಕಾರಗಳು, ಸ್ಪ್ಯಾಮ್, ಲೋಗೋದ ಉಪಸ್ಥಿತಿ). ಅಂತಿಮ ನಿರ್ಧಾರ ಕೈಗೊಳ್ಳಲು ಈಗಾಗಲೇ ಸಂಕೇತಗಳು ಮತ್ತು ಚಿಹ್ನೆಗಳು ಮರಗಳ ಅರಣ್ಯವನ್ನು ಪ್ರವೇಶಿಸುತ್ತಿವೆ. ಈ ಯೋಜನೆಯಲ್ಲಿನ ವೈಯಕ್ತಿಕ ವರ್ಗೀಕರಣಗಳು ವ್ಯವಸ್ಥೆಯ ಫಲಿತಾಂಶಗಳನ್ನು ಉತ್ತಮವಾಗಿ ಅರ್ಥೈಸಲು ಮತ್ತು ಸಮಸ್ಯೆಗಳ ಸಂದರ್ಭದಲ್ಲಿ ಘಟಕಗಳನ್ನು ಹೆಚ್ಚು ನಿರ್ದಿಷ್ಟವಾಗಿ ಮರುತರಬೇತಿ ಮಾಡಲು ಸಾಧ್ಯವಾಗಿಸುತ್ತದೆ, ಬದಲಿಗೆ ಎಲ್ಲಾ ಡೇಟಾವನ್ನು ಕಚ್ಚಾ ರೂಪದಲ್ಲಿ ನಿರ್ಧಾರ ವೃಕ್ಷಗಳಿಗೆ ಆಹಾರಕ್ಕಾಗಿ ನೀಡುತ್ತದೆ.

Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

ಪರಿಣಾಮವಾಗಿ, ನಾವು ಪ್ರತಿ ಹಂತದಲ್ಲೂ ನಿರಂತರತೆಯನ್ನು ಖಾತರಿಪಡಿಸುತ್ತೇವೆ. CNN ಮತ್ತು ಫಾಸ್ಟ್ ಟೆಕ್ಸ್ಟ್‌ನಲ್ಲಿ ಕೆಳಗಿನ ಹಂತದಲ್ಲಿ ನಾವು ಹಾರ್ಮೋನಿಕ್ ಕ್ರಮಬದ್ಧಗೊಳಿಸುವಿಕೆಯನ್ನು ಬಳಸುತ್ತೇವೆ, ಮಧ್ಯದಲ್ಲಿ ವರ್ಗೀಕರಣಕ್ಕಾಗಿ ನಾವು ಸಂಭವನೀಯ ವಿತರಣೆಯ ಸ್ಥಿರತೆಗಾಗಿ ಹಾರ್ಮೋನಿಕ್ ಕ್ರಮಬದ್ಧಗೊಳಿಸುವಿಕೆ ಮತ್ತು ದರ ಮಾಪನಾಂಕವನ್ನು ಸಹ ಬಳಸುತ್ತೇವೆ. ಅಲ್ಲದೆ, ಮರವನ್ನು ಹೆಚ್ಚಿಸುವುದನ್ನು ಹೆಚ್ಚುತ್ತಿರುವ ತರಬೇತಿ ನೀಡಲಾಗುತ್ತದೆ ಅಥವಾ ಜ್ಞಾನ ಬಟ್ಟಿ ಇಳಿಸುವಿಕೆಯನ್ನು ಬಳಸಿ.

ಸಾಮಾನ್ಯವಾಗಿ, ಇಂತಹ ನೆಸ್ಟೆಡ್ ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಸಿಸ್ಟಮ್ ಅನ್ನು ನಿರ್ವಹಿಸುವುದು ಸಾಮಾನ್ಯವಾಗಿ ನೋವು, ಏಕೆಂದರೆ ಕೆಳ ಹಂತದಲ್ಲಿ ಯಾವುದೇ ಘಟಕವು ಮೇಲಿನ ಸಂಪೂರ್ಣ ಸಿಸ್ಟಮ್‌ಗೆ ನವೀಕರಣಕ್ಕೆ ಕಾರಣವಾಗುತ್ತದೆ. ಆದರೆ ನಮ್ಮ ಸೆಟಪ್‌ನಲ್ಲಿ ಪ್ರತಿಯೊಂದು ಘಟಕವು ಸ್ವಲ್ಪಮಟ್ಟಿಗೆ ಬದಲಾಗುವುದರಿಂದ ಮತ್ತು ಹಿಂದಿನದಕ್ಕೆ ಹೊಂದಿಕೆಯಾಗುವುದರಿಂದ, ಸಂಪೂರ್ಣ ರಚನೆಯನ್ನು ಮರುತರಬೇತಿ ಮಾಡುವ ಅಗತ್ಯವಿಲ್ಲದೆ ಸಂಪೂರ್ಣ ಸಿಸ್ಟಮ್ ಅನ್ನು ತುಂಡು ತುಂಡಾಗಿ ನವೀಕರಿಸಬಹುದು, ಇದು ಗಂಭೀರ ಓವರ್‌ಹೆಡ್ ಇಲ್ಲದೆ ಅದನ್ನು ಬೆಂಬಲಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ.

ನಿಯೋಜಿಸಿ

ನಾವು ಡೇಟಾ ಸಂಗ್ರಹಣೆ ಮತ್ತು ವಿವಿಧ ಮಾದರಿಗಳ ಹೆಚ್ಚುವರಿ ತರಬೇತಿಯನ್ನು ಚರ್ಚಿಸಿದ್ದೇವೆ, ಆದ್ದರಿಂದ ನಾವು ಉತ್ಪಾದನಾ ಪರಿಸರಕ್ಕೆ ಅವುಗಳ ನಿಯೋಜನೆಗೆ ಹೋಗುತ್ತಿದ್ದೇವೆ.

A/B ಪರೀಕ್ಷೆ

ನಾನು ಮೊದಲೇ ಹೇಳಿದಂತೆ, ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ, ನಾವು ಸಾಮಾನ್ಯವಾಗಿ ಪಕ್ಷಪಾತದ ಮಾದರಿಯನ್ನು ಪಡೆಯುತ್ತೇವೆ, ಇದರಿಂದ ಮಾದರಿಯ ಉತ್ಪಾದನಾ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುವುದು ಅಸಾಧ್ಯ. ಆದ್ದರಿಂದ, ನಿಯೋಜಿಸುವಾಗ, ವಿಷಯಗಳು ನಿಜವಾಗಿ ಹೇಗೆ ನಡೆಯುತ್ತಿವೆ ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಮಾದರಿಯನ್ನು ಹಿಂದಿನ ಆವೃತ್ತಿಯೊಂದಿಗೆ ಹೋಲಿಸಬೇಕು, ಅಂದರೆ, A/B ಪರೀಕ್ಷೆಗಳನ್ನು ನಡೆಸುವುದು. ವಾಸ್ತವವಾಗಿ, ಚಾರ್ಟ್‌ಗಳನ್ನು ರೋಲಿಂಗ್ ಮಾಡುವ ಮತ್ತು ವಿಶ್ಲೇಷಿಸುವ ಪ್ರಕ್ರಿಯೆಯು ಸಾಕಷ್ಟು ವಾಡಿಕೆಯಾಗಿದೆ ಮತ್ತು ಸುಲಭವಾಗಿ ಸ್ವಯಂಚಾಲಿತಗೊಳಿಸಬಹುದು. ಮಾದರಿ ಪ್ರತಿಕ್ರಿಯೆಗಳು ಮತ್ತು ಬಳಕೆದಾರರ ಪ್ರತಿಕ್ರಿಯೆಯಲ್ಲಿ ಲಭ್ಯವಿರುವ ಎಲ್ಲಾ ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ಸಂಗ್ರಹಿಸುವಾಗ ನಾವು ನಮ್ಮ ಮಾದರಿಗಳನ್ನು ಕ್ರಮೇಣವಾಗಿ 5%, 30%, 50% ಮತ್ತು 100% ಬಳಕೆದಾರರಿಗೆ ಹೊರತರುತ್ತೇವೆ. ಕೆಲವು ಗಂಭೀರ ಔಟ್ಲೈಯರ್ಗಳ ಸಂದರ್ಭದಲ್ಲಿ, ನಾವು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಮಾದರಿಯನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತೇವೆ ಮತ್ತು ಇತರ ಸಂದರ್ಭಗಳಲ್ಲಿ, ಸಾಕಷ್ಟು ಸಂಖ್ಯೆಯ ಬಳಕೆದಾರರ ಕ್ಲಿಕ್ಗಳನ್ನು ಸಂಗ್ರಹಿಸಿದ ನಂತರ, ನಾವು ಶೇಕಡಾವಾರು ಪ್ರಮಾಣವನ್ನು ಹೆಚ್ಚಿಸಲು ನಿರ್ಧರಿಸುತ್ತೇವೆ. ಪರಿಣಾಮವಾಗಿ, ನಾವು ಹೊಸ ಮಾದರಿಯನ್ನು 50% ಬಳಕೆದಾರರಿಗೆ ಸಂಪೂರ್ಣವಾಗಿ ಸ್ವಯಂಚಾಲಿತವಾಗಿ ತರುತ್ತೇವೆ ಮತ್ತು ಇಡೀ ಪ್ರೇಕ್ಷಕರಿಗೆ ರೋಲ್‌ಔಟ್ ಅನ್ನು ವ್ಯಕ್ತಿಯಿಂದ ಅನುಮೋದಿಸಲಾಗುತ್ತದೆ, ಆದರೂ ಈ ಹಂತವನ್ನು ಸ್ವಯಂಚಾಲಿತಗೊಳಿಸಬಹುದು.

ಆದಾಗ್ಯೂ, A/B ಪರೀಕ್ಷಾ ಪ್ರಕ್ರಿಯೆಯು ಆಪ್ಟಿಮೈಸೇಶನ್‌ಗೆ ಅವಕಾಶ ನೀಡುತ್ತದೆ. ಸತ್ಯವೆಂದರೆ ಯಾವುದೇ A/B ಪರೀಕ್ಷೆಯು ಸಾಕಷ್ಟು ಉದ್ದವಾಗಿದೆ (ನಮ್ಮ ಸಂದರ್ಭದಲ್ಲಿ ಇದು ಪ್ರತಿಕ್ರಿಯೆಯ ಪ್ರಮಾಣವನ್ನು ಅವಲಂಬಿಸಿ 6 ರಿಂದ 24 ಗಂಟೆಗಳವರೆಗೆ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ), ಇದು ಸಾಕಷ್ಟು ದುಬಾರಿ ಮತ್ತು ಸೀಮಿತ ಸಂಪನ್ಮೂಲಗಳೊಂದಿಗೆ ಮಾಡುತ್ತದೆ. ಹೆಚ್ಚುವರಿಯಾಗಿ, A/B ಪರೀಕ್ಷೆಯ ಒಟ್ಟಾರೆ ಸಮಯವನ್ನು ವೇಗಗೊಳಿಸಲು ಪರೀಕ್ಷೆಗೆ ಸಾಕಷ್ಟು ಹೆಚ್ಚಿನ ಶೇಕಡಾವಾರು ಹರಿವಿನ ಅಗತ್ಯವಿದೆ (ಕಡಿಮೆ ಶೇಕಡಾವಾರು ಪ್ರಮಾಣದಲ್ಲಿ ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯವಾಗಿ ಮಹತ್ವದ ಮಾದರಿಯನ್ನು ನೇಮಿಸಿಕೊಳ್ಳುವುದು ಬಹಳ ಸಮಯ ತೆಗೆದುಕೊಳ್ಳಬಹುದು), ಇದು A/B ಸ್ಲಾಟ್‌ಗಳ ಸಂಖ್ಯೆ ಅತ್ಯಂತ ಸೀಮಿತವಾಗಿದೆ. ನಿಸ್ಸಂಶಯವಾಗಿ, ನಾವು ಹೆಚ್ಚು ಭರವಸೆಯ ಮಾದರಿಗಳನ್ನು ಮಾತ್ರ ಪರೀಕ್ಷಿಸಬೇಕಾಗಿದೆ, ಹೆಚ್ಚುವರಿ ತರಬೇತಿ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ನಾವು ಸಾಕಷ್ಟು ಸ್ವೀಕರಿಸುತ್ತೇವೆ.

ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು, A/B ಪರೀಕ್ಷೆಯ ಯಶಸ್ಸನ್ನು ಊಹಿಸುವ ಪ್ರತ್ಯೇಕ ವರ್ಗೀಕರಣವನ್ನು ನಾವು ತರಬೇತಿ ನೀಡಿದ್ದೇವೆ. ಇದನ್ನು ಮಾಡಲು, ನಾವು ನಿರ್ಧಾರ ತೆಗೆದುಕೊಳ್ಳುವ ಅಂಕಿಅಂಶಗಳು, ನಿಖರತೆ, ಮರುಪಡೆಯುವಿಕೆ ಮತ್ತು ಇತರ ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ತರಬೇತಿ ಸೆಟ್‌ನಲ್ಲಿ, ಮುಂದೂಡಲ್ಪಟ್ಟ ಒಂದರಲ್ಲಿ ಮತ್ತು ಸ್ಟ್ರೀಮ್‌ನಿಂದ ಮಾದರಿಯಲ್ಲಿ ವೈಶಿಷ್ಟ್ಯಗಳಾಗಿ ತೆಗೆದುಕೊಳ್ಳುತ್ತೇವೆ. ನಾವು ಮಾದರಿಯನ್ನು ಪ್ರಸ್ತುತ ಉತ್ಪಾದನೆಯಲ್ಲಿ, ಹ್ಯೂರಿಸ್ಟಿಕ್ಸ್‌ನೊಂದಿಗೆ ಹೋಲಿಸುತ್ತೇವೆ ಮತ್ತು ಮಾದರಿಯ ಸಂಕೀರ್ಣತೆಯನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುತ್ತೇವೆ. ಈ ಎಲ್ಲಾ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಬಳಸಿಕೊಂಡು, ಪರೀಕ್ಷಾ ಇತಿಹಾಸದಲ್ಲಿ ತರಬೇತಿ ಪಡೆದ ವರ್ಗೀಕರಣವು ಅಭ್ಯರ್ಥಿ ಮಾದರಿಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತದೆ, ನಮ್ಮ ಸಂದರ್ಭದಲ್ಲಿ ಇವು ಮರಗಳ ಕಾಡುಗಳಾಗಿವೆ ಮತ್ತು A/B ಪರೀಕ್ಷೆಯಲ್ಲಿ ಯಾವುದನ್ನು ಬಳಸಬೇಕೆಂದು ನಿರ್ಧರಿಸುತ್ತದೆ.

Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

ಅನುಷ್ಠಾನದ ಸಮಯದಲ್ಲಿ, ಈ ವಿಧಾನವು ಯಶಸ್ವಿ A/B ಪರೀಕ್ಷೆಗಳ ಸಂಖ್ಯೆಯನ್ನು ಹಲವಾರು ಬಾರಿ ಹೆಚ್ಚಿಸಲು ನಮಗೆ ಅವಕಾಶ ಮಾಡಿಕೊಟ್ಟಿತು.

ಪರೀಕ್ಷೆ ಮತ್ತು ಮೇಲ್ವಿಚಾರಣೆ

ಪರೀಕ್ಷೆ ಮತ್ತು ಮೇಲ್ವಿಚಾರಣೆ, ವಿಚಿತ್ರವಾಗಿ ಸಾಕಷ್ಟು, ನಮ್ಮ ಆರೋಗ್ಯಕ್ಕೆ ಹಾನಿ ಮಾಡುವುದಿಲ್ಲ; ಬದಲಾಗಿ, ಅವರು ಅದನ್ನು ಸುಧಾರಿಸುತ್ತಾರೆ ಮತ್ತು ಅನಗತ್ಯ ಒತ್ತಡದಿಂದ ನಮ್ಮನ್ನು ನಿವಾರಿಸುತ್ತಾರೆ. ಪರೀಕ್ಷೆಯು ವೈಫಲ್ಯವನ್ನು ತಡೆಯಲು ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ ಮತ್ತು ಬಳಕೆದಾರರ ಮೇಲಿನ ಪರಿಣಾಮವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಸಮಯಕ್ಕೆ ಅದನ್ನು ಪತ್ತೆಹಚ್ಚಲು ಮೇಲ್ವಿಚಾರಣೆ ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ.

ಬೇಗ ಅಥವಾ ನಂತರ ನಿಮ್ಮ ಸಿಸ್ಟಮ್ ಯಾವಾಗಲೂ ತಪ್ಪುಗಳನ್ನು ಮಾಡುತ್ತದೆ ಎಂದು ಇಲ್ಲಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ಬಹಳ ಮುಖ್ಯ - ಇದು ಯಾವುದೇ ಸಾಫ್ಟ್‌ವೇರ್‌ನ ಅಭಿವೃದ್ಧಿ ಚಕ್ರದ ಕಾರಣದಿಂದಾಗಿರುತ್ತದೆ. ಸಿಸ್ಟಮ್ ಅಭಿವೃದ್ಧಿಯ ಆರಂಭದಲ್ಲಿ ಎಲ್ಲವೂ ನೆಲೆಗೊಳ್ಳುವವರೆಗೆ ಮತ್ತು ನಾವೀನ್ಯತೆಯ ಮುಖ್ಯ ಹಂತವು ಪೂರ್ಣಗೊಳ್ಳುವವರೆಗೆ ಯಾವಾಗಲೂ ಬಹಳಷ್ಟು ದೋಷಗಳಿವೆ. ಆದರೆ ಕಾಲಾನಂತರದಲ್ಲಿ, ಎಂಟ್ರೊಪಿ ಅದರ ಸುಂಕವನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ, ಮತ್ತು ದೋಷಗಳು ಮತ್ತೆ ಕಾಣಿಸಿಕೊಳ್ಳುತ್ತವೆ - ಸುತ್ತಮುತ್ತಲಿನ ಘಟಕಗಳ ಅವನತಿ ಮತ್ತು ಡೇಟಾದಲ್ಲಿನ ಬದಲಾವಣೆಗಳಿಂದಾಗಿ, ನಾನು ಆರಂಭದಲ್ಲಿ ಮಾತನಾಡಿದ್ದೇನೆ.

ಯಾವುದೇ ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಯನ್ನು ಅದರ ಸಂಪೂರ್ಣ ಜೀವನ ಚಕ್ರದಲ್ಲಿ ಅದರ ಲಾಭದ ದೃಷ್ಟಿಕೋನದಿಂದ ಪರಿಗಣಿಸಬೇಕು ಎಂದು ಇಲ್ಲಿ ನಾನು ಗಮನಿಸಲು ಬಯಸುತ್ತೇನೆ. ಕೆಳಗಿನ ಗ್ರಾಫ್ ಅಪರೂಪದ ರೀತಿಯ ಸ್ಪ್ಯಾಮ್ ಅನ್ನು ಹಿಡಿಯಲು ಸಿಸ್ಟಮ್ ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಎಂಬುದರ ಉದಾಹರಣೆಯನ್ನು ತೋರಿಸುತ್ತದೆ (ಗ್ರಾಫ್ನಲ್ಲಿನ ರೇಖೆಯು ಶೂನ್ಯದ ಸಮೀಪದಲ್ಲಿದೆ). ಒಂದು ದಿನ, ತಪ್ಪಾಗಿ ಸಂಗ್ರಹವಾದ ಗುಣಲಕ್ಷಣದಿಂದಾಗಿ, ಅವಳು ಹುಚ್ಚಳಾಗಿದ್ದಳು. ಅದೃಷ್ಟವು ಹೊಂದುವಂತೆ, ಅಸಹಜ ಪ್ರಚೋದನೆಗಾಗಿ ಯಾವುದೇ ಮೇಲ್ವಿಚಾರಣೆ ಇರಲಿಲ್ಲ; ಇದರ ಪರಿಣಾಮವಾಗಿ, ನಿರ್ಧಾರ ತೆಗೆದುಕೊಳ್ಳುವ ಗಡಿಯಲ್ಲಿರುವ "ಸ್ಪ್ಯಾಮ್" ಫೋಲ್ಡರ್‌ಗೆ ಸಿಸ್ಟಮ್ ದೊಡ್ಡ ಪ್ರಮಾಣದಲ್ಲಿ ಅಕ್ಷರಗಳನ್ನು ಉಳಿಸಲು ಪ್ರಾರಂಭಿಸಿತು. ಪರಿಣಾಮಗಳನ್ನು ಸರಿಪಡಿಸಿದ ಹೊರತಾಗಿಯೂ, ವ್ಯವಸ್ಥೆಯು ಈಗಾಗಲೇ ಹಲವಾರು ಬಾರಿ ತಪ್ಪುಗಳನ್ನು ಮಾಡಿದೆ, ಅದು ಐದು ವರ್ಷಗಳಲ್ಲಿ ಅದು ಸ್ವತಃ ಪಾವತಿಸುವುದಿಲ್ಲ. ಮತ್ತು ಮಾದರಿಯ ಜೀವನ ಚಕ್ರದ ದೃಷ್ಟಿಕೋನದಿಂದ ಇದು ಸಂಪೂರ್ಣ ವಿಫಲವಾಗಿದೆ.

Mail.ru ಮೇಲ್‌ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಕಾರ್ಯಾಚರಣೆ

ಆದ್ದರಿಂದ, ಮೇಲ್ವಿಚಾರಣೆಯಂತಹ ಸರಳ ವಿಷಯವು ಮಾದರಿಯ ಜೀವನದಲ್ಲಿ ಪ್ರಮುಖವಾಗಬಹುದು. ಪ್ರಮಾಣಿತ ಮತ್ತು ಸ್ಪಷ್ಟವಾದ ಮೆಟ್ರಿಕ್‌ಗಳ ಜೊತೆಗೆ, ಮಾದರಿ ಪ್ರತಿಕ್ರಿಯೆಗಳು ಮತ್ತು ಸ್ಕೋರ್‌ಗಳ ವಿತರಣೆಯನ್ನು ನಾವು ಪರಿಗಣಿಸುತ್ತೇವೆ, ಜೊತೆಗೆ ಪ್ರಮುಖ ವೈಶಿಷ್ಟ್ಯದ ಮೌಲ್ಯಗಳ ವಿತರಣೆಯನ್ನು ಪರಿಗಣಿಸುತ್ತೇವೆ. KL ಡೈವರ್ಜೆನ್ಸ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು, ನಾವು ಪ್ರಸ್ತುತ ವಿತರಣೆಯನ್ನು ಐತಿಹಾಸಿಕ ಅಥವಾ A/B ಪರೀಕ್ಷೆಯಲ್ಲಿನ ಮೌಲ್ಯಗಳನ್ನು ಉಳಿದ ಸ್ಟ್ರೀಮ್‌ನೊಂದಿಗೆ ಹೋಲಿಸಬಹುದು, ಇದು ಮಾದರಿಯಲ್ಲಿನ ವೈಪರೀತ್ಯಗಳನ್ನು ಗಮನಿಸಲು ಮತ್ತು ಸಮಯಕ್ಕೆ ಸರಿಯಾಗಿ ಬದಲಾವಣೆಗಳನ್ನು ಹಿಂತಿರುಗಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ.

ಹೆಚ್ಚಿನ ಸಂದರ್ಭಗಳಲ್ಲಿ, ನಾವು ಭವಿಷ್ಯದಲ್ಲಿ ಮಾನಿಟರಿಂಗ್ ಆಗಿ ಬಳಸುವ ಸರಳ ಹ್ಯೂರಿಸ್ಟಿಕ್ಸ್ ಅಥವಾ ಮಾದರಿಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಸಿಸ್ಟಮ್‌ಗಳ ನಮ್ಮ ಮೊದಲ ಆವೃತ್ತಿಗಳನ್ನು ಪ್ರಾರಂಭಿಸುತ್ತೇವೆ. ಉದಾಹರಣೆಗೆ, ನಿರ್ದಿಷ್ಟ ಆನ್‌ಲೈನ್ ಸ್ಟೋರ್‌ಗಳಿಗೆ ಸಾಮಾನ್ಯವಾದವುಗಳಿಗೆ ಹೋಲಿಸಿದರೆ ನಾವು NER ಮಾದರಿಯನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡುತ್ತೇವೆ ಮತ್ತು ವರ್ಗೀಕರಣದ ಕವರೇಜ್ ಅವುಗಳಿಗೆ ಹೋಲಿಸಿದರೆ ಕಡಿಮೆಯಾದರೆ, ನಾವು ಕಾರಣಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುತ್ತೇವೆ. ಹ್ಯೂರಿಸ್ಟಿಕ್ಸ್ನ ಮತ್ತೊಂದು ಉಪಯುಕ್ತ ಬಳಕೆ!

ಫಲಿತಾಂಶಗಳು

ಲೇಖನದ ಪ್ರಮುಖ ವಿಚಾರಗಳನ್ನು ಮತ್ತೊಮ್ಮೆ ನೋಡೋಣ.

  • ಫಿಬ್ಡೆಕ್. ನಾವು ಯಾವಾಗಲೂ ಬಳಕೆದಾರರ ಬಗ್ಗೆ ಯೋಚಿಸುತ್ತೇವೆ: ಅವರು ನಮ್ಮ ತಪ್ಪುಗಳೊಂದಿಗೆ ಹೇಗೆ ಬದುಕುತ್ತಾರೆ, ಅವರು ಹೇಗೆ ವರದಿ ಮಾಡಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ. ತರಬೇತಿ ಮಾದರಿಗಳಿಗೆ ಬಳಕೆದಾರರು ಶುದ್ಧ ಪ್ರತಿಕ್ರಿಯೆಯ ಮೂಲವಲ್ಲ ಎಂಬುದನ್ನು ಮರೆಯಬೇಡಿ, ಮತ್ತು ಸಹಾಯಕ ML ವ್ಯವಸ್ಥೆಗಳ ಸಹಾಯದಿಂದ ಅದನ್ನು ತೆರವುಗೊಳಿಸಬೇಕಾಗಿದೆ. ಬಳಕೆದಾರರಿಂದ ಸಂಕೇತವನ್ನು ಸಂಗ್ರಹಿಸಲು ಸಾಧ್ಯವಾಗದಿದ್ದರೆ, ನಾವು ಪ್ರತಿಕ್ರಿಯೆಯ ಪರ್ಯಾಯ ಮೂಲಗಳನ್ನು ಹುಡುಕುತ್ತೇವೆ, ಉದಾಹರಣೆಗೆ, ಸಂಪರ್ಕಿತ ವ್ಯವಸ್ಥೆಗಳು.
  • ಹೆಚ್ಚುವರಿ ತರಬೇತಿ. ಇಲ್ಲಿ ಮುಖ್ಯ ವಿಷಯವೆಂದರೆ ನಿರಂತರತೆ, ಆದ್ದರಿಂದ ನಾವು ಪ್ರಸ್ತುತ ಉತ್ಪಾದನಾ ಮಾದರಿಯನ್ನು ಅವಲಂಬಿಸಿದ್ದೇವೆ. ನಾವು ಹೊಸ ಮಾದರಿಗಳಿಗೆ ತರಬೇತಿ ನೀಡುತ್ತೇವೆ ಆದ್ದರಿಂದ ಅವುಗಳು ಹಾರ್ಮೋನಿಕ್ ಕ್ರಮಬದ್ಧಗೊಳಿಸುವಿಕೆ ಮತ್ತು ಇದೇ ರೀತಿಯ ತಂತ್ರಗಳಿಂದ ಹಿಂದಿನದಕ್ಕಿಂತ ಹೆಚ್ಚು ಭಿನ್ನವಾಗಿರುವುದಿಲ್ಲ.
  • ನಿಯೋಜಿಸಿ. ಮೆಟ್ರಿಕ್‌ಗಳ ಆಧಾರದ ಮೇಲೆ ಸ್ವಯಂ-ನಿಯೋಜನೆಯು ಮಾದರಿಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುವ ಸಮಯವನ್ನು ಬಹಳವಾಗಿ ಕಡಿಮೆ ಮಾಡುತ್ತದೆ. ಮಾನಿಟರಿಂಗ್ ಅಂಕಿಅಂಶಗಳು ಮತ್ತು ನಿರ್ಧಾರ ತೆಗೆದುಕೊಳ್ಳುವ ವಿತರಣೆ, ಬಳಕೆದಾರರಿಂದ ಬೀಳುವ ಸಂಖ್ಯೆಯು ನಿಮ್ಮ ವಿಶ್ರಾಂತಿ ನಿದ್ರೆ ಮತ್ತು ಉತ್ಪಾದಕ ವಾರಾಂತ್ಯಕ್ಕೆ ಕಡ್ಡಾಯವಾಗಿದೆ.

ಸರಿ, ಇದು ನಿಮ್ಮ ML ಸಿಸ್ಟಂಗಳನ್ನು ವೇಗವಾಗಿ ಸುಧಾರಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ, ಅವುಗಳನ್ನು ವೇಗವಾಗಿ ಮಾರುಕಟ್ಟೆಗೆ ತರಲು ಮತ್ತು ಅವುಗಳನ್ನು ಹೆಚ್ಚು ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ಮತ್ತು ಕಡಿಮೆ ಒತ್ತಡವನ್ನುಂಟುಮಾಡುತ್ತದೆ.

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ