ಎನ್ಸೆಂಬಲ್ ಕಲಿಕೆಯ ಮ್ಯಾಜಿಕ್

ಹಲೋ, ಹಬ್ರ್! ನಾವು ಡೇಟಾ ಇಂಜಿನಿಯರ್‌ಗಳು ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆ ತಜ್ಞರನ್ನು ಉಚಿತ ಡೆಮೊ ಪಾಠಕ್ಕೆ ಆಹ್ವಾನಿಸುತ್ತೇವೆ "ಆನ್‌ಲೈನ್ ಶಿಫಾರಸುಗಳ ಉದಾಹರಣೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಕೈಗಾರಿಕಾ ಪರಿಸರಕ್ಕೆ ML ಮಾದರಿಗಳ ಔಟ್‌ಪುಟ್". ನಾವು ಲೇಖನವನ್ನು ಸಹ ಪ್ರಕಟಿಸುತ್ತೇವೆ ಲುಕಾ ಮೊನ್ನೊ - ಸಿಡಿಪಿ ಸ್ಪಾನಲ್ಲಿ ಹಣಕಾಸು ಅನಾಲಿಟಿಕ್ಸ್ ಮುಖ್ಯಸ್ಥ.

ಅತ್ಯಂತ ಉಪಯುಕ್ತ ಮತ್ತು ಸರಳವಾದ ಯಂತ್ರ ಕಲಿಕೆಯ ವಿಧಾನವೆಂದರೆ ಎನ್ಸೆಂಬಲ್ ಲರ್ನಿಂಗ್. ಎನ್ಸೆಂಬಲ್ ಲರ್ನಿಂಗ್ ಎನ್ನುವುದು XGBoost, Bagging, Random Forest ಮತ್ತು ಇತರ ಹಲವು ಅಲ್ಗಾರಿದಮ್‌ಗಳ ಹಿಂದಿನ ವಿಧಾನವಾಗಿದೆ.

ಡೇಟಾ ಸೈನ್ಸ್ ಕಡೆಗೆ ಬಹಳಷ್ಟು ಉತ್ತಮ ಲೇಖನಗಳಿವೆ, ಆದರೆ ನಾನು ಎರಡು ಕಥೆಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಿದ್ದೇನೆ (ಮೊದಲು и ರಷ್ಯಾ) ನಾನು ಹೆಚ್ಚು ಇಷ್ಟಪಟ್ಟಿದ್ದೇನೆ. ಹಾಗಾದರೆ EL ಬಗ್ಗೆ ಇನ್ನೊಂದು ಲೇಖನವನ್ನು ಏಕೆ ಬರೆಯಬೇಕು? ಏಕೆಂದರೆ ನಾನು ನಿಮಗೆ ತೋರಿಸಲು ಬಯಸುತ್ತೇನೆ ಸರಳ ಉದಾಹರಣೆಯೊಂದಿಗೆ ಇದು ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ, ಇಲ್ಲಿ ಯಾವುದೇ ಮ್ಯಾಜಿಕ್ ಇಲ್ಲ ಎಂದು ನನಗೆ ಅರ್ಥವಾಯಿತು.

ನಾನು ಮೊದಲ ಬಾರಿಗೆ EL ಅನ್ನು ಕ್ರಿಯೆಯಲ್ಲಿ ನೋಡಿದಾಗ (ಕೆಲವು ಸರಳವಾದ ರಿಗ್ರೆಶನ್ ಮಾದರಿಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವುದು) ನನ್ನ ಕಣ್ಣುಗಳನ್ನು ನಂಬಲಾಗಲಿಲ್ಲ, ಮತ್ತು ಈ ವಿಧಾನವನ್ನು ನನಗೆ ಕಲಿಸಿದ ಪ್ರಾಧ್ಯಾಪಕರನ್ನು ನಾನು ಇನ್ನೂ ನೆನಪಿಸಿಕೊಳ್ಳುತ್ತೇನೆ.

ನಾನು ಮೆಟ್ರಿಕ್‌ಗಳೊಂದಿಗೆ ಎರಡು ವಿಭಿನ್ನ ಮಾದರಿಗಳನ್ನು (ಎರಡು ದುರ್ಬಲ ತರಬೇತಿ ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು) ಹೊಂದಿದ್ದೇನೆ ಮಾದರಿಯ ಹೊರಗೆ R² ಕ್ರಮವಾಗಿ 0,90 ಮತ್ತು 0,93. ಫಲಿತಾಂಶವನ್ನು ನೋಡುವ ಮೊದಲು, ನಾನು ಎರಡು ಮೂಲ ಮೌಲ್ಯಗಳ ನಡುವೆ ಎಲ್ಲೋ R² ಅನ್ನು ಪಡೆಯುತ್ತೇನೆ ಎಂದು ನಾನು ಭಾವಿಸಿದೆ. ಬೇರೆ ರೀತಿಯಲ್ಲಿ ಹೇಳುವುದಾದರೆ, ಒಂದು ಮಾದರಿಯು ಕೆಟ್ಟ ಮಾದರಿಯಂತೆ ಕಳಪೆಯಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸದಂತೆ ಮಾಡಲು EL ಅನ್ನು ಬಳಸಬಹುದೆಂದು ನಾನು ನಂಬಿದ್ದೇನೆ, ಆದರೆ ಉತ್ತಮ ಮಾದರಿಯು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವುದಿಲ್ಲ.

ನನ್ನ ದೊಡ್ಡ ಆಶ್ಚರ್ಯಕ್ಕೆ, ಮುನ್ನೋಟಗಳ ಸರಾಸರಿಯು 0,95 ರ R² ಅನ್ನು ನೀಡಿತು. 

ಮೊದಲಿಗೆ ನಾನು ದೋಷವನ್ನು ಹುಡುಕಲು ಪ್ರಾರಂಭಿಸಿದೆ, ಆದರೆ ನಂತರ ಇಲ್ಲಿ ಏನಾದರೂ ಮ್ಯಾಜಿಕ್ ಅಡಗಿದೆ ಎಂದು ನಾನು ಭಾವಿಸಿದೆ!

ಎನ್ಸೆಂಬಲ್ ಲರ್ನಿಂಗ್ ಎಂದರೇನು

EL ನೊಂದಿಗೆ, ನೀವು ಹೆಚ್ಚು ದೃಢವಾದ ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆಯ ಮಾದರಿಯನ್ನು ಉತ್ಪಾದಿಸಲು ಎರಡು ಅಥವಾ ಹೆಚ್ಚಿನ ಮಾದರಿಗಳ ಮುನ್ನೋಟಗಳನ್ನು ಸಂಯೋಜಿಸಬಹುದು. ಮಾದರಿ ಮೇಳಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಹಲವು ವಿಧಾನಗಳಿವೆ. ಇಲ್ಲಿ ನಾನು ಅವಲೋಕನವನ್ನು ನೀಡಲು ಎರಡು ಹೆಚ್ಚು ಉಪಯುಕ್ತವಾದವುಗಳನ್ನು ಸ್ಪರ್ಶಿಸುತ್ತೇನೆ.

ಸಹಾಯದಿಂದ ಹಿನ್ನಡೆ ಲಭ್ಯವಿರುವ ಮಾದರಿಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಸರಾಸರಿ ಮಾಡಲು ಸಾಧ್ಯವಿದೆ.

ಸಹಾಯದಿಂದ ವರ್ಗೀಕರಣ ಲೇಬಲ್ಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಲು ನೀವು ಮಾದರಿಗಳಿಗೆ ಅವಕಾಶವನ್ನು ನೀಡಬಹುದು. ಹೆಚ್ಚಾಗಿ ಆಯ್ಕೆ ಮಾಡಲಾದ ಲೇಬಲ್ ಅನ್ನು ಹೊಸ ಮಾದರಿಯಿಂದ ಆಯ್ಕೆ ಮಾಡಲಾಗುತ್ತದೆ.

EL ಏಕೆ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ

EL ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಲು ಮುಖ್ಯ ಕಾರಣವೆಂದರೆ ಪ್ರತಿ ಭವಿಷ್ಯವು ದೋಷವನ್ನು ಹೊಂದಿದೆ (ಇದು ಸಂಭವನೀಯತೆ ಸಿದ್ಧಾಂತದಿಂದ ನಮಗೆ ತಿಳಿದಿದೆ), ಎರಡು ಮುನ್ನೋಟಗಳನ್ನು ಸಂಯೋಜಿಸುವುದು ದೋಷವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ ಮತ್ತು ಆದ್ದರಿಂದ ಕಾರ್ಯಕ್ಷಮತೆಯ ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ಸುಧಾರಿಸುತ್ತದೆ (RMSE, R², ಇತ್ಯಾದಿ). d.).

ಡೇಟಾ ಸೆಟ್‌ನಲ್ಲಿ ಎರಡು ದುರ್ಬಲ ಅಲ್ಗಾರಿದಮ್‌ಗಳು ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ ಎಂಬುದನ್ನು ಕೆಳಗಿನ ರೇಖಾಚಿತ್ರವು ತೋರಿಸುತ್ತದೆ. ಮೊದಲ ಅಲ್ಗಾರಿದಮ್ ಅಗತ್ಯಕ್ಕಿಂತ ದೊಡ್ಡ ಇಳಿಜಾರನ್ನು ಹೊಂದಿದೆ, ಆದರೆ ಎರಡನೆಯದು ಬಹುತೇಕ ಶೂನ್ಯವನ್ನು ಹೊಂದಿದೆ (ಬಹುಶಃ ಅತಿ-ನಿಯಮಿತೀಕರಣದ ಕಾರಣದಿಂದಾಗಿ). ಆದರೆ ಸಮಗ್ರ ಹೆಚ್ಚು ಉತ್ತಮ ಫಲಿತಾಂಶಗಳನ್ನು ತೋರಿಸುತ್ತದೆ. 

ನೀವು R² ಸೂಚಕವನ್ನು ನೋಡಿದರೆ, ಮೊದಲ ಮತ್ತು ಎರಡನೆಯ ತರಬೇತಿ ಅಲ್ಗಾರಿದಮ್‌ಗೆ ಇದು ಕ್ರಮವಾಗಿ -0.01¹, 0.22 ಕ್ಕೆ ಸಮಾನವಾಗಿರುತ್ತದೆ, ಆದರೆ ಸಮೂಹಕ್ಕೆ ಇದು 0.73 ಕ್ಕೆ ಸಮಾನವಾಗಿರುತ್ತದೆ.

ಎನ್ಸೆಂಬಲ್ ಕಲಿಕೆಯ ಮ್ಯಾಜಿಕ್

ಈ ರೀತಿಯ ಮೂಲಭೂತ ಉದಾಹರಣೆಯಲ್ಲಿಯೂ ಸಹ ಅಲ್ಗಾರಿದಮ್ ಕೆಟ್ಟ ಮಾದರಿಯಾಗಲು ಹಲವು ಕಾರಣಗಳಿವೆ: ಬಹುಶಃ ನೀವು ಅತಿಯಾಗಿ ಅಳವಡಿಸಿಕೊಳ್ಳುವುದನ್ನು ತಪ್ಪಿಸಲು ಕ್ರಮಬದ್ಧಗೊಳಿಸುವಿಕೆಯನ್ನು ಬಳಸಲು ನಿರ್ಧರಿಸಿದ್ದೀರಿ ಅಥವಾ ಕೆಲವು ವೈಪರೀತ್ಯಗಳನ್ನು ತಳ್ಳಿಹಾಕದಿರಲು ನೀವು ನಿರ್ಧರಿಸಿದ್ದೀರಿ, ಅಥವಾ ನೀವು ಬಹುಪದೀಯ ಹಿಂಜರಿತವನ್ನು ಬಳಸಿದ್ದೀರಿ ಮತ್ತು ತಪ್ಪಾಗಿರಬಹುದು ಪದವಿ (ಉದಾಹರಣೆಗೆ, ನಾವು ಎರಡನೇ ಪದವಿಯ ಬಹುಪದೋಕ್ತಿಯನ್ನು ಬಳಸಿದ್ದೇವೆ ಮತ್ತು ಪರೀಕ್ಷಾ ಡೇಟಾವು ಸ್ಪಷ್ಟವಾದ ಅಸಿಮ್ಮೆಟ್ರಿಯನ್ನು ತೋರಿಸುತ್ತದೆ, ಇದಕ್ಕಾಗಿ ಮೂರನೇ ಪದವಿ ಹೆಚ್ಚು ಸೂಕ್ತವಾಗಿರುತ್ತದೆ).

EL ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಿದಾಗ

ಒಂದೇ ಡೇಟಾದೊಂದಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಎರಡು ಕಲಿಕೆಯ ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ನೋಡೋಣ.

ಎನ್ಸೆಂಬಲ್ ಕಲಿಕೆಯ ಮ್ಯಾಜಿಕ್

ಎರಡು ಮಾದರಿಗಳ ಸಂಯೋಜನೆಯು ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಹೆಚ್ಚು ಸುಧಾರಿಸಲಿಲ್ಲ ಎಂದು ಇಲ್ಲಿ ನೀವು ನೋಡಬಹುದು. ಆರಂಭದಲ್ಲಿ, ಎರಡು ತರಬೇತಿ ಅಲ್ಗಾರಿದಮ್‌ಗಳಿಗೆ, R² ಸೂಚಕಗಳು ಕ್ರಮವಾಗಿ -0,37 ಮತ್ತು 0,22 ಕ್ಕೆ ಸಮನಾಗಿರುತ್ತದೆ ಮತ್ತು ಸಮೂಹಕ್ಕೆ ಇದು -0,04 ಆಗಿ ಹೊರಹೊಮ್ಮಿತು. ಅಂದರೆ, EL ಮಾದರಿಯು ಸೂಚಕಗಳ ಸರಾಸರಿ ಮೌಲ್ಯವನ್ನು ಪಡೆಯಿತು.

ಆದಾಗ್ಯೂ, ಈ ಎರಡು ಉದಾಹರಣೆಗಳ ನಡುವೆ ದೊಡ್ಡ ವ್ಯತ್ಯಾಸವಿದೆ: ಮೊದಲ ಉದಾಹರಣೆಯಲ್ಲಿ, ಮಾದರಿ ದೋಷಗಳು ಋಣಾತ್ಮಕವಾಗಿ ಪರಸ್ಪರ ಸಂಬಂಧ ಹೊಂದಿವೆ, ಮತ್ತು ಎರಡನೆಯದರಲ್ಲಿ, ಅವು ಧನಾತ್ಮಕವಾಗಿ ಪರಸ್ಪರ ಸಂಬಂಧ ಹೊಂದಿವೆ (ಮೂರು ಮಾದರಿಗಳ ಗುಣಾಂಕಗಳನ್ನು ಅಂದಾಜು ಮಾಡಲಾಗಿಲ್ಲ, ಆದರೆ ಸರಳವಾಗಿ ಆಯ್ಕೆಮಾಡಲಾಗಿದೆ ಉದಾಹರಣೆಯಾಗಿ ಲೇಖಕ.)

ಆದ್ದರಿಂದ, ಎನ್ಸೆಂಬಲ್ ಲರ್ನಿಂಗ್ ಅನ್ನು ಯಾವುದೇ ಸಂದರ್ಭದಲ್ಲಿ ಪಕ್ಷಪಾತ/ವ್ಯತ್ಯಾಸ ಸಮತೋಲನವನ್ನು ಸುಧಾರಿಸಲು ಬಳಸಬಹುದು, ಆದರೆ ಯಾವಾಗ ಮಾದರಿ ದೋಷಗಳು ಧನಾತ್ಮಕವಾಗಿ ಪರಸ್ಪರ ಸಂಬಂಧ ಹೊಂದಿಲ್ಲ, EL ಅನ್ನು ಬಳಸುವುದರಿಂದ ಸುಧಾರಿತ ಕಾರ್ಯಕ್ಷಮತೆಗೆ ಕಾರಣವಾಗಬಹುದು.

ಏಕರೂಪದ ಮತ್ತು ವೈವಿಧ್ಯಮಯ ಮಾದರಿಗಳು

ಆಗಾಗ್ಗೆ EL ಅನ್ನು ಏಕರೂಪದ ಮಾದರಿಗಳಲ್ಲಿ ಬಳಸಲಾಗುತ್ತದೆ (ಈ ಉದಾಹರಣೆಯಲ್ಲಿ ಅಥವಾ ಯಾದೃಚ್ಛಿಕ ಅರಣ್ಯದಲ್ಲಿ), ಆದರೆ ವಾಸ್ತವವಾಗಿ ನೀವು ವಿಭಿನ್ನ ಮಾದರಿಗಳನ್ನು (ರೇಖೀಯ ಹಿಂಜರಿತ + ನ್ಯೂರಲ್ ನೆಟ್ವರ್ಕ್ + XGBoost) ವಿವಿಧ ವಿವರಣಾತ್ಮಕ ಅಸ್ಥಿರಗಳೊಂದಿಗೆ ಸಂಯೋಜಿಸಬಹುದು. ಇದು ಪರಸ್ಪರ ಸಂಬಂಧವಿಲ್ಲದ ದೋಷಗಳು ಮತ್ತು ಸುಧಾರಿತ ಕಾರ್ಯಕ್ಷಮತೆಗೆ ಕಾರಣವಾಗಬಹುದು.

ಪೋರ್ಟ್ಫೋಲಿಯೊ ವೈವಿಧ್ಯೀಕರಣದೊಂದಿಗೆ ಹೋಲಿಕೆ

EL ಪೋರ್ಟ್ಫೋಲಿಯೊ ಸಿದ್ಧಾಂತದಲ್ಲಿ ವೈವಿಧ್ಯೀಕರಣದಂತೆಯೇ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ, ಆದರೆ ನಮಗೆ ತುಂಬಾ ಉತ್ತಮವಾಗಿದೆ. 

ವೈವಿಧ್ಯಗೊಳಿಸುವಾಗ, ಪರಸ್ಪರ ಸಂಬಂಧವಿಲ್ಲದ ಷೇರುಗಳಲ್ಲಿ ಹೂಡಿಕೆ ಮಾಡುವ ಮೂಲಕ ನಿಮ್ಮ ಕಾರ್ಯಕ್ಷಮತೆಯ ವ್ಯತ್ಯಾಸವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ನೀವು ಪ್ರಯತ್ನಿಸುತ್ತೀರಿ. ಸ್ಟಾಕ್‌ಗಳ ಉತ್ತಮ-ವೈವಿಧ್ಯತೆಯ ಪೋರ್ಟ್‌ಫೋಲಿಯೊವು ಕೆಟ್ಟ ವೈಯಕ್ತಿಕ ಸ್ಟಾಕ್‌ಗಿಂತ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ, ಆದರೆ ಉತ್ತಮಕ್ಕಿಂತ ಉತ್ತಮವಾಗಿರುವುದಿಲ್ಲ.

ವಾರೆನ್ ಬಫೆಟ್ ಅವರನ್ನು ಉಲ್ಲೇಖಿಸಲು: 

"ವೈವಿಧ್ಯೀಕರಣವು ಅಜ್ಞಾನದ ವಿರುದ್ಧ ರಕ್ಷಣೆಯಾಗಿದೆ; ಅವನು ಏನು ಮಾಡುತ್ತಿದ್ದಾನೆಂದು ತಿಳಿದಿಲ್ಲದ ವ್ಯಕ್ತಿಗೆ, ಇದು [ವೈವಿಧ್ಯೀಕರಣ] ಬಹಳ ಕಡಿಮೆ ಅರ್ಥವನ್ನು ನೀಡುತ್ತದೆ."

ಯಂತ್ರ ಕಲಿಕೆಯಲ್ಲಿ, EL ನಿಮ್ಮ ಮಾದರಿಯ ವ್ಯತ್ಯಾಸವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ, ಆದರೆ ಇದು ಅತ್ಯುತ್ತಮ ಮೂಲ ಮಾದರಿಗಿಂತ ಉತ್ತಮ ಒಟ್ಟಾರೆ ಕಾರ್ಯಕ್ಷಮತೆಯೊಂದಿಗೆ ಮಾದರಿಗೆ ಕಾರಣವಾಗಬಹುದು.

ಫಲಿತಾಂಶಗಳನ್ನು ಒಟ್ಟಾರೆಯಾಗಿ ನೋಡೋಣ

ಬಹು ಮಾದರಿಗಳನ್ನು ಒಂದರೊಳಗೆ ಸಂಯೋಜಿಸುವುದು ತುಲನಾತ್ಮಕವಾಗಿ ಸರಳವಾದ ತಂತ್ರವಾಗಿದ್ದು ಅದು ವ್ಯತ್ಯಾಸ ಪಕ್ಷಪಾತದ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಸುಧಾರಿಸಲು ಕಾರಣವಾಗಬಹುದು.

ನೀವು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಎರಡು ಅಥವಾ ಹೆಚ್ಚಿನ ಮಾದರಿಗಳನ್ನು ಹೊಂದಿದ್ದರೆ, ಅವುಗಳ ನಡುವೆ ಆಯ್ಕೆ ಮಾಡಬೇಡಿ: ಎಲ್ಲವನ್ನೂ ಬಳಸಿ (ಆದರೆ ಎಚ್ಚರಿಕೆಯಿಂದ)!

ಈ ದಿಕ್ಕಿನಲ್ಲಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಆಸಕ್ತಿ ಇದೆಯೇ? ಉಚಿತ ಡೆಮೊ ಪಾಠಕ್ಕಾಗಿ ಸೈನ್ ಅಪ್ ಮಾಡಿ "ಆನ್‌ಲೈನ್ ಶಿಫಾರಸುಗಳ ಉದಾಹರಣೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಕೈಗಾರಿಕಾ ಪರಿಸರಕ್ಕೆ ML ಮಾದರಿಗಳ ಔಟ್‌ಪುಟ್" ಮತ್ತು ಭಾಗವಹಿಸಿ ಆಂಡ್ರೆ ಕುಜ್ನೆಟ್ಸೊವ್ ಅವರೊಂದಿಗೆ ಆನ್‌ಲೈನ್ ಸಭೆ - Mail.ru ಗುಂಪಿನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆ ಎಂಜಿನಿಯರ್.

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ