ಯಂತ್ರ ಕಲಿಕೆಯಲ್ಲಿ ವೈಶಿಷ್ಟ್ಯದ ಆಯ್ಕೆ

ಹಲೋ, ಹಬ್ರ್!

ನಾವು Reksoft ನಲ್ಲಿ ಲೇಖನವನ್ನು ರಷ್ಯನ್ ಭಾಷೆಗೆ ಅನುವಾದಿಸಿದ್ದೇವೆ ಯಂತ್ರ ಕಲಿಕೆಯಲ್ಲಿ ವೈಶಿಷ್ಟ್ಯದ ಆಯ್ಕೆ. ವಿಷಯದ ಬಗ್ಗೆ ಆಸಕ್ತಿ ಹೊಂದಿರುವ ಎಲ್ಲರಿಗೂ ಇದು ಉಪಯುಕ್ತವಾಗಿದೆ ಎಂದು ನಾವು ಭಾವಿಸುತ್ತೇವೆ.

ನೈಜ ಜಗತ್ತಿನಲ್ಲಿ, ವ್ಯಾಪಾರ ಗ್ರಾಹಕರು ಕೆಲವೊಮ್ಮೆ ಯೋಚಿಸುವಷ್ಟು ಡೇಟಾ ಯಾವಾಗಲೂ ಸ್ವಚ್ಛವಾಗಿರುವುದಿಲ್ಲ. ಇದಕ್ಕಾಗಿಯೇ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ಮತ್ತು ಡೇಟಾ ತಕರಾರು ಬೇಡಿಕೆಯಲ್ಲಿದೆ. ಮಾನವರು ಗುರುತಿಸಲಾಗದ ಪ್ರಶ್ನೆ-ರಚನಾತ್ಮಕ ಡೇಟಾದಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳು ಮತ್ತು ಮಾದರಿಗಳನ್ನು ಗುರುತಿಸಲು ಇದು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಡೇಟಾದಲ್ಲಿ ಪತ್ತೆಯಾದ ಸಂಬಂಧಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಫಲಿತಾಂಶಗಳನ್ನು ಊಹಿಸಲು ಈ ಮಾದರಿಗಳನ್ನು ಹುಡುಕಲು ಮತ್ತು ಬಳಸಲು, ಯಂತ್ರ ಕಲಿಕೆ ಸೂಕ್ತವಾಗಿ ಬರುತ್ತದೆ.

ಯಾವುದೇ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು, ನೀವು ಡೇಟಾದಲ್ಲಿನ ಎಲ್ಲಾ ಅಸ್ಥಿರಗಳನ್ನು ನೋಡಬೇಕು ಮತ್ತು ಆ ಅಸ್ಥಿರಗಳು ಏನನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತವೆ ಎಂಬುದನ್ನು ಕಂಡುಹಿಡಿಯಬೇಕು. ಇದು ನಿರ್ಣಾಯಕವಾಗಿದೆ ಏಕೆಂದರೆ ಫಲಿತಾಂಶಗಳ ಹಿಂದಿನ ತಾರ್ಕಿಕತೆಯು ಡೇಟಾವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದರ ಮೇಲೆ ಆಧಾರಿತವಾಗಿದೆ. ಡೇಟಾವು 5 ಅಥವಾ 50 ವೇರಿಯಬಲ್‌ಗಳನ್ನು ಹೊಂದಿದ್ದರೆ, ನೀವು ಎಲ್ಲವನ್ನೂ ಪರಿಶೀಲಿಸಬಹುದು. ಅವರಲ್ಲಿ 200 ಇದ್ದರೆ ಏನು? ನಂತರ ಪ್ರತಿಯೊಂದು ವೇರಿಯಬಲ್ ಅನ್ನು ಅಧ್ಯಯನ ಮಾಡಲು ಸಾಕಷ್ಟು ಸಮಯ ಇರುವುದಿಲ್ಲ. ಇದಲ್ಲದೆ, ಕೆಲವು ಅಲ್ಗಾರಿದಮ್‌ಗಳು ವರ್ಗೀಯ ಡೇಟಾಕ್ಕಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವುದಿಲ್ಲ, ಮತ್ತು ನಂತರ ನೀವು ಎಲ್ಲಾ ವರ್ಗೀಯ ಕಾಲಮ್‌ಗಳನ್ನು ಪರಿಮಾಣಾತ್ಮಕ ಅಸ್ಥಿರಗಳಾಗಿ ಪರಿವರ್ತಿಸಬೇಕಾಗುತ್ತದೆ (ಅವು ಪರಿಮಾಣಾತ್ಮಕವಾಗಿ ಕಾಣಿಸಬಹುದು, ಆದರೆ ಮೆಟ್ರಿಕ್‌ಗಳು ಅವು ವರ್ಗೀಯವೆಂದು ತೋರಿಸುತ್ತವೆ) ಮಾದರಿಗೆ ಸೇರಿಸಲು. ಹೀಗಾಗಿ, ವೇರಿಯೇಬಲ್ಗಳ ಸಂಖ್ಯೆಯು ಹೆಚ್ಚಾಗುತ್ತದೆ, ಮತ್ತು ಅವುಗಳಲ್ಲಿ ಸುಮಾರು 500 ಇವೆ, ಈಗ ಏನು ಮಾಡಬೇಕು? ಆಯಾಮವನ್ನು ಕಡಿಮೆ ಮಾಡುವುದು ಉತ್ತರ ಎಂದು ಒಬ್ಬರು ಭಾವಿಸಬಹುದು. ಆಯಾಮದ ಕಡಿತ ಕ್ರಮಾವಳಿಗಳು ನಿಯತಾಂಕಗಳ ಸಂಖ್ಯೆಯನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ ಆದರೆ ಅರ್ಥವಿವರಣೆಯ ಮೇಲೆ ಋಣಾತ್ಮಕ ಪರಿಣಾಮ ಬೀರುತ್ತದೆ. ಉಳಿದವುಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಮತ್ತು ಅರ್ಥೈಸಲು ಸುಲಭವಾಗುವಂತೆ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ತೆಗೆದುಹಾಕುವ ಇತರ ತಂತ್ರಗಳು ಇದ್ದರೆ ಏನು?

ವಿಶ್ಲೇಷಣೆಯು ಹಿಂಜರಿತ ಅಥವಾ ವರ್ಗೀಕರಣವನ್ನು ಆಧರಿಸಿದೆಯೇ ಎಂಬುದನ್ನು ಅವಲಂಬಿಸಿ, ವೈಶಿಷ್ಟ್ಯದ ಆಯ್ಕೆಯ ಕ್ರಮಾವಳಿಗಳು ಭಿನ್ನವಾಗಿರಬಹುದು, ಆದರೆ ಅವುಗಳ ಅನುಷ್ಠಾನದ ಮುಖ್ಯ ಕಲ್ಪನೆಯು ಒಂದೇ ಆಗಿರುತ್ತದೆ.

ಹೆಚ್ಚು ಪರಸ್ಪರ ಸಂಬಂಧ ಹೊಂದಿರುವ ಅಸ್ಥಿರ

ಪರಸ್ಪರ ಹೆಚ್ಚು ಪರಸ್ಪರ ಸಂಬಂಧ ಹೊಂದಿರುವ ವೇರಿಯೇಬಲ್‌ಗಳು ಮಾದರಿಗೆ ಒಂದೇ ಮಾಹಿತಿಯನ್ನು ಒದಗಿಸುತ್ತವೆ, ಆದ್ದರಿಂದ ಅವೆಲ್ಲವನ್ನೂ ವಿಶ್ಲೇಷಣೆಗಾಗಿ ಬಳಸುವ ಅಗತ್ಯವಿಲ್ಲ. ಉದಾಹರಣೆಗೆ, ಡೇಟಾಸೆಟ್ "ಆನ್‌ಲೈನ್ ಸಮಯ" ಮತ್ತು "ಟ್ರಾಫಿಕ್ ಬಳಸಲಾಗಿದೆ" ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಹೊಂದಿದ್ದರೆ, ಅವು ಸ್ವಲ್ಪಮಟ್ಟಿಗೆ ಪರಸ್ಪರ ಸಂಬಂಧ ಹೊಂದಿವೆ ಎಂದು ನಾವು ಊಹಿಸಬಹುದು ಮತ್ತು ನಾವು ಪಕ್ಷಪಾತವಿಲ್ಲದ ಡೇಟಾ ಮಾದರಿಯನ್ನು ಆಯ್ಕೆ ಮಾಡಿದರೂ ಸಹ ನಾವು ಬಲವಾದ ಪರಸ್ಪರ ಸಂಬಂಧವನ್ನು ನೋಡುತ್ತೇವೆ. ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಮಾದರಿಯಲ್ಲಿ ಈ ಅಸ್ಥಿರಗಳಲ್ಲಿ ಒಂದನ್ನು ಮಾತ್ರ ಅಗತ್ಯವಿದೆ. ನೀವು ಎರಡನ್ನೂ ಬಳಸಿದರೆ, ಮಾದರಿಯು ಅತಿಯಾಗಿ ಹೊಂದಿಕೊಳ್ಳುತ್ತದೆ ಮತ್ತು ಒಂದು ನಿರ್ದಿಷ್ಟ ವೈಶಿಷ್ಟ್ಯದ ಕಡೆಗೆ ಪಕ್ಷಪಾತವನ್ನು ಹೊಂದಿರುತ್ತದೆ.

ಪಿ-ಮೌಲ್ಯಗಳು

ಲೀನಿಯರ್ ರಿಗ್ರೆಶನ್‌ನಂತಹ ಅಲ್ಗಾರಿದಮ್‌ಗಳಲ್ಲಿ, ಆರಂಭಿಕ ಅಂಕಿಅಂಶಗಳ ಮಾದರಿಯು ಯಾವಾಗಲೂ ಒಳ್ಳೆಯದು. ಈ ಮಾದರಿಯಿಂದ ಪಡೆದ ಪಿ-ಮೌಲ್ಯಗಳ ಮೂಲಕ ವೈಶಿಷ್ಟ್ಯಗಳ ಪ್ರಾಮುಖ್ಯತೆಯನ್ನು ತೋರಿಸಲು ಇದು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಪ್ರಾಮುಖ್ಯತೆಯ ಮಟ್ಟವನ್ನು ಹೊಂದಿಸಿದ ನಂತರ, ನಾವು ಫಲಿತಾಂಶದ ಪಿ-ಮೌಲ್ಯಗಳನ್ನು ಪರಿಶೀಲಿಸುತ್ತೇವೆ ಮತ್ತು ಯಾವುದೇ ಮೌಲ್ಯವು ನಿರ್ದಿಷ್ಟಪಡಿಸಿದ ಪ್ರಾಮುಖ್ಯತೆಯ ಮಟ್ಟಕ್ಕಿಂತ ಕಡಿಮೆಯಿದ್ದರೆ, ಈ ವೈಶಿಷ್ಟ್ಯವನ್ನು ಗಮನಾರ್ಹವೆಂದು ಘೋಷಿಸಲಾಗುತ್ತದೆ, ಅಂದರೆ, ಅದರ ಮೌಲ್ಯದಲ್ಲಿನ ಬದಲಾವಣೆಯು ಮೌಲ್ಯದಲ್ಲಿ ಬದಲಾವಣೆಗೆ ಕಾರಣವಾಗಬಹುದು ಗುರಿ.

ನೇರ ಆಯ್ಕೆ

ಫಾರ್ವರ್ಡ್ ಆಯ್ಕೆಯು ಹಂತ ಹಂತದ ಹಿಂಜರಿತವನ್ನು ಅನ್ವಯಿಸುವ ತಂತ್ರವಾಗಿದೆ. ಮಾದರಿ ಕಟ್ಟಡವು ಸಂಪೂರ್ಣ ಶೂನ್ಯದಿಂದ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ, ಅಂದರೆ ಖಾಲಿ ಮಾದರಿ, ಮತ್ತು ನಂತರ ಪ್ರತಿ ಪುನರಾವರ್ತನೆಯು ವೇರಿಯೇಬಲ್ ಅನ್ನು ಸೇರಿಸುತ್ತದೆ ಅದು ನಿರ್ಮಿಸುತ್ತಿರುವ ಮಾದರಿಗೆ ಸುಧಾರಣೆಯನ್ನು ಮಾಡುತ್ತದೆ. ಮಾದರಿಗೆ ಯಾವ ವೇರಿಯಬಲ್ ಅನ್ನು ಸೇರಿಸಲಾಗುತ್ತದೆ ಎಂಬುದನ್ನು ಅದರ ಪ್ರಾಮುಖ್ಯತೆಯಿಂದ ನಿರ್ಧರಿಸಲಾಗುತ್ತದೆ. ಇದನ್ನು ವಿವಿಧ ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ಬಳಸಿ ಲೆಕ್ಕ ಹಾಕಬಹುದು. ಎಲ್ಲಾ ಅಸ್ಥಿರಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಮೂಲ ಅಂಕಿಅಂಶಗಳ ಮಾದರಿಯಲ್ಲಿ ಪಡೆದ ಪಿ-ಮೌಲ್ಯಗಳನ್ನು ಬಳಸುವುದು ಸಾಮಾನ್ಯ ಮಾರ್ಗವಾಗಿದೆ. ಕೆಲವೊಮ್ಮೆ ಫಾರ್ವರ್ಡ್ ಆಯ್ಕೆಯು ಮಾದರಿಯನ್ನು ಅತಿಯಾಗಿ ಹೊಂದಿಸಲು ಕಾರಣವಾಗಬಹುದು ಏಕೆಂದರೆ ಮಾದರಿಯಲ್ಲಿ ಹೆಚ್ಚು ಪರಸ್ಪರ ಸಂಬಂಧ ಹೊಂದಿರುವ ಅಸ್ಥಿರಗಳು ಇರಬಹುದು, ಅವರು ಮಾದರಿಗೆ ಅದೇ ಮಾಹಿತಿಯನ್ನು ಒದಗಿಸಿದರೂ ಸಹ (ಆದರೆ ಮಾದರಿಯು ಇನ್ನೂ ಸುಧಾರಣೆಯನ್ನು ತೋರಿಸುತ್ತದೆ).

ರಿವರ್ಸ್ ಆಯ್ಕೆ

ಹಿಮ್ಮುಖ ಆಯ್ಕೆಯು ಲಕ್ಷಣಗಳ ಹಂತ-ಹಂತದ ನಿರ್ಮೂಲನೆಯನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ಆದರೆ ಫಾರ್ವರ್ಡ್ ಆಯ್ಕೆಗೆ ಹೋಲಿಸಿದರೆ ವಿರುದ್ಧ ದಿಕ್ಕಿನಲ್ಲಿ. ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಆರಂಭಿಕ ಮಾದರಿಯು ಎಲ್ಲಾ ಸ್ವತಂತ್ರ ಅಸ್ಥಿರಗಳನ್ನು ಒಳಗೊಂಡಿದೆ. ಪ್ರತಿ ಪುನರಾವರ್ತನೆಯಲ್ಲಿ ಹೊಸ ರಿಗ್ರೆಷನ್ ಮಾದರಿಗೆ ಮೌಲ್ಯವನ್ನು ನೀಡದಿದ್ದರೆ ಅಸ್ಥಿರಗಳನ್ನು ತೆಗೆದುಹಾಕಲಾಗುತ್ತದೆ (ಪ್ರತಿ ಪುನರಾವರ್ತನೆಗೆ ಒಂದು). ವೈಶಿಷ್ಟ್ಯದ ಹೊರಗಿಡುವಿಕೆಯು ಆರಂಭಿಕ ಮಾದರಿಯ ಪಿ-ಮೌಲ್ಯಗಳನ್ನು ಆಧರಿಸಿದೆ. ಹೆಚ್ಚು ಪರಸ್ಪರ ಸಂಬಂಧ ಹೊಂದಿರುವ ಅಸ್ಥಿರಗಳನ್ನು ತೆಗೆದುಹಾಕುವಾಗ ಈ ವಿಧಾನವು ಅನಿಶ್ಚಿತತೆಯನ್ನು ಹೊಂದಿದೆ.

ರಿಕರ್ಸಿವ್ ಫೀಚರ್ ಎಲಿಮಿನೇಷನ್

RFE ಎನ್ನುವುದು ಗಮನಾರ್ಹವಾದ ವೈಶಿಷ್ಟ್ಯಗಳ ನಿಖರ ಸಂಖ್ಯೆಯನ್ನು ಆಯ್ಕೆಮಾಡಲು ವ್ಯಾಪಕವಾಗಿ ಬಳಸಲಾಗುವ ತಂತ್ರ/ಅಲ್ಗಾರಿದಮ್ ಆಗಿದೆ. ಫಲಿತಾಂಶಗಳ ಮೇಲೆ ಪ್ರಭಾವ ಬೀರುವ "ಅತ್ಯಂತ ಪ್ರಮುಖ" ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ವಿವರಿಸಲು ಕೆಲವೊಮ್ಮೆ ವಿಧಾನವನ್ನು ಬಳಸಲಾಗುತ್ತದೆ; ಮತ್ತು ಕೆಲವೊಮ್ಮೆ ಬಹಳ ದೊಡ್ಡ ಸಂಖ್ಯೆಯ ವೇರಿಯೇಬಲ್‌ಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಲು (ಸುಮಾರು 200-400), ಮತ್ತು ಮಾದರಿಗೆ ಕನಿಷ್ಠ ಕೆಲವು ಕೊಡುಗೆಗಳನ್ನು ನೀಡುವವರನ್ನು ಮಾತ್ರ ಉಳಿಸಿಕೊಳ್ಳಲಾಗುತ್ತದೆ ಮತ್ತು ಉಳಿದೆಲ್ಲವನ್ನೂ ಹೊರಗಿಡಲಾಗುತ್ತದೆ. RFE ಶ್ರೇಯಾಂಕ ವ್ಯವಸ್ಥೆಯನ್ನು ಬಳಸುತ್ತದೆ. ಡೇಟಾ ಸೆಟ್‌ನಲ್ಲಿರುವ ವೈಶಿಷ್ಟ್ಯಗಳಿಗೆ ಶ್ರೇಣಿಗಳನ್ನು ನಿಗದಿಪಡಿಸಲಾಗಿದೆ. ಈ ಶ್ರೇಣಿಗಳನ್ನು ನಂತರ ಪುನರಾವರ್ತಿತವಾಗಿ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಅವುಗಳ ನಡುವಿನ ಏಕರೂಪತೆ ಮತ್ತು ಮಾದರಿಯಲ್ಲಿ ಆ ವೈಶಿಷ್ಟ್ಯಗಳ ಪ್ರಾಮುಖ್ಯತೆಯ ಆಧಾರದ ಮೇಲೆ ತೆಗೆದುಹಾಕಲು ಬಳಸಲಾಗುತ್ತದೆ. ಶ್ರೇಯಾಂಕದ ವೈಶಿಷ್ಟ್ಯಗಳ ಜೊತೆಗೆ, ನಿರ್ದಿಷ್ಟ ಸಂಖ್ಯೆಯ ವೈಶಿಷ್ಟ್ಯಗಳಿಗೆ ಈ ವೈಶಿಷ್ಟ್ಯಗಳು ಮುಖ್ಯವೇ ಅಥವಾ ಇಲ್ಲವೇ ಎಂಬುದನ್ನು RFE ತೋರಿಸಬಹುದು (ಏಕೆಂದರೆ ಆಯ್ದ ಸಂಖ್ಯೆಯ ವೈಶಿಷ್ಟ್ಯಗಳು ಸೂಕ್ತವಾಗಿರದಿರುವ ಸಾಧ್ಯತೆ ಹೆಚ್ಚು, ಮತ್ತು ವೈಶಿಷ್ಟ್ಯಗಳ ಅತ್ಯುತ್ತಮ ಸಂಖ್ಯೆಯು ಹೆಚ್ಚು ಇರಬಹುದು ಅಥವಾ ಆಯ್ದ ಸಂಖ್ಯೆಗಿಂತ ಕಡಿಮೆ).

ವೈಶಿಷ್ಟ್ಯ ಪ್ರಾಮುಖ್ಯತೆ ರೇಖಾಚಿತ್ರ

ಯಂತ್ರ ಕಲಿಕೆ ಅಲ್ಗಾರಿದಮ್‌ಗಳ ಅರ್ಥವಿವರಣೆಯ ಕುರಿತು ಮಾತನಾಡುವಾಗ, ನಾವು ಸಾಮಾನ್ಯವಾಗಿ ರೇಖೀಯ ಹಿಂಜರಿತಗಳನ್ನು (p-ಮೌಲ್ಯಗಳನ್ನು ಬಳಸಿಕೊಂಡು ವೈಶಿಷ್ಟ್ಯಗಳ ಪ್ರಾಮುಖ್ಯತೆಯನ್ನು ವಿಶ್ಲೇಷಿಸಲು ನಿಮಗೆ ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ) ಮತ್ತು ನಿರ್ಧಾರ ವೃಕ್ಷಗಳನ್ನು (ಅಕ್ಷರಶಃ ಮರದ ರೂಪದಲ್ಲಿ ವೈಶಿಷ್ಟ್ಯಗಳ ಪ್ರಾಮುಖ್ಯತೆಯನ್ನು ತೋರಿಸುತ್ತದೆ, ಮತ್ತು ಅದೇ ಸಮಯದಲ್ಲಿ ಅವರ ಕ್ರಮಾನುಗತ). ಮತ್ತೊಂದೆಡೆ, ರ್ಯಾಂಡಮ್ ಫಾರೆಸ್ಟ್, ಲೈಟ್‌ಜಿಬಿಎಂ ಮತ್ತು ಎಕ್ಸ್‌ಜಿ ಬೂಸ್ಟ್‌ನಂತಹ ಅಲ್ಗಾರಿದಮ್‌ಗಳು ಸಾಮಾನ್ಯವಾಗಿ ವೈಶಿಷ್ಟ್ಯ ಪ್ರಾಮುಖ್ಯತೆಯ ರೇಖಾಚಿತ್ರವನ್ನು ಬಳಸುತ್ತವೆ, ಅಂದರೆ, ವೇರಿಯೇಬಲ್‌ಗಳ ರೇಖಾಚಿತ್ರ ಮತ್ತು “ಅವುಗಳ ಪ್ರಾಮುಖ್ಯತೆ ಸಂಖ್ಯೆಗಳನ್ನು” ಯೋಜಿಸಲಾಗಿದೆ. ವ್ಯವಹಾರದ ಮೇಲೆ ಅವುಗಳ ಪ್ರಭಾವದ ದೃಷ್ಟಿಯಿಂದ ಗುಣಲಕ್ಷಣಗಳ ಪ್ರಾಮುಖ್ಯತೆಗಾಗಿ ನೀವು ರಚನಾತ್ಮಕ ತಾರ್ಕಿಕತೆಯನ್ನು ಒದಗಿಸಬೇಕಾದಾಗ ಇದು ವಿಶೇಷವಾಗಿ ಉಪಯುಕ್ತವಾಗಿದೆ.

ಕ್ರಮಬದ್ಧಗೊಳಿಸುವಿಕೆ

ಪಕ್ಷಪಾತ ಮತ್ತು ವ್ಯತ್ಯಾಸದ ನಡುವಿನ ಸಮತೋಲನವನ್ನು ನಿಯಂತ್ರಿಸಲು ಕ್ರಮಬದ್ಧಗೊಳಿಸುವಿಕೆಯನ್ನು ಮಾಡಲಾಗುತ್ತದೆ. ತರಬೇತಿ ಡೇಟಾ ಸೆಟ್‌ನಲ್ಲಿ ಮಾದರಿಯು ಎಷ್ಟು ಹೆಚ್ಚು ಹೊಂದಿಕೊಳ್ಳುತ್ತದೆ ಎಂಬುದನ್ನು ಪಕ್ಷಪಾತ ತೋರಿಸುತ್ತದೆ. ತರಬೇತಿ ಮತ್ತು ಪರೀಕ್ಷಾ ಡೇಟಾಸೆಟ್‌ಗಳ ನಡುವೆ ಭವಿಷ್ಯವಾಣಿಗಳು ಎಷ್ಟು ವಿಭಿನ್ನವಾಗಿವೆ ಎಂಬುದನ್ನು ವಿಚಲನ ತೋರಿಸುತ್ತದೆ. ತಾತ್ತ್ವಿಕವಾಗಿ, ಪಕ್ಷಪಾತ ಮತ್ತು ವ್ಯತ್ಯಾಸ ಎರಡೂ ಚಿಕ್ಕದಾಗಿರಬೇಕು. ಇಲ್ಲಿಯೇ ಕ್ರಮಬದ್ಧಗೊಳಿಸುವಿಕೆ ರಕ್ಷಣೆಗೆ ಬರುತ್ತದೆ! ಎರಡು ಮುಖ್ಯ ತಂತ್ರಗಳಿವೆ:

L1 ರೆಗ್ಯುಲರೈಸೇಶನ್ - ಲಾಸ್ಸೊ: ಲಾಸ್ಸೊ ಮಾದರಿ ತೂಕವನ್ನು ಮಾದರಿಗೆ ತಮ್ಮ ಪ್ರಾಮುಖ್ಯತೆಯನ್ನು ಬದಲಾಯಿಸಲು ದಂಡ ವಿಧಿಸುತ್ತದೆ ಮತ್ತು ಅವುಗಳನ್ನು ಶೂನ್ಯಗೊಳಿಸಬಹುದು (ಅಂದರೆ ಅಂತಿಮ ಮಾದರಿಯಿಂದ ಆ ಅಸ್ಥಿರಗಳನ್ನು ತೆಗೆದುಹಾಕಬಹುದು). ವಿಶಿಷ್ಟವಾಗಿ, ಡೇಟಾಸೆಟ್ ಹೆಚ್ಚಿನ ಸಂಖ್ಯೆಯ ವೇರಿಯೇಬಲ್‌ಗಳನ್ನು ಹೊಂದಿರುವಾಗ ಲಾಸ್ಸೊವನ್ನು ಬಳಸಲಾಗುತ್ತದೆ ಮತ್ತು ಪ್ರಮುಖ ವೈಶಿಷ್ಟ್ಯಗಳು ಮಾದರಿಯ ಮೇಲೆ ಹೇಗೆ ಪರಿಣಾಮ ಬೀರುತ್ತವೆ ಎಂಬುದನ್ನು ಚೆನ್ನಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ನೀವು ಅವುಗಳಲ್ಲಿ ಕೆಲವನ್ನು ಹೊರಗಿಡಲು ಬಯಸುತ್ತೀರಿ (ಅಂದರೆ, ಲಾಸ್ಸೊ ಆಯ್ಕೆ ಮಾಡಿದ ಮತ್ತು ಪ್ರಾಮುಖ್ಯತೆಯನ್ನು ನಿಗದಿಪಡಿಸಿದ ವೈಶಿಷ್ಟ್ಯಗಳು).

L2 ರೆಗ್ಯುಲರೈಸೇಶನ್ - ರಿಡ್ಜ್ ವಿಧಾನ: ರಿಡ್ಜ್‌ನ ಕೆಲಸವು ಎಲ್ಲಾ ಅಸ್ಥಿರಗಳನ್ನು ಸಂಗ್ರಹಿಸುವುದು ಮತ್ತು ಅದೇ ಸಮಯದಲ್ಲಿ ಮಾದರಿಯ ಕಾರ್ಯಕ್ಷಮತೆಗೆ ಅವರ ಕೊಡುಗೆಯ ಆಧಾರದ ಮೇಲೆ ಅವುಗಳಿಗೆ ಪ್ರಾಮುಖ್ಯತೆಯನ್ನು ನೀಡುವುದು. ಡೇಟಾಸೆಟ್ ಕಡಿಮೆ ಸಂಖ್ಯೆಯ ಅಸ್ಥಿರಗಳನ್ನು ಹೊಂದಿದ್ದರೆ ರಿಡ್ಜ್ ಉತ್ತಮ ಆಯ್ಕೆಯಾಗಿದೆ ಮತ್ತು ಪಡೆದ ಫಲಿತಾಂಶಗಳು ಮತ್ತು ಫಲಿತಾಂಶಗಳನ್ನು ಅರ್ಥೈಸಲು ಅವೆಲ್ಲವೂ ಅಗತ್ಯವಾಗಿದೆ.

ರಿಡ್ಜ್ ಎಲ್ಲಾ ಅಸ್ಥಿರಗಳನ್ನು ಇಟ್ಟುಕೊಳ್ಳುವುದರಿಂದ ಮತ್ತು ಲಾಸ್ಸೊ ಅವುಗಳ ಪ್ರಾಮುಖ್ಯತೆಯನ್ನು ಸ್ಥಾಪಿಸುವ ಉತ್ತಮ ಕೆಲಸವನ್ನು ಮಾಡುವುದರಿಂದ, ಎಲಾಸ್ಟಿಕ್-ನೆಟ್ ಎಂದು ಕರೆಯಲ್ಪಡುವ ಎರಡೂ ಕ್ರಮಬದ್ಧಗೊಳಿಸುವಿಕೆಯ ಅತ್ಯುತ್ತಮ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಸಂಯೋಜಿಸುವ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗಿದೆ.

ಯಂತ್ರ ಕಲಿಕೆಗಾಗಿ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಲು ಇನ್ನೂ ಹಲವು ಮಾರ್ಗಗಳಿವೆ, ಆದರೆ ಮುಖ್ಯ ಆಲೋಚನೆ ಯಾವಾಗಲೂ ಒಂದೇ ಆಗಿರುತ್ತದೆ: ವೇರಿಯಬಲ್‌ಗಳ ಪ್ರಾಮುಖ್ಯತೆಯನ್ನು ಪ್ರದರ್ಶಿಸಿ ಮತ್ತು ಫಲಿತಾಂಶದ ಪ್ರಾಮುಖ್ಯತೆಯ ಆಧಾರದ ಮೇಲೆ ಅವುಗಳಲ್ಲಿ ಕೆಲವನ್ನು ತೆಗೆದುಹಾಕಿ. ಪ್ರಾಮುಖ್ಯತೆಯು ಬಹಳ ವ್ಯಕ್ತಿನಿಷ್ಠ ಪದವಾಗಿದೆ, ಏಕೆಂದರೆ ಇದು ಕೇವಲ ಒಂದಲ್ಲ, ಆದರೆ ಪ್ರಮುಖ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲು ಬಳಸಬಹುದಾದ ಮೆಟ್ರಿಕ್‌ಗಳು ಮತ್ತು ಚಾರ್ಟ್‌ಗಳ ಸಂಪೂರ್ಣ ಸೆಟ್.

ಓದಿದ್ದಕ್ಕೆ ಧನ್ಯವಾದಗಳು! ಸಂತೋಷದ ಕಲಿಕೆ!

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ