ಬಲವರ್ಧನೆಯ ಕಲಿಕೆ ಅಥವಾ ವಿಕಾಸಾತ್ಮಕ ತಂತ್ರಗಳು? - ಎರಡೂ

ಹಲೋ, ಹಬ್ರ್!

ಎರಡು ವರ್ಷಗಳಷ್ಟು ಹಳೆಯದಾದ, ಕೋಡ್ ಇಲ್ಲದೆ ಮತ್ತು ಸ್ಪಷ್ಟವಾಗಿ ಶೈಕ್ಷಣಿಕ ಸ್ವರೂಪದ ಪಠ್ಯಗಳ ಅನುವಾದಗಳನ್ನು ಇಲ್ಲಿ ಪೋಸ್ಟ್ ಮಾಡಲು ನಾವು ಆಗಾಗ್ಗೆ ನಿರ್ಧರಿಸುವುದಿಲ್ಲ - ಆದರೆ ಇಂದು ನಾವು ವಿನಾಯಿತಿ ನೀಡುತ್ತೇವೆ. ಲೇಖನದ ಶೀರ್ಷಿಕೆಯಲ್ಲಿ ಉಂಟಾದ ಸಂದಿಗ್ಧತೆಯು ನಮ್ಮ ಅನೇಕ ಓದುಗರನ್ನು ಚಿಂತೆ ಮಾಡುತ್ತದೆ ಎಂದು ನಾವು ಭಾವಿಸುತ್ತೇವೆ ಮತ್ತು ಈ ಪೋಸ್ಟ್ ಮೂಲದಲ್ಲಿ ವಾದಿಸುವ ಅಥವಾ ಈಗ ಅದನ್ನು ಓದುವ ವಿಕಸನೀಯ ಕಾರ್ಯತಂತ್ರಗಳ ಮೂಲಭೂತ ಕೆಲಸವನ್ನು ನೀವು ಈಗಾಗಲೇ ಓದಿದ್ದೀರಿ. ಬೆಕ್ಕಿಗೆ ಸ್ವಾಗತ!

ಬಲವರ್ಧನೆಯ ಕಲಿಕೆ ಅಥವಾ ವಿಕಾಸಾತ್ಮಕ ತಂತ್ರಗಳು? - ಎರಡೂ

ಮಾರ್ಚ್ 2017 ರಲ್ಲಿ, OpenAI ಪತ್ರಿಕೆಯೊಂದಿಗೆ ಆಳವಾದ ಕಲಿಕೆಯ ಸಮುದಾಯದಲ್ಲಿ ಅಲೆಗಳನ್ನು ಉಂಟುಮಾಡಿತು "ಬಲವರ್ಧನೆ ಕಲಿಕೆಗೆ ಸ್ಕೇಲೆಬಲ್ ಪರ್ಯಾಯವಾಗಿ ವಿಕಸನ ತಂತ್ರಗಳು" ಬಲವರ್ಧನೆಯ ಕಲಿಕೆ (ಆರ್ಎಲ್) ಒಂದು ಬೆಣೆಯಾಗಿಲ್ಲ ಎಂಬ ಅಂಶದ ಪರವಾಗಿ ಈ ಕೆಲಸವು ಪ್ರಭಾವಶಾಲಿ ಫಲಿತಾಂಶಗಳನ್ನು ವಿವರಿಸಿದೆ ಮತ್ತು ಸಂಕೀರ್ಣ ನರಮಂಡಲಗಳನ್ನು ತರಬೇತಿ ಮಾಡುವಾಗ, ಇತರ ವಿಧಾನಗಳನ್ನು ಪ್ರಯತ್ನಿಸಲು ಸಲಹೆ ನೀಡಲಾಗುತ್ತದೆ. ಬಲವರ್ಧನೆಯ ಕಲಿಕೆಯ ಪ್ರಾಮುಖ್ಯತೆ ಮತ್ತು ಸಮಸ್ಯೆ ಪರಿಹಾರವನ್ನು ಕಲಿಸಲು "ಹೊಂದಿರಬೇಕು" ತಂತ್ರಜ್ಞಾನವಾಗಿ ಅದರ ಸ್ಥಾನಮಾನಕ್ಕೆ ಎಷ್ಟು ಅರ್ಹವಾಗಿದೆ ಎಂಬುದರ ಕುರಿತು ಚರ್ಚೆಯು ನಂತರ ಸ್ಫೋಟಿಸಿತು. ಇಲ್ಲಿ ನಾನು ಈ ಎರಡು ತಂತ್ರಜ್ಞಾನಗಳನ್ನು ಸ್ಪರ್ಧಾತ್ಮಕವೆಂದು ಪರಿಗಣಿಸಬಾರದು ಎಂದು ಹೇಳಲು ಬಯಸುತ್ತೇನೆ, ಅವುಗಳಲ್ಲಿ ಒಂದು ಸ್ಪಷ್ಟವಾಗಿ ಇತರಕ್ಕಿಂತ ಉತ್ತಮವಾಗಿದೆ; ಇದಕ್ಕೆ ವಿರುದ್ಧವಾಗಿ, ಅವು ಅಂತಿಮವಾಗಿ ಪರಸ್ಪರ ಪೂರಕವಾಗಿರುತ್ತವೆ. ವಾಸ್ತವವಾಗಿ, ರಚಿಸಲು ಏನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ ಎಂಬುದರ ಕುರಿತು ನೀವು ಸ್ವಲ್ಪ ಯೋಚಿಸಿದರೆ ಸಾಮಾನ್ಯ AI ಮತ್ತು ಅಂತಹ ವ್ಯವಸ್ಥೆಗಳು, ಅವುಗಳ ಅಸ್ತಿತ್ವದ ಉದ್ದಕ್ಕೂ ಕಲಿಕೆ, ತೀರ್ಪು ಮತ್ತು ಯೋಜನೆಗೆ ಸಮರ್ಥವಾಗಿರುತ್ತವೆ, ನಂತರ ನಾವು ಈ ಅಥವಾ ಆ ಸಂಯೋಜಿತ ಪರಿಹಾರದ ಅಗತ್ಯವಿರುತ್ತದೆ ಎಂಬ ತೀರ್ಮಾನಕ್ಕೆ ಬರುತ್ತೇವೆ. ಅಂದಹಾಗೆ, ಪ್ರಕೃತಿಯು ನಿಖರವಾಗಿ ಈ ಸಂಯೋಜಿತ ಪರಿಹಾರವಾಗಿದೆ, ಇದು ವಿಕಾಸದ ಸಮಯದಲ್ಲಿ ಸಂಕೀರ್ಣ ಬುದ್ಧಿವಂತಿಕೆಯೊಂದಿಗೆ ಸಸ್ತನಿಗಳು ಮತ್ತು ಇತರ ಉನ್ನತ ಪ್ರಾಣಿಗಳನ್ನು ನೀಡಿತು.

ವಿಕಾಸಾತ್ಮಕ ತಂತ್ರಗಳು

OpenAI ಪತ್ರಿಕೆಯ ಮುಖ್ಯ ಪ್ರಬಂಧವೆಂದರೆ, ಸಾಂಪ್ರದಾಯಿಕ ಬ್ಯಾಕ್‌ಪ್ರೊಪಗೇಷನ್‌ನೊಂದಿಗೆ ಬಲವರ್ಧನೆಯ ಕಲಿಕೆಯನ್ನು ಬಳಸುವ ಬದಲು, ಅವರು "ವಿಕಸನೀಯ ತಂತ್ರ" (ES) ಎಂದು ಕರೆಯುವ ಸಂಕೀರ್ಣ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲು ನರಮಂಡಲವನ್ನು ಯಶಸ್ವಿಯಾಗಿ ತರಬೇತಿ ನೀಡಿದರು. ಈ ES ವಿಧಾನವು ನೆಟ್‌ವರ್ಕ್-ವ್ಯಾಪಕ ತೂಕದ ವಿತರಣೆಯನ್ನು ನಿರ್ವಹಿಸುವುದನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ಸಮಾನಾಂತರವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಬಹು ಏಜೆಂಟ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ ಮತ್ತು ಈ ವಿತರಣೆಯಿಂದ ಆಯ್ಕೆ ಮಾಡಲಾದ ನಿಯತಾಂಕಗಳನ್ನು ಬಳಸುತ್ತದೆ. ಪ್ರತಿ ಏಜೆಂಟ್ ತನ್ನದೇ ಆದ ಪರಿಸರದಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಮತ್ತು ಸಂಚಿಕೆಯ ನಿರ್ದಿಷ್ಟ ಸಂಖ್ಯೆಯ ಸಂಚಿಕೆಗಳು ಅಥವಾ ಹಂತಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸಿದ ನಂತರ, ಅಲ್ಗಾರಿದಮ್ ಸಂಚಿತ ಪ್ರತಿಫಲವನ್ನು ಹಿಂದಿರುಗಿಸುತ್ತದೆ, ಇದನ್ನು ಫಿಟ್‌ನೆಸ್ ಸ್ಕೋರ್‌ನಂತೆ ವ್ಯಕ್ತಪಡಿಸಲಾಗುತ್ತದೆ. ಈ ಮೌಲ್ಯವನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಂಡು, ಪ್ಯಾರಾಮೀಟರ್ಗಳ ವಿತರಣೆಯನ್ನು ಹೆಚ್ಚು ಯಶಸ್ವಿ ಏಜೆಂಟ್ಗಳ ಕಡೆಗೆ ವರ್ಗಾಯಿಸಬಹುದು, ಕಡಿಮೆ ಯಶಸ್ಸನ್ನು ಕಳೆದುಕೊಳ್ಳಬಹುದು. ನೂರಾರು ಏಜೆಂಟ್‌ಗಳ ಭಾಗವಹಿಸುವಿಕೆಯೊಂದಿಗೆ ಅಂತಹ ಕಾರ್ಯಾಚರಣೆಯನ್ನು ಲಕ್ಷಾಂತರ ಬಾರಿ ಪುನರಾವರ್ತಿಸುವ ಮೂಲಕ, ತೂಕದ ವಿತರಣೆಯನ್ನು ಜಾಗಕ್ಕೆ ಸರಿಸಲು ಸಾಧ್ಯವಿದೆ, ಅದು ಏಜೆಂಟರು ಅವರಿಗೆ ನಿಯೋಜಿಸಲಾದ ಕಾರ್ಯವನ್ನು ಪರಿಹರಿಸಲು ಉತ್ತಮ-ಗುಣಮಟ್ಟದ ನೀತಿಯನ್ನು ರೂಪಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ. ವಾಸ್ತವವಾಗಿ, ಲೇಖನದಲ್ಲಿ ಪ್ರಸ್ತುತಪಡಿಸಲಾದ ಫಲಿತಾಂಶಗಳು ಆಕರ್ಷಕವಾಗಿವೆ: ನೀವು ಸಾವಿರ ಏಜೆಂಟ್‌ಗಳನ್ನು ಸಮಾನಾಂತರವಾಗಿ ಓಡಿಸಿದರೆ, ಎರಡು ಕಾಲುಗಳ ಮೇಲೆ ಮಾನವರೂಪದ ಲೊಕೊಮೊಷನ್ ಅನ್ನು ಅರ್ಧ ಗಂಟೆಗಿಂತ ಕಡಿಮೆ ಅವಧಿಯಲ್ಲಿ ಕಲಿಯಬಹುದು ಎಂದು ತೋರಿಸಲಾಗಿದೆ (ಅತ್ಯಂತ ಸುಧಾರಿತ ಆರ್‌ಎಲ್ ವಿಧಾನಗಳಿಗೆ ಸಹ ಹೆಚ್ಚು ಖರ್ಚು ಮಾಡಬೇಕಾಗುತ್ತದೆ. ಇದರ ಮೇಲೆ ಒಂದು ಗಂಟೆಗಿಂತ ಹೆಚ್ಚು). ಹೆಚ್ಚು ವಿವರವಾದ ಮಾಹಿತಿಗಾಗಿ, ಅತ್ಯುತ್ತಮವಾದದನ್ನು ಓದಲು ನಾನು ಶಿಫಾರಸು ಮಾಡುತ್ತೇವೆ ಪೋಸ್ಟ್ ಪ್ರಯೋಗದ ಲೇಖಕರಿಂದ, ಹಾಗೆಯೇ ವೈಜ್ಞಾನಿಕ ಲೇಖನ.

ಬಲವರ್ಧನೆಯ ಕಲಿಕೆ ಅಥವಾ ವಿಕಾಸಾತ್ಮಕ ತಂತ್ರಗಳು? - ಎರಡೂ

ಮಾನವರೂಪದ ನೇರ ನಡಿಗೆಯನ್ನು ಕಲಿಸಲು ವಿಭಿನ್ನ ತಂತ್ರಗಳು, OpenAI ನಿಂದ ES ವಿಧಾನವನ್ನು ಬಳಸಿಕೊಂಡು ಅಧ್ಯಯನ ಮಾಡಲಾಗಿದೆ.

ಕಪ್ಪು ಪೆಟ್ಟಿಗೆ

ಈ ವಿಧಾನದ ಉತ್ತಮ ಪ್ರಯೋಜನವೆಂದರೆ ಅದನ್ನು ಸುಲಭವಾಗಿ ಸಮಾನಾಂತರಗೊಳಿಸಬಹುದು. A3C ಯಂತಹ RL ವಿಧಾನಗಳು, ವರ್ಕರ್ ಥ್ರೆಡ್‌ಗಳು ಮತ್ತು ಪ್ಯಾರಾಮೀಟರ್ ಸರ್ವರ್ ನಡುವೆ ಮಾಹಿತಿಯನ್ನು ವಿನಿಮಯ ಮಾಡಿಕೊಳ್ಳುವ ಅಗತ್ಯವಿರುವಾಗ, ES ಗೆ ಫಿಟ್‌ನೆಸ್ ಅಂದಾಜುಗಳು ಮತ್ತು ಸಾಮಾನ್ಯೀಕರಿಸಿದ ಪ್ಯಾರಾಮೀಟರ್ ವಿತರಣೆಯ ಮಾಹಿತಿಯ ಅಗತ್ಯವಿದೆ. ಈ ಸರಳತೆಯಿಂದಾಗಿ ಈ ವಿಧಾನವು ಆಧುನಿಕ RL ವಿಧಾನಗಳಿಗಿಂತ ಸ್ಕೇಲಿಂಗ್ ಸಾಮರ್ಥ್ಯಗಳ ವಿಷಯದಲ್ಲಿ ಬಹಳ ಮುಂದಿದೆ. ಆದಾಗ್ಯೂ, ಇದೆಲ್ಲವೂ ವ್ಯರ್ಥವಾಗಿ ಬರುವುದಿಲ್ಲ: ಕಪ್ಪು ಪೆಟ್ಟಿಗೆಯ ತತ್ತ್ವದ ಪ್ರಕಾರ ನೀವು ನೆಟ್ವರ್ಕ್ ಅನ್ನು ಉತ್ತಮಗೊಳಿಸಬೇಕು. ಈ ಸಂದರ್ಭದಲ್ಲಿ, "ಕಪ್ಪು ಪೆಟ್ಟಿಗೆ" ಎಂದರೆ ತರಬೇತಿಯ ಸಮಯದಲ್ಲಿ ನೆಟ್‌ವರ್ಕ್‌ನ ಆಂತರಿಕ ರಚನೆಯನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ನಿರ್ಲಕ್ಷಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಒಟ್ಟಾರೆ ಫಲಿತಾಂಶವನ್ನು (ಕಂತುಗಳಿಗೆ ಪ್ರತಿಫಲ) ಮಾತ್ರ ಬಳಸಲಾಗುತ್ತದೆ ಮತ್ತು ನಿರ್ದಿಷ್ಟ ನೆಟ್‌ವರ್ಕ್‌ನ ತೂಕವು ಅದನ್ನು ಅವಲಂಬಿಸಿರುತ್ತದೆ ನಂತರದ ಪೀಳಿಗೆಯಿಂದ ಆನುವಂಶಿಕವಾಗಿ ಪಡೆಯಲಾಗುತ್ತದೆ. ಪರಿಸರದಿಂದ ನಾವು ಹೆಚ್ಚಿನ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಸ್ವೀಕರಿಸದ ಸಂದರ್ಭಗಳಲ್ಲಿ-ಮತ್ತು ಅನೇಕ ಸಾಂಪ್ರದಾಯಿಕ RL ಸಮಸ್ಯೆಗಳಲ್ಲಿ ಪ್ರತಿಫಲಗಳ ಹರಿವು ತುಂಬಾ ವಿರಳವಾಗಿದೆ-ಸಮಸ್ಯೆಯು "ಭಾಗಶಃ ಕಪ್ಪು ಪೆಟ್ಟಿಗೆ" ಯಿಂದ "ಸಂಪೂರ್ಣವಾಗಿ ಕಪ್ಪು ಪೆಟ್ಟಿಗೆ" ಗೆ ಹೋಗುತ್ತದೆ. ಈ ಸಂದರ್ಭದಲ್ಲಿ, ನೀವು ಉತ್ಪಾದಕತೆಯನ್ನು ಗಣನೀಯವಾಗಿ ಹೆಚ್ಚಿಸಬಹುದು, ಆದ್ದರಿಂದ, ಸಹಜವಾಗಿ, ಅಂತಹ ರಾಜಿ ಸಮರ್ಥನೆಯಾಗಿದೆ. "ಹೇಗಾದರೂ ಹತಾಶವಾಗಿ ಗದ್ದಲದ ವೇಳೆ ಗ್ರೇಡಿಯಂಟ್‌ಗಳು ಯಾರಿಗೆ ಬೇಕು?" - ಇದು ಸಾಮಾನ್ಯ ಅಭಿಪ್ರಾಯ.

ಆದಾಗ್ಯೂ, ಪ್ರತಿಕ್ರಿಯೆ ಹೆಚ್ಚು ಸಕ್ರಿಯವಾಗಿರುವ ಸಂದರ್ಭಗಳಲ್ಲಿ, ES ಗೆ ವಿಷಯಗಳು ತಪ್ಪಾಗಲು ಪ್ರಾರಂಭಿಸುತ್ತವೆ. OpenAI ತಂಡವು ES ಅನ್ನು ಬಳಸಿಕೊಂಡು ಸರಳ MNIST ವರ್ಗೀಕರಣ ನೆಟ್‌ವರ್ಕ್ ಅನ್ನು ಹೇಗೆ ತರಬೇತಿ ನೀಡಲಾಗಿದೆ ಎಂಬುದನ್ನು ವಿವರಿಸುತ್ತದೆ ಮತ್ತು ಈ ಬಾರಿ ತರಬೇತಿಯು 1000 ಪಟ್ಟು ನಿಧಾನವಾಗಿದೆ. ವಾಸ್ತವವಾಗಿ ಚಿತ್ರ ವರ್ಗೀಕರಣದಲ್ಲಿ ಗ್ರೇಡಿಯಂಟ್ ಸಿಗ್ನಲ್ ನೆಟ್‌ವರ್ಕ್‌ಗೆ ಉತ್ತಮ ವರ್ಗೀಕರಣವನ್ನು ಹೇಗೆ ಕಲಿಸುವುದು ಎಂಬುದರ ಕುರಿತು ಅತ್ಯಂತ ತಿಳಿವಳಿಕೆ ನೀಡುತ್ತದೆ. ಹೀಗಾಗಿ, RL ತಂತ್ರದೊಂದಿಗೆ ಸಮಸ್ಯೆ ಕಡಿಮೆಯಾಗಿದೆ ಮತ್ತು ಗದ್ದಲದ ಇಳಿಜಾರುಗಳನ್ನು ಉತ್ಪಾದಿಸುವ ಪರಿಸರದಲ್ಲಿ ವಿರಳವಾದ ಪ್ರತಿಫಲಗಳೊಂದಿಗೆ ಹೆಚ್ಚು.

ಪ್ರಕೃತಿಯ ಪರಿಹಾರ

ನಾವು ಪ್ರಕೃತಿಯ ಉದಾಹರಣೆಯಿಂದ ಕಲಿಯಲು ಪ್ರಯತ್ನಿಸಿದರೆ, AI ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವ ಮಾರ್ಗಗಳ ಬಗ್ಗೆ ಯೋಚಿಸಿದರೆ, ನಂತರ ಕೆಲವು ಸಂದರ್ಭಗಳಲ್ಲಿ AI ಎಂದು ಭಾವಿಸಬಹುದು ಸಮಸ್ಯೆ-ಆಧಾರಿತ ವಿಧಾನ. ಎಲ್ಲಾ ನಂತರ, ಕಂಪ್ಯೂಟರ್ ವಿಜ್ಞಾನಿಗಳು ಸರಳವಾಗಿ ಹೊಂದಿರದ ನಿರ್ಬಂಧಗಳಲ್ಲಿ ಪ್ರಕೃತಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಒಂದು ನಿರ್ದಿಷ್ಟ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು ಸಂಪೂರ್ಣವಾಗಿ ಸೈದ್ಧಾಂತಿಕ ವಿಧಾನವು ಪ್ರಾಯೋಗಿಕ ಪರ್ಯಾಯಗಳಿಗಿಂತ ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿ ಪರಿಹಾರಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ ಎಂಬ ಅಭಿಪ್ರಾಯವಿದೆ. ಆದಾಗ್ಯೂ, ಕೆಲವು ನಿರ್ಬಂಧಗಳ ಅಡಿಯಲ್ಲಿ (ಭೂಮಿ) ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಕ್ರಿಯಾತ್ಮಕ ವ್ಯವಸ್ಥೆಯು ಹೇಗೆ ಹೊಂದಿಕೊಳ್ಳುವ ಮತ್ತು ಸಂಕೀರ್ಣ ನಡವಳಿಕೆಯ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿರುವ ಏಜೆಂಟ್‌ಗಳನ್ನು (ಪ್ರಾಣಿಗಳು, ನಿರ್ದಿಷ್ಟವಾಗಿ ಸಸ್ತನಿಗಳು) ಉತ್ಪಾದಿಸಿದೆ ಎಂಬುದನ್ನು ಪರೀಕ್ಷಿಸಲು ಇದು ಯೋಗ್ಯವಾಗಿದೆ ಎಂದು ನಾನು ಇನ್ನೂ ಭಾವಿಸುತ್ತೇನೆ. ಸಿಮ್ಯುಲೇಟೆಡ್ ಡೇಟಾ ಸೈನ್ಸ್ ವರ್ಲ್ಡ್‌ಗಳಲ್ಲಿ ಈ ಕೆಲವು ನಿರ್ಬಂಧಗಳು ಅನ್ವಯಿಸುವುದಿಲ್ಲವಾದರೂ, ಇತರವುಗಳು ಉತ್ತಮವಾಗಿವೆ.

ಸಸ್ತನಿಗಳ ಬೌದ್ಧಿಕ ನಡವಳಿಕೆಯನ್ನು ಪರಿಶೀಲಿಸಿದ ನಂತರ, ನಿಕಟವಾಗಿ ಪರಸ್ಪರ ಸಂಬಂಧ ಹೊಂದಿರುವ ಎರಡು ಪ್ರಕ್ರಿಯೆಗಳ ಸಂಕೀರ್ಣ ಪರಸ್ಪರ ಪ್ರಭಾವದ ಪರಿಣಾಮವಾಗಿ ಇದು ರೂಪುಗೊಂಡಿದೆ ಎಂದು ನಾವು ನೋಡುತ್ತೇವೆ: ಇತರರ ಅನುಭವಗಳಿಂದ ಕಲಿಯುವುದು и ಮಾಡುತ್ತಾ ಕಲಿಯುವುದು. ಮೊದಲನೆಯದನ್ನು ಸಾಮಾನ್ಯವಾಗಿ ನೈಸರ್ಗಿಕ ಆಯ್ಕೆಯಿಂದ ನಡೆಸಲ್ಪಡುವ ವಿಕಾಸದೊಂದಿಗೆ ಸಮೀಕರಿಸಲಾಗುತ್ತದೆ, ಆದರೆ ಇಲ್ಲಿ ನಾನು ಎಪಿಜೆನೆಟಿಕ್ಸ್, ಮೈಕ್ರೋಬಯೋಮ್‌ಗಳು ಮತ್ತು ತಳೀಯವಾಗಿ ಸಂಬಂಧವಿಲ್ಲದ ಜೀವಿಗಳ ನಡುವಿನ ಅನುಭವಗಳ ಹಂಚಿಕೆಯನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುವ ಇತರ ಕಾರ್ಯವಿಧಾನಗಳನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳಲು ವಿಶಾಲವಾದ ಪದವನ್ನು ಬಳಸುತ್ತೇನೆ. ಎರಡನೆಯ ಪ್ರಕ್ರಿಯೆ, ಅನುಭವದಿಂದ ಕಲಿಯುವುದು, ಪ್ರಾಣಿಯು ತನ್ನ ಜೀವನದುದ್ದಕ್ಕೂ ಕಲಿಯಲು ನಿರ್ವಹಿಸುವ ಎಲ್ಲಾ ಮಾಹಿತಿಯಾಗಿದೆ, ಮತ್ತು ಈ ಮಾಹಿತಿಯನ್ನು ಹೊರಗಿನ ಪ್ರಪಂಚದೊಂದಿಗೆ ಈ ಪ್ರಾಣಿಯ ಪರಸ್ಪರ ಕ್ರಿಯೆಯಿಂದ ನೇರವಾಗಿ ನಿರ್ಧರಿಸಲಾಗುತ್ತದೆ. ಕಲಿಕೆಯ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಅಂತರ್ಗತವಾಗಿರುವ ಸಂವಹನವನ್ನು ಮಾಸ್ಟರಿಂಗ್ ಮಾಡಲು ವಸ್ತುಗಳನ್ನು ಗುರುತಿಸಲು ಕಲಿಯುವಿಕೆಯಿಂದ ಈ ವರ್ಗವು ಎಲ್ಲವನ್ನೂ ಒಳಗೊಂಡಿದೆ.

ಸ್ಥೂಲವಾಗಿ ಹೇಳುವುದಾದರೆ, ಪ್ರಕೃತಿಯಲ್ಲಿ ಸಂಭವಿಸುವ ಈ ಎರಡು ಪ್ರಕ್ರಿಯೆಗಳನ್ನು ನರಮಂಡಲವನ್ನು ಉತ್ತಮಗೊಳಿಸಲು ಎರಡು ಆಯ್ಕೆಗಳೊಂದಿಗೆ ಹೋಲಿಸಬಹುದು. ವಿಕಸನೀಯ ತಂತ್ರಗಳು, ಇಳಿಜಾರುಗಳ ಬಗ್ಗೆ ಮಾಹಿತಿಯನ್ನು ಜೀವಿಗಳ ಬಗ್ಗೆ ಮಾಹಿತಿಯನ್ನು ನವೀಕರಿಸಲು ಬಳಸಲಾಗುತ್ತದೆ, ಇತರರ ಅನುಭವದಿಂದ ಕಲಿಯಲು ಹತ್ತಿರ ಬರುತ್ತದೆ. ಅಂತೆಯೇ, ಗ್ರೇಡಿಯಂಟ್ ವಿಧಾನಗಳು, ಒಂದು ಅಥವಾ ಇನ್ನೊಂದು ಅನುಭವವನ್ನು ಪಡೆಯುವುದು ಏಜೆಂಟ್ ನಡವಳಿಕೆಯಲ್ಲಿ ಒಂದು ಅಥವಾ ಇನ್ನೊಂದು ಬದಲಾವಣೆಗೆ ಕಾರಣವಾಗುತ್ತದೆ, ಒಬ್ಬರ ಸ್ವಂತ ಅನುಭವದಿಂದ ಕಲಿಯುವುದಕ್ಕೆ ಹೋಲಿಸಬಹುದು. ಈ ಎರಡು ವಿಧಾನಗಳಲ್ಲಿ ಪ್ರತಿಯೊಂದೂ ಪ್ರಾಣಿಗಳಲ್ಲಿ ಅಭಿವೃದ್ಧಿಪಡಿಸುವ ಬುದ್ಧಿವಂತ ನಡವಳಿಕೆ ಅಥವಾ ಸಾಮರ್ಥ್ಯಗಳ ಬಗ್ಗೆ ನಾವು ಯೋಚಿಸಿದರೆ, ಹೋಲಿಕೆ ಹೆಚ್ಚು ಸ್ಪಷ್ಟವಾಗುತ್ತದೆ. ಎರಡೂ ಸಂದರ್ಭಗಳಲ್ಲಿ, "ವಿಕಸನೀಯ ವಿಧಾನಗಳು" ಪ್ರತಿಕ್ರಿಯಾತ್ಮಕ ನಡವಳಿಕೆಗಳ ಅಧ್ಯಯನವನ್ನು ಉತ್ತೇಜಿಸುತ್ತದೆ ಅದು ಒಂದು ನಿರ್ದಿಷ್ಟ ಫಿಟ್ನೆಸ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ (ಜೀವಂತವಾಗಿರಲು ಸಾಕಷ್ಟು). ನಡೆಯಲು ಅಥವಾ ಸೆರೆಯಿಂದ ತಪ್ಪಿಸಿಕೊಳ್ಳಲು ಕಲಿಯುವುದು ಅನೇಕ ಸಂದರ್ಭಗಳಲ್ಲಿ ಆನುವಂಶಿಕ ಮಟ್ಟದಲ್ಲಿ ಅನೇಕ ಪ್ರಾಣಿಗಳಲ್ಲಿ "ಹಾರ್ಡ್-ವೈರ್ಡ್" ಆಗಿರುವ ಹೆಚ್ಚು "ಸಹಜ" ನಡವಳಿಕೆಗಳಿಗೆ ಸಮನಾಗಿರುತ್ತದೆ. ಹೆಚ್ಚುವರಿಯಾಗಿ, ರಿವಾರ್ಡ್ ಸಿಗ್ನಲ್ ಅತ್ಯಂತ ಅಪರೂಪದ ಸಂದರ್ಭಗಳಲ್ಲಿ ವಿಕಸನೀಯ ವಿಧಾನಗಳು ಅನ್ವಯಿಸುತ್ತವೆ ಎಂದು ಈ ಉದಾಹರಣೆಯು ದೃಢಪಡಿಸುತ್ತದೆ (ಉದಾಹರಣೆಗೆ, ಮಗುವನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಬೆಳೆಸುವ ಸಂಗತಿ). ಅಂತಹ ಸಂದರ್ಭದಲ್ಲಿ, ಈ ಸತ್ಯವು ಸಂಭವಿಸುವ ಹಲವು ವರ್ಷಗಳ ಮೊದಲು ನಿರ್ವಹಿಸಲಾದ ಯಾವುದೇ ನಿರ್ದಿಷ್ಟ ಕ್ರಿಯೆಗಳೊಂದಿಗೆ ಪ್ರತಿಫಲವನ್ನು ಪರಸ್ಪರ ಸಂಬಂಧಿಸುವುದು ಅಸಾಧ್ಯ. ಮತ್ತೊಂದೆಡೆ, ES ವಿಫಲವಾದ ಪ್ರಕರಣವನ್ನು ನಾವು ಪರಿಗಣಿಸಿದರೆ, ಅವುಗಳೆಂದರೆ ಇಮೇಜ್ ವರ್ಗೀಕರಣ, ಫಲಿತಾಂಶಗಳು 100-ಪ್ಲಸ್ ವರ್ಷಗಳಲ್ಲಿ ನಡೆಸಿದ ಲೆಕ್ಕವಿಲ್ಲದಷ್ಟು ನಡವಳಿಕೆಯ ಮಾನಸಿಕ ಪ್ರಯೋಗಗಳಲ್ಲಿ ಸಾಧಿಸಿದ ಪ್ರಾಣಿ ಕಲಿಕೆಯ ಫಲಿತಾಂಶಗಳಿಗೆ ಗಮನಾರ್ಹವಾಗಿ ಹೋಲಿಸಬಹುದು.

ಪ್ರಾಣಿಗಳಿಂದ ಕಲಿಯುವುದು

ಬಲವರ್ಧನೆಯ ಕಲಿಕೆಯಲ್ಲಿ ಬಳಸುವ ವಿಧಾನಗಳು ಅನೇಕ ಸಂದರ್ಭಗಳಲ್ಲಿ ಮಾನಸಿಕ ಸಾಹಿತ್ಯದಿಂದ ನೇರವಾಗಿ ತೆಗೆದುಕೊಳ್ಳಲಾಗಿದೆ ಆಪರೇಟಿಂಗ್ ಕಂಡೀಷನಿಂಗ್, ಮತ್ತು ಆಪರೇಂಟ್ ಕಂಡೀಷನಿಂಗ್ ಅನ್ನು ಪ್ರಾಣಿಗಳ ಮನೋವಿಜ್ಞಾನವನ್ನು ಬಳಸಿಕೊಂಡು ಅಧ್ಯಯನ ಮಾಡಲಾಯಿತು. ಅಂದಹಾಗೆ, ಬಲವರ್ಧನೆಯ ಕಲಿಕೆಯ ಇಬ್ಬರು ಸಂಸ್ಥಾಪಕರಲ್ಲಿ ಒಬ್ಬರಾದ ರಿಚರ್ಡ್ ಸುಟ್ಟನ್ ಅವರು ಮನೋವಿಜ್ಞಾನದಲ್ಲಿ ಸ್ನಾತಕೋತ್ತರ ಪದವಿಯನ್ನು ಹೊಂದಿದ್ದಾರೆ. ಆಪರೇಟಿಂಗ್ ಕಂಡೀಷನಿಂಗ್ ಸಂದರ್ಭದಲ್ಲಿ, ಪ್ರಾಣಿಗಳು ನಿರ್ದಿಷ್ಟ ನಡವಳಿಕೆಯ ಮಾದರಿಗಳೊಂದಿಗೆ ಪ್ರತಿಫಲ ಅಥವಾ ಶಿಕ್ಷೆಯನ್ನು ಸಂಯೋಜಿಸಲು ಕಲಿಯುತ್ತವೆ. ತರಬೇತುದಾರರು ಮತ್ತು ಸಂಶೋಧಕರು ಈ ಪ್ರತಿಫಲ ಸಂಘವನ್ನು ಒಂದು ರೀತಿಯಲ್ಲಿ ಅಥವಾ ಇನ್ನೊಂದರಲ್ಲಿ ಕುಶಲತೆಯಿಂದ ನಿರ್ವಹಿಸಬಹುದು, ಬುದ್ಧಿವಂತಿಕೆ ಅಥವಾ ಕೆಲವು ನಡವಳಿಕೆಗಳನ್ನು ಪ್ರದರ್ಶಿಸಲು ಪ್ರಾಣಿಗಳನ್ನು ಪ್ರಚೋದಿಸಬಹುದು. ಆದಾಗ್ಯೂ, ಪ್ರಾಣಿ ಸಂಶೋಧನೆಯಲ್ಲಿ ಬಳಸಿದಂತೆ ಆಪರೇಂಟ್ ಕಂಡೀಷನಿಂಗ್, ಪ್ರಾಣಿಗಳು ತಮ್ಮ ಜೀವನದುದ್ದಕ್ಕೂ ಕಲಿಯುವ ಆಧಾರದ ಮೇಲೆ ಅದೇ ಕಂಡೀಷನಿಂಗ್‌ನ ಹೆಚ್ಚು ಸ್ಪಷ್ಟವಾದ ರೂಪಕ್ಕಿಂತ ಹೆಚ್ಚೇನೂ ಅಲ್ಲ. ಪರಿಸರದಿಂದ ಧನಾತ್ಮಕ ಬಲವರ್ಧನೆಯ ಸಂಕೇತಗಳನ್ನು ನಾವು ನಿರಂತರವಾಗಿ ಸ್ವೀಕರಿಸುತ್ತೇವೆ ಮತ್ತು ಅದಕ್ಕೆ ಅನುಗುಣವಾಗಿ ನಮ್ಮ ನಡವಳಿಕೆಯನ್ನು ಸರಿಹೊಂದಿಸುತ್ತೇವೆ. ವಾಸ್ತವವಾಗಿ, ಅನೇಕ ನರವಿಜ್ಞಾನಿಗಳು ಮತ್ತು ಅರಿವಿನ ವಿಜ್ಞಾನಿಗಳು ಮಾನವರು ಮತ್ತು ಇತರ ಪ್ರಾಣಿಗಳು ವಾಸ್ತವವಾಗಿ ಇನ್ನೂ ಹೆಚ್ಚಿನ ಮಟ್ಟದಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ ಮತ್ತು ಸಂಭಾವ್ಯ ಪ್ರತಿಫಲಗಳ ಆಧಾರದ ಮೇಲೆ ಭವಿಷ್ಯದ ಸಂದರ್ಭಗಳಲ್ಲಿ ತಮ್ಮ ನಡವಳಿಕೆಯ ಫಲಿತಾಂಶವನ್ನು ಊಹಿಸಲು ನಿರಂತರವಾಗಿ ಕಲಿಯುತ್ತಾರೆ ಎಂದು ನಂಬುತ್ತಾರೆ.

ಅನುಭವದಿಂದ ಕಲಿಯುವಲ್ಲಿ ಮುನ್ಸೂಚನೆಯ ಕೇಂದ್ರ ಪಾತ್ರವು ಮೇಲೆ ವಿವರಿಸಿದ ಡೈನಾಮಿಕ್ಸ್ ಅನ್ನು ಗಮನಾರ್ಹ ರೀತಿಯಲ್ಲಿ ಬದಲಾಯಿಸುತ್ತದೆ. ಹಿಂದೆ ಬಹಳ ವಿರಳವೆಂದು ಪರಿಗಣಿಸಲ್ಪಟ್ಟ ಸಿಗ್ನಲ್ (ಎಪಿಸೋಡಿಕ್ ಬಹುಮಾನ) ತುಂಬಾ ದಟ್ಟವಾಗಿರುತ್ತದೆ. ಸೈದ್ಧಾಂತಿಕವಾಗಿ, ಪರಿಸ್ಥಿತಿಯು ಈ ರೀತಿಯಾಗಿರುತ್ತದೆ: ಯಾವುದೇ ಸಮಯದಲ್ಲಿ, ಸಸ್ತನಿಗಳ ಮೆದುಳು ಸಂವೇದನಾ ಪ್ರಚೋದನೆಗಳು ಮತ್ತು ಕ್ರಿಯೆಗಳ ಸಂಕೀರ್ಣ ಸ್ಟ್ರೀಮ್ ಅನ್ನು ಆಧರಿಸಿ ಫಲಿತಾಂಶಗಳನ್ನು ಲೆಕ್ಕಾಚಾರ ಮಾಡುತ್ತದೆ, ಆದರೆ ಪ್ರಾಣಿಯು ಈ ಸ್ಟ್ರೀಮ್ನಲ್ಲಿ ಸರಳವಾಗಿ ಮುಳುಗುತ್ತದೆ. ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಪ್ರಾಣಿಗಳ ಅಂತಿಮ ನಡವಳಿಕೆಯು ಮುನ್ಸೂಚನೆಗಳ ಹೊಂದಾಣಿಕೆ ಮತ್ತು ನಡವಳಿಕೆಯ ಬೆಳವಣಿಗೆಗೆ ಮಾರ್ಗದರ್ಶನ ನೀಡಲು ಬಳಸಬೇಕಾದ ಬಲವಾದ ಸಂಕೇತವನ್ನು ನೀಡುತ್ತದೆ. ಭವಿಷ್ಯದಲ್ಲಿ ಮುನ್ಸೂಚನೆಗಳನ್ನು (ಮತ್ತು, ಅದರ ಪ್ರಕಾರ, ತೆಗೆದುಕೊಂಡ ಕ್ರಮಗಳ ಗುಣಮಟ್ಟ) ಅತ್ಯುತ್ತಮವಾಗಿಸಲು ಮೆದುಳು ಈ ಎಲ್ಲಾ ಸಂಕೇತಗಳನ್ನು ಬಳಸುತ್ತದೆ. ಈ ವಿಧಾನದ ಅವಲೋಕನವನ್ನು ಅತ್ಯುತ್ತಮ ಪುಸ್ತಕದಲ್ಲಿ ನೀಡಲಾಗಿದೆ "ಸರ್ಫಿಂಗ್ ಅನಿಶ್ಚಿತತೆ” ಅರಿವಿನ ವಿಜ್ಞಾನಿ ಮತ್ತು ತತ್ವಜ್ಞಾನಿ ಆಂಡಿ ಕ್ಲಾರ್ಕ್. ಕೃತಕ ಏಜೆಂಟ್‌ಗಳ ತರಬೇತಿಗೆ ನಾವು ಅಂತಹ ತಾರ್ಕಿಕತೆಯನ್ನು ವಿವರಿಸಿದರೆ, ಬಲವರ್ಧನೆಯ ಕಲಿಕೆಯಲ್ಲಿನ ಮೂಲಭೂತ ನ್ಯೂನತೆಯು ಬಹಿರಂಗಗೊಳ್ಳುತ್ತದೆ: ಈ ಮಾದರಿಯಲ್ಲಿ ಬಳಸಲಾದ ಸಂಕೇತವು ಅದು ಏನಾಗಿರಬಹುದು (ಅಥವಾ ಇರಬೇಕು) ಹೋಲಿಸಿದರೆ ಹತಾಶವಾಗಿ ದುರ್ಬಲವಾಗಿರುತ್ತದೆ. ಸಿಗ್ನಲ್ ಶುದ್ಧತ್ವವನ್ನು ಹೆಚ್ಚಿಸುವುದು ಅಸಾಧ್ಯವಾದ ಸಂದರ್ಭಗಳಲ್ಲಿ (ಬಹುಶಃ ಅದು ಅಂತರ್ಗತವಾಗಿ ದುರ್ಬಲವಾಗಿದೆ ಅಥವಾ ಕಡಿಮೆ ಮಟ್ಟದ ಪ್ರತಿಕ್ರಿಯಾತ್ಮಕತೆಗೆ ಸಂಬಂಧಿಸಿದೆ), ಇದು ಉತ್ತಮ ಸಮಾನಾಂತರವಾಗಿರುವ ತರಬೇತಿ ವಿಧಾನವನ್ನು ಆದ್ಯತೆ ನೀಡಲು ಬಹುಶಃ ಉತ್ತಮವಾಗಿದೆ, ಉದಾಹರಣೆಗೆ, ES.

ನರಗಳ ಜಾಲಗಳ ಉತ್ಕೃಷ್ಟ ತರಬೇತಿ

ಸಸ್ತನಿಗಳ ಮಿದುಳಿನಲ್ಲಿ ಅಂತರ್ಗತವಾಗಿರುವ ಹೆಚ್ಚಿನ ನರಗಳ ಚಟುವಟಿಕೆಯ ತತ್ವಗಳ ಮೇಲೆ ನಿರ್ಮಿಸುವುದು, ಇದು ನಿರಂತರವಾಗಿ ಭವಿಷ್ಯ ನುಡಿಯುವುದರಲ್ಲಿ ನಿರತವಾಗಿದೆ, ಬಲವರ್ಧನೆಯ ಕಲಿಕೆಯಲ್ಲಿ ಇತ್ತೀಚಿನ ಪ್ರಗತಿಗಳನ್ನು ಮಾಡಲಾಗಿದೆ, ಅದು ಈಗ ಅಂತಹ ಭವಿಷ್ಯವಾಣಿಗಳ ಪ್ರಾಮುಖ್ಯತೆಯನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. ನಾನು ನಿಮಗೆ ಎರಡು ರೀತಿಯ ಕೃತಿಗಳನ್ನು ತಕ್ಷಣವೇ ಶಿಫಾರಸು ಮಾಡಬಹುದು:

ಈ ಎರಡೂ ಪತ್ರಿಕೆಗಳಲ್ಲಿ, ಲೇಖಕರು ತಮ್ಮ ನರ ನೆಟ್‌ವರ್ಕ್‌ಗಳ ವಿಶಿಷ್ಟ ಡೀಫಾಲ್ಟ್ ನೀತಿಯನ್ನು ಭವಿಷ್ಯದಲ್ಲಿ ಪರಿಸರದ ಸ್ಥಿತಿಯ ಕುರಿತು ಮುನ್ಸೂಚನೆಯ ಫಲಿತಾಂಶಗಳೊಂದಿಗೆ ಪೂರಕಗೊಳಿಸುತ್ತಾರೆ. ಮೊದಲ ಲೇಖನದಲ್ಲಿ, ಮುನ್ಸೂಚನೆಯನ್ನು ವಿವಿಧ ಅಳತೆ ಅಸ್ಥಿರಗಳಿಗೆ ಅನ್ವಯಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಎರಡನೆಯದರಲ್ಲಿ, ಪರಿಸರದಲ್ಲಿನ ಬದಲಾವಣೆಗಳು ಮತ್ತು ಏಜೆಂಟ್‌ನ ನಡವಳಿಕೆಗೆ ಮುನ್ಸೂಚನೆಯನ್ನು ಅನ್ವಯಿಸಲಾಗುತ್ತದೆ. ಎರಡೂ ಸಂದರ್ಭಗಳಲ್ಲಿ, ಧನಾತ್ಮಕ ಬಲವರ್ಧನೆಯೊಂದಿಗೆ ಸಂಬಂಧಿಸಿದ ವಿರಳವಾದ ಸಂಕೇತವು ಹೆಚ್ಚು ಉತ್ಕೃಷ್ಟ ಮತ್ತು ಹೆಚ್ಚು ತಿಳಿವಳಿಕೆ ನೀಡುತ್ತದೆ, ಇದು ವೇಗವಾಗಿ ಕಲಿಯಲು ಮತ್ತು ಹೆಚ್ಚು ಸಂಕೀರ್ಣ ನಡವಳಿಕೆಗಳನ್ನು ಪಡೆದುಕೊಳ್ಳಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ. ಅಂತಹ ಸುಧಾರಣೆಗಳು ಗ್ರೇಡಿಯಂಟ್ ಸಿಗ್ನಲ್ ಅನ್ನು ಬಳಸುವ ವಿಧಾನಗಳೊಂದಿಗೆ ಮಾತ್ರ ಲಭ್ಯವಿರುತ್ತವೆ ಮತ್ತು ES ನಂತಹ "ಕಪ್ಪು ಪೆಟ್ಟಿಗೆ" ತತ್ವದ ಮೇಲೆ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ವಿಧಾನಗಳೊಂದಿಗೆ ಅಲ್ಲ.

ಇದರ ಜೊತೆಗೆ, ಅನುಭವ ಮತ್ತು ಗ್ರೇಡಿಯಂಟ್ ವಿಧಾನಗಳಿಂದ ಕಲಿಯುವುದು ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾಗಿದೆ. ಬಲವರ್ಧನೆಯ ಕಲಿಕೆಯನ್ನು ಬಳಸುವುದಕ್ಕಿಂತ ವೇಗವಾಗಿ ES ವಿಧಾನವನ್ನು ಬಳಸಿಕೊಂಡು ನಿರ್ದಿಷ್ಟ ಸಮಸ್ಯೆಯನ್ನು ಅಧ್ಯಯನ ಮಾಡಲು ಸಾಧ್ಯವಾದ ಸಂದರ್ಭಗಳಲ್ಲಿ ಸಹ, ES ತಂತ್ರವು RL ಗಿಂತ ಹಲವು ಪಟ್ಟು ಹೆಚ್ಚಿನ ಡೇಟಾವನ್ನು ಒಳಗೊಂಡಿರುವುದರಿಂದ ಲಾಭವನ್ನು ಸಾಧಿಸಲಾಗಿದೆ. ಪ್ರಾಣಿಗಳಲ್ಲಿನ ಕಲಿಕೆಯ ತತ್ವಗಳ ಕುರಿತು ಈ ಸಂದರ್ಭದಲ್ಲಿ ಪ್ರತಿಬಿಂಬಿಸುತ್ತಾ, ಬೇರೊಬ್ಬರ ಉದಾಹರಣೆಯಿಂದ ಕಲಿಯುವ ಫಲಿತಾಂಶವು ಹಲವು ತಲೆಮಾರುಗಳ ನಂತರ ಸ್ವತಃ ಪ್ರಕಟವಾಗುತ್ತದೆ ಎಂದು ನಾವು ಗಮನಿಸುತ್ತೇವೆ, ಆದರೆ ಕೆಲವೊಮ್ಮೆ ಸ್ವತಃ ಅನುಭವಿಸಿದ ಒಂದೇ ಘಟನೆಯು ಪ್ರಾಣಿಗಳಿಗೆ ಶಾಶ್ವತವಾಗಿ ಪಾಠವನ್ನು ಕಲಿಯಲು ಸಾಕು. ಇಷ್ಟವಾಗುವಾಗ ಉದಾಹರಣೆಗಳಿಲ್ಲದೆ ತರಬೇತಿ ಇದು ಸಾಂಪ್ರದಾಯಿಕ ಗ್ರೇಡಿಯಂಟ್ ವಿಧಾನಗಳಿಗೆ ಹೊಂದಿಕೆಯಾಗದಿದ್ದರೂ, ಇದು ES ಗಿಂತ ಹೆಚ್ಚು ಗ್ರಹಿಸಬಲ್ಲದು. ಉದಾಹರಣೆಗೆ, ಅಂತಹ ವಿಧಾನಗಳಿವೆ ನರಗಳ ಎಪಿಸೋಡಿಕ್ ನಿಯಂತ್ರಣ, ಅಲ್ಲಿ ಕ್ಯೂ-ಮೌಲ್ಯಗಳನ್ನು ತರಬೇತಿಯ ಸಮಯದಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ, ಅದರ ನಂತರ ಪ್ರೋಗ್ರಾಂ ಕ್ರಮಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುವ ಮೊದಲು ಅವುಗಳನ್ನು ಪರಿಶೀಲಿಸುತ್ತದೆ. ಫಲಿತಾಂಶವು ಗ್ರೇಡಿಯಂಟ್ ವಿಧಾನವಾಗಿದ್ದು ಅದು ಮೊದಲಿಗಿಂತ ಹೆಚ್ಚು ವೇಗವಾಗಿ ಸಮಸ್ಯೆಗಳನ್ನು ಹೇಗೆ ಪರಿಹರಿಸಬೇಕೆಂದು ಕಲಿಯಲು ನಿಮಗೆ ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ. ನರಗಳ ಎಪಿಸೋಡಿಕ್ ನಿಯಂತ್ರಣದ ಕುರಿತಾದ ಲೇಖನವೊಂದರಲ್ಲಿ, ಲೇಖಕರು ಮಾನವ ಹಿಪೊಕ್ಯಾಂಪಸ್ ಅನ್ನು ಉಲ್ಲೇಖಿಸಿದ್ದಾರೆ, ಇದು ಒಂದೇ ಅನುಭವದ ನಂತರವೂ ಘಟನೆಯ ಬಗ್ಗೆ ಮಾಹಿತಿಯನ್ನು ಉಳಿಸಿಕೊಳ್ಳುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿದೆ ಮತ್ತು ಆದ್ದರಿಂದ, ನಾಟಕಗಳು ನಿರ್ಣಾಯಕ ಪಾತ್ರ ನೆನಪಿಡುವ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ. ಅಂತಹ ಕಾರ್ಯವಿಧಾನಗಳಿಗೆ ಏಜೆಂಟ್ನ ಆಂತರಿಕ ಸಂಘಟನೆಗೆ ಪ್ರವೇಶದ ಅಗತ್ಯವಿರುತ್ತದೆ, ಇದು ವ್ಯಾಖ್ಯಾನದ ಮೂಲಕ, ES ಮಾದರಿಯಲ್ಲಿ ಅಸಾಧ್ಯವಾಗಿದೆ.

ಆದ್ದರಿಂದ, ಅವುಗಳನ್ನು ಏಕೆ ಸಂಯೋಜಿಸಬಾರದು?

ಈ ಲೇಖನದ ಹೆಚ್ಚಿನ ಭಾಗವು ನಾನು RL ವಿಧಾನಗಳನ್ನು ಪ್ರತಿಪಾದಿಸುತ್ತಿದ್ದೇನೆ ಎಂಬ ಅನಿಸಿಕೆಯನ್ನು ಬಿಡಬಹುದು. ಆದಾಗ್ಯೂ, ದೀರ್ಘಾವಧಿಯಲ್ಲಿ ಎರಡೂ ವಿಧಾನಗಳನ್ನು ಸಂಯೋಜಿಸುವುದು ಉತ್ತಮ ಪರಿಹಾರವಾಗಿದೆ ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ, ಆದ್ದರಿಂದ ಪ್ರತಿಯೊಂದನ್ನು ಅದು ಹೆಚ್ಚು ಸೂಕ್ತವಾದ ಸಂದರ್ಭಗಳಲ್ಲಿ ಬಳಸಲಾಗುತ್ತದೆ. ನಿಸ್ಸಂಶಯವಾಗಿ, ಅನೇಕ ಪ್ರತಿಕ್ರಿಯಾತ್ಮಕ ನೀತಿಗಳ ಸಂದರ್ಭದಲ್ಲಿ ಅಥವಾ ಧನಾತ್ಮಕ ಬಲವರ್ಧನೆಯ ಅತ್ಯಂತ ವಿರಳವಾದ ಸಂಕೇತಗಳೊಂದಿಗೆ ಸಂದರ್ಭಗಳಲ್ಲಿ, ES ಗೆಲ್ಲುತ್ತದೆ, ವಿಶೇಷವಾಗಿ ನಿಮ್ಮ ವಿಲೇವಾರಿಯಲ್ಲಿ ನೀವು ಕಂಪ್ಯೂಟಿಂಗ್ ಶಕ್ತಿಯನ್ನು ಹೊಂದಿದ್ದರೆ, ಅದರ ಮೇಲೆ ನೀವು ಬೃಹತ್ ಸಮಾನಾಂತರ ತರಬೇತಿಯನ್ನು ನಡೆಸಬಹುದು. ಮತ್ತೊಂದೆಡೆ, ನಾವು ವ್ಯಾಪಕವಾದ ಪ್ರತಿಕ್ರಿಯೆಗೆ ಪ್ರವೇಶವನ್ನು ಹೊಂದಿರುವಾಗ ಮತ್ತು ತ್ವರಿತವಾಗಿ ಮತ್ತು ಕಡಿಮೆ ಡೇಟಾದೊಂದಿಗೆ ಸಮಸ್ಯೆಯನ್ನು ಹೇಗೆ ಪರಿಹರಿಸಬೇಕೆಂದು ಕಲಿಯಬೇಕಾದಾಗ ಬಲವರ್ಧನೆಯ ಕಲಿಕೆ ಅಥವಾ ಮೇಲ್ವಿಚಾರಣೆಯ ಕಲಿಕೆಯನ್ನು ಬಳಸುವ ಗ್ರೇಡಿಯಂಟ್ ವಿಧಾನಗಳು ಉಪಯುಕ್ತವಾಗುತ್ತವೆ.

ಪ್ರಕೃತಿಗೆ ತಿರುಗಿದರೆ, ಮೊದಲ ವಿಧಾನವು ಮೂಲಭೂತವಾಗಿ ಎರಡನೆಯದಕ್ಕೆ ಅಡಿಪಾಯವನ್ನು ಹಾಕುತ್ತದೆ ಎಂದು ನಾವು ಕಂಡುಕೊಳ್ಳುತ್ತೇವೆ. ಅದಕ್ಕಾಗಿಯೇ, ವಿಕಾಸದ ಅವಧಿಯಲ್ಲಿ, ಸಸ್ತನಿಗಳು ಮಿದುಳುಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿವೆ, ಅದು ಪರಿಸರದಿಂದ ಬರುವ ಸಂಕೀರ್ಣ ಸಂಕೇತಗಳಿಂದ ಅತ್ಯಂತ ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಕಲಿಯಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ. ಆದ್ದರಿಂದ, ಪ್ರಶ್ನೆಯು ತೆರೆದಿರುತ್ತದೆ. ಬಹುಶಃ ವಿಕಸನೀಯ ತಂತ್ರಗಳು ಪರಿಣಾಮಕಾರಿ ಕಲಿಕೆಯ ವಾಸ್ತುಶಿಲ್ಪಗಳನ್ನು ಆವಿಷ್ಕರಿಸಲು ನಮಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ ಅದು ಗ್ರೇಡಿಯಂಟ್ ಕಲಿಕೆಯ ವಿಧಾನಗಳಿಗೆ ಸಹ ಉಪಯುಕ್ತವಾಗಿದೆ. ಎಲ್ಲಾ ನಂತರ, ಪ್ರಕೃತಿ ಕಂಡುಕೊಂಡ ಪರಿಹಾರವು ನಿಜವಾಗಿಯೂ ಬಹಳ ಯಶಸ್ವಿಯಾಗಿದೆ.

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ