ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ (AI) ಬಾಟ್ಗಳಿಗೆ ಅವರು ಹೇಗೆ ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತಾರೆ ಮತ್ತು ಪರಸ್ಪರ ಮತ್ತು ಅವರ ಸುತ್ತಲಿರುವ ವಿವಿಧ ವಸ್ತುಗಳೊಂದಿಗೆ ಸಂವಹನ ನಡೆಸುವುದನ್ನು ಪ್ರದರ್ಶಿಸಲು ಉತ್ತಮ ಹಳೆಯ-ಶೈಲಿಯ ಆಟವು ಮರೆಮಾಡಲು ಮತ್ತು ಹುಡುಕಲು ಉತ್ತಮ ಪರೀಕ್ಷೆಯಾಗಿದೆ.
ಅವರಲ್ಲಿ
ವಿಜ್ಞಾನಿಗಳು ದೀರ್ಘಕಾಲದವರೆಗೆ ಅದರ ಖ್ಯಾತಿಯನ್ನು ಗೆದ್ದ ವಿಧಾನವನ್ನು ಬಳಸಿದ್ದಾರೆ
ಕಣ್ಣಾಮುಚ್ಚಾಲೆ ಆಟವಾಡಲು AI ಗೆ ತರಬೇತಿ ನೀಡಲು, ವಿಜ್ಞಾನಿಗಳು "ಅನ್ಡೆರೆಕ್ಟೆಡ್ ಎಕ್ಸ್ಪ್ಲೋರೇಶನ್" ಎಂಬ ವಿಧಾನವನ್ನು ಬಳಸಿದರು, ಇದು ಆಟದ ಪ್ರಪಂಚದ ಬಗ್ಗೆ ತಮ್ಮ ತಿಳುವಳಿಕೆಯನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಮತ್ತು ಗೆಲ್ಲುವ ತಂತ್ರಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಏಜೆಂಟ್ಗಳಿಗೆ ಸಂಪೂರ್ಣ ಸ್ವಾತಂತ್ರ್ಯವಿದೆ. ಇದು ಡೀಪ್ಮೈಂಡ್ನ ಸಂಶೋಧಕರು ಬಹು ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಬಳಸುವ ಮಲ್ಟಿ-ಏಜೆಂಟ್ ಕಲಿಕೆಯ ವಿಧಾನವನ್ನು ಹೋಲುತ್ತದೆ.
ಕಣ್ಣಾಮುಚ್ಚಾಲೆ ಆಟದಲ್ಲಿ, ಹುಡುಕುವ ಏಜೆಂಟ್ಗಳ ತಂಡವು ನಿಶ್ಚಲವಾಗಿರುವಾಗ ಸ್ವಲ್ಪ ತಲೆಯ ಪ್ರಾರಂಭದ ನಂತರ ಮರೆಮಾಡಲು ಕೆಲಸ ಮಾಡುವ ಹಲವಾರು ಏಜೆಂಟ್ಗಳು ತಮ್ಮ ಎದುರಾಳಿಗಳ ದೃಷ್ಟಿಗೋಚರವನ್ನು ತಪ್ಪಿಸಬೇಕಾಗಿತ್ತು. ಇದಲ್ಲದೆ, ಈ ಸಂದರ್ಭದಲ್ಲಿ "ದೃಷ್ಟಿಯ ರೇಖೆ" ಒಂದು ಪ್ರತ್ಯೇಕ ಬೋಟ್ನ ಮುಂದೆ 135 ಡಿಗ್ರಿ ಕೋನ್ ಆಗಿದೆ. ಏಜೆಂಟರು ಆಟದ ಪ್ರದೇಶದ ಹೊರಗೆ ತುಂಬಾ ದೂರ ಹೋಗಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ ಮತ್ತು ಯಾದೃಚ್ಛಿಕವಾಗಿ ರಚಿಸಲಾದ ಕೊಠಡಿಗಳನ್ನು ನ್ಯಾವಿಗೇಟ್ ಮಾಡಲು ಬಲವಂತವಾಗಿ ಕೆಲವು ಬಾಹ್ಯ ವಸ್ತುಗಳನ್ನು (ಪೆಟ್ಟಿಗೆಗಳು, ಚಲಿಸಬಲ್ಲ ಗೋಡೆಗಳು, ವಿಶೇಷ ಇಳಿಜಾರುಗಳು) ಬಳಸಬಹುದಾಗಿದ್ದು, ಅದನ್ನು ಹೊದಿಕೆಯನ್ನು ರಚಿಸಲು ಮತ್ತು ಅವುಗಳಲ್ಲಿ ನುಸುಳಲು ಬಳಸಬಹುದಾಗಿದೆ. .
ಸುದೀರ್ಘವಾದ ಕಲಿಕೆಯ ಪ್ರಕ್ರಿಯೆಯ ಮೂಲಕ, AI ಏಜೆಂಟ್ಗಳು ಆರು ವಿಶಿಷ್ಟ ತಂತ್ರಗಳನ್ನು ಕಲಿತರು, ಪ್ರತಿಯೊಂದೂ ಆಟದ ಮುಂದಿನ ಹಂತಕ್ಕೆ ಮುನ್ನಡೆಯಲು ಸಹಾಯ ಮಾಡಿತು. ಮೊದಲಿಗೆ, ಅನ್ವೇಷಕ ಮತ್ತು ಮರೆಮಾಡುವ ತಂಡಗಳು ಸರಳವಾಗಿ ಓಡಿಹೋಗಿ ಒಬ್ಬರನ್ನೊಬ್ಬರು ಬೆನ್ನಟ್ಟಿದವು, ಆದರೆ ಸುಮಾರು 25 ಮಿಲಿಯನ್ ಪಂದ್ಯಗಳ ನಂತರ, ಹೈಡರ್ ತಂಡವು ಪೆಟ್ಟಿಗೆಗಳೊಂದಿಗೆ ಹಾದಿಗಳನ್ನು ನಿರ್ಬಂಧಿಸಲು ಮತ್ತು ಅವುಗಳಿಂದ ಆಶ್ರಯವನ್ನು ನಿರ್ಮಿಸಲು ಕಲಿತರು. ಮತ್ತೊಂದು 75 ಮಿಲಿಯನ್ ಪಂದ್ಯಗಳ ನಂತರ, ತಂಡವು ಈ ಅಡಗುತಾಣಗಳಿಗೆ ಪ್ರವೇಶಿಸಲು ಇಳಿಜಾರುಗಳನ್ನು ಬಳಸುವ ಮಾರ್ಗಗಳನ್ನು ಕಂಡುಹಿಡಿದಿದೆ. ಇನ್ನೊಂದು 10 ಮಿಲಿಯನ್ ಸುತ್ತುಗಳ ನಂತರ, ಅಡಗಿದವರು ಇಳಿಜಾರುಗಳನ್ನು ಆಟದ ಪ್ರದೇಶದ ಅಂಚಿಗೆ ಎಳೆಯಲು ಕಲಿತರು ಮತ್ತು ಎದುರಾಳಿಗಳು ಅವುಗಳನ್ನು ಬಳಸದಂತೆ ತಡೆಯಲು ಅವುಗಳನ್ನು ಸ್ಥಳದಲ್ಲಿ ಲಾಕ್ ಮಾಡಿದರು.
388 ಮಿಲಿಯನ್ ಪಂದ್ಯಗಳ ನಂತರ, ಅನ್ವೇಷಕರು ತಮ್ಮ ಬಳಿಗೆ ತಂದ ಕ್ರೇಟ್ಗಳ ಮೇಲೆ ಏರಲು ನಿರ್ಬಂಧಿಸಿದ ಇಳಿಜಾರುಗಳನ್ನು ಬಳಸಲು ಕಲಿತರು ಮತ್ತು ನಂತರ ನೇರವಾಗಿ ಅವುಗಳ ಮೇಲೆ ಚಲಿಸುವ ಮೂಲಕ ಪೋರ್ಟಬಲ್ ಗೋಡೆಗಳಿಂದ ರಚಿಸಲಾದ ಶತ್ರುಗಳ ಅಡಗುತಾಣಗಳನ್ನು ಭೇದಿಸುತ್ತಾರೆ. ಮತ್ತು ಅಂತಿಮವಾಗಿ, 458 ಮಿಲಿಯನ್ ಪಂದ್ಯಗಳ ನಂತರ, ಮರೆಮಾಚುವ ತಂಡವು ಎಲ್ಲಾ ವಸ್ತುಗಳನ್ನು ನಿರ್ಬಂಧಿಸಲು ಮತ್ತು ನಂತರ ಒಂದು ಆಶ್ರಯವನ್ನು ನಿರ್ಮಿಸುವ ಅಗತ್ಯವಿದೆ ಎಂದು ತೀರ್ಮಾನಿಸಿತು, ಇದು ಅವರ ಅಂತಿಮ ವಿಜಯಕ್ಕೆ ಕಾರಣವಾಯಿತು.
22 ಮಿಲಿಯನ್ ಪಂದ್ಯಗಳ ನಂತರ, ಏಜೆಂಟರು ತಮ್ಮ ಕಾರ್ಯಗಳನ್ನು ಸಂಘಟಿಸಲು ಕಲಿತರು ಮತ್ತು ಅವರ ಸಹಯೋಗದ ದಕ್ಷತೆಯು ಭವಿಷ್ಯದಲ್ಲಿ ಮಾತ್ರ ಹೆಚ್ಚಾಯಿತು, ಉದಾಹರಣೆಗೆ, ಪ್ರತಿಯೊಂದೂ ತನ್ನ ಸ್ವಂತ ಪೆಟ್ಟಿಗೆ ಅಥವಾ ಗೋಡೆಯನ್ನು ತಂದು ಆಶ್ರಯವನ್ನು ರಚಿಸಲು ಮತ್ತು ವಸ್ತುಗಳಿಗೆ ತನ್ನ ಪಾಲನ್ನು ಆರಿಸಿಕೊಂಡಿದೆ ಎಂಬುದು ವಿಶೇಷವಾಗಿ ಪ್ರಭಾವಶಾಲಿಯಾಗಿದೆ. ನಿರ್ಬಂಧಿಸಿ, ಎದುರಾಳಿಗಳಿಗೆ ಕಷ್ಟದ ಆಟವನ್ನು ಸಂಕೀರ್ಣಗೊಳಿಸಲು.
ಕಲಿಕೆಯ ವೇಗದ ಮೇಲೆ ತರಬೇತಿ ವಸ್ತುಗಳ ಸಂಖ್ಯೆಯ (ನರ ಜಾಲದ ಮೂಲಕ ರವಾನಿಸಲಾದ ಡೇಟಾದ ಪ್ರಮಾಣ - “ಬ್ಯಾಚ್ ಗಾತ್ರ”) ಪ್ರಭಾವಕ್ಕೆ ಸಂಬಂಧಿಸಿದ ಪ್ರಮುಖ ಅಂಶವನ್ನು ವಿಜ್ಞಾನಿಗಳು ಗಮನಿಸಿದ್ದಾರೆ. ಡೀಫಾಲ್ಟ್ ಮಾಡೆಲ್ಗೆ 132,3 ಗಂಟೆಗಳ ತರಬೇತಿಯಲ್ಲಿ 34 ಮಿಲಿಯನ್ ಪಂದ್ಯಗಳ ಅಗತ್ಯವಿದ್ದು, ಅಡಗುತಾಣ ತಂಡವು ಇಳಿಜಾರುಗಳನ್ನು ನಿರ್ಬಂಧಿಸಲು ಕಲಿತ ಹಂತವನ್ನು ತಲುಪಲು, ಹೆಚ್ಚಿನ ಡೇಟಾವು ತರಬೇತಿ ಸಮಯದಲ್ಲಿ ಗಮನಾರ್ಹವಾದ ಕಡಿತಕ್ಕೆ ಕಾರಣವಾಯಿತು. ಉದಾಹರಣೆಗೆ, ಪ್ಯಾರಾಮೀಟರ್ಗಳ ಸಂಖ್ಯೆಯನ್ನು (ಇಡೀ ತರಬೇತಿ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಪಡೆದ ಡೇಟಾದ ಭಾಗ) 0,5 ಮಿಲಿಯನ್ನಿಂದ 5,8 ಮಿಲಿಯನ್ಗೆ ಹೆಚ್ಚಿಸುವುದು ಮಾದರಿ ದಕ್ಷತೆಯನ್ನು 2,2 ಪಟ್ಟು ಹೆಚ್ಚಿಸಿತು ಮತ್ತು ಇನ್ಪುಟ್ ಡೇಟಾದ ಗಾತ್ರವನ್ನು 64 ಕೆಬಿಯಿಂದ 128 ಕೆಬಿಗೆ ಹೆಚ್ಚಿಸುವುದು ತರಬೇತಿಯನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ. ಸಮಯ ಸುಮಾರು ಒಂದೂವರೆ ಬಾರಿ.
ತಮ್ಮ ಕೆಲಸದ ಕೊನೆಯಲ್ಲಿ, ಆಟದ ಹೊರಗೆ ಇದೇ ರೀತಿಯ ಕಾರ್ಯಗಳನ್ನು ನಿಭಾಯಿಸಲು ಏಜೆಂಟ್ಗಳಿಗೆ ಆಟದಲ್ಲಿನ ತರಬೇತಿ ಎಷ್ಟು ಸಹಾಯ ಮಾಡುತ್ತದೆ ಎಂಬುದನ್ನು ಪರೀಕ್ಷಿಸಲು ಸಂಶೋಧಕರು ನಿರ್ಧರಿಸಿದರು. ಒಟ್ಟು ಐದು ಪರೀಕ್ಷೆಗಳು ಇದ್ದವು: ವಸ್ತುಗಳ ಸಂಖ್ಯೆಯ ಅರಿವು (ಒಂದು ವಸ್ತುವು ಕಣ್ಣಿಗೆ ಕಾಣದಿದ್ದರೂ ಮತ್ತು ಬಳಸದಿದ್ದರೂ ಸಹ ಅಸ್ತಿತ್ವದಲ್ಲಿದೆ ಎಂದು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು); “ಲಾಕ್ ಮತ್ತು ರಿಟರ್ನ್” - ಒಬ್ಬರ ಮೂಲ ಸ್ಥಾನವನ್ನು ನೆನಪಿಟ್ಟುಕೊಳ್ಳುವ ಸಾಮರ್ಥ್ಯ ಮತ್ತು ಕೆಲವು ಹೆಚ್ಚುವರಿ ಕಾರ್ಯಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸಿದ ನಂತರ ಅದಕ್ಕೆ ಹಿಂತಿರುಗುವುದು; "ಸೀಕ್ವೆನ್ಶಿಯಲ್ ಬ್ಲಾಕಿಂಗ್" - 4 ಪೆಟ್ಟಿಗೆಗಳು ಯಾದೃಚ್ಛಿಕವಾಗಿ ಬಾಗಿಲುಗಳಿಲ್ಲದ ಮೂರು ಕೋಣೆಗಳಲ್ಲಿ ನೆಲೆಗೊಂಡಿವೆ, ಆದರೆ ಒಳಗೆ ಹೋಗಲು ಇಳಿಜಾರುಗಳೊಂದಿಗೆ, ಏಜೆಂಟ್ಗಳು ಎಲ್ಲವನ್ನೂ ಹುಡುಕಲು ಮತ್ತು ನಿರ್ಬಂಧಿಸಲು ಅಗತ್ಯವಿದೆ; ಪೂರ್ವನಿರ್ಧರಿತ ಸೈಟ್ಗಳಲ್ಲಿ ಪೆಟ್ಟಿಗೆಗಳ ನಿಯೋಜನೆ; ಸಿಲಿಂಡರ್ ರೂಪದಲ್ಲಿ ವಸ್ತುವಿನ ಸುತ್ತಲೂ ಆಶ್ರಯವನ್ನು ರಚಿಸುವುದು.
ಇದರ ಪರಿಣಾಮವಾಗಿ, ಐದು ಕಾರ್ಯಗಳಲ್ಲಿ ಮೂರರಲ್ಲಿ, ಆಟದಲ್ಲಿ ಪ್ರಾಥಮಿಕ ತರಬೇತಿಗೆ ಒಳಗಾದ ಬಾಟ್ಗಳು ವೇಗವಾಗಿ ಕಲಿಯುತ್ತವೆ ಮತ್ತು ಮೊದಲಿನಿಂದಲೂ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲು ತರಬೇತಿ ಪಡೆದ AI ಗಿಂತ ಉತ್ತಮ ಫಲಿತಾಂಶಗಳನ್ನು ತೋರಿಸಿದವು. ಅವರು ಕಾರ್ಯವನ್ನು ಪೂರ್ಣಗೊಳಿಸಲು ಮತ್ತು ಆರಂಭಿಕ ಸ್ಥಾನಕ್ಕೆ ಹಿಂತಿರುಗಲು, ಮುಚ್ಚಿದ ಕೋಣೆಗಳಲ್ಲಿ ಅನುಕ್ರಮವಾಗಿ ಪೆಟ್ಟಿಗೆಗಳನ್ನು ನಿರ್ಬಂಧಿಸಲು ಮತ್ತು ನಿರ್ದಿಷ್ಟ ಪ್ರದೇಶಗಳಲ್ಲಿ ಪೆಟ್ಟಿಗೆಗಳನ್ನು ಇರಿಸಲು ಸ್ವಲ್ಪ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಿದರು, ಆದರೆ ವಸ್ತುಗಳ ಸಂಖ್ಯೆಯನ್ನು ಗುರುತಿಸುವಲ್ಲಿ ಮತ್ತು ಇನ್ನೊಂದು ವಸ್ತುವಿನ ಸುತ್ತಲೂ ಹೊದಿಕೆಯನ್ನು ರಚಿಸುವಲ್ಲಿ ಸ್ವಲ್ಪ ದುರ್ಬಲವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಿದರು.
ಸಂಶೋಧಕರು ಮಿಶ್ರ ಫಲಿತಾಂಶಗಳನ್ನು AI ಹೇಗೆ ಕಲಿಯುತ್ತದೆ ಮತ್ತು ಕೆಲವು ಕೌಶಲ್ಯಗಳನ್ನು ನೆನಪಿಟ್ಟುಕೊಳ್ಳುತ್ತದೆ. "ಆಟದಲ್ಲಿ ಪೂರ್ವ-ತರಬೇತಿ ಉತ್ತಮವಾಗಿ ನಿರ್ವಹಿಸಿದ ಕಾರ್ಯಗಳು ಹಿಂದೆ ಕಲಿತ ಕೌಶಲ್ಯಗಳನ್ನು ಪರಿಚಿತ ರೀತಿಯಲ್ಲಿ ಮರುಬಳಕೆ ಮಾಡುವುದನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ ಎಂದು ನಾವು ಭಾವಿಸುತ್ತೇವೆ, ಆದರೆ ಉಳಿದ ಕಾರ್ಯಗಳನ್ನು ಮೊದಲಿನಿಂದ ತರಬೇತಿ ಪಡೆದ AI ಗಿಂತ ಉತ್ತಮವಾಗಿ ನಿರ್ವಹಿಸುವಾಗ ಅವುಗಳನ್ನು ಬೇರೆ ರೀತಿಯಲ್ಲಿ ಬಳಸಬೇಕಾಗುತ್ತದೆ. ಹೆಚ್ಚು ಕಷ್ಟ," ಕೃತಿಯ ಸಹ-ಲೇಖಕರು ಬರೆಯಿರಿ. "ಈ ಫಲಿತಾಂಶವು ತರಬೇತಿಯ ಮೂಲಕ ಪಡೆದ ಕೌಶಲ್ಯಗಳನ್ನು ಒಂದು ಪರಿಸರದಿಂದ ಇನ್ನೊಂದಕ್ಕೆ ವರ್ಗಾಯಿಸುವಾಗ ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಮರುಬಳಕೆ ಮಾಡುವ ವಿಧಾನಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವ ಅಗತ್ಯವನ್ನು ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ."
ಮಾಡಿದ ಕೆಲಸವು ನಿಜವಾಗಿಯೂ ಪ್ರಭಾವಶಾಲಿಯಾಗಿದೆ, ಏಕೆಂದರೆ ಈ ಬೋಧನಾ ವಿಧಾನವನ್ನು ಬಳಸುವ ನಿರೀಕ್ಷೆಯು ಯಾವುದೇ ಆಟಗಳ ಮಿತಿಗಳನ್ನು ಮೀರಿದೆ. "ಭೌತಶಾಸ್ತ್ರ-ಆಧಾರಿತ" ಮತ್ತು "ಮಾನವ-ರೀತಿಯ" ನಡವಳಿಕೆಯೊಂದಿಗೆ AI ಅನ್ನು ರಚಿಸುವ ಕಡೆಗೆ ಅವರ ಕೆಲಸವು ಒಂದು ಮಹತ್ವದ ಹೆಜ್ಜೆಯಾಗಿದೆ ಎಂದು ಸಂಶೋಧಕರು ಹೇಳುತ್ತಾರೆ, ಅದು ರೋಗಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಬಹುದು, ಸಂಕೀರ್ಣ ಪ್ರೋಟೀನ್ ಅಣುಗಳ ರಚನೆಗಳನ್ನು ಊಹಿಸಬಹುದು ಮತ್ತು CT ಸ್ಕ್ಯಾನ್ಗಳನ್ನು ವಿಶ್ಲೇಷಿಸಬಹುದು.
ಕೆಳಗಿನ ವೀಡಿಯೊದಲ್ಲಿ ಸಂಪೂರ್ಣ ಕಲಿಕೆಯ ಪ್ರಕ್ರಿಯೆಯು ಹೇಗೆ ನಡೆಯಿತು, AI ಹೇಗೆ ತಂಡದ ಕೆಲಸವನ್ನು ಕಲಿತಿದೆ ಮತ್ತು ಅದರ ತಂತ್ರಗಳು ಹೆಚ್ಚು ಹೆಚ್ಚು ಕುತಂತ್ರ ಮತ್ತು ಸಂಕೀರ್ಣವಾಗಿವೆ ಎಂಬುದನ್ನು ನೀವು ಸ್ಪಷ್ಟವಾಗಿ ನೋಡಬಹುದು.
ಮೂಲ: 3dnews.ru