மறைந்து தேடும் விளையாட்டில் AI குழுப்பணியை OpenAI கற்பிக்கிறது

செயற்கை நுண்ணறிவு (AI) போட்கள் எவ்வாறு முடிவெடுக்கின்றன மற்றும் ஒருவருக்கொருவர் மற்றும் அவற்றைச் சுற்றியுள்ள பல்வேறு பொருட்களுடன் தொடர்புகொள்வதை நிரூபிக்க ஒரு நல்ல பழைய பாணியிலான மறைந்து விளையாடும் ஒரு சிறந்த சோதனையாக இருக்கும்.

அவரது புதிய கட்டுரை, OpenAI இன் ஆராய்ச்சியாளர்களால் வெளியிடப்பட்டது, இது ஒரு இலாப நோக்கற்ற செயற்கை நுண்ணறிவு ஆராய்ச்சி நிறுவனமாகும், இது பிரபலமானது உலக சாம்பியன்களுக்கு எதிரான வெற்றி டோட்டா 2 என்ற கணினி விளையாட்டில், செயற்கை நுண்ணறிவால் கட்டுப்படுத்தப்படும் முகவர்கள் எவ்வாறு ஒரு மெய்நிகர் சூழலில் ஒருவரையொருவர் தேடுவதற்கும் மறைப்பதற்கும் மிகவும் நுட்பமானவர்களாக பயிற்சியளிக்கப்பட்டனர் என்பதை விஞ்ஞானிகள் விவரிக்கின்றனர். கூட்டாளிகள் இல்லாத எந்த ஒரு முகவரையும் விட இரண்டு போட்கள் கொண்ட குழு மிகவும் திறமையாகவும் வேகமாகவும் கற்றுக்கொள்கிறது என்பதை ஆய்வின் முடிவுகள் நிரூபித்துள்ளன.

மறைந்து தேடும் விளையாட்டில் AI குழுப்பணியை OpenAI கற்பிக்கிறது

விஞ்ஞானிகள் நீண்ட காலமாக அதன் புகழைப் பெற்ற ஒரு முறையைப் பயன்படுத்தினர் வலுவூட்டலுடன் இயந்திர கற்றல், இதில் செயற்கை நுண்ணறிவு என்பது தெரியாத சூழலில் வைக்கப்படுகிறது, அதே சமயம் அதனுடன் தொடர்புகொள்வதற்கான சில வழிகள், அதே போல் அதன் செயல்களின் ஒன்று அல்லது மற்றொரு விளைவுக்கான வெகுமதிகள் மற்றும் அபராதங்கள் அமைப்பு. ஒரு நபர் கற்பனை செய்வதை விட மில்லியன் கணக்கான மடங்கு வேகமாக, மகத்தான வேகத்தில் ஒரு மெய்நிகர் சூழலில் பல்வேறு செயல்களைச் செய்ய AI இன் திறனின் காரணமாக இந்த முறை மிகவும் பயனுள்ளதாக இருக்கிறது. கொடுக்கப்பட்ட சிக்கலைத் தீர்ப்பதற்கான மிகவும் பயனுள்ள உத்திகளைக் கண்டறிய இது சோதனை மற்றும் பிழையை அனுமதிக்கிறது. ஆனால் இந்த அணுகுமுறைக்கு சில வரம்புகள் உள்ளன, எடுத்துக்காட்டாக, ஒரு சூழலை உருவாக்குவதற்கும் பல பயிற்சி சுழற்சிகளை நடத்துவதற்கும் மிகப்பெரிய கணினி வளங்கள் தேவைப்படுகின்றன, மேலும் இந்த செயல்முறைக்கு AI செயல்களின் முடிவுகளை அதன் இலக்குடன் ஒப்பிடுவதற்கு ஒரு துல்லியமான அமைப்பு தேவைப்படுகிறது. கூடுதலாக, இந்த வழியில் முகவரால் பெறப்பட்ட திறன்கள் விவரிக்கப்பட்ட பணிக்கு மட்டுப்படுத்தப்பட்டுள்ளன, மேலும் AI அதைச் சமாளிக்க கற்றுக்கொண்டால், மேலும் மேம்பாடுகள் இருக்காது.

மறைந்து விளையாடுவதற்கு AIக்கு பயிற்சி அளிக்க, விஞ்ஞானிகள் “திசையற்ற ஆய்வு” என்ற அணுகுமுறையைப் பயன்படுத்தினர், இதில் விளையாட்டு உலகத்தைப் பற்றிய தங்கள் புரிதலை வளர்த்துக்கொள்ளவும் வெற்றிகரமான உத்திகளை உருவாக்கவும் முகவர்களுக்கு முழு சுதந்திரம் உள்ளது. பல செயற்கை நுண்ணறிவு அமைப்புகளின் போது DeepMind இன் ஆராய்ச்சியாளர்கள் பயன்படுத்திய பல முகவர் கற்றல் அணுகுமுறையைப் போன்றது இது. க்வேக் III அரங்கில் ஃபிளாக் மோடில் கேப்சர் செய்ய பயிற்சி அளிக்கப்பட்டது. இந்த விஷயத்தைப் போலவே, AI முகவர்கள் முன்பு விளையாட்டின் விதிகளில் பயிற்சி பெறவில்லை, ஆனால் காலப்போக்கில் அவர்கள் அடிப்படை உத்திகளைக் கற்றுக் கொண்டனர் மற்றும் அற்பமான தீர்வுகளுடன் ஆராய்ச்சியாளர்களை ஆச்சரியப்படுத்த முடிந்தது.

மறைந்து தேடுதல் விளையாட்டில், மறைத்து வைப்பதையே பணியாகக் கொண்ட பல முகவர்கள், தேடுதல் முகவர்களின் குழு அசையாமல் இருக்கும் போது, ​​ஒரு சிறிய தொடக்கத்திற்குப் பிறகு, எதிரிகளின் பார்வையைத் தவிர்க்க வேண்டியிருந்தது. மேலும், இந்த சூழலில் "பார்வைக் கோடு" என்பது ஒரு தனிப்பட்ட போட்டின் முன் 135 டிகிரி கூம்பு ஆகும். முகவர்கள் விளையாடும் பகுதிக்கு வெளியே அதிக தூரம் செல்ல முடியாது மற்றும் தோராயமாக உருவாக்கப்பட்ட அறைகளுக்குச் செல்ல நிர்பந்திக்கப்பட்டனர், சில வெளிப்புற பொருட்களை (பெட்டிகள், நகரக்கூடிய சுவர்கள், சிறப்பு வளைவுகள்) பயன்படுத்தும் திறன் கொண்டவை. .

மறைந்து தேடும் விளையாட்டில் AI குழுப்பணியை OpenAI கற்பிக்கிறது

நீண்ட கற்றல் செயல்முறையின் மூலம், AI முகவர்கள் ஆறு தனித்துவமான உத்திகளைக் கற்றுக்கொண்டனர், அவை ஒவ்வொன்றும் விளையாட்டின் அடுத்த கட்டத்திற்கு முன்னேற உதவியது. முதலில், தேடுபவர் மற்றும் மறைக்கும் அணிகள் வெறுமனே ஓடி ஒருவரையொருவர் துரத்தினார்கள், ஆனால் சுமார் 25 மில்லியன் போட்டிகளுக்குப் பிறகு, மறைக்கும் குழு பெட்டிகளுடன் பத்திகளைத் தடுக்கவும் அவற்றிலிருந்து தங்குமிடங்களை உருவாக்கவும் கற்றுக்கொண்டது. மற்றொரு 75 மில்லியன் போட்டிகளுக்குப் பிறகு, இந்த மறைவிடங்களுக்குள் நுழைய சரிவுகளைப் பயன்படுத்துவதற்கான வழிகளைக் குழு கண்டுபிடித்தது. மற்றொரு 10 மில்லியன் சுற்றுகளுக்குப் பிறகு, மறைப்பவர்கள் விளையாடும் பகுதியின் விளிம்பிற்கு வளைவுகளை இழுக்கவும், எதிராளிகள் அவற்றைப் பயன்படுத்துவதைத் தடுக்க அவற்றைப் பூட்டவும் கற்றுக்கொண்டனர்.

மறைந்து தேடும் விளையாட்டில் AI குழுப்பணியை OpenAI கற்பிக்கிறது

388 மில்லியன் போட்டிகளுக்குப் பிறகு, தேடுபவர்கள் தங்களுக்குக் கொண்டுவரப்பட்ட பெட்டிகளில் ஏறுவதற்கு தடுக்கப்பட்ட வளைவுகளைப் பயன்படுத்தக் கற்றுக்கொண்டனர், பின்னர், நேரடியாக அவற்றின் மீது நகர்ந்து, சிறிய சுவர்களில் இருந்து உருவாக்கப்பட்ட எதிரிகளின் மறைவிடங்களை ஊடுருவிச் சென்றனர். இறுதியாக, 458 மில்லியன் போட்டிகளுக்குப் பிறகு, மறைக்கும் குழு அவர்கள் அனைத்து பொருட்களையும் தடுக்க வேண்டும், பின்னர் ஒரு தங்குமிடம் கட்ட வேண்டும் என்று முடிவு செய்தனர், இது அவர்களின் இறுதி வெற்றிக்கு வழிவகுத்தது.

குறிப்பாக சுவாரசியமான விஷயம் என்னவென்றால், 22 மில்லியன் போட்டிகளுக்குப் பிறகு, முகவர்கள் தங்கள் செயல்களை ஒருங்கிணைக்க கற்றுக்கொண்டனர் மற்றும் அவர்களின் ஒத்துழைப்பின் செயல்திறன் எதிர்காலத்தில் அதிகரித்தது, எடுத்துக்காட்டாக, ஒவ்வொருவரும் தங்குமிடம் உருவாக்க தனது சொந்த பெட்டி அல்லது சுவரைக் கொண்டு வந்து பொருட்களைத் தேர்ந்தெடுத்தனர். தடை, சிரமம் விளையாட்டை எதிரிகளுக்கு சிக்கலாக்க.

மறைந்து தேடும் விளையாட்டில் AI குழுப்பணியை OpenAI கற்பிக்கிறது

கற்றல் வேகத்தில் பயிற்சி பொருட்களின் எண்ணிக்கை (நரம்பியல் நெட்வொர்க் மூலம் அனுப்பப்படும் தரவு அளவு - "தொகுதி அளவு") செல்வாக்கு தொடர்பான ஒரு முக்கிய புள்ளியையும் விஞ்ஞானிகள் குறிப்பிட்டுள்ளனர். முன்னிருப்பு மாதிரிக்கு 132,3 மணிநேர பயிற்சியில் 34 மில்லியன் போட்டிகள் தேவைப்பட்டன, மறைந்திருக்கும் குழு வளைவுகளைத் தடுக்கக் கற்றுக்கொண்ட இடத்தை அடைய, மேலும் தரவு பயிற்சி நேரத்தில் குறிப்பிடத்தக்க குறைப்பை ஏற்படுத்தியது. எடுத்துக்காட்டாக, அளவுருக்களின் எண்ணிக்கையை (முழுப் பயிற்சியின் போது பெறப்பட்ட தரவின் ஒரு பகுதி) 0,5 மில்லியனிலிருந்து 5,8 மில்லியனாக அதிகரிப்பது மாதிரித் திறனை 2,2 மடங்கு அதிகரித்தது, மேலும் உள்ளீட்டுத் தரவின் அளவை 64 KB இலிருந்து 128 KB ஆக அதிகரிப்பது பயிற்சியைக் குறைத்தது. நேரம் கிட்டத்தட்ட ஒன்றரை முறை.

மறைந்து தேடும் விளையாட்டில் AI குழுப்பணியை OpenAI கற்பிக்கிறது

தங்கள் பணியின் முடிவில், விளையாட்டிற்கு வெளியே இதேபோன்ற பணிகளைச் சமாளிக்க முகவர்களுக்கு எவ்வளவு விளையாட்டு பயிற்சி உதவும் என்பதை சோதிக்க ஆராய்ச்சியாளர்கள் முடிவு செய்தனர். மொத்தம் ஐந்து சோதனைகள் இருந்தன: பொருள்களின் எண்ணிக்கை பற்றிய விழிப்புணர்வு (ஒரு பொருள் பார்வைக்கு வெளியே இருந்தாலும், பயன்படுத்தப்படாவிட்டாலும் அது தொடர்ந்து இருப்பதைப் புரிந்துகொள்வது); "பூட்டு மற்றும் திரும்ப" - ஒருவரின் அசல் நிலையை நினைவில் வைத்து, சில கூடுதல் பணிகளை முடித்த பிறகு அதற்குத் திரும்பும் திறன்; "தொடர்ச்சியான தடுப்பு" - 4 பெட்டிகள் தோராயமாக மூன்று அறைகளில் கதவுகள் இல்லாமல் அமைந்திருந்தன, ஆனால் உள்ளே செல்வதற்கான சரிவுகளுடன், முகவர்கள் அனைத்தையும் கண்டுபிடித்து தடுக்க வேண்டும்; முன்னரே தீர்மானிக்கப்பட்ட தளங்களில் பெட்டிகளை வைப்பது; ஒரு சிலிண்டர் வடிவில் ஒரு பொருளைச் சுற்றி ஒரு தங்குமிடம் உருவாக்குதல்.

இதன் விளைவாக, ஐந்தில் மூன்றில், விளையாட்டில் ஆரம்பப் பயிற்சி பெற்ற போட்கள், புதிதாகப் பிரச்சினைகளைத் தீர்க்கப் பயிற்றுவிக்கப்பட்ட AI-ஐ விட வேகமாகக் கற்றுக்கொண்டு சிறந்த முடிவுகளைக் காட்டின. அவர்கள் பணியை முடித்து தொடக்க நிலைக்குத் திரும்புவது, மூடிய அறைகளில் பெட்டிகளைத் தடுப்பது மற்றும் கொடுக்கப்பட்ட பகுதிகளில் பெட்டிகளை வைப்பது போன்றவற்றில் சற்று சிறப்பாகச் செயல்பட்டனர்.

AI எவ்வாறு சில திறன்களைக் கற்றுக்கொள்கிறது மற்றும் நினைவில் கொள்கிறது என்பதில் கலவையான முடிவுகளை ஆராய்ச்சியாளர்கள் கூறுகின்றனர். "விளையாட்டிற்கு முந்தைய பயிற்சி சிறப்பாகச் செயல்பட்டது, முன்பு கற்றுக்கொண்ட திறன்களை நன்கு அறிந்த முறையில் மீண்டும் பயன்படுத்துவதை உள்ளடக்கியது என்று நாங்கள் நினைக்கிறோம், அதே நேரத்தில் புதிதாகப் பயிற்றுவிக்கப்பட்ட AI ஐ விட மீதமுள்ள பணிகளைச் சிறப்பாகச் செய்ய, அவற்றை வேறு வழியில் பயன்படுத்த வேண்டும். மிகவும் கடினமானது,” என்று படைப்பின் இணை ஆசிரியர்கள் எழுதுகின்றனர். "ஒரு சூழலிலிருந்து மற்றொரு சூழலுக்கு மாற்றும் போது பயிற்சியின் மூலம் பெற்ற திறன்களை திறம்பட மீண்டும் பயன்படுத்துவதற்கான வழிமுறைகளை உருவாக்க வேண்டியதன் அவசியத்தை இந்த முடிவு எடுத்துக்காட்டுகிறது."

இந்த கற்பித்தல் முறையைப் பயன்படுத்துவதற்கான வாய்ப்பு எந்த விளையாட்டுகளின் வரம்புகளுக்கும் அப்பாற்பட்டது என்பதால், செய்யப்பட்ட பணி உண்மையிலேயே ஈர்க்கக்கூடியது. நோய்களைக் கண்டறியவும், சிக்கலான புரத மூலக்கூறுகளின் கட்டமைப்புகளைக் கணிக்கவும் மற்றும் CT ஸ்கேன்களை பகுப்பாய்வு செய்யவும் கூடிய "இயற்பியல் அடிப்படையிலான" மற்றும் "மனிதன் போன்ற" நடத்தை மூலம் AI ஐ உருவாக்குவதற்கான ஒரு குறிப்பிடத்தக்க படியாக ஆராய்ச்சியாளர்கள் கூறுகின்றனர்.

கீழேயுள்ள வீடியோவில், முழு கற்றல் செயல்முறை எவ்வாறு நடந்தது, AI எவ்வாறு குழுப்பணியைக் கற்றுக்கொண்டது மற்றும் அதன் உத்திகள் மேலும் மேலும் தந்திரமாகவும் சிக்கலானதாகவும் மாறியது என்பதை நீங்கள் தெளிவாகக் காணலாம்.



ஆதாரம்: 3dnews.ru

கருத்தைச் சேர்