AI DeepMind-ը տիրապետել է թիմային խաղին և գերազանցել է Quake III-ի մարդուն

Capture the Flag-ը բավականին պարզ մրցակցային ռեժիմ է, որն իրականացվում է շատ հայտնի հրաձիգներում: Յուրաքանչյուր թիմ ունի իր բազայում տեղադրված մարկեր, և նպատակն է գրավել հակառակորդի նշիչը և հաջողությամբ վերադարձնել այն իրենց մոտ: Այնուամենայնիվ, այն, ինչ հեշտությամբ հասկացվում է մարդկանց կողմից, այնքան էլ հեշտ չի տրվում մեքենաներին: Դրոշը գրավելու համար ոչ խաղացող կերպարները (բոտերը) ավանդաբար ծրագրավորվում են էվրիստիկաներով և պարզ ալգորիթմներով, որոնք ապահովում են ընտրության սահմանափակ ազատություն և զգալիորեն զիջում են մարդկանց: Սակայն արհեստական ​​ինտելեկտը և մեքենայական ուսուցումը խոստանում են ամբողջությամբ շրջել այս իրավիճակը:

В Հոդված, հրապարակվել է այս շաբաթ Science ամսագրում մոտ մեկ տարի անց նախատպինչպես նաեւ ձեր բլոգըDeepMind-ի հետազոտողները՝ Alphabet-ի լոնդոնյան դուստր ձեռնարկությունը, նկարագրում են մի համակարգ, որը կարող է ոչ միայն սովորել id Software-ի Quake III Arena-ի քարտեզների վրա գրավել դրոշը, այլև մշակել թիմի բոլորովին նոր ռազմավարություններ այնպես, որ ոչ մի կերպ չի զիջում մարդ.

AI DeepMind-ը տիրապետել է թիմային խաղին և գերազանցել է Quake III-ի մարդուն

«Ոչ ոք արհեստական ​​ինտելեկտին չի ասել, թե ինչպես խաղալ այս խաղը, նրանք ունեին միայն այն արդյունքը, թե AI-ն հաղթեց մրցակցին, թե ոչ: Այս մոտեցման կիրառման գեղեցկությունն այն է, որ դուք երբեք չգիտեք, թե ինչ վարքագիծ կդրսևորվի գործակալներին մարզելիս », - ասում է Մաքս Ջադերբերգը, DeepMind-ի հետազոտող, ով նախկինում աշխատել է AlphaStar մեքենայական ուսուցման համակարգի վրա (վերջերս նա գերազանցեց StarCraft II-ի մասնագետների մարդկային թիմ): Նա շարունակեց բացատրել, որ իրենց նոր աշխատանքի հիմնական մեթոդը, առաջին հերթին, ամրապնդման ուսուցումն է, որն օգտագործում է մի տեսակ պարգևատրման համակարգ՝ ծրագրային գործակալներին մղելու իրենց նպատակներին հասնելու համար, ընդ որում պարգևատրման համակարգը գործում է անկախ նրանից, թե արդյոք AI թիմը հաղթել է: թե ոչ, և երկրորդ՝ գործակալների վերապատրաստումն իրականացվել է խմբերով, ինչը ստիպել է AI-ին ի սկզբանե տիրապետել թիմային փոխգործակցությանը։

«Հետազոտության տեսանկյունից սա նորություն է ալգորիթմական մոտեցման համար, որն իսկապես տպավորիչ է», - ավելացրեց Մաքսը: «Այն, թե ինչպես մենք վարժեցրինք մեր AI-ն, լավ օրինակ է այն բանի, թե ինչպես մեծացնել և իրականացնել դասական էվոլյուցիոն գաղափարներ»:

AI DeepMind-ը տիրապետել է թիմային խաղին և գերազանցել է Quake III-ի մարդուն

For The Win (FTW) DeepMind գործակալները ուղղակիորեն սովորում են էկրանի պիքսելներից՝ օգտագործելով կոնվոլյուցիոն նեյրոնային ցանց՝ մաթեմատիկական ֆունկցիաների (նեյրոնների) մի շարք, որոնք դասավորված են շերտերով, որոնք մոդելավորվել են մարդու տեսողական ծառի կեղևի հիման վրա: Ստացված տվյալները փոխանցվում են բազմաթիվ կարճաժամկետ հիշողությամբ երկու ցանցեր (անգլերեն երկար կարճաժամկետ հիշողություն - LSTM), որոնք ունակ են ճանաչելու երկարաժամկետ կախվածություններ։ Նրանցից մեկը կառավարում է գործառնական տվյալները արագ արձագանքման ժամանակով, մինչդեռ մյուսը դանդաղ է աշխատում վերլուծության և ռազմավարության համար: Երկուսն էլ կապված են փոփոխական հիշողության հետ, որը նրանք կիսում են խաղի աշխարհում փոփոխությունները կանխատեսելու և գործողություններ կատարելու համար նմանակված խաղի վերահսկիչի միջոցով:

AI DeepMind-ը տիրապետել է թիմային խաղին և գերազանցել է Quake III-ի մարդուն

Ընդհանուր առմամբ, DeepMind-ը մարզել է 30 գործակալի, գիտնականները նրանց տվել են մի շարք թիմակիցներ և հակառակորդներ՝ խաղալու համար, և խաղաքարտերն ընտրվել են պատահականության սկզբունքով, որպեսզի AI-ն չհիշի դրանք: Յուրաքանչյուր գործակալ ուներ իր պարգևատրման ազդանշանը, որը թույլ էր տալիս ստեղծել իր ներքին նպատակները, օրինակ՝ դրոշը գրավելը: Յուրաքանչյուր արհեստական ​​ինտելեկտն անհատապես խաղացել է մոտ 450 նկարահանում դրոշի խաղեր, ինչը համարժեք է մոտ չորս տարվա խաղային փորձի:

Լիովին պատրաստված FTW գործակալները սովորել են կիրառել ռազմավարություններ, որոնք ընդհանուր են ցանկացած քարտեզի, թիմի ցուցակի և թիմի չափի համար: Նրանք սովորեցին մարդկային վարքագիծ, ինչպիսիք են թիմակիցներին հետևելը, թշնամու բազայում ճամբարը և հարձակվողներից պաշտպանելը, և նրանք աստիճանաբար կորցրին ոչ այնքան շահավետ մոդելներ, ինչպիսիք են դաշնակցին չափազանց ուշադիր հետևելը:

Այսպիսով, ինչպիսի՞ն էին արդյունքները: 40 հոգանոց մրցաշարում, որտեղ մարդիկ և գործակալները պատահականորեն խաղում էին թե՛ միասին, թե՛ միմյանց դեմ, FTW գործակալները զգալիորեն գերազանցեցին մարդկային խաղացողների հաղթանակի ցուցանիշը: AI-ի Elo վարկանիշը, որը համապատասխանում է հաղթելու հավանականությանը, եղել է 1600՝ համեմատած 1300-ի՝ «ուժեղ» մարդկային խաղացողների և 1050-ի՝ «միջին» մարդկային խաղացողների համար։

AI DeepMind-ը տիրապետել է թիմային խաղին և գերազանցել է Quake III-ի մարդուն

Սա զարմանալի չէ, քանի որ AI-ի արձագանքման արագությունը զգալիորեն ավելի արագ է, քան մարդունը, ինչը առաջինին զգալի առավելություն տվեց սկզբնական փորձերում: Բայց նույնիսկ երբ գործակալների ճշգրտությունը նվազեց, և արձագանքման ժամանակը մեծացավ ներկառուցված 257 միլիվայրկյան ուշացման շնորհիվ, AI-ն, այնուամենայնիվ, գերազանցում էր մարդկանց: Առաջադեմ և սովորական խաղացողները հաղթել են խաղերի համապատասխանաբար միայն 21% և 12%:

Ավելին, հետազոտության հրապարակումից հետո գիտնականները որոշեցին գործակալներին փորձարկել Quake III Arena-ի ամբողջական քարտեզների վրա բարդ մակարդակի ճարտարապետությամբ և լրացուցիչ օբյեկտներով, ինչպիսիք են Future Crossings-ը և Ironwood-ը, որտեղ AI-ն սկսեց հաջողությամբ վիճարկել մարդկանց գերազանցությունը թեստային խաղերում: . Երբ հետազոտողները ուսումնասիրեցին գործակալների նեյրոնային ցանցերի ակտիվացման օրինաչափությունները, այսինքն՝ նեյրոնների գործառույթները, որոնք պատասխանատու են մուտքային տեղեկատվության հիման վրա ելքը որոշելու համար, նրանք գտան կլաստերներ, որոնք ներկայացնում են սենյակները, դրոշների վիճակը, թիմակիցների և հակառակորդների տեսանելիությունը: Գործակալների առկայությունը կամ բացակայությունը թշնամու բազայում կամ թիմային հիմքում և խաղի այլ կարևոր ասպեկտներ: Վերապատրաստված գործակալները նույնիսկ նեյրոններ էին պարունակում, որոնք ուղղակիորեն կոդավորում էին կոնկրետ իրավիճակներ, օրինակ, երբ դրոշը վերցնում է գործակալը կամ երբ դաշնակիցը պահում է այն:

«Կարծում եմ, որ պետք է ուշադրություն դարձնել այն հանգամանքին, որ այս բազմաթիվ գործակալների թիմերը բացառիկ հզոր են, և մեր հետազոտությունը ցույց է տալիս դա», - ասում է Յադերբերգը: «Դա մի բան է, որ մենք սովորել ենք անել ավելի ու ավելի լավ վերջին մի քանի տարիների ընթացքում՝ ինչպես լուծել ուժեղացման ուսուցման խնդիրը: Իսկ ուժեղացված մարզումն իսկապես իրեն փայլուն դրսեւորեց»։

Թոր Գրեյփելը, Լոնդոնի համալսարանական քոլեջի համակարգչային գիտության պրոֆեսոր և DeepMind-ի գիտնական, վստահ է, որ իրենց աշխատանքն ընդգծում է ապագայում արհեստական ​​ինտելեկտը զարգացնելու բազմագործակալների ուսուցման ներուժը: Այն կարող է նաև հիմք ծառայել մարդ-մեքենա փոխազդեցությունների և միմյանց լրացնող կամ միասին աշխատող համակարգերի հետազոտության համար:

«Մեր արդյունքները ցույց են տալիս, որ բազմաֆունկցիոնալ ուժեղացման ուսուցումը կարող է հաջողությամբ տիրապետել բարդ խաղին այն աստիճանի, որ մարդկային խաղացողները նույնիսկ սկսում են հավատալ, որ համակարգչային խաղացողներն ավելի լավ թիմակիցներ են: Ուսումնասիրությունը նաև տրամադրում է չափազանց հետաքրքիր խորը վերլուծություն այն մասին, թե ինչպես են վերապատրաստված գործակալները վարվում և աշխատում միասին»,- ասում է Գրեյփելը: «Այն, ինչ այս արդյունքներն այդքան հուզիչ է դարձնում, այն է, որ այս գործակալներն իրենց միջավայրն ընկալում են առաջին դեմքով, [այսինքն] նույնը, ինչ մարդկային խաղացողը: Որպեսզի սովորեն, թե ինչպես խաղալ տակտիկապես և համագործակցել իրենց թիմակիցների հետ, այս գործակալները պետք է հիմնվեին կատարողականի հետադարձ կապի վրա՝ առանց որևէ ուսուցչի կամ մարզիչ ցույց տալու նրանց, թե ինչ անել»:



Source: 3dnews.ru

Добавить комментарий