🥇OpenAI-ն սովորեցնում է AI թիմային աշխատանք թաքցնելու և փնտրելու խաղում

Լավ հնաոճ թաքնված խաղը կարող է հիանալի փորձություն լինել արհեստական ինտելեկտի (AI) բոտերի համար՝ ցույց տալու, թե ինչպես են նրանք որոշումներ կայացնում և փոխազդում միմյանց և շրջապատող տարբեր առարկաների հետ:

Նրա մեջ նոր հոդված, հրապարակված OpenAI-ի հետազոտողների կողմից՝ արհեստական ինտելեկտի ոչ առևտրային հետազոտական կազմակերպության, որը հայտնի է դարձել հաղթանակ աշխարհի չեմպիոնների նկատմամբ Dota 2 համակարգչային խաղում գիտնականները նկարագրում են, թե ինչպես են արհեստական ինտելեկտով վերահսկվող գործակալները պատրաստվել վիրտուալ միջավայրում միմյանցից որոնելու և թաքցնելու հարցում ավելի կատարելագործված լինելու համար: Հետազոտության արդյունքները ցույց են տվել, որ երկու բոտից բաղկացած թիմը սովորում է ավելի արդյունավետ և ավելի արագ, քան որևէ առանձին գործակալ առանց դաշնակիցների:

Գիտնականներն օգտագործել են մի մեթոդ, որը վաղուց է իր համբավը նվաճել մեքենայական ուսուցում ամրապնդմամբ, որում արհեստական ինտելեկտը տեղադրված է իրեն անհայտ միջավայրում՝ միաժամանակ ունենալով դրա հետ փոխգործակցության որոշակի ուղիներ, ինչպես նաև իր գործողությունների այս կամ այն արդյունքի համար պարգևների և տուգանքների համակարգ։ Այս մեթոդը բավականին արդյունավետ է վիրտուալ միջավայրում տարբեր գործողություններ իրականացնելու վիտուալ միջավայրում հսկայական արագությամբ, միլիոնավոր անգամներ ավելի արագ, քան մարդը կարող է պատկերացնել, AI-ի ունակության շնորհիվ: Սա թույլ է տալիս փորձին և սխալին գտնել տվյալ խնդրի լուծման ամենաարդյունավետ ռազմավարությունները: Բայց այս մոտեցումն ունի նաև որոշ սահմանափակումներ, օրինակ՝ միջավայր ստեղծելը և բազմաթիվ ուսուցման ցիկլեր անցկացնելը պահանջում են հաշվողական հսկայական ռեսուրսներ, իսկ գործընթացն ինքնին պահանջում է AI գործողությունների արդյունքներն իր նպատակի հետ համեմատելու ճշգրիտ համակարգ: Բացի այդ, գործակալի կողմից այս կերպ ձեռք բերված հմտությունները սահմանափակվում են նկարագրված առաջադրանքով, և հենց որ AI-ն սովորի հաղթահարել դրա հետ, հետագա բարելավումներ չեն լինի:

Արհեստական ինտելեկտին թաքնված և որոնելու համար վարժեցնելու համար գիտնականներն օգտագործեցին «Չուղղորդված հետախուզում» կոչվող մոտեցումը, որտեղ գործակալներն ունեն լիակատար ազատություն՝ զարգացնելու իրենց պատկերացումները խաղի աշխարհի մասին և մշակելու հաղթող ռազմավարություններ: Սա նման է բազմագործակալների ուսուցման մոտեցմանը, որը DeepMind-ի հետազոտողները օգտագործում էին արհեստական ինտելեկտի բազմաթիվ համակարգերի դեպքում նրանք վերապատրաստվել են Quake III Arena-ում դրոշակի ռեժիմը խաղալու համար. Ինչպես այս դեպքում, AI գործակալները նախկինում չեն վերապատրաստվել խաղի կանոններին, բայց ժամանակի ընթացքում նրանք սովորել են հիմնական ռազմավարություններ և նույնիսկ կարողացել են զարմացնել հետազոտողներին ոչ տրիվիալ լուծումներով:

Թաքնված խաղի ժամանակ մի քանի գործակալներից, որոնց գործը թաքնվելն էր, պահանջվում էր խուսափել իրենց հակառակորդների տեսադաշտից այն բանից հետո, երբ որոնողական գործակալների թիմը անշարժացված էր: Ավելին, «տեսադաշտը» այս համատեքստում 135 աստիճանի կոն է անհատական բոտի դիմաց: Գործակալները չէին կարող շատ հեռու գնալ խաղադաշտից դուրս և ստիպված եղան նավարկելու պատահականորեն ստեղծված սենյակները՝ օգտագործելով շուրջը ցրված որոշ արտաքին առարկաներ (արկղեր, շարժական պատեր, հատուկ թեքահարթակներ), որոնք կարող էին օգտագործվել ինչպես ծածկույթ ստեղծելու, այնպես էլ դրանց մեջ ներթափանցելու համար: .

Երկարատև ուսուցման գործընթացի միջոցով AI-ի գործակալները սովորեցին վեց յուրահատուկ ռազմավարություն, որոնցից յուրաքանչյուրն օգնեց նրանց անցնել խաղի հաջորդ փուլ: Սկզբում որոնող և թաքնված թիմերը պարզապես փախան և հետապնդեցին միմյանց, բայց մոտ 25 միլիոն հանդիպումներից հետո թաքնված թիմը սովորեց փակել անցումները տուփերով և դրանցից ապաստարաններ կառուցել: Եվս 75 միլիոն հանդիպումներից հետո թիմը հայտնաբերեց այս թաքստոցներ մտնելու համար թեքահարթակներ օգտագործելու ուղիներ: Եվս 10 միլիոն ռաունդներից հետո թաքնվածները սովորեցին թեքահարթակները քաշել խաղահրապարակի եզրին և փակել դրանք տեղում, որպեսզի հակառակորդները չօգտագործեն դրանք:

388 միլիոն լուցուց հետո որոնողները սովորել են օգտագործել արգելափակված թեքահարթակներ՝ իրենց մոտ բերված արկղերի վրա բարձրանալու համար, այնուհետև, ուղղակիորեն շարժվելով դրանց վրա, թափանցել շարժական պատերից ստեղծված թշնամու թաքստոցներ: Եվ վերջապես, 458 միլիոն հանդիպումներից հետո, թաքնված թիմը եզրակացրեց, որ պետք է արգելափակել բոլոր առարկաները, իսկ հետո ապաստարան կառուցել, ինչը, ըստ երևույթին, հանգեցրել է նրանց վերջնական հաղթանակին:

Հատկապես տպավորիչն այն է, որ 22 միլիոն խաղերից հետո գործակալները սովորեցին համակարգել իրենց գործողությունները, և նրանց համագործակցության արդյունավետությունը միայն ապագայում աճեց, օրինակ, յուրաքանչյուրը բերեց իր տուփը կամ պատը ապաստան ստեղծելու համար և ընտրեց իր բաժինը: արգելափակել՝ մրցակիցների համար խաղն ավելի դժվար դարձնելու համար:

Գիտնականները նաև նշել են կարևոր կետ՝ կապված ուսումնական օբյեկտների քանակի (նեյրոնային ցանցի միջով անցած տվյալների քանակը՝ «Փաթեթի չափ») ազդեցության ուսուցման արագության վրա։ Լռելյայն մոդելը պահանջում էր 132,3 միլիոն հանդիպում 34 ժամվա ընթացքում, որպեսզի հասներ այն կետին, որտեղ թաքնված թիմը սովորեց արգելափակել թեքահարթակները, մինչդեռ ավելի շատ տվյալներ հանգեցրին մարզումների ժամանակի նկատելի կրճատմանը: Օրինակ, պարամետրերի քանակի ավելացումը (վերապատրաստման ողջ գործընթացի ընթացքում ստացված տվյալների մի մասը) 0,5 միլիոնից մինչև 5,8 միլիոն, ավելացրեց ընտրանքային արդյունավետությունը 2,2 անգամ, իսկ մուտքային տվյալների չափը 64 ԿԲ-ից մինչև 128 ԿԲ նվազեցրեց վերապատրաստումը: անգամ գրեթե մեկուկես անգամ:

Իրենց աշխատանքի ավարտին հետազոտողները որոշեցին ստուգել, թե որքանով է խաղի ուսուցումը կարող օգնել գործակալներին հաղթահարել խաղից դուրս նմանատիպ առաջադրանքները: Ընդհանուր առմամբ եղել է հինգ թեստ՝ օբյեկտների քանակի իրազեկում (հասկանալ, որ օբյեկտը շարունակում է գոյություն ունենալ, նույնիսկ եթե այն գտնվում է տեսադաշտից դուրս և չի օգտագործվում); «կողպեք և վերադարձեք» - մարդու սկզբնական դիրքը հիշելու և որոշ լրացուցիչ առաջադրանք կատարելուց հետո վերադառնալու ունակություն. «Հաջորդական արգելափակում» - 4 արկղ պատահականորեն տեղակայված էին երեք սենյակներում՝ առանց դռների, բայց ներս մտնելու համար թեքահարթակներով, գործակալներին անհրաժեշտ էր գտնել և արգելափակել դրանք բոլորին. արկղերի տեղադրում նախապես որոշված վայրերում; մխոցի տեսքով օբյեկտի շուրջ ապաստան ստեղծելը.

Արդյունքում հինգ առաջադրանքից երեքում բոտերը, որոնք նախնական վերապատրաստում էին անցել խաղի ընթացքում, ավելի արագ սովորեցին և ավելի լավ արդյունքներ ցույց տվեցին, քան AI-ն, որը վարժեցված էր զրոյից խնդիրներ լուծելու համար: Նրանք մի փոքր ավելի լավ կատարեցին առաջադրանքը կատարելիս և վերադառնալով մեկնարկային դիրքին, հաջորդաբար փակելով արկղերը փակ սենյակներում և տուփերը տեղադրեցին տվյալ տարածքներում, բայց մի փոքր ավելի թույլ գործեցին առարկաների քանակի ճանաչման և մեկ այլ առարկայի շուրջ ծածկույթ ստեղծելու հարցում:

Հետազոտողները տարբեր արդյունքներ են վերագրում այն բանին, թե ինչպես է AI-ն սովորում և հիշում որոշակի հմտություններ: «Մենք կարծում ենք, որ այն առաջադրանքները, որտեղ ներխաղային նախավարժանքները լավագույնս կատարվեցին, ներառում էին նախկինում սովորած հմտությունները ծանոթ ձևով վերօգտագործելը, մինչդեռ մնացած առաջադրանքները ավելի լավ կատարելը, քան զրոյից մարզված արհեստական ինտելեկտը, կպահանջեր դրանք օգտագործել այլ կերպ, ինչը շատ է: ավելի դժվար»,- գրում են ստեղծագործության համահեղինակները։ «Այս արդյունքը ընդգծում է մեթոդների մշակման անհրաժեշտությունը՝ վերապատրաստման արդյունքում ձեռք բերված հմտությունները մի միջավայրից մյուսը փոխանցելիս արդյունավետ կերպով օգտագործելու համար»:

Կատարված աշխատանքն իսկապես տպավորիչ է, քանի որ ուսուցման այս մեթոդի կիրառման հեռանկարը շատ դուրս է ցանկացած խաղի սահմաններից: Հետազոտողները ասում են, որ իրենց աշխատանքը նշանակալից քայլ է «ֆիզիկայի վրա հիմնված» և «մարդկանման» վարքագծով արհեստական ինտելեկտի ստեղծման ուղղությամբ, որը կարող է ախտորոշել հիվանդություններ, կանխատեսել բարդ սպիտակուցային մոլեկուլների կառուցվածքը և վերլուծել CT սկանավորումները:

Ստորև բերված տեսանյութում դուք կարող եք հստակ տեսնել, թե ինչպես է տեղի ունեցել ուսուցման ամբողջ գործընթացը, ինչպես է AI-ն սովորել թիմային աշխատանքին, և նրա ռազմավարությունները դառնում են ավելի ու ավելի խորամանկ և բարդ:

Source: 3dnews.ru

OpenAI-ը սովորեցնում է AI թիմային աշխատանք թաքցնելու և փնտրելու խաղում

Добавить комментарий Չեղարկել պատասխանել