Լավ հնաոճ թաքնված խաղը կարող է հիանալի փորձություն լինել արհեստական ինտելեկտի (AI) բոտերի համար՝ ցույց տալու, թե ինչպես են նրանք որոշումներ կայացնում և փոխազդում միմյանց և շրջապատող տարբեր առարկաների հետ:
Նրա մեջ
Գիտնականներն օգտագործել են մի մեթոդ, որը վաղուց է իր համբավը նվաճել
Արհեստական ինտելեկտին թաքնված և որոնելու համար վարժեցնելու համար գիտնականներն օգտագործեցին «Չուղղորդված հետախուզում» կոչվող մոտեցումը, որտեղ գործակալներն ունեն լիակատար ազատություն՝ զարգացնելու իրենց պատկերացումները խաղի աշխարհի մասին և մշակելու հաղթող ռազմավարություններ: Սա նման է բազմագործակալների ուսուցման մոտեցմանը, որը DeepMind-ի հետազոտողները օգտագործում էին արհեստական ինտելեկտի բազմաթիվ համակարգերի դեպքում
Թաքնված խաղի ժամանակ մի քանի գործակալներից, որոնց գործը թաքնվելն էր, պահանջվում էր խուսափել իրենց հակառակորդների տեսադաշտից այն բանից հետո, երբ որոնողական գործակալների թիմը անշարժացված էր: Ավելին, «տեսադաշտը» այս համատեքստում 135 աստիճանի կոն է անհատական բոտի դիմաց: Գործակալները չէին կարող շատ հեռու գնալ խաղադաշտից դուրս և ստիպված եղան նավարկելու պատահականորեն ստեղծված սենյակները՝ օգտագործելով շուրջը ցրված որոշ արտաքին առարկաներ (արկղեր, շարժական պատեր, հատուկ թեքահարթակներ), որոնք կարող էին օգտագործվել ինչպես ծածկույթ ստեղծելու, այնպես էլ դրանց մեջ ներթափանցելու համար: .
Երկարատև ուսուցման գործընթացի միջոցով AI-ի գործակալները սովորեցին վեց յուրահատուկ ռազմավարություն, որոնցից յուրաքանչյուրն օգնեց նրանց անցնել խաղի հաջորդ փուլ: Սկզբում որոնող և թաքնված թիմերը պարզապես փախան և հետապնդեցին միմյանց, բայց մոտ 25 միլիոն հանդիպումներից հետո թաքնված թիմը սովորեց փակել անցումները տուփերով և դրանցից ապաստարաններ կառուցել: Եվս 75 միլիոն հանդիպումներից հետո թիմը հայտնաբերեց այս թաքստոցներ մտնելու համար թեքահարթակներ օգտագործելու ուղիներ: Եվս 10 միլիոն ռաունդներից հետո թաքնվածները սովորեցին թեքահարթակները քաշել խաղահրապարակի եզրին և փակել դրանք տեղում, որպեսզի հակառակորդները չօգտագործեն դրանք:
388 միլիոն լուցուց հետո որոնողները սովորել են օգտագործել արգելափակված թեքահարթակներ՝ իրենց մոտ բերված արկղերի վրա բարձրանալու համար, այնուհետև, ուղղակիորեն շարժվելով դրանց վրա, թափանցել շարժական պատերից ստեղծված թշնամու թաքստոցներ: Եվ վերջապես, 458 միլիոն հանդիպումներից հետո, թաքնված թիմը եզրակացրեց, որ պետք է արգելափակել բոլոր առարկաները, իսկ հետո ապաստարան կառուցել, ինչը, ըստ երևույթին, հանգեցրել է նրանց վերջնական հաղթանակին:
Հատկապես տպավորիչն այն է, որ 22 միլիոն խաղերից հետո գործակալները սովորեցին համակարգել իրենց գործողությունները, և նրանց համագործակցության արդյունավետությունը միայն ապագայում աճեց, օրինակ, յուրաքանչյուրը բերեց իր տուփը կամ պատը ապաստան ստեղծելու համար և ընտրեց իր բաժինը: արգելափակել՝ մրցակիցների համար խաղն ավելի դժվար դարձնելու համար:
Գիտնականները նաև նշել են կարևոր կետ՝ կապված ուսումնական օբյեկտների քանակի (նեյրոնային ցանցի միջով անցած տվյալների քանակը՝ «Փաթեթի չափ») ազդեցության ուսուցման արագության վրա։ Լռելյայն մոդելը պահանջում էր 132,3 միլիոն հանդիպում 34 ժամվա ընթացքում, որպեսզի հասներ այն կետին, որտեղ թաքնված թիմը սովորեց արգելափակել թեքահարթակները, մինչդեռ ավելի շատ տվյալներ հանգեցրին մարզումների ժամանակի նկատելի կրճատմանը: Օրինակ, պարամետրերի քանակի ավելացումը (վերապատրաստման ողջ գործընթացի ընթացքում ստացված տվյալների մի մասը) 0,5 միլիոնից մինչև 5,8 միլիոն, ավելացրեց ընտրանքային արդյունավետությունը 2,2 անգամ, իսկ մուտքային տվյալների չափը 64 ԿԲ-ից մինչև 128 ԿԲ նվազեցրեց վերապատրաստումը: անգամ գրեթե մեկուկես անգամ:
Իրենց աշխատանքի ավարտին հետազոտողները որոշեցին ստուգել, թե որքանով է խաղի ուսուցումը կարող օգնել գործակալներին հաղթահարել խաղից դուրս նմանատիպ առաջադրանքները: Ընդհանուր առմամբ եղել է հինգ թեստ՝ օբյեկտների քանակի իրազեկում (հասկանալ, որ օբյեկտը շարունակում է գոյություն ունենալ, նույնիսկ եթե այն գտնվում է տեսադաշտից դուրս և չի օգտագործվում); «կողպեք և վերադարձեք» - մարդու սկզբնական դիրքը հիշելու և որոշ լրացուցիչ առաջադրանք կատարելուց հետո վերադառնալու ունակություն. «Հաջորդական արգելափակում» - 4 արկղ պատահականորեն տեղակայված էին երեք սենյակներում՝ առանց դռների, բայց ներս մտնելու համար թեքահարթակներով, գործակալներին անհրաժեշտ էր գտնել և արգելափակել դրանք բոլորին. արկղերի տեղադրում նախապես որոշված վայրերում; մխոցի տեսքով օբյեկտի շուրջ ապաստան ստեղծելը.
Արդյունքում հինգ առաջադրանքից երեքում բոտերը, որոնք նախնական վերապատրաստում էին անցել խաղի ընթացքում, ավելի արագ սովորեցին և ավելի լավ արդյունքներ ցույց տվեցին, քան AI-ն, որը վարժեցված էր զրոյից խնդիրներ լուծելու համար: Նրանք մի փոքր ավելի լավ կատարեցին առաջադրանքը կատարելիս և վերադառնալով մեկնարկային դիրքին, հաջորդաբար փակելով արկղերը փակ սենյակներում և տուփերը տեղադրեցին տվյալ տարածքներում, բայց մի փոքր ավելի թույլ գործեցին առարկաների քանակի ճանաչման և մեկ այլ առարկայի շուրջ ծածկույթ ստեղծելու հարցում:
Հետազոտողները տարբեր արդյունքներ են վերագրում այն բանին, թե ինչպես է AI-ն սովորում և հիշում որոշակի հմտություններ: «Մենք կարծում ենք, որ այն առաջադրանքները, որտեղ ներխաղային նախավարժանքները լավագույնս կատարվեցին, ներառում էին նախկինում սովորած հմտությունները ծանոթ ձևով վերօգտագործելը, մինչդեռ մնացած առաջադրանքները ավելի լավ կատարելը, քան զրոյից մարզված արհեստական ինտելեկտը, կպահանջեր դրանք օգտագործել այլ կերպ, ինչը շատ է: ավելի դժվար»,- գրում են ստեղծագործության համահեղինակները։ «Այս արդյունքը ընդգծում է մեթոդների մշակման անհրաժեշտությունը՝ վերապատրաստման արդյունքում ձեռք բերված հմտությունները մի միջավայրից մյուսը փոխանցելիս արդյունավետ կերպով օգտագործելու համար»:
Կատարված աշխատանքն իսկապես տպավորիչ է, քանի որ ուսուցման այս մեթոդի կիրառման հեռանկարը շատ դուրս է ցանկացած խաղի սահմաններից: Հետազոտողները ասում են, որ իրենց աշխատանքը նշանակալից քայլ է «ֆիզիկայի վրա հիմնված» և «մարդկանման» վարքագծով արհեստական ինտելեկտի ստեղծման ուղղությամբ, որը կարող է ախտորոշել հիվանդություններ, կանխատեսել բարդ սպիտակուցային մոլեկուլների կառուցվածքը և վերլուծել CT սկանավորումները:
Ստորև բերված տեսանյութում դուք կարող եք հստակ տեսնել, թե ինչպես է տեղի ունեցել ուսուցման ամբողջ գործընթացը, ինչպես է AI-ն սովորել թիմային աշխատանքին, և նրա ռազմավարությունները դառնում են ավելի ու ավելի խորամանկ և բարդ:
Source: 3dnews.ru