OpenAI jgħallem ix-xogħol f'tim tal-AI f'logħba tal-ħabi u t-tfittxija

Logħba tajba antikwata tal-ħabi u t-tfittxija tista 'tkun test kbir għall-bots tal-intelliġenza artifiċjali (AI) biex juru kif jieħdu deċiżjonijiet u jinteraġixxu ma' xulxin u oġġetti varji madwarhom.

Fil- artiklu ġdid, ippubblikat minn riċerkaturi minn OpenAI, organizzazzjoni ta 'riċerka ta' intelliġenza artifiċjali mingħajr skop ta 'qligħ li saret famuża rebħa fuq iċ-champions tad-dinja fil-logħba tal-kompjuter Dota 2, ix-xjentisti jiddeskrivu kif l-aġenti kkontrollati mill-intelliġenza artifiċjali kienu mħarrġa biex ikunu aktar sofistikati fit-tiftix u l-ħabi minn xulxin f’ambjent virtwali. Ir-riżultati tal-istudju wrew li tim ta 'żewġ bots jitgħallem b'mod aktar effettiv u aktar mgħaġġel minn kwalunkwe aġent wieħed mingħajr alleati.

OpenAI jgħallem ix-xogħol f'tim tal-AI f'logħba tal-ħabi u t-tfittxija

Ix-xjentisti użaw metodu li ilu rebaħ il-fama tiegħu tagħlim bil-magni bit-tisħiħ, li fiha l-intelliġenza artifiċjali titqiegħed f'ambjent mhux magħruf għaliha, filwaqt li għandha ċerti modi ta 'interazzjoni magħha, kif ukoll sistema ta' premjijiet u multi għal riżultat jew ieħor tal-azzjonijiet tagħha. Dan il-metodu huwa pjuttost effettiv minħabba l-abbiltà tal-AI li twettaq diversi azzjonijiet f'ambjent virtwali b'veloċità enormi, miljuni ta 'darbiet aktar mgħaġġla milli persuna tista' timmaġina. Dan jippermetti prova u żball biex jinstabu l-aktar strateġiji effettivi biex issolvi problema partikolari. Iżda dan l-approċċ għandu wkoll xi limitazzjonijiet, pereżempju, il-ħolqien ta 'ambjent u t-twettiq ta' bosta ċikli ta 'taħriġ jeħtieġ riżorsi ta' kompjuters enormi, u l-proċess innifsu jeħtieġ sistema preċiża biex jitqabblu r-riżultati tal-azzjonijiet tal-AI mal-għan tiegħu. Barra minn hekk, il-ħiliet miksuba mill-aġent b'dan il-mod huma limitati għall-kompitu deskritt u, ladarba l-AI titgħallem tlaħħaq magħha, mhux se jkun hemm aktar titjib.

Biex tħarreġ l-AI biex tilgħab jistaħbew, ix-xjenzati użaw approċċ imsejjaħ "Esplorazzjoni mhux diretta," li huwa fejn l-aġenti għandhom libertà sħiħa biex jiżviluppaw il-fehim tagħhom tad-dinja tal-logħob u jiżviluppaw strateġiji rebbieħa. Dan huwa simili għall-approċċ ta 'tagħlim multi-aġenti li riċerkaturi f'DeepMind użaw meta sistemi multipli ta' intelliġenza artifiċjali ġew imħarrġa biex jilagħbu jaqbdu l-modalità tal-bandiera fi Quake III Arena. Bħal f'dan il-każ, l-aġenti tal-AI ma kinux imħarrġa qabel fir-regoli tal-logħba, iżda maż-żmien tgħallmu strateġiji bażiċi u saħansitra setgħu jissorprendu lir-riċerkaturi b'soluzzjonijiet mhux trivjali.

F’logħba tal-moħba, diversi aġenti li xogħolhom kien li jaħbu kienu mitluba jevitaw il-vista tal-avversarji wara daqqa ta’ ras ħafifa waqt li t-tim tal-aġenti tat-tiftix kien immobilizzat. Barra minn hekk, il-"linja tal-vista" f'dan il-kuntest hija kon ta 'grad 135 quddiem bot individwali. L-aġenti ma setgħux jidħlu wisq barra ż-żona tal-logħob u kienu sfurzati jinnavigaw kmamar ġenerati bl-addoċċ bil-kapaċità li jużaw xi oġġetti esterni (kaxxi, ħitan mobbli, rampi speċjali) imxerrda madwar li setgħu jintużaw kemm biex joħolqu kopertura kif ukoll biex jinfiltraw fihom. .

OpenAI jgħallem ix-xogħol f'tim tal-AI f'logħba tal-ħabi u t-tfittxija

Permezz ta 'proċess ta' tagħlim fit-tul, l-aġenti tal-AI tgħallmu sitt strateġiji uniċi, li kull waħda minnhom għenithom jimxu lejn l-istadju li jmiss tal-logħba. Għall-ewwel, it-timijiet li jfittxu u li jaħbu sempliċement ħarbu u ħarbu lil xulxin, iżda wara madwar 25 miljun partita, it-tim tal-hider tgħallem jimblokka passaġġi bil-kaxxi u jibni xelters minnhom. Wara 75 miljun partita oħra, it-tim skopra modi kif juża r-rampi biex jidħol f’dawn il-moħbi. Wara 10 miljuni oħra rawnds, hiders tgħallmu jkaxkru rampi lejn it-tarf taż-żona tal-logħob u jissakkruhom f'posthom biex jipprevjenu lill-avversarji milli jużawhom.

OpenAI jgħallem ix-xogħol f'tim tal-AI f'logħba tal-ħabi u t-tfittxija

Wara 388 miljun partita, dawk li jfittxu tgħallmu jużaw rampi mblukkati biex jitilgħu fuq ċestuni miġjuba lilhom, u mbagħad, jimxu direttament fuqhom, jippenetraw ħbews tal-għadu maħluqa minn ħitan portabbli. U fl-aħħarnett, wara 458 miljun partita, it-tim tal-ħabi kkonkluda li kellu bżonn jimblokka l-oġġetti kollha u mbagħad jibnu kenn, li apparentement wassal għar-rebħa finali tagħhom.

Dak li huwa partikolarment impressjonanti huwa li wara 22 miljun partita, l-aġenti tgħallmu jikkoordinaw l-azzjonijiet tagħhom u l-effiċjenza tal-kollaborazzjoni tagħhom żdiedet biss fil-futur, pereżempju, kull wieħed ġab il-kaxxa jew il-ħajt tiegħu biex joħloq kenn u għażel is-sehem tagħhom ta 'oġġetti biex blokk biex tagħmilha logħba aktar diffiċli għall-avversarji.

OpenAI jgħallem ix-xogħol f'tim tal-AI f'logħba tal-ħabi u t-tfittxija

Ix-xjentisti nnutaw ukoll punt importanti relatat mal-influwenza tan-numru ta 'oġġetti ta' taħriġ (l-ammont ta 'dejta mgħoddija min-netwerk newrali - "Daqs tal-lott") fuq il-veloċità tat-tagħlim. Il-mudell default kien jeħtieġ 132,3 miljun partita fuq 34 siegħa ta 'taħriġ biex jilħaq il-punt fejn it-tim tal-ħabi tgħallem jimblokka r-rampi, filwaqt li aktar dejta rriżultat fi tnaqqis notevoli fil-ħin tat-taħriġ. Pereżempju, iż-żieda tan-numru ta 'parametri (parti mid-dejta miksuba matul il-proċess kollu ta' taħriġ) minn 0,5 miljun għal 5,8 miljun żiedet l-effiċjenza tal-kampjunar b'2,2 darbiet, u ż-żieda tad-daqs tad-dejta tal-input minn 64 KB għal 128 KB naqqset it-taħriġ ħin kważi darba u nofs.

OpenAI jgħallem ix-xogħol f'tim tal-AI f'logħba tal-ħabi u t-tfittxija

Fl-aħħar tax-xogħol tagħhom, ir-riċerkaturi ddeċidew li jittestjaw kemm taħriġ fil-logħba jista 'jgħin lill-aġenti jlaħħqu ma' kompiti simili barra l-logħba. Kien hemm ħames testijiet b’kollox: għarfien tan-numru ta’ oġġetti (fehim li oġġett jibqa’ jeżisti anki jekk ma jidhirx u ma jintużax); "lock and return" - il-kapaċità li wieħed jiftakar il-pożizzjoni oriġinali tiegħu u jerġa 'lura għaliha wara li jlesti xi kompitu addizzjonali; "imblukkar sekwenzjali" - 4 kaxxi kienu jinsabu b'mod każwali fi tliet kmamar mingħajr bibien, iżda b'rampi biex jidħlu ġewwa, l-aġenti kellhom bżonn isibu u jimblokkawhom kollha; Tqegħid ta' kaxxi fuq siti predeterminati; ħolqien ta 'kenn madwar oġġett fil-forma ta' ċilindru.

Bħala riżultat, fi tlieta minn kull ħames kompiti, bots li kienu għaddew minn taħriġ preliminari fil-logħba tgħallmu aktar malajr u wrew riżultati aħjar minn AI li kienet imħarrġa biex issolvi l-problemi mill-bidu. Huma wettqu kemmxejn aħjar fit-tlestija tal-kompitu u rritornaw għall-pożizzjoni tal-bidu, imblukkaw b'mod sekwenzjali kaxxi fi kmamar magħluqa, u jqiegħdu kaxxi f'żoni partikolari, iżda wettqu ftit aktar dgħajfa biex jagħrfu n-numru ta 'oġġetti u joħolqu kopertura madwar oġġett ieħor.

Ir-riċerkaturi jattribwixxu riżultati mħallta għal kif l-AI titgħallem u tiftakar ċerti ħiliet. “Aħna naħsbu li l-ħidmiet fejn it-taħriġ minn qabel fil-logħba wettaq l-aħjar kienu jinvolvu l-użu mill-ġdid ta’ ħiliet li tgħallmu qabel b’mod familjari, filwaqt li l-kompiti li fadal jitwettqu aħjar mill-AI mħarrġa mill-bidu jkunu jeħtieġu li jintużaw b’mod differenti, li ħafna aktar ikkumplikat,” jiktbu l-ko-awturi tax-xogħol. "Dan ir-riżultat jenfasizza l-ħtieġa li jiġu żviluppati metodi biex jerġgħu jintużaw b'mod effettiv il-ħiliet miksuba permezz tat-taħriġ meta jiġu trasferiti minn ambjent għal ieħor."

Ix-xogħol li sar huwa tassew impressjonanti, peress li l-prospett li jintuża dan il-metodu ta’ tagħlim jinsab ferm lil hinn mil-limiti ta’ kwalunkwe logħob. Ir-riċerkaturi jgħidu li x-xogħol tagħhom huwa pass sinifikanti lejn il-ħolqien ta 'AI b'imġieba "ibbażata fuq il-fiżika" u "tixbah lill-bniedem" li tista' tiddijanjostika l-mard, tbassar l-istrutturi ta 'molekuli ta' proteini kumplessi u janalizza CT scans.

Fil-video hawn taħt tista 'tara b'mod ċar kif seħħ il-proċess kollu ta' tagħlim, kif l-AI tgħallmet ix-xogħol f'tim, u l-istrateġiji tagħha saru aktar u aktar għaqlin u kumplessi.



Sors: 3dnews.ru

Żid kumment