OpenAI leart AI-teamwurk yn in spultsje fan ferstoppe en sykje

In goed âlderwetsk spultsje fan ferburgen en sykje kin in geweldige test wêze foar keunstmjittige yntelliginsje (AI) bots om te demonstrearjen hoe't se besluten nimme en ynteraksje mei elkoar en ferskate objekten om har hinne.

Yn syn nij artikel, publisearre troch ûndersikers fan OpenAI, in non-profit ûndersyksorganisaasje foar keunstmjittige yntelliginsje dy't ferneamd wurden is oerwinning op wrâldkampioenen yn it kompjûterspul Dota 2 beskriuwe wittenskippers hoe't aginten kontrolearre troch keunstmjittige yntelliginsje waarden oplaat om mear ferfine te sykjen en te ferbergjen fan elkoar yn in firtuele omjouwing. De resultaten fan 'e stúdzje hawwe oantoand dat in team fan twa bots effektiver en rapper leart dan ien inkelde agent sûnder bûnsmaten.

OpenAI leart AI-teamwurk yn in spultsje fan ferstoppe en sykje

Wittenskippers hawwe in metoade brûkt dy't syn bekendheid al lang wûn hat masine learen mei fersterking, wêrby't keunstmjittige yntelliginsje yn in foar har ûnbekende omjouwing pleatst wurdt, wylst se beskate manieren hawwe om dêrmei om te gean, en ek in systeem fan beleanningen en boetes foar ien of oar gefolch fan syn dieden. Dizze metoade is frij effektyf fanwege it fermogen fan AI om ferskate aksjes út te fieren yn in firtuele omjouwing mei enoarme snelheid, miljoenen kearen rapper dan in persoan kin foarstelle. Hjirmei kinne probearje en flater de meast effektive strategyen fine foar it oplossen fan in opjûn probleem. Mar dizze oanpak hat ek wat beheiningen, bygelyks it meitsjen fan in omjouwing en it útfieren fan in protte trainingssyklusen fereasket enoarme kompjûterboarnen, en it proses sels fereasket in akkuraat systeem om de resultaten fan AI-aksjes te fergelykjen mei syn doel. Derneist binne de feardichheden dy't op dizze manier troch de agint krigen binne beheind ta de beskreaune taak en, as de AI der ienris leart om dermei om te gaan, sille d'r gjin fierdere ferbetteringen wêze.

Om AI te trenen om ferburgen te spyljen, brûkten wittenskippers in oanpak neamd "Undirected exploration", dat is wêr't aginten folsleine frijheid hawwe om har begryp fan 'e spielwrâld te ûntwikkeljen en winnende strategyen te ûntwikkeljen. Dit is fergelykber mei de oanpak foar learen mei meardere aginten dy't ûndersikers by DeepMind brûkten as meardere systemen foar keunstmjittige yntelliginsje waarden oplaat om te spyljen capture de flagge modus yn Quake III Arena. Lykas yn dit gefal waarden de AI-aginten net earder oplaat yn 'e regels fan it spul, mar oer de tiid learden se basisstrategyen en koenen se sels ûndersikers ferrasse mei net-triviale oplossingen.

Yn in spultsje fan ferstopje waarden ferskate aginten waans taak it wie om te ferbergjen ferplichte om de sichtline fan har tsjinstanners te foarkommen nei in lichte foarsprong, wylst it team fan sykjende aginten ymmobilisearre wie. Boppedat, de "line of sight" yn dit ferbân is in 135 graad kegel foar in yndividuele bot. Aginten koenen net te fier bûten it spielgebiet weagje en waarden twongen om willekeurich oanmakke keamers te navigearjen mei de mooglikheid om guon eksterne objekten (doazen, beweechbere muorren, spesjale opritten) te brûken ferspraat dy't brûkt wurde kinne om sawol dekking te meitsjen as yn har te ynfiltrearjen .

OpenAI leart AI-teamwurk yn in spultsje fan ferstoppe en sykje

Troch in lang learproses learden de AI-aginten seis unike strategyen, dy't elk holpen har foarút te gean nei de folgjende faze fan it spul. Yn it earstoan rûnen de sykkers- en ûnderdûkersteams gewoan fuort en jagen inoar op, mar nei sa'n 25 miljoen wedstriden learde de ûnderdûkersploech om trochgongen mei doazen te blokkearjen en der ûnderdûkers fan te bouwen. Nei nochris 75 miljoen wedstriden ûntduts it team manieren om rampen te brûken om yn dizze skûlplakken te kommen. Nei nochris 10 miljoen rûnen learden ûnderdûkers om opritten nei de râne fan it spielgebiet te slepen en se op it plak te sluten om foar te kommen dat tsjinstanners se brûke.

OpenAI leart AI-teamwurk yn in spultsje fan ferstoppe en sykje

Nei 388 miljoen wedstriden hawwe sikers leard om blokkearde opritten te brûken om op kisten te klimmen dy't nei har brocht binne, en dan, direkt op har te bewegen, fijannige skûlplakken penetrearje makke fan draachbere muorren. En úteinlik, nei 458 miljoen wedstriden, konkludearre it hidingteam dat se alle objekten moasten blokkearje en dan in ûnderdak bouwe, wat blykber late ta har definitive oerwinning.

Wat benammen yndrukwekkend is, is dat de aginten nei 22 miljoen wedstriden learden om har aksjes te koördinearjen en de effisjinsje fan har gearwurking allinich tanommen yn 'e takomst, bygelyks elk brocht syn eigen doaze of muorre om in ûnderdak te meitsjen en keas syn oandiel fan objekten om blokkearje, om de muoite spultsje te komplisearjen foar tsjinstanners.

OpenAI leart AI-teamwurk yn in spultsje fan ferstoppe en sykje

Wittenskippers hawwe ek opmurken in wichtich punt yn ferbân mei de ynfloed fan it oantal training objekten (de hoemannichte gegevens trochjûn troch it neurale netwurk - "Batch Size") op it learen snelheid. It standertmodel easke 132,3 miljoen wedstriden oer 34 oeren training om it punt te berikken wêr't it ûnderdûkersteam learde om rampen te blokkearjen, wylst mear gegevens resultearre yn in merkbere fermindering fan trainingstiid. Bygelyks, it fergrutsjen fan it oantal parameters (diel fan de gegevens krigen tidens it hiele trainingsproses) fan 0,5 miljoen nei 5,8 miljoen fergrutte de sampling-effisjinsje mei 2,2 kear, en it fergrutsjen fan de grutte fan de ynfiergegevens fan 64 KB nei 128 KB fermindere training tiid hast oardel kear.

OpenAI leart AI-teamwurk yn in spultsje fan ferstoppe en sykje

Oan 'e ein fan har wurk besleaten de ûndersikers te testen hoefolle yn-spultsje-training aginten koe helpe om te gean mei ferlykbere taken bûten it spultsje. Der wiene fiif tests yn totaal: bewustwêzen fan it oantal objekten (begryp dat in objekt bliuwt bestean sels as it is út it sicht en net brûkt); "slute en werom" - de mooglikheid om te ûnthâlden de oarspronklike posysje en werom nei it nei it foltôgjen fan in ekstra taak; "sekwinsjele blokkearjen" - 4 doazen waarden willekeurich pleatst yn trije keamers sûnder doarren, mar mei rampen om binnen te kommen, wiene aginten nedich om se allegear te finen en te blokkearjen; pleatsing fan doazen op foarbeskaaide plakken; it meitsjen fan in ûnderdak om in objekt yn 'e foarm fan in silinder.

As gefolch, yn trije fan de fiif taken, bots dy't in foaroplieding yn it spul hiene ûndergien, learden rapper en lieten bettere resultaten sjen as AI dy't trainearre waard om problemen fanôf it begjin op te lossen. Se prestearre wat better by it foltôgjen fan de taak en werom nei de startposysje, sequentially blokkearje doazen yn sletten keamers, en pleatsen doazen yn opjûne gebieten, mar prestearre wat swakker by it werkennen fan it oantal objekten en it meitsjen fan dekking om in oar objekt.

Undersikers jouwe mingde resultaten ta oan hoe't AI bepaalde feardigens leart en ûnthâldt. "Wy tinke dat de taken wêr't foar-training yn-spultsje it bêste dien hat, it herbrûken fan earder learde feardigens op in fertroude manier omfette, wylst de oerbleaune taken better útfiere dan de AI dy't fanôf it begjin trainearre soe fereaskje se op in oare manier te brûken, wat folle dreger”, skriuwe de meiskriuwers fan it wurk. "Dit resultaat markearret de needsaak om metoaden te ûntwikkeljen foar it effektyf werbrûken fan feardichheden dy't krigen binne troch training by it oerbringen fan se fan de iene omjouwing nei de oare."

It dien wurk is wirklik yndrukwekkend, om't it perspektyf op it brûken fan dizze learmetoade fier bûten de grinzen fan alle spultsjes leit. De ûndersikers sizze dat har wurk in wichtige stap is foar it meitsjen fan AI mei "fysika-basearre" en "minsklike" gedrach dy't sykten kinne diagnoaze, de struktueren fan komplekse proteïnemolekulen kinne foarsizze en CT-scans analysearje.

Yn 'e fideo hjirûnder kinne jo dúdlik sjen hoe't it heule learproses plakfûn, hoe't de AI teamwurk learde, en har strategyen hieltyd slûchiger en komplekser waarden.



Boarne: 3dnews.ru

Add a comment