OpenAI mëson punën ekipore të AI në një lojë fshehjeje dhe kërkimi

Një lojë e mirë e modës së vjetër të fshehjes dhe kërkimit mund të jetë një test i shkëlqyeshëm për robotët e inteligjencës artificiale (AI) për të demonstruar se si marrin vendime dhe ndërveprojnë me njëri-tjetrin dhe me objekte të ndryshme rreth tyre.

Në të tijën artikull i ri, botuar nga studiues nga OpenAI, një organizatë jofitimprurëse kërkimore e inteligjencës artificiale që është bërë e famshme fitore ndaj kampionëve të botës në lojën kompjuterike Dota 2, shkencëtarët përshkruajnë se si agjentët e kontrolluar nga inteligjenca artificiale u trajnuan për të qenë më të sofistikuar në kërkimin dhe fshehjen nga njëri-tjetri në një mjedis virtual. Rezultatet e studimit treguan se një ekip prej dy robotësh mëson në mënyrë më efektive dhe më shpejt se çdo agjent i vetëm pa aleatë.

OpenAI mëson punën ekipore të AI në një lojë fshehjeje dhe kërkimi

Shkencëtarët kanë përdorur një metodë që ka fituar prej kohësh famën e saj mësimi i makinës me përforcim, në të cilin inteligjenca artificiale vendoset në një mjedis të panjohur për të, ndërkohë që ka mënyra të caktuara ndërveprimi me të, si dhe një sistem shpërblimesh dhe gjobash për një ose një tjetër rezultat të veprimeve të saj. Kjo metodë është mjaft efektive për shkak të aftësisë së AI për të kryer veprime të ndryshme në një mjedis virtual me shpejtësi të madhe, miliona herë më shpejt nga sa mund të imagjinojë një person. Kjo mundëson provën dhe gabimin për të gjetur strategjitë më efektive për zgjidhjen e një problemi të caktuar. Por kjo qasje ka gjithashtu disa kufizime, për shembull, krijimi i një mjedisi dhe kryerja e cikleve të shumta të trajnimit kërkon burime të mëdha kompjuterike dhe vetë procesi kërkon një sistem të saktë për krahasimin e rezultateve të veprimeve të AI me qëllimin e tij. Për më tepër, aftësitë e fituara nga agjenti në këtë mënyrë janë të kufizuara në detyrën e përshkruar dhe, pasi AI të mësojë ta përballojë atë, nuk do të ketë përmirësime të mëtejshme.

Për të trajnuar AI për të luajtur fshehurazi, shkencëtarët përdorën një qasje të quajtur "Eksplorim i padrejtuar", ku agjentët kanë liri të plotë për të zhvilluar kuptimin e tyre për botën e lojës dhe për të zhvilluar strategji fituese. Kjo është e ngjashme me qasjen e të mësuarit me shumë agjentë që studiuesit në DeepMind përdorën kur sisteme të shumta të inteligjencës artificiale u trajnuan për të luajtur modalitetin e kapjes së flamurit në Quake III Arena. Ashtu si në këtë rast, agjentët e AI nuk ishin trajnuar më parë për rregullat e lojës, por me kalimin e kohës ata mësuan strategjitë bazë dhe madje ishin në gjendje të befasonin studiuesit me zgjidhje jo të parëndësishme.

Në një lojë fshehjeje, disa agjentëve, detyra e të cilëve ishte të fshiheshin, iu kërkua të shmangnin shikimin e kundërshtarëve të tyre pas një nisjeje të lehtë me kokë, ndërsa ekipi i agjentëve të kërkimit ishte i palëvizur. Për më tepër, "vija e shikimit" në këtë kontekst është një kon 135 gradë përpara një roboti individual. Agjentët nuk mund të dilnin shumë larg zonës së lojës dhe u detyruan të lundronin në dhoma të krijuara rastësisht me aftësinë për të përdorur disa objekte të jashtme (kuti, mure të lëvizshme, rampa speciale) të shpërndara përreth, të cilat mund të përdoreshin si për të krijuar mbulesë ashtu edhe për të depërtuar në to. .

OpenAI mëson punën ekipore të AI në një lojë fshehjeje dhe kërkimi

Përmes një procesi të gjatë mësimi, agjentët e AI mësuan gjashtë strategji unike, secila prej të cilave i ndihmoi ata të përparonin në fazën tjetër të lojës. Në fillim, ekipet e kërkuesve dhe të fshehtësve thjesht ia mbathën dhe ndoqën njëri-tjetrin, por pas rreth 25 milionë ndeshjesh, ekipi i fshehësit mësoi të bllokonte kalimet me kuti dhe të ndërtonte strehë prej tyre. Pas 75 milionë ndeshjeve të tjera, ekipi zbuloi mënyra për të përdorur rampat për të hyrë në këto streha. Pas 10 milion raundeve të tjera, fshehësit mësuan të tërhiqnin rampat në skajet e zonës së lojës dhe t'i mbyllnin ato në vend për të parandaluar kundërshtarët që t'i përdorin ato.

OpenAI mëson punën ekipore të AI në një lojë fshehjeje dhe kërkimi

Pas 388 milionë ndeshjeve, kërkuesit kanë mësuar të përdorin rampa të bllokuara për t'u ngjitur në arkat e sjella tek ata dhe më pas, duke lëvizur drejtpërdrejt mbi to, depërtojnë në strehëzat e armikut të krijuara nga muret portative. Dhe së fundi, pas 458 milionë ndeshjesh, skuadra e fshehtë arriti në përfundimin se duhej të bllokonin të gjitha objektet dhe më pas të ndërtonin një strehë, e cila me sa duket çoi në fitoren e tyre përfundimtare.

Ajo që është veçanërisht mbresëlënëse është se pas 22 milionë ndeshjeve, agjentët mësuan të koordinonin veprimet e tyre dhe efikasiteti i bashkëpunimit të tyre u rrit vetëm në të ardhmen, për shembull, secili solli kutinë ose murin e tij për të krijuar një strehë dhe zgjodhi pjesën e tij të objekteve për të. bllok, për të komplikuar lojën e vështirësisë për kundërshtarët.

OpenAI mëson punën ekipore të AI në një lojë fshehjeje dhe kërkimi

Shkencëtarët vunë re gjithashtu një pikë të rëndësishme që lidhet me ndikimin e numrit të objekteve të trajnimit (sasia e të dhënave të kaluara përmes rrjetit nervor - "Madhësia e grupit") në shpejtësinë e të mësuarit. Modeli i paracaktuar kërkonte 132,3 milionë ndeshje mbi 34 orë stërvitje për të arritur në pikën ku skuadra e fshehur mësoi të bllokonte rampat, ndërsa më shumë të dhëna rezultuan në një reduktim të dukshëm të kohës së stërvitjes. Për shembull, rritja e numrit të parametrave (pjesë e të dhënave të marra gjatë gjithë procesit të trajnimit) nga 0,5 milion në 5,8 milion rriti efikasitetin e kampionimit me 2,2 herë, dhe rritja e madhësisë së të dhënave hyrëse nga 64 KB në 128 KB uli trajnimin. kohë pothuajse një herë e gjysmë.

OpenAI mëson punën ekipore të AI në një lojë fshehjeje dhe kërkimi

Në fund të punës së tyre, studiuesit vendosën të testonin se sa trajnime në lojë mund t'i ndihmonin agjentët të përballen me detyra të ngjashme jashtë lojës. Gjithsej ishin pesë teste: ndërgjegjësimi për numrin e objekteve (të kuptuarit se një objekt vazhdon të ekzistojë edhe nëse është jashtë syve dhe nuk përdoret); "Bllokimi dhe kthimi" - aftësia për të kujtuar pozicionin origjinal të dikujt dhe për t'u kthyer në të pas përfundimit të një detyre shtesë; “Bllokim sekuencial” - 4 kuti u vendosën rastësisht në tre dhoma pa dyer, por me rampa për të hyrë brenda, agjentët duhej t'i gjenin dhe t'i bllokonin të gjitha; vendosja e kutive në vende të paracaktuara; duke krijuar një strehë rreth një objekti në formën e një cilindri.

Si rezultat, në tre nga pesë detyrat, robotët që kishin kaluar trajnimin paraprak në lojë mësuan më shpejt dhe treguan rezultate më të mira se AI që ishte trajnuar për të zgjidhur problemet nga e para. Ata performuan pak më mirë në përfundimin e detyrës dhe kthimin në pozicionin fillestar, duke bllokuar në mënyrë sekuenciale kutitë në dhoma të mbyllura dhe duke vendosur kuti në zona të caktuara, por performuan pak më të dobët në njohjen e numrit të objekteve dhe krijimin e mbulesës rreth një objekti tjetër.

Studiuesit ia atribuojnë rezultate të përziera mënyrës se si AI mëson dhe kujton aftësi të caktuara. “Ne mendojmë se detyrat ku para-stërvitja në lojë u krye më së miri përfshin ripërdorimin e aftësive të mësuara më parë në një mënyrë të njohur, ndërsa kryerja e detyrave të mbetura më mirë se AI i trajnuar nga e para do të kërkonte përdorimin e tyre në një mënyrë tjetër, gjë që shumë më e vështirë”, shkruajnë bashkautorët e veprës. "Ky rezultat thekson nevojën për të zhvilluar metoda për ripërdorimin efektiv të aftësive të fituara përmes trajnimit kur i transferon ato nga një mjedis në tjetrin."

Puna e bërë është vërtet mbresëlënëse, pasi perspektiva e përdorimit të kësaj metode mësimore qëndron shumë përtej kufijve të çdo loje. Studiuesit thonë se puna e tyre është një hap i rëndësishëm drejt krijimit të AI me sjellje "të bazuar në fizikë" dhe "të ngjashme me njeriun" që mund të diagnostikojë sëmundjet, të parashikojë strukturat e molekulave komplekse të proteinave dhe të analizojë skanimet CT.

Në videon më poshtë mund të shihni qartë se si u zhvillua i gjithë procesi i mësimit, se si AI mësoi punën ekipore dhe strategjitë e saj u bënë gjithnjë e më dinake dhe komplekse.



Burimi: 3dnews.ru

Shto një koment