OpenAI hufundisha kazi ya pamoja ya AI katika mchezo wa kujificha na kutafuta

Mchezo mzuri wa kizamani wa kujificha na kutafuta unaweza kuwa mtihani mkubwa kwa roboti za akili bandia (AI) ili kuonyesha jinsi wanavyofanya maamuzi na kuingiliana wao kwa wao na vitu mbalimbali vinavyowazunguka.

Kwake makala mpya, iliyochapishwa na watafiti kutoka OpenAI, shirika lisilo la faida la utafiti wa akili bandia ambalo limekuwa maarufu ushindi dhidi ya mabingwa wa dunia katika mchezo wa kompyuta wa Dota 2, wanasayansi wanaeleza jinsi mawakala wanaodhibitiwa na akili bandia walivyofunzwa kuwa wa kisasa zaidi katika kutafuta na kujificha kutoka kwa kila mmoja wao katika mazingira ya mtandaoni. Matokeo ya utafiti yalionyesha kuwa timu ya roboti mbili hujifunza kwa ufanisi na haraka zaidi kuliko wakala yeyote asiye na washirika.

OpenAI hufundisha kazi ya pamoja ya AI katika mchezo wa kujificha na kutafuta

Wanasayansi wametumia njia ambayo imeshinda umaarufu wake kwa muda mrefu kujifunza kwa mashine kwa kuimarisha, ambayo akili ya bandia huwekwa katika mazingira ambayo haijulikani kwake, huku ikiwa na njia fulani za kuingiliana nayo, pamoja na mfumo wa malipo na faini kwa matokeo moja au nyingine ya matendo yake. Njia hii ni nzuri kabisa kwa sababu ya uwezo wa AI kufanya vitendo anuwai katika mazingira ya kawaida kwa kasi kubwa, mamilioni ya mara haraka kuliko mtu anaweza kufikiria. Hii inaruhusu jaribio na hitilafu kupata mbinu bora zaidi za kutatua tatizo fulani. Lakini mbinu hii pia ina mapungufu, kwa mfano, kuunda mazingira na kufanya mizunguko mingi ya mafunzo inahitaji rasilimali kubwa za kompyuta, na mchakato yenyewe unahitaji mfumo sahihi wa kulinganisha matokeo ya vitendo vya AI na lengo lake. Kwa kuongezea, ujuzi uliopatikana na wakala kwa njia hii ni mdogo kwa kazi iliyoelezewa na, mara tu AI inapojifunza kukabiliana nayo, hakutakuwa na maboresho zaidi.

Ili kutoa mafunzo kwa AI kucheza kujificha na kutafuta, wanasayansi walitumia mbinu inayoitwa "Uchunguzi Usioelekezwa," ambapo mawakala wana uhuru kamili wa kukuza uelewa wao wa ulimwengu wa mchezo na kukuza mikakati ya kushinda. Hii ni sawa na mbinu ya kujifunza ya wakala wengi ambayo watafiti katika DeepMind walitumia wakati mifumo mingi ya akili ya bandia. walifunzwa kucheza kukamata hali ya bendera katika Quake III Arena. Kama ilivyo katika kesi hii, mawakala wa AI hawakufunzwa hapo awali katika sheria za mchezo, lakini baada ya muda walijifunza mikakati ya kimsingi na waliweza hata kushangaza watafiti na suluhisho zisizo za maana.

Katika mchezo huo wa kujificha na kutafuta, mawakala kadhaa ambao kazi yao ilikuwa ni kuficha walitakiwa kuwakwepa wapinzani wao baada ya kuanza kwa kichwa kidogo huku timu ya mawakala wa upekuzi ikiwa imezimwa. Zaidi ya hayo, "mstari wa kuona" katika muktadha huu ni koni ya digrii 135 mbele ya bot ya mtu binafsi. Mawakala hawakuweza kujitosa mbali sana nje ya eneo la kuchezea na walilazimika kusogeza kwenye vyumba vilivyotengenezwa bila mpangilio na uwezo wa kutumia baadhi ya vitu vya nje (masanduku, kuta zinazohamishika, njia panda maalum) zilizotawanyika kote ambazo zingeweza kutumika kutengeneza kifuniko na kujipenyeza ndani yake. .

OpenAI hufundisha kazi ya pamoja ya AI katika mchezo wa kujificha na kutafuta

Kupitia mchakato mrefu wa kujifunza, mawakala wa AI walijifunza mikakati sita ya kipekee, ambayo kila moja iliwasaidia kuendelea hadi hatua inayofuata ya mchezo. Hapo awali, timu za watafutaji na za kujificha zilikimbia tu na kukimbizana, lakini baada ya mechi kama milioni 25, timu ya waficha ilijifunza kuzuia vijia na masanduku na kujenga makazi kutoka kwao. Baada ya mechi nyingine milioni 75, timu iligundua njia za kutumia njia panda kuingia kwenye maficho haya. Baada ya raundi nyingine milioni 10, wafichaji walijifunza kuburuta njia panda kwenye ukingo wa eneo la kuchezea na kuzifungia mahali ili kuzuia wapinzani kuzitumia.

OpenAI hufundisha kazi ya pamoja ya AI katika mchezo wa kujificha na kutafuta

Baada ya mechi milioni 388, watafutaji wamejifunza kutumia njia panda zilizozuiwa kupanda kwenye kreti zinazoletwa kwao, na kisha, wakisonga moja kwa moja juu yao, kupenya maficho ya adui yaliyoundwa kutoka kwa kuta zinazobebeka. Na mwishowe, baada ya mechi milioni 458, timu iliyojificha ilihitimisha kwamba walihitaji kuzuia vitu vyote na kisha kujenga makazi, ambayo inaonekana ilisababisha ushindi wao wa mwisho.

Kinachoshangaza zaidi ni kwamba baada ya mechi milioni 22, mawakala walijifunza kuratibu vitendo vyao na ufanisi wa ushirikiano wao uliongezeka tu katika siku zijazo, kwa mfano, kila mmoja alileta sanduku lake au ukuta ili kuunda makazi na kuchagua sehemu yake ya vitu. kuzuia, kutatiza mchezo wa ugumu kwa wapinzani.

OpenAI hufundisha kazi ya pamoja ya AI katika mchezo wa kujificha na kutafuta

Wanasayansi pia walibaini jambo muhimu linalohusiana na ushawishi wa idadi ya vitu vya mafunzo (kiasi cha data iliyopitishwa kupitia mtandao wa neural - "Ukubwa wa Kundi") kwenye kasi ya kujifunza. Mtindo chaguo-msingi ulihitaji mechi milioni 132,3 kwa muda wa saa 34 za mazoezi ili kufikia hatua ambayo timu iliyojificha ilijifunza kuzuia njia panda, huku data zaidi ikisababisha kupunguzwa kwa muda wa mazoezi. Kwa mfano, kuongeza idadi ya vigezo (sehemu ya data iliyopatikana wakati wa mchakato mzima wa mafunzo) kutoka milioni 0,5 hadi milioni 5,8 iliongeza ufanisi wa sampuli kwa mara 2,2, na kuongeza ukubwa wa data ya pembejeo kutoka 64 KB hadi 128 KB kupunguzwa mafunzo. wakati karibu mara moja na nusu.

OpenAI hufundisha kazi ya pamoja ya AI katika mchezo wa kujificha na kutafuta

Mwishoni mwa kazi yao, watafiti waliamua kujaribu ni kiasi gani cha mafunzo ya ndani ya mchezo kinaweza kuwasaidia mawakala kukabiliana na majukumu sawa nje ya mchezo. Kulikuwa na vipimo vitano kwa jumla: ufahamu wa idadi ya vitu (kuelewa kuwa kitu kinaendelea kuwepo hata ikiwa hakionekani na haitumiki); "kufunga na kurudi" - uwezo wa kukumbuka msimamo wa asili wa mtu na kurudi kwake baada ya kumaliza kazi fulani ya ziada; "kuzuia kwa mfululizo" - masanduku 4 yalipatikana kwa nasibu katika vyumba vitatu bila milango, lakini kwa njia panda za kuingia ndani, mawakala walihitaji kupata na kuzizuia zote; uwekaji wa masanduku kwenye tovuti zilizopangwa mapema; kuunda makao karibu na kitu kwa namna ya silinda.

Kama matokeo, katika kazi tatu kati ya tano, roboti zilizopata mafunzo ya awali katika mchezo zilijifunza haraka na zilionyesha matokeo bora kuliko AI ambayo ilifunzwa kutatua shida kutoka mwanzo. Walifanya vizuri zaidi katika kukamilisha kazi na kurudi kwenye nafasi ya kuanzia, kuzuia masanduku kwa mfululizo katika vyumba vilivyofungwa, na kuweka masanduku katika maeneo yaliyotolewa, lakini walifanya dhaifu kidogo katika kutambua idadi ya vitu na kuunda kifuniko karibu na kitu kingine.

Watafiti wanahusisha matokeo mchanganyiko na jinsi AI inavyojifunza na kukumbuka ujuzi fulani. "Tunafikiri kwamba kazi ambazo mafunzo ya awali ya ndani ya mchezo yalifanyika vyema zaidi yalihusisha kutumia tena ujuzi uliojifunza hapo awali kwa njia inayojulikana, wakati wa kufanya kazi zilizobaki bora zaidi kuliko AI iliyofunzwa tangu mwanzo ingehitaji kuzitumia kwa njia tofauti, ambayo ngumu zaidi,” wanaandika waandishi wenza wa kazi hiyo. "Matokeo haya yanaonyesha hitaji la kukuza mbinu za kutumia tena ujuzi uliopatikana kupitia mafunzo wakati wa kuwahamisha kutoka mazingira moja hadi nyingine."

Kazi iliyofanywa inavutia kwelikweli, kwa kuwa tazamio la kutumia njia hii ya kufundisha ni zaidi ya mipaka ya michezo yoyote. Watafiti wanasema kazi yao ni hatua muhimu kuelekea kuunda AI yenye tabia ya "msingi wa fizikia" na "kama ya binadamu" ambayo inaweza kutambua magonjwa, kutabiri miundo ya molekuli changamano ya protini na kuchambua CT scans.

Katika video hapa chini unaweza kuona wazi jinsi mchakato mzima wa kujifunza ulifanyika, jinsi AI ilijifunza kazi ya pamoja, na mikakati yake ikawa ya ujanja zaidi na ngumu zaidi.



Chanzo: 3dnews.ru

Kuongeza maoni