Mchezo mzuri wa kizamani wa kujificha na kutafuta unaweza kuwa mtihani mkubwa kwa roboti za akili bandia (AI) ili kuonyesha jinsi wanavyofanya maamuzi na kuingiliana wao kwa wao na vitu mbalimbali vinavyowazunguka.
Kwake
Wanasayansi wametumia njia ambayo imeshinda umaarufu wake kwa muda mrefu
Ili kutoa mafunzo kwa AI kucheza kujificha na kutafuta, wanasayansi walitumia mbinu inayoitwa "Uchunguzi Usioelekezwa," ambapo mawakala wana uhuru kamili wa kukuza uelewa wao wa ulimwengu wa mchezo na kukuza mikakati ya kushinda. Hii ni sawa na mbinu ya kujifunza ya wakala wengi ambayo watafiti katika DeepMind walitumia wakati mifumo mingi ya akili ya bandia.
Katika mchezo huo wa kujificha na kutafuta, mawakala kadhaa ambao kazi yao ilikuwa ni kuficha walitakiwa kuwakwepa wapinzani wao baada ya kuanza kwa kichwa kidogo huku timu ya mawakala wa upekuzi ikiwa imezimwa. Zaidi ya hayo, "mstari wa kuona" katika muktadha huu ni koni ya digrii 135 mbele ya bot ya mtu binafsi. Mawakala hawakuweza kujitosa mbali sana nje ya eneo la kuchezea na walilazimika kusogeza kwenye vyumba vilivyotengenezwa bila mpangilio na uwezo wa kutumia baadhi ya vitu vya nje (masanduku, kuta zinazohamishika, njia panda maalum) zilizotawanyika kote ambazo zingeweza kutumika kutengeneza kifuniko na kujipenyeza ndani yake. .
Kupitia mchakato mrefu wa kujifunza, mawakala wa AI walijifunza mikakati sita ya kipekee, ambayo kila moja iliwasaidia kuendelea hadi hatua inayofuata ya mchezo. Hapo awali, timu za watafutaji na za kujificha zilikimbia tu na kukimbizana, lakini baada ya mechi kama milioni 25, timu ya waficha ilijifunza kuzuia vijia na masanduku na kujenga makazi kutoka kwao. Baada ya mechi nyingine milioni 75, timu iligundua njia za kutumia njia panda kuingia kwenye maficho haya. Baada ya raundi nyingine milioni 10, wafichaji walijifunza kuburuta njia panda kwenye ukingo wa eneo la kuchezea na kuzifungia mahali ili kuzuia wapinzani kuzitumia.
Baada ya mechi milioni 388, watafutaji wamejifunza kutumia njia panda zilizozuiwa kupanda kwenye kreti zinazoletwa kwao, na kisha, wakisonga moja kwa moja juu yao, kupenya maficho ya adui yaliyoundwa kutoka kwa kuta zinazobebeka. Na mwishowe, baada ya mechi milioni 458, timu iliyojificha ilihitimisha kwamba walihitaji kuzuia vitu vyote na kisha kujenga makazi, ambayo inaonekana ilisababisha ushindi wao wa mwisho.
Kinachoshangaza zaidi ni kwamba baada ya mechi milioni 22, mawakala walijifunza kuratibu vitendo vyao na ufanisi wa ushirikiano wao uliongezeka tu katika siku zijazo, kwa mfano, kila mmoja alileta sanduku lake au ukuta ili kuunda makazi na kuchagua sehemu yake ya vitu. kuzuia, kutatiza mchezo wa ugumu kwa wapinzani.
Wanasayansi pia walibaini jambo muhimu linalohusiana na ushawishi wa idadi ya vitu vya mafunzo (kiasi cha data iliyopitishwa kupitia mtandao wa neural - "Ukubwa wa Kundi") kwenye kasi ya kujifunza. Mtindo chaguo-msingi ulihitaji mechi milioni 132,3 kwa muda wa saa 34 za mazoezi ili kufikia hatua ambayo timu iliyojificha ilijifunza kuzuia njia panda, huku data zaidi ikisababisha kupunguzwa kwa muda wa mazoezi. Kwa mfano, kuongeza idadi ya vigezo (sehemu ya data iliyopatikana wakati wa mchakato mzima wa mafunzo) kutoka milioni 0,5 hadi milioni 5,8 iliongeza ufanisi wa sampuli kwa mara 2,2, na kuongeza ukubwa wa data ya pembejeo kutoka 64 KB hadi 128 KB kupunguzwa mafunzo. wakati karibu mara moja na nusu.
Mwishoni mwa kazi yao, watafiti waliamua kujaribu ni kiasi gani cha mafunzo ya ndani ya mchezo kinaweza kuwasaidia mawakala kukabiliana na majukumu sawa nje ya mchezo. Kulikuwa na vipimo vitano kwa jumla: ufahamu wa idadi ya vitu (kuelewa kuwa kitu kinaendelea kuwepo hata ikiwa hakionekani na haitumiki); "kufunga na kurudi" - uwezo wa kukumbuka msimamo wa asili wa mtu na kurudi kwake baada ya kumaliza kazi fulani ya ziada; "kuzuia kwa mfululizo" - masanduku 4 yalipatikana kwa nasibu katika vyumba vitatu bila milango, lakini kwa njia panda za kuingia ndani, mawakala walihitaji kupata na kuzizuia zote; uwekaji wa masanduku kwenye tovuti zilizopangwa mapema; kuunda makao karibu na kitu kwa namna ya silinda.
Kama matokeo, katika kazi tatu kati ya tano, roboti zilizopata mafunzo ya awali katika mchezo zilijifunza haraka na zilionyesha matokeo bora kuliko AI ambayo ilifunzwa kutatua shida kutoka mwanzo. Walifanya vizuri zaidi katika kukamilisha kazi na kurudi kwenye nafasi ya kuanzia, kuzuia masanduku kwa mfululizo katika vyumba vilivyofungwa, na kuweka masanduku katika maeneo yaliyotolewa, lakini walifanya dhaifu kidogo katika kutambua idadi ya vitu na kuunda kifuniko karibu na kitu kingine.
Watafiti wanahusisha matokeo mchanganyiko na jinsi AI inavyojifunza na kukumbuka ujuzi fulani. "Tunafikiri kwamba kazi ambazo mafunzo ya awali ya ndani ya mchezo yalifanyika vyema zaidi yalihusisha kutumia tena ujuzi uliojifunza hapo awali kwa njia inayojulikana, wakati wa kufanya kazi zilizobaki bora zaidi kuliko AI iliyofunzwa tangu mwanzo ingehitaji kuzitumia kwa njia tofauti, ambayo ngumu zaidi,β wanaandika waandishi wenza wa kazi hiyo. "Matokeo haya yanaonyesha hitaji la kukuza mbinu za kutumia tena ujuzi uliopatikana kupitia mafunzo wakati wa kuwahamisha kutoka mazingira moja hadi nyingine."
Kazi iliyofanywa inavutia kwelikweli, kwa kuwa tazamio la kutumia njia hii ya kufundisha ni zaidi ya mipaka ya michezo yoyote. Watafiti wanasema kazi yao ni hatua muhimu kuelekea kuunda AI yenye tabia ya "msingi wa fizikia" na "kama ya binadamu" ambayo inaweza kutambua magonjwa, kutabiri miundo ya molekuli changamano ya protini na kuchambua CT scans.
Katika video hapa chini unaweza kuona wazi jinsi mchakato mzima wa kujifunza ulifanyika, jinsi AI ilijifunza kazi ya pamoja, na mikakati yake ikawa ya ujanja zaidi na ngumu zaidi.
Chanzo: 3dnews.ru