Timu ya DeepMind AI Masters Cheza na Inawashinda Wanadamu katika Tetemeko la III

Kukamata bendera ni hali rahisi ya ushindani inayopatikana katika wapiga risasi wengi maarufu. Kila timu ina alama iliyo kwenye msingi wake, na lengo ni kunasa alama ya timu pinzani na kuileta yenyewe kwa mafanikio. Walakini, kile ambacho ni rahisi kwa wanadamu kuelewa sio rahisi sana kwa mashine. Ili kunasa bendera, herufi zisizo za wachezaji (boti) hupangwa kitamaduni kwa kutumia utabiri na algoriti rahisi ambazo hutoa uhuru mdogo wa kuchagua na ni duni kwa wanadamu. Lakini akili ya bandia na kujifunza kwa mashine huahidi kubadilisha kabisa hali hii.

Π’ Ibara ya, iliyochapishwa wiki hii katika jarida la Sayansi mwaka mmoja baadaye chapa ya awalivile vile kwenye blogu yako, watafiti kutoka DeepMind, kampuni tanzu ya Alphabet yenye makao yake London, wanaelezea mfumo ambao hauwezi tu kujifunza kucheza kukamata bendera kwenye ramani za Id Software's Quake III Arena, lakini pia kubuni mbinu mpya kabisa za timu, kwa vyovyote vile si duni kuliko binadamu.

Timu ya DeepMind AI Masters Cheza na Inawashinda Wanadamu katika Tetemeko la III

"Hakuna mtu aliyeiambia AI jinsi ya kucheza mchezo huu, ilikuwa na matokeo - ikiwa AI ilimpiga mpinzani wake au la. Uzuri wa kutumia mbinu hii ni kwamba huwezi kujua ni tabia gani itatokea unapofundisha mawakala," anasema Max Jaderberg, mwanasayansi wa utafiti katika DeepMind ambaye hapo awali alifanya kazi kwenye mfumo wa kujifunza mashine AlphaStar (hivi karibuni zaidi. ilizidi timu ya binadamu ya wataalamu katika Starcraft II). Alifafanua zaidi kuwa njia kuu ya kazi yao mpya ni, kwanza, kuimarishwa kwa kujifunza, ambayo hutumia aina ya mfumo wa malipo kusukuma mawakala wa programu kufikia malengo yaliyowekwa, na mfumo wa malipo ulifanya kazi bila kujali kama timu ya AI ilishinda au la. , lakini katika -pili, mawakala walifundishwa kwa vikundi, ambayo ililazimisha AI kusimamia mwingiliano wa timu tangu mwanzo.

"Kwa mtazamo wa utafiti, hii ni riwaya kwa mbinu ya algorithmic ambayo inasisimua sana," Max aliongeza. "Jinsi tulivyofunza AI yetu inaonyesha vizuri jinsi ya kuongeza na kutekeleza maoni kadhaa ya mageuzi."

Timu ya DeepMind AI Masters Cheza na Inawashinda Wanadamu katika Tetemeko la III

Kwa jina la kuudhi kwa jina la For The Win (FTW), mawakala wa DeepMind hujifunza moja kwa moja kutoka kwa saizi za skrini kwa kutumia mtandao wa neva wa kubadilisha, seti ya vitendakazi vya hisabati (nyuroni) zilizopangwa katika safu zilizoigwa baada ya gamba la kuona la binadamu. Data iliyopokelewa hupitishwa kwa mitandao miwili yenye kumbukumbu nyingi za muda mfupi (Kiingereza kumbukumbu ya muda mfupi - LSTM), yenye uwezo wa kutambua utegemezi wa muda mrefu. Mmoja wao hudhibiti data ya uendeshaji kwa kasi ya haraka ya kujibu, huku mwingine akifanya kazi polepole kuchanganua na kuunda mikakati. Zote mbili zinahusishwa na kumbukumbu tofauti, ambayo hutumia pamoja kutabiri mabadiliko katika ulimwengu wa mchezo na kutekeleza vitendo kupitia kidhibiti cha mchezo kilichoigwa.

Timu ya DeepMind AI Masters Cheza na Inawashinda Wanadamu katika Tetemeko la III

Kwa jumla, DeepMind iliwafunza mawakala 30, ikawapa wachezaji wenzao na wapinzani wa kucheza nao, na kadi za mchezo zilizochaguliwa kwa nasibu ili kuzuia AI isiwakumbuke. Kila wakala alikuwa na ishara yake ya zawadi, inayomruhusu kuunda malengo yake ya ndani, kama vile kunasa bendera. Kila AI ilicheza kibinafsi takriban michezo elfu 450 ya kukamata bendera, ambayo ni sawa na takriban miaka minne ya uzoefu wa michezo ya kubahatisha.

Mawakala wa FTW waliofunzwa kikamilifu wamejifunza kutumia mikakati ya kawaida kwa ramani yoyote, orodha ya timu na saizi ya timu. Walijifunza tabia za kibinadamu kama vile kufuata wachezaji wenza, kupiga kambi katika kambi ya adui, na kulinda kambi yao dhidi ya washambuliaji, na hatua kwa hatua walipoteza mifumo yenye manufaa kidogo kama vile kumtazama mshirika kwa karibu sana.

Kwa hivyo ni matokeo gani yalipatikana? Katika mchuano wa watu 40 ambapo wanadamu na mawakala walicheza pamoja na dhidi ya kila mmoja bila mpangilio, mawakala wa FTW walifanya vyema zaidi kiwango cha ushindi cha wachezaji binadamu. Ukadiriaji wa AI wa Elo, ambao ni uwezekano wa kushinda, ulikuwa 1600, ikilinganishwa na 1300 kwa wachezaji "nguvu" wa kibinadamu na 1050 kwa mchezaji "wastani" wa binadamu.

Timu ya DeepMind AI Masters Cheza na Inawashinda Wanadamu katika Tetemeko la III

Hii haishangazi, kwani kasi ya athari ya AI ni kubwa zaidi kuliko ile ya mwanadamu, ambayo ilimpa wa zamani faida kubwa katika majaribio ya awali. Lakini hata wakati usahihi wa mawakala ulipunguzwa na muda wa majibu uliongezeka kutokana na latency iliyojengewa ndani ya millisecond 257, AI bado iliwashinda wanadamu. Wachezaji wa hali ya juu na wa kawaida walishinda tu 21% na 12% ya jumla ya michezo, mtawalia.

Zaidi ya hayo, baada ya kuchapishwa kwa utafiti huo, wanasayansi waliamua kupima mawakala kwenye ramani kamili za Quake III Arena na usanifu wa ngazi tata na vitu vya ziada, kama vile Future Crossings na Ironwood, ambapo AI ilianza kushindana na wanadamu kwa mafanikio katika mechi za mtihani. . Wakati watafiti waliangalia mifumo ya uanzishaji wa mtandao wa neva wa mawakala, ambayo ni, kazi za niuroni zinazohusika na kuamua matokeo kulingana na habari inayoingia, walipata nguzo zinazowakilisha vyumba, hali ya bendera, mwonekano wa wachezaji wenza na wapinzani, na. uwepo au kutokuwepo kwa mawakala kwenye msingi wa adui au kulingana na timu na vipengele vingine muhimu vya uchezaji. Mawakala waliofunzwa hata walikuwa na niuroni ambazo zilisimba hali mahususi moja kwa moja, kama vile wakati bendera ilipochukuliwa na wakala au wakati mshirika alikuwa ameishikilia.

"Nadhani moja ya mambo ya kuangalia ni kwamba timu hizi za mawakala wengi zina nguvu sana, na utafiti wetu unaonyesha hilo," Jaderberg anasema. "Hilo ndilo tumekuwa tukijifunza kufanya vizuri zaidi na bora zaidi katika miaka michache iliyopita-jinsi ya kutatua tatizo la kujifunza kuimarisha." Na mafunzo yaliyoimarishwa yalifanya kazi vizuri sana.

Thore Graepel, profesa wa sayansi ya kompyuta katika Chuo Kikuu cha London na mwanasayansi wa DeepMind, anaamini kwamba kazi yao inaangazia uwezo wa kujifunza kwa mawakala wengi kwa siku zijazo za AI. Inaweza pia kutumika kama msingi wa utafiti kuhusu mwingiliano wa mashine na mifumo ya binadamu ambayo inakamilishana au kufanya kazi pamoja.

"Matokeo yetu yanaonyesha kuwa ujifunzaji wa kuongeza mawakala wengi unaweza kufanikiwa kwa mchezo mgumu hadi kufikia hatua ambayo wachezaji wa kibinadamu wanaamini kuwa wachezaji wa kompyuta ni wenza bora wa timu. Utafiti pia hutoa uchanganuzi wa kina wa kuvutia sana wa jinsi mawakala waliofunzwa wanavyofanya na kufanya kazi pamoja, anasema Grapel. "Kinachofanya matokeo haya kusisimua sana ni kwamba mawakala hawa wanaona mazingira yao kama mtu wa kwanza, [hiyo ni] kama mchezaji wa kibinadamu. Ili kujifunza jinsi ya kucheza kwa mbinu na kushirikiana na wenzao, mawakala hawa walilazimika kutegemea maoni kutoka kwa matokeo ya mchezo, bila mwalimu au kocha yeyote kuwaonyesha cha kufanya."



Chanzo: 3dnews.ru

Kuongeza maoni