DeepMind AI Masters Komandası Quake III-də insanlardan üstündür

Bayrağı tutmaq bir çox məşhur atıcılarda tapılan kifayət qədər sadə rəqabət rejimidir. Hər bir komandanın bazasında bir marker var və məqsəd rəqib komandanın markerini tutmaq və uğurla özünə gətirməkdir. Ancaq insanların başa düşdüyü şey maşınlar üçün o qədər də asan deyil. Bayrağı tutmaq üçün qeyri-oyunçu simvolları (botlar) ənənəvi olaraq məhdud seçim azadlığını təmin edən və insanlardan əhəmiyyətli dərəcədə aşağı olan evristika və sadə alqoritmlərdən istifadə etməklə proqramlaşdırılır. Lakin süni intellekt və maşın öyrənməsi bu vəziyyəti tamamilə dəyişəcəyini vəd edir.

В məqalə, təxminən bir il sonra bu həftə Science jurnalında nəşr olundu qabaqcadan çapeləcə də blogunuz, Alphabet-in Londonda yerləşən törəmə şirkəti olan DeepMind-in tədqiqatçıları id Software-in Quake III Arena xəritələrində bayraq tutmağı öyrənməklə yanaşı, heç bir şəkildə insandan aşağı olmayan tamamilə yeni komanda strategiyaları hazırlayan sistemi təsvir edirlər.

DeepMind AI Masters Komandası Quake III-də insanlardan üstündür

“Heç kim süni intellektə bu oyunu necə oynamaq lazım olduğunu söyləmədi, o, yalnız bir nəticə verdi - AI rəqibini məğlub etdi, ya yox. Bu yanaşmadan istifadə etməyin gözəlliyi ondan ibarətdir ki, siz agentləri öyrətdiyiniz zaman hansı davranışın ortaya çıxacağını heç vaxt bilmirsiniz,” DeepMind-in tədqiqatçı alimi Maks Jaderberq deyir ki, əvvəllər AlphaStar (daha yaxınlarda) maşın öyrənmə sistemi üzərində işləmiş. üstələdi StarCraft II-də peşəkarlardan ibarət insan komandası). O, daha sonra izah etdi ki, onların yeni işlərinin əsas metodu, birincisi, proqram agentlərini qarşıya qoyulan məqsədlərə nail olmaq üçün sövq etmək üçün bir növ mükafat sistemindən istifadə edən gücləndirilmiş öyrənmədir və mükafat sistemi AI komandasının qalib olub-olmamasından asılı olmayaraq işləyirdi. , lakin -ikincidə, agentlər qruplar şəklində öyrədildi ki, bu da süni intellektni əvvəldən komanda qarşılıqlı fəaliyyətini mənimsəməyə məcbur etdi.

"Tədqiqat nöqteyi-nəzərindən bu, həqiqətən həyəcan verici olan alqoritmik yanaşma üçün yenilikdir" dedi Maks. "Süni intellektimizə öyrətdiyimiz üsul bəzi klassik təkamül ideyalarını necə genişləndirməyi və həyata keçirməyi yaxşı göstərir."

DeepMind AI Masters Komandası Quake III-də insanlardan üstündür

Provokativ olaraq Win For (FTW) adlandırılan DeepMind agentləri konvolyusiya neyron şəbəkəsindən, insanın vizual korteksindən sonra modelləşdirilmiş təbəqələrdə təşkil edilmiş riyazi funksiyalar dəstindən (neyronlar) istifadə edərək birbaşa ekran piksellərindən öyrənirlər. Qəbul edilən məlumatlar uzunmüddətli asılılıqları tanıya bilən çoxsaylı qısamüddətli yaddaşa (İngilis dili uzun müddətli yaddaş - LSTM) malik iki şəbəkəyə ötürülür. Onlardan biri operativ məlumatları sürətli cavab sürəti ilə idarə edir, digəri isə strategiyaları təhlil etmək və formalaşdırmaq üçün yavaş işləyir. Hər ikisi oyun dünyasındakı dəyişiklikləri proqnozlaşdırmaq və emulyasiya edilmiş oyun nəzarətçisi vasitəsilə hərəkətləri yerinə yetirmək üçün birlikdə istifadə etdikləri variasiya yaddaşı ilə əlaqələndirilir.

DeepMind AI Masters Komandası Quake III-də insanlardan üstündür

Ümumilikdə, DeepMind 30 agenti öyrətdi, onlara oynamaq üçün bir sıra komanda yoldaşları və rəqiblər verdi və süni intellektin onları yadda saxlamasının qarşısını almaq üçün təsadüfi seçilmiş oyun kartları verdi. Hər bir agentin bayrağı tutmaq kimi öz daxili məqsədlərini yaratmağa imkan verən öz mükafat siqnalı var idi. Hər bir AI fərdi olaraq bayraq tutmaq üçün təxminən 450 min oyun oynadı ki, bu da təxminən dörd illik oyun təcrübəsinə bərabərdir.

Tam təlim keçmiş FTW agentləri istənilən xəritə, komanda siyahısı və komanda ölçüsü üçün ümumi strategiyaları tətbiq etməyi öyrəniblər. Onlar komanda yoldaşlarını izləmək, düşmən bazasında düşərgə qurmaq və bazalarını hücumçulardan qorumaq kimi insan davranışlarını öyrəndilər və müttəfiqi çox yaxından izləmək kimi daha az faydalı nümunələri tədricən itirdilər.

Beləliklə, hansı nəticələr əldə edildi? İnsanların və agentlərin təsadüfi olaraq həm birlikdə, həm də bir-birinə qarşı oynadıqları 40 nəfərlik turnirdə FTW agentləri insan oyunçuların qalibiyyət nisbətini əhəmiyyətli dərəcədə üstələdilər. Süni intellektin qalib gəlmə ehtimalı olan Elo reytinqi "güclü" insan oyunçular üçün 1600 və "orta" insan oyunçular üçün 1300 ilə müqayisədə 1050 idi.

DeepMind AI Masters Komandası Quake III-də insanlardan üstündür

Bu, təəccüblü deyil, çünki süni intellektin reaksiya sürəti insandan xeyli yüksəkdir və bu, birinciyə ilkin təcrübələrdə əhəmiyyətli üstünlük verdi. Agentlərin dəqiqliyi azaldıqda və quraşdırılmış 257 millisaniyəlik gecikmə sayəsində reaksiya müddəti artdıqda belə, AI yenə də insanlardan üstün idi. Qabaqcıl və təsadüfi oyunçular ümumi oyunların yalnız 21%-ni və 12%-ni qazanıblar.

Üstəlik, tədqiqatın dərcindən sonra elm adamları agentləri kompleks səviyyəli arxitekturaya və Future Crossings və Ironwood kimi əlavə obyektlərə malik tam hüquqlu Quake III Arena xəritələrində sınaqdan keçirməyə qərar verdilər, burada süni intellekt sınaq matçlarında insanlara uğurla meydan oxumağa başladı. . Tədqiqatçılar agentlərin neyron şəbəkəsini aktivləşdirmə modellərinə, yəni daxil olan məlumatlara əsasən çıxışın müəyyən edilməsinə cavabdeh olan neyronların funksiyalarına baxdıqda, otaqları, bayraqların vəziyyətini, komanda yoldaşlarının və rəqiblərin görünmə qabiliyyətini təmsil edən klasterlər tapdılar. düşmən bazasında agentlərin olması və ya olmaması. və ya komanda əsaslı və oyunun digər mühüm aspektləri. Təlim keçmiş agentlər hətta bayraq agent tərəfindən götürüldüyü və ya müttəfiqin əlində olduğu zaman kimi xüsusi vəziyyətləri birbaşa kodlaşdıran neyronları ehtiva edirdi.

"Düşünürəm ki, baxılmalı olan şeylərdən biri bu çox agentli komandaların son dərəcə güclü olmasıdır və araşdırmamız bunu göstərir" dedi Jaderberg. "Son bir neçə il ərzində daha yaxşı və daha yaxşı etməyi öyrəndiyimiz şey budur - möhkəmləndirmə öyrənmə problemini necə həll etmək olar." Təkmilləşdirilmiş məşq həqiqətən də mükəmməl nəticə verdi”.

London Universitet Kollecinin kompüter elmləri professoru və DeepMind alimi Thore Graepel hesab edir ki, onların işi süni intellektin gələcəyi üçün multi-agent öyrənmə potensialını vurğulayır. O, həmçinin insan-maşın qarşılıqlı əlaqəsi və bir-birini tamamlayan və ya birlikdə işləyən sistemlər üzrə tədqiqatlar üçün əsas ola bilər.

“Nəticələrimiz göstərir ki, çox agentli gücləndirmə öyrənmə mürəkkəb oyunu uğurla mənimsəyə bilər ki, insan oyunçular hətta kompüter oyunçularının daha yaxşı komanda yoldaşları olduğuna inanırlar. Tədqiqat həm də təlim keçmiş agentlərin necə davranması və birlikdə işləməsi ilə bağlı son dərəcə maraqlı dərin təhlillər təqdim edir, Grapel deyir. “Bu nəticələri bu qədər maraqlı edən odur ki, bu agentlər öz mühitlərini birinci şəxsdə, yəni insan oyunçu kimi qəbul edirlər. Taktiki oynamağı və komanda yoldaşları ilə əməkdaşlıq etməyi öyrənmək üçün bu agentlər heç bir müəllim və ya məşqçi onlara nə etməli olduqlarını göstərmədən oyunun nəticələrindən alınan rəylərə etibar etməli idilər."



Mənbə: 3dnews.ru

Добавить комментарий