OpenAI gizlənqaç oyununda AI komanda işini öyrədir

Yaxşı köhnə dəbdə olan gizlənqaç oyunu süni intellekt (AI) botları üçün necə qərar qəbul etdiklərini və bir-biri ilə və ətrafındakı müxtəlif obyektlərlə qarşılıqlı əlaqədə olduqlarını nümayiş etdirmək üçün əla sınaq ola bilər.

Onun içində yeni məqalə, məşhurlaşan qeyri-kommersiya süni intellekt tədqiqat təşkilatı OpenAI-nin tədqiqatçıları tərəfindən nəşr edilmişdir. dünya çempionları üzərində qələbə Dota 2 kompüter oyununda elm adamları süni intellekt tərəfindən idarə olunan agentlərin virtual mühitdə axtarış və bir-birindən gizlənməkdə daha mükəmməl olmaq üçün necə öyrədildiyini təsvir edir. Tədqiqatın nəticələri göstərdi ki, iki botdan ibarət komanda müttəfiqləri olmayan hər hansı bir agentdən daha effektiv və daha sürətli öyrənir.

OpenAI gizlənqaç oyununda AI komanda işini öyrədir

Alimlər uzun müddət şöhrət qazanmış bir üsuldan istifadə etdilər möhkəmləndirilməsi ilə maşın öyrənməsi, hansı ki, süni intellektin ona məlum olmayan mühitdə yerləşdiyi halda, onunla müəyyən qarşılıqlı əlaqə yolları, habelə onun hərəkətlərinin bu və ya digər nəticəsi üçün mükafatlar və cərimələr sistemi mövcuddur. Bu üsul süni intellektin virtual mühitdə insanın təsəvvür edə biləcəyindən milyonlarla dəfə çox böyük sürətlə müxtəlif hərəkətləri yerinə yetirmək qabiliyyətinə görə kifayət qədər effektivdir. Bu, sınaq və səhv vasitəsilə verilmiş problemin həlli üçün ən effektiv strategiyaları tapmağa imkan verir. Lakin bu yanaşmanın bəzi məhdudiyyətləri də var, məsələn, mühitin yaradılması və çoxsaylı təlim dövrlərinin aparılması böyük hesablama resursları tələb edir və prosesin özü də AI hərəkətlərinin nəticələrini məqsədi ilə müqayisə etmək üçün dəqiq sistem tələb edir. Bundan əlavə, agentin bu şəkildə əldə etdiyi bacarıqlar təsvir olunan tapşırıqla məhdudlaşır və AI bunun öhdəsindən gəlməyi öyrəndikdən sonra əlavə təkmilləşdirmələr olmayacaq.

Süni intellektə gizlənqaç oynamağa öyrətmək üçün elm adamları “İstiqamətsiz kəşfiyyat” adlı yanaşmadan istifadə edirdilər ki, burada agentlər oyun dünyası haqqında anlayışlarını inkişaf etdirmək və qalib strategiyalar hazırlamaq üçün tam sərbəstliyə malikdirlər. Bu, DeepMind tədqiqatçılarının çoxsaylı süni intellekt sistemləri üçün istifadə etdikləri multi-agent öyrənmə yanaşmasına bənzəyir. Quake III Arenada bayraq tutma rejimini oynamaq üçün təlim keçmişlər. Bu vəziyyətdə olduğu kimi, AI agentləri əvvəllər oyun qaydalarına öyrədilməmişdilər, lakin zaman keçdikcə onlar əsas strategiyaları öyrəndilər və hətta qeyri-trivial həllər ilə tədqiqatçıları təəccübləndirə bildilər.

Gizlənqaç oyununda, işi gizlənmək olan bir neçə agentdən, axtarış agentləri komandası hərəkətsiz olduğu halda, yüngül bir başlanğıcdan sonra rəqiblərinin baxış xəttindən qaçmaq tələb olunurdu. Üstəlik, bu kontekstdə "görmə xətti" fərdi botun qarşısında 135 dərəcə bir konusdur. Agentlər oyun meydançasından çox kənara çıxa bilmədilər və ətrafa səpələnmiş bəzi xarici obyektlərdən (qutular, daşınan divarlar, xüsusi rampalar) istifadə etmək imkanı ilə təsadüfi yaradılan otaqları gəzməyə məcbur oldular ki, bu da həm örtük yaratmaq, həm də onlara sızmaq üçün istifadə edilə bilər. .

OpenAI gizlənqaç oyununda AI komanda işini öyrədir

Uzun sürən öyrənmə prosesi vasitəsilə süni intellekt agentləri altı unikal strategiya öyrəndilər, onların hər biri onlara oyunun növbəti mərhələsinə keçməyə kömək etdi. Əvvəlcə axtaran və gizlənən qruplar sadəcə olaraq qaçıb bir-birini təqib etdilər, lakin təxminən 25 milyon matçdan sonra gizlənən komanda keçidləri qutularla bağlamağı və onlardan sığınacaqlar qurmağı öyrəndi. Daha 75 milyon matçdan sonra komanda bu sığınacaqlara girmək üçün rampalardan istifadə etməyin yollarını kəşf etdi. Daha 10 milyon raunddan sonra gizlənənlər rampaları oyun sahəsinin kənarına sürükləməyi və rəqiblərin onlardan istifadə etməsinin qarşısını almaq üçün onları yerində bağlamağı öyrəndilər.

OpenAI gizlənqaç oyununda AI komanda işini öyrədir

388 milyon kibritdən sonra axtaranlar onlara gətirilən yeşiklərə dırmaşmaq üçün bloklanmış rampalardan istifadə etməyi, sonra isə birbaşa onların üzərinə hərəkət edərək portativ divarlardan yaradılmış düşmən sığınacaqlarına nüfuz etməyi öyrəniblər. Və nəhayət, 458 milyon matçdan sonra gizlənən komanda bütün obyektləri bağlamalı və sonra sığınacaq tikməli olduqları qənaətinə gəldi və bu, yəqin ki, onların son qələbəsinə səbəb oldu.

Xüsusilə təsir edici olan odur ki, 22 milyon matçdan sonra agentlər öz hərəkətlərini əlaqələndirməyi öyrəndilər və əməkdaşlığın səmərəliliyi gələcəkdə daha da artdı, məsələn, hər biri sığınacaq yaratmaq üçün öz qutusunu və ya divarını gətirdi və obyektlərdən öz payını seçdi. blok, rəqiblərə çətinlik oyununu çətinləşdirmək.

OpenAI gizlənqaç oyununda AI komanda işini öyrədir

Alimlər həmçinin təlim obyektlərinin sayının (neyroşəbəkədən keçən məlumatların miqdarı - “Batch Size”) öyrənmə sürətinə təsiri ilə bağlı vacib məqamı qeyd ediblər. Defolt model, gizlənən komandanın rampaları bloklamağı öyrəndiyi nöqtəyə çatmaq üçün 132,3 saatlıq məşq ərzində 34 milyon matç tələb etdi, daha çox məlumat isə məşq vaxtının nəzərəçarpacaq dərəcədə azalması ilə nəticələndi. Məsələn, parametrlərin sayının (bütün təlim prosesi zamanı əldə edilən məlumatların bir hissəsi) 0,5 milyondan 5,8 milyona qədər artırılması seçmə səmərəliliyini 2,2 dəfə artırdı və daxil edilən məlumatların ölçüsünü 64 KB-dan 128 KB-a qədər artırmaq təlimi azaldır. vaxt demək olar ki, bir yarım dəfə.

OpenAI gizlənqaç oyununda AI komanda işini öyrədir

İşlərinin sonunda tədqiqatçılar oyundaxili təlimin agentlərə oyundan kənar oxşar tapşırıqların öhdəsindən gəlməsində nə qədər kömək edə biləcəyini yoxlamaq qərarına gəldilər. Ümumilikdə beş test var idi: obyektlərin sayı barədə məlumatlılıq (obyektin gözdən uzaqda olsa və istifadə edilməsə belə mövcudluğunu davam etdirdiyini başa düşmək); "kilidlə və qayıt" - orijinal mövqeyini xatırlamaq və bəzi əlavə tapşırıqları yerinə yetirdikdən sonra ona qayıtmaq bacarığı; "Ardıcıl bloklama" - 4 qutu təsadüfi olaraq qapıları olmayan üç otaqda yerləşdirildi, lakin içəri girmək üçün rampalar var, agentlər hamısını tapıb bloklamalı idi; qutuların əvvəlcədən müəyyən edilmiş yerlərdə yerləşdirilməsi; silindr şəklində obyektin ətrafında sığınacaq yaratmaq.

Nəticədə, beş tapşırıqdan üçündə, oyunda ilkin təlim keçmiş botlar, problemləri sıfırdan həll etmək üçün öyrədilmiş süni intellektdən daha sürətli öyrəndilər və daha yaxşı nəticələr göstərdilər. Tapşırığı yerinə yetirməkdə və başlanğıc vəziyyətinə qayıtmaqda, qapalı otaqlarda qutuları ardıcıl olaraq bloklamaqda və verilmiş ərazilərdə qutuları yerləşdirməkdə bir qədər yaxşı çıxış etdilər, lakin obyektlərin sayını tanımaqda və başqa bir obyektin ətrafında örtük yaratmaqda bir qədər zəif çıxış etdilər.

Tədqiqatçılar qarışıq nəticələri AI-nin müəyyən bacarıqları necə öyrənməsi və yadda saxlaması ilə əlaqələndirirlər. "Biz düşünürük ki, oyundaxili məşqin ən yaxşı şəkildə yerinə yetirildiyi tapşırıqlar əvvəllər öyrənilmiş bacarıqların tanış şəkildə təkrar istifadə edilməsini əhatə edir, qalan tapşırıqları isə sıfırdan öyrədilmiş AI-dən daha yaxşı yerinə yetirmək onlardan fərqli şəkildə istifadə etməyi tələb edir. daha çətin” əsərin həmmüəllifləri yazırlar. "Bu nəticə təlim vasitəsilə əldə edilmiş bacarıqların bir mühitdən digərinə köçürülməsi zamanı səmərəli şəkildə təkrar istifadə üsullarının işlənib hazırlanması ehtiyacını vurğulayır."

Görülən iş həqiqətən təsir edicidir, çünki bu tədris metodundan istifadə perspektivi istənilən oyunun hüdudlarından kənardadır. Tədqiqatçılar deyirlər ki, onların işləri xəstəliklərə diaqnoz qoya, mürəkkəb zülal molekullarının strukturlarını proqnozlaşdıra və CT taramalarını təhlil edə bilən “fizikaya əsaslanan” və “insan tipli” davranışa malik süni intellekt yaratmaq yolunda mühüm addımdır.

Aşağıdakı videoda siz bütün öyrənmə prosesinin necə baş verdiyini, süni intellektin komanda işini necə öyrəndiyini və onun strategiyalarının getdikcə daha hiyləgər və mürəkkəb olduğunu aydın görə bilərsiniz.



Mənbə: 3dnews.ru

Добавить комментарий