Yaxşı köhnə dəbdə olan gizlənqaç oyunu süni intellekt (AI) botları üçün necə qərar qəbul etdiklərini və bir-biri ilə və ətrafındakı müxtəlif obyektlərlə qarşılıqlı əlaqədə olduqlarını nümayiş etdirmək üçün əla sınaq ola bilər.
Onun içində
Alimlər uzun müddət şöhrət qazanmış bir üsuldan istifadə etdilər
Süni intellektə gizlənqaç oynamağa öyrətmək üçün elm adamları “İstiqamətsiz kəşfiyyat” adlı yanaşmadan istifadə edirdilər ki, burada agentlər oyun dünyası haqqında anlayışlarını inkişaf etdirmək və qalib strategiyalar hazırlamaq üçün tam sərbəstliyə malikdirlər. Bu, DeepMind tədqiqatçılarının çoxsaylı süni intellekt sistemləri üçün istifadə etdikləri multi-agent öyrənmə yanaşmasına bənzəyir.
Gizlənqaç oyununda, işi gizlənmək olan bir neçə agentdən, axtarış agentləri komandası hərəkətsiz olduğu halda, yüngül bir başlanğıcdan sonra rəqiblərinin baxış xəttindən qaçmaq tələb olunurdu. Üstəlik, bu kontekstdə "görmə xətti" fərdi botun qarşısında 135 dərəcə bir konusdur. Agentlər oyun meydançasından çox kənara çıxa bilmədilər və ətrafa səpələnmiş bəzi xarici obyektlərdən (qutular, daşınan divarlar, xüsusi rampalar) istifadə etmək imkanı ilə təsadüfi yaradılan otaqları gəzməyə məcbur oldular ki, bu da həm örtük yaratmaq, həm də onlara sızmaq üçün istifadə edilə bilər. .
Uzun sürən öyrənmə prosesi vasitəsilə süni intellekt agentləri altı unikal strategiya öyrəndilər, onların hər biri onlara oyunun növbəti mərhələsinə keçməyə kömək etdi. Əvvəlcə axtaran və gizlənən qruplar sadəcə olaraq qaçıb bir-birini təqib etdilər, lakin təxminən 25 milyon matçdan sonra gizlənən komanda keçidləri qutularla bağlamağı və onlardan sığınacaqlar qurmağı öyrəndi. Daha 75 milyon matçdan sonra komanda bu sığınacaqlara girmək üçün rampalardan istifadə etməyin yollarını kəşf etdi. Daha 10 milyon raunddan sonra gizlənənlər rampaları oyun sahəsinin kənarına sürükləməyi və rəqiblərin onlardan istifadə etməsinin qarşısını almaq üçün onları yerində bağlamağı öyrəndilər.
388 milyon kibritdən sonra axtaranlar onlara gətirilən yeşiklərə dırmaşmaq üçün bloklanmış rampalardan istifadə etməyi, sonra isə birbaşa onların üzərinə hərəkət edərək portativ divarlardan yaradılmış düşmən sığınacaqlarına nüfuz etməyi öyrəniblər. Və nəhayət, 458 milyon matçdan sonra gizlənən komanda bütün obyektləri bağlamalı və sonra sığınacaq tikməli olduqları qənaətinə gəldi və bu, yəqin ki, onların son qələbəsinə səbəb oldu.
Xüsusilə təsir edici olan odur ki, 22 milyon matçdan sonra agentlər öz hərəkətlərini əlaqələndirməyi öyrəndilər və əməkdaşlığın səmərəliliyi gələcəkdə daha da artdı, məsələn, hər biri sığınacaq yaratmaq üçün öz qutusunu və ya divarını gətirdi və obyektlərdən öz payını seçdi. blok, rəqiblərə çətinlik oyununu çətinləşdirmək.
Alimlər həmçinin təlim obyektlərinin sayının (neyroşəbəkədən keçən məlumatların miqdarı - “Batch Size”) öyrənmə sürətinə təsiri ilə bağlı vacib məqamı qeyd ediblər. Defolt model, gizlənən komandanın rampaları bloklamağı öyrəndiyi nöqtəyə çatmaq üçün 132,3 saatlıq məşq ərzində 34 milyon matç tələb etdi, daha çox məlumat isə məşq vaxtının nəzərəçarpacaq dərəcədə azalması ilə nəticələndi. Məsələn, parametrlərin sayının (bütün təlim prosesi zamanı əldə edilən məlumatların bir hissəsi) 0,5 milyondan 5,8 milyona qədər artırılması seçmə səmərəliliyini 2,2 dəfə artırdı və daxil edilən məlumatların ölçüsünü 64 KB-dan 128 KB-a qədər artırmaq təlimi azaldır. vaxt demək olar ki, bir yarım dəfə.
İşlərinin sonunda tədqiqatçılar oyundaxili təlimin agentlərə oyundan kənar oxşar tapşırıqların öhdəsindən gəlməsində nə qədər kömək edə biləcəyini yoxlamaq qərarına gəldilər. Ümumilikdə beş test var idi: obyektlərin sayı barədə məlumatlılıq (obyektin gözdən uzaqda olsa və istifadə edilməsə belə mövcudluğunu davam etdirdiyini başa düşmək); "kilidlə və qayıt" - orijinal mövqeyini xatırlamaq və bəzi əlavə tapşırıqları yerinə yetirdikdən sonra ona qayıtmaq bacarığı; "Ardıcıl bloklama" - 4 qutu təsadüfi olaraq qapıları olmayan üç otaqda yerləşdirildi, lakin içəri girmək üçün rampalar var, agentlər hamısını tapıb bloklamalı idi; qutuların əvvəlcədən müəyyən edilmiş yerlərdə yerləşdirilməsi; silindr şəklində obyektin ətrafında sığınacaq yaratmaq.
Nəticədə, beş tapşırıqdan üçündə, oyunda ilkin təlim keçmiş botlar, problemləri sıfırdan həll etmək üçün öyrədilmiş süni intellektdən daha sürətli öyrəndilər və daha yaxşı nəticələr göstərdilər. Tapşırığı yerinə yetirməkdə və başlanğıc vəziyyətinə qayıtmaqda, qapalı otaqlarda qutuları ardıcıl olaraq bloklamaqda və verilmiş ərazilərdə qutuları yerləşdirməkdə bir qədər yaxşı çıxış etdilər, lakin obyektlərin sayını tanımaqda və başqa bir obyektin ətrafında örtük yaratmaqda bir qədər zəif çıxış etdilər.
Tədqiqatçılar qarışıq nəticələri AI-nin müəyyən bacarıqları necə öyrənməsi və yadda saxlaması ilə əlaqələndirirlər. "Biz düşünürük ki, oyundaxili məşqin ən yaxşı şəkildə yerinə yetirildiyi tapşırıqlar əvvəllər öyrənilmiş bacarıqların tanış şəkildə təkrar istifadə edilməsini əhatə edir, qalan tapşırıqları isə sıfırdan öyrədilmiş AI-dən daha yaxşı yerinə yetirmək onlardan fərqli şəkildə istifadə etməyi tələb edir. daha çətin” əsərin həmmüəllifləri yazırlar. "Bu nəticə təlim vasitəsilə əldə edilmiş bacarıqların bir mühitdən digərinə köçürülməsi zamanı səmərəli şəkildə təkrar istifadə üsullarının işlənib hazırlanması ehtiyacını vurğulayır."
Görülən iş həqiqətən təsir edicidir, çünki bu tədris metodundan istifadə perspektivi istənilən oyunun hüdudlarından kənardadır. Tədqiqatçılar deyirlər ki, onların işləri xəstəliklərə diaqnoz qoya, mürəkkəb zülal molekullarının strukturlarını proqnozlaşdıra və CT taramalarını təhlil edə bilən “fizikaya əsaslanan” və “insan tipli” davranışa malik süni intellekt yaratmaq yolunda mühüm addımdır.
Aşağıdakı videoda siz bütün öyrənmə prosesinin necə baş verdiyini, süni intellektin komanda işini necə öyrəndiyini və onun strategiyalarının getdikcə daha hiyləgər və mürəkkəb olduğunu aydın görə bilərsiniz.
Mənbə: 3dnews.ru