Gücləndirici öyrənmə və ya təkamül strategiyaları? - Hər ikisi

Hey Habr!

Biz tez-tez burada iki il köhnə, koduz və aydın akademik xarakter daşıyan mətnlərin tərcümələrini yerləşdirməyə qərar vermirik - lakin bu gün istisna edəcəyik. Ümid edirik ki, məqalənin başlığında yaranan dilemma bir çox oxucumuzu narahat edir və siz bu yazının orijinalda mübahisə etdiyi təkamül strategiyalarına dair fundamental işi artıq oxumusunuz və ya indi oxuyacaqsınız. Pişiyə xoş gəlmisiniz!

Gücləndirici öyrənmə və ya təkamül strategiyaları? - Hər ikisi

2017-ci ilin mart ayında OpenAI "" məqaləsi ilə dərin öyrənmə cəmiyyətində dalğalar yaratdı.Təkamül Strategiyaları Gücləndirici Öyrənmə üçün Ölçəklənən Alternativ kimi" Bu iş gücləndirici öyrənmənin (RL) paz halına gəlməməsi və mürəkkəb neyron şəbəkələri öyrədərkən digər üsulları sınamağın məqsədəuyğun olmasının lehinə təsirli nəticələr təsvir etdi. Daha sonra gücləndirici öyrənmənin əhəmiyyəti və problemin həllini öyrətmək üçün onun “olmalıdır” texnologiyası statusuna nə qədər layiq olduğu ilə bağlı mübahisə başladı. Burada demək istəyirəm ki, bu iki texnologiya rəqabət aparan hesab edilməməlidir, onlardan biri digərindən açıq-aydın daha yaxşıdır; əksinə, onlar son nəticədə bir-birini tamamlayırlar. Həqiqətən, yaratmaq üçün nə lazım olduğunu bir az düşünsəniz ümumi AI və mövcudluğu boyu öyrənmə, mühakimə etmə və planlaşdırma qabiliyyətinə malik olan sistemlər, o zaman biz demək olar ki, bu və ya digər birləşmiş həllin tələb olunacağı qənaətinə gələcəyik. Yeri gəlmişkən, təkamül zamanı məməlilərə və digər ali heyvanlara kompleks zəka bəxş edən təbiət məhz bu birləşmiş həll yoluna gəldi.

Təkamül Strategiyaları

OpenAI sənədinin əsas tezisi ondan ibarət idi ki, ənənəvi geri yayılma ilə birlikdə gücləndirici öyrənmədən istifadə etmək əvəzinə, onlar “təkamül strategiyası” (ES) adlandırdıqları şeydən istifadə edərək mürəkkəb problemləri həll etmək üçün neyron şəbəkəni uğurla öyrətdilər. Bu ES yanaşması paralel işləyən çoxsaylı agentləri cəlb etməklə və bu paylanmadan seçilmiş parametrlərdən istifadə etməklə çəkilərin şəbəkə üzrə paylanmasının təmin edilməsindən ibarətdir. Hər bir agent öz mühitində fəaliyyət göstərir və epizodun müəyyən sayda epizod və ya mərhələlərini tamamladıqdan sonra alqoritm fitness hesabı kimi ifadə edilən məcmu mükafatı qaytarır. Bu dəyəri nəzərə alaraq, parametrlərin paylanması daha az müvəffəqiyyətli olanları məhrum edərək daha uğurlu agentlərə yönəldilə bilər. Yüzlərlə agentin iştirakı ilə belə bir əməliyyatı milyonlarla dəfə təkrarlamaqla, çəkilərin paylanmasını agentlərə onlara tapşırılan vəzifənin həlli üçün yüksək keyfiyyətli siyasət formalaşdırmağa imkan verəcək məkana köçürmək olar. Həqiqətən də, məqalədə təqdim olunan nəticələr təsir edicidir: göstərir ki, əgər paralel olaraq min agent işlədirsinizsə, onda iki ayaqda antropomorfik hərəkəti yarım saatdan az müddətdə öyrənmək olar (halbuki ən qabaqcıl RL üsulları belə daha çox xərc tələb edir. bu barədə bir saatdan çox). Daha ətraflı məlumat üçün əla oxumağı məsləhət görürəm yazı eksperimentin müəlliflərindən, eləcə də elmi məqalə.

Gücləndirici öyrənmə və ya təkamül strategiyaları? - Hər ikisi

OpenAI-dən ES metodundan istifadə edərək öyrənilən antropomorfik dik yerişin öyrədilməsi üçün müxtəlif strategiyalar.

Qara qutu

Bu metodun böyük üstünlüyü ondan ibarətdir ki, onu asanlıqla paralelləşdirmək mümkündür. A3C kimi RL metodları işçi mövzuları və parametr serveri arasında məlumat mübadiləsini tələb etsə də, ES yalnız uyğunluq təxminlərinə və ümumiləşdirilmiş parametr paylama məlumatlarına ehtiyac duyur. Məhz bu sadəliyə görə bu üsul miqyaslandırma imkanlarına görə müasir RL metodlarından xeyli irəlidədir. Ancaq bütün bunlar boş yerə getmir: qara qutu prinsipinə uyğun olaraq şəbəkəni optimallaşdırmalısınız. Bu halda, “qara qutu” o deməkdir ki, məşq zamanı şəbəkənin daxili strukturuna tamamilə məhəl qoyulmur və yalnız ümumi nəticədən (epizod üçün mükafat) istifadə olunur və müəyyən bir şəbəkənin çəkilərinin olub-olmayacağı ondan asılıdır. sonrakı nəsillərə miras qalacaq. Ətrafdan çox geribildirim almadığımız vəziyyətlərdə - və bir çox ənənəvi RL problemlərində mükafat axını çox seyrəkdir - problem "qismən qara qutu" olmaqdan "tamamilə qara qutu"ya keçir. Bu vəziyyətdə məhsuldarlığı əhəmiyyətli dərəcədə artıra bilərsiniz, buna görə də, əlbəttə ki, belə bir kompromis haqlıdır. "Hər halda ümidsiz dərəcədə səs-küylüdürsə, gradientlər kimə lazımdır?" - bu ümumi rəydir.

Bununla belə, əks əlaqənin daha aktiv olduğu vəziyyətlərdə ES-də işlər pis getməyə başlayır. OpenAI komandası sadə MNIST təsnifat şəbəkəsinin ES istifadə edərək necə öyrədildiyini və bu dəfə təlimin 1000 dəfə yavaş olduğunu təsvir edir. Fakt budur ki, təsvirin təsnifatındakı gradient siqnalı şəbəkəyə daha yaxşı təsnifat öyrətmək üçün son dərəcə məlumatlıdır. Beləliklə, problem RL texnikası ilə daha az və səs-küylü gradientlər yaradan mühitlərdə seyrək mükafatlarla daha çoxdur.

Təbiətin həlli

Təbiət nümunəsindən öyrənməyə çalışsaq, süni intellektin inkişaf etdirilməsi yollarını düşünsək, onda bəzi hallarda süni intellekt kimi düşünə bilərik. problem yönümlü yanaşma. Axı təbiət kompüter alimlərində olmayan məhdudiyyətlər daxilində fəaliyyət göstərir. Belə bir fikir var ki, konkret problemin həllinə sırf nəzəri yanaşma empirik alternativlərdən daha effektiv həllər təmin edə bilər. Bununla belə, mən hələ də hesab edirəm ki, müəyyən məhdudiyyətlər (Yer kürəsi) altında işləyən dinamik sistemin çevik və mürəkkəb davranışa qadir olan agentləri (heyvanlar, xüsusən də məməlilər) necə yaratdığını sınamağa dəyər. Bu məhdudiyyətlərin bəziləri simulyasiya edilmiş məlumat elmi dünyalarında tətbiq edilməsə də, digərləri sadəcə yaxşıdır.

Məməlilərin intellektual davranışını araşdıraraq onun bir-biri ilə sıx bağlı olan iki prosesin kompleks qarşılıqlı təsiri nəticəsində əmələ gəldiyini görürük: başqalarının təcrübələrindən öyrənmək и edərək öyrənmək. Birincisi çox vaxt təbii seçmə ilə idarə olunan təkamüllə eyniləşdirilir, lakin mən burada epigenetikanı, mikrobiomları və genetik cəhətdən əlaqəsi olmayan orqanizmlər arasında təcrübə mübadiləsini təmin edən digər mexanizmləri nəzərə almaq üçün daha geniş termindən istifadə edirəm. İkinci proses, təcrübədən öyrənmə, heyvanın həyatı boyu öyrənə bildiyi bütün məlumatlardır və bu məlumat birbaşa bu heyvanın xarici dünya ilə qarşılıqlı əlaqəsi ilə müəyyən edilir. Bu kateqoriyaya obyektlərin tanınmasının öyrənilməsindən tutmuş təlim prosesinə xas olan ünsiyyətin mənimsənilməsinə qədər hər şey daxildir.

Təxmini desək, təbiətdə baş verən bu iki prosesi neyron şəbəkələrinin optimallaşdırılması üçün iki variantla müqayisə etmək olar. Qradientlər haqqında məlumatın orqanizm haqqında məlumatı yeniləmək üçün istifadə edildiyi təkamül strategiyaları başqalarının təcrübəsindən öyrənməyə yaxınlaşır. Eynilə, bu və ya digər təcrübənin əldə edilməsi agentin davranışında bu və ya digər dəyişikliyə səbəb olan gradient metodları öz təcrübəsindən öyrənməklə müqayisə edilə bilər. Bu iki yanaşmanın hər birinin heyvanlarda inkişaf etdirdiyi ağıllı davranış və ya qabiliyyət növləri haqqında düşünsək, müqayisə daha qabarıq olur. Hər iki halda, "təkamül üsulları" müəyyən bir uyğunluğu (yaşamaq üçün kifayət qədər) inkişaf etdirməyə imkan verən reaktiv davranışların öyrənilməsini təşviq edir. Gəzməyi və ya əsirlikdən qaçmağı öyrənmək bir çox hallarda genetik səviyyədə bir çox heyvanda “sərt simli” olan daha “instinktiv” davranışlara bərabərdir. Bundan əlavə, bu nümunə təkamül üsullarının mükafat siqnalının son dərəcə nadir olduğu hallarda (məsələn, körpənin müvəffəqiyyətlə böyüdülməsi faktı) tətbiq olunduğunu təsdiqləyir. Belə olan halda, mükafatı bu faktın baş verməsindən uzun illər əvvəl edilmiş hər hansı konkret hərəkətlər toplusu ilə əlaqələndirmək mümkün deyil. Digər tərəfdən, ES-nin uğursuz olduğu bir vəziyyəti, yəni görüntü təsnifatını nəzərdən keçirsək, nəticələr 100-dən çox il ərzində aparılan saysız-hesabsız davranış psixoloji təcrübələrində əldə edilən heyvanların öyrənilməsinin nəticələri ilə diqqətəlayiq şəkildə müqayisə edilə bilər.

Heyvanlardan Öyrənmək

Möhkəmləndirici təlimdə istifadə olunan üsullar bir çox hallarda birbaşa olaraq psixoloji ədəbiyyatdan götürülür operativ kondisioner, və operant kondisioner heyvan psixologiyasından istifadə edərək öyrənildi. Yeri gəlmişkən, gücləndirici öyrənmənin iki yaradıcısından biri olan Riçard Sutton psixologiya üzrə bakalavr dərəcəsinə malikdir. Operant kondisioner kontekstində heyvanlar mükafat və ya cəzanı xüsusi davranış nümunələri ilə əlaqələndirməyi öyrənirlər. Təlimçilər və tədqiqatçılar bu və ya digər şəkildə bu mükafat birləşməsini manipulyasiya edə bilər, heyvanları zəka və ya müəyyən davranışlar nümayiş etdirməyə təhrik edə bilərlər. Bununla belə, heyvanların tədqiqatında istifadə edilən operant kondisioner, heyvanların həyatları boyu öyrəndikləri eyni kondisionerin daha aydın ifadə olunan formalarından başqa bir şey deyil. Biz daim ətrafdan müsbət möhkəmləndirmə siqnalları alırıq və davranışımızı buna uyğun tənzimləyirik. Əslində, bir çox nevroloqlar və koqnitiv elm adamları insanlar və digər heyvanların həqiqətən daha yüksək səviyyədə fəaliyyət göstərdiyinə inanırlar və davamlı olaraq potensial mükafatlara əsaslanaraq gələcək vəziyyətlərdə davranışlarının nəticəsini proqnozlaşdırmağı öyrənirlər.

Təcrübədən öyrənməkdə proqnozlaşdırmanın mərkəzi rolu yuxarıda təsvir edilən dinamikanı əhəmiyyətli şəkildə dəyişir. Əvvəllər çox seyrək (epizodik mükafat) hesab edilən siqnal çox sıx olur. Nəzəri olaraq vəziyyət belədir: hər hansı bir zamanda məməlinin beyni həssas stimulların və hərəkətlərin mürəkkəb axınına əsaslanaraq nəticələri hesablayır, heyvan isə sadəcə olaraq bu axına batırılır. Bu vəziyyətdə, heyvanın son davranışı, proqnozların düzəldilməsi və davranışın inkişafına rəhbərlik etmək üçün istifadə edilməli olan güclü bir siqnal verir. Beyin gələcəkdə proqnozları (və müvafiq olaraq görülən tədbirlərin keyfiyyətini) optimallaşdırmaq üçün bütün bu siqnallardan istifadə edir. Bu yanaşmanın icmalı əla kitabda verilmişdir”Sörf Qeyri-müəyyənlik” koqnitiv alim və filosof Endi Klark. Bu cür mülahizələri süni agentlərin təliminə ekstrapolyasiya etsək, gücləndirici öyrənmədə əsas qüsur aşkar edilir: bu paradiqmada istifadə olunan siqnal ola biləcəyi (və ya olması lazım olan) ilə müqayisədə ümidsiz dərəcədə zəifdir. Siqnalın doyma səviyyəsini artırmaq mümkün olmadığı hallarda (bəlkə də onun mahiyyətcə zəif olması və ya aşağı səviyyəli reaktivliklə əlaqəli olması) yəqin ki, yaxşı paralelləşdirilmiş təlim metoduna, məsələn, ES-ə üstünlük vermək daha yaxşıdır.

Neyron şəbəkələrin daha zəngin təlimi

Daim proqnozlar verməklə məşğul olan məməlilərin beyninə xas olan yüksək sinir fəaliyyətinin prinsiplərinə əsaslanaraq, bu cür proqnozların əhəmiyyətini nəzərə alan gücləndirici öyrənmədə son irəliləyişlər əldə edilmişdir. Dərhal sizə iki oxşar işi tövsiyə edə bilərəm:

Bu sənədlərin hər ikisində müəlliflər öz neyron şəbəkələrinin tipik standart siyasətini ətraf mühitin gələcək vəziyyəti ilə bağlı proqnoz nəticələri ilə tamamlayırlar. Birinci məqalədə proqnozlaşdırma müxtəlif ölçü dəyişənlərinə, ikincidə isə proqnozlaşdırma mühitdəki dəyişikliklərə və agentin davranışına tətbiq edilir. Hər iki halda, müsbət gücləndirmə ilə əlaqəli seyrək siqnal həm daha sürətli öyrənməyə, həm də daha mürəkkəb davranışların mənimsənilməsinə imkan verən daha zəngin və daha informativ olur. Bu cür təkmilləşdirmələr ES kimi “qara qutu” prinsipi ilə işləyən metodlarla deyil, yalnız gradient siqnalından istifadə edən metodlarla mümkündür.

Bundan əlavə, təcrübədən öyrənmək və gradient üsulları daha effektivdir. Müəyyən bir problemi ES metodundan istifadə edərək gücləndirici öyrənmədən daha sürətli öyrənmək mümkün olduğu hallarda belə, ES strategiyasının RL ilə müqayisədə dəfələrlə daha çox məlumatı əhatə etməsi səbəbindən qazanc əldə edildi. Bu məsələdə heyvanlarda öyrənmə prinsipləri üzərində düşünərək qeyd edirik ki, başqasının nümunəsindən öyrənməyin nəticəsi bir çox nəsillərdən sonra özünü büruzə verir, halbuki bəzən öz başına gələn bir hadisə heyvanın əbədi olaraq dərs alması üçün kifayət edir. Bəyənərkən nümunəsiz təlim Ənənəvi gradient metodlarına tam uyğun gəlməsə də, ES-dən daha başa düşüləndir. kimi yanaşmalar var, məsələn sinir epizodik nəzarət, burada Q-dəyərləri təlim prosesi zamanı saxlanılır, bundan sonra proqram tədbirlər görməzdən əvvəl onları yoxlayır. Nəticə, problemləri əvvəlkindən daha sürətli həll etməyi öyrənməyə imkan verən gradient metodudur. Sinir epizodik nəzarəti ilə bağlı məqalədə müəlliflər bir təcrübədən sonra belə bir hadisə haqqında məlumatı saxlamağa qadir olan insan hipokampusunu qeyd edirlər və buna görə də kritik rol xatırlama prosesində. Bu cür mexanizmlər agentin daxili təşkilatına daxil olmağı tələb edir ki, bu da tərifinə görə ES paradiqmasında qeyri-mümkündür.

Yaxşı, niyə onları birləşdirməyək?

Çox güman ki, bu məqalənin çox hissəsi mən RL metodlarını müdafiə etdiyim təəssüratını yarada bilər. Bununla belə, mən əslində düşünürəm ki, uzunmüddətli perspektivdə ən yaxşı həll hər iki üsulu birləşdirməkdir ki, hər biri ən uyğun olan hallarda istifadə olunsun. Aydındır ki, bir çox reaktiv siyasətlər və ya müsbət gücləndirmənin çox seyrək siqnalları olan situasiyalarda ES qalib gəlir, xüsusən də ixtiyarınızda olan hesablama gücünüz varsa, bununla paralel təlim keçirə bilərsiniz. Digər tərəfdən, gücləndirici öyrənmə və ya nəzarətli öyrənmədən istifadə edən qradient metodlar, geniş rəy əldə etmək imkanımız olduqda və problemi tez və daha az məlumatla həll etməyi öyrənmək lazım olduqda faydalı olacaq.

Təbiətə müraciət etdikdə görürük ki, birinci üsul mahiyyət etibarilə ikincinin əsasını qoyur. Məhz buna görə də, təkamül zamanı məməlilər ətrafdan gələn mürəkkəb siqnallardan son dərəcə təsirli şəkildə öyrənməyə imkan verən beyinlər inkişaf etdirdilər. Beləliklə, sual açıq qalır. Ola bilsin ki, təkamül strategiyaları gradient öyrənmə metodları üçün də faydalı olacaq effektiv öyrənmə arxitekturalarını icad etməyə kömək edəcək. Axı təbiətin tapdığı həll həqiqətən çox uğurludur.

Mənbə: www.habr.com

Добавить комментарий