O'rganishni kuchaytirish yoki evolyutsion strategiyalar? - Ikkala

Hey Xabr!

Biz ko'pincha bu erda ikki yillik, kodsiz va akademik xarakterga ega bo'lgan matnlarning tarjimalarini joylashtirishga qaror qilmaymiz - lekin bugun biz istisno qilamiz. Umid qilamizki, maqolaning sarlavhasida yuzaga kelgan dilemma ko'plab o'quvchilarimizni xavotirga solmoqda va siz ushbu post asl nusxada muhokama qilinadigan evolyutsion strategiyalar bo'yicha fundamental ishni allaqachon o'qigansiz yoki uni hozir o'qiysiz. Mushukga xush kelibsiz!

O'rganishni kuchaytirish yoki evolyutsion strategiyalar? - Ikkala

2017-yilning mart oyida OpenAI chuqur oʻrganish hamjamiyatida toʻlqinlar yaratdi.Evolyutsiya strategiyalari mustahkamlovchi ta'limga kengaytiriladigan alternativa sifatida”. Ushbu ish mustahkamlovchi o'rganish (RL) xanjarga aylanmaganligi va murakkab neyron tarmoqlarni o'rgatishda boshqa usullarni sinab ko'rish tavsiya etiladigan ta'sirchan natijalarni tasvirlab berdi. Shundan so'ng, mustahkamlashni o'rganishning ahamiyati va muammoni hal qilishni o'rgatishning "bo'lishi kerak" texnologiyasi maqomiga qanchalik loyiqligi haqida munozara boshlandi. Bu erda shuni aytmoqchimanki, bu ikki texnologiya raqobatdosh deb hisoblanmasligi kerak, ulardan biri boshqasidan yaxshiroq; aksincha, ular oxir-oqibatda bir-birini to'ldiradi. Haqiqatan ham, yaratish uchun nima kerakligi haqida bir oz o'ylab ko'rsangiz umumiy AI va mavjud bo'lgan vaqt davomida o'rganish, mulohaza yuritish va rejalashtirishga qodir bo'lgan bunday tizimlar, biz u yoki bu qo'shma yechim talab qilinadi degan xulosaga kelamiz. Aytgancha, evolyutsiya jarayonida sutemizuvchilar va boshqa yuqori hayvonlarni murakkab aql bilan ta'minlagan tabiat aynan mana shu qo'shma yechimga keldi.

Evolyutsion strategiyalar

OpenAI maqolasining asosiy tezisi shundan iborat ediki, ular an'anaviy teskari tarqalish bilan birgalikda mustahkamlashni o'rganishdan foydalanish o'rniga, ular "evolyutsiya strategiyasi" (ES) deb atagan narsadan foydalangan holda murakkab muammolarni hal qilish uchun neyron tarmoqni muvaffaqiyatli o'rgatishdi. Ushbu ES yondashuvi parallel ravishda ishlaydigan bir nechta agentlarni o'z ichiga olgan va ushbu taqsimotdan tanlangan parametrlardan foydalangan holda og'irliklarning tarmoq bo'ylab taqsimlanishini ta'minlashdan iborat. Har bir agent o'z muhitida ishlaydi va epizodning ma'lum miqdordagi epizodlari yoki bosqichlarini tugatgandan so'ng, algoritm fitnes balli sifatida ifodalangan jamlangan mukofotni qaytaradi. Ushbu qiymatni hisobga olgan holda, parametrlarni taqsimlash kamroq muvaffaqiyatli bo'lganlardan mahrum bo'lgan ko'proq muvaffaqiyatli agentlarga o'tkazilishi mumkin. Bunday operatsiyani yuzlab agentlar ishtirokida millionlab marta takrorlash orqali, og'irliklarni taqsimlashni agentlarga o'zlariga yuklangan vazifani hal qilish uchun yuqori sifatli siyosatni shakllantirish imkonini beradigan bo'shliqqa o'tkazish mumkin. Darhaqiqat, maqolada keltirilgan natijalar hayratlanarli: agar siz mingta agentni parallel ravishda ishlatsangiz, ikki oyoqdagi antropomorfik harakatni yarim soatdan kamroq vaqt ichida o'rganishingiz mumkinligi ko'rsatilgan (hatto eng ilg'or RL usullari ham ko'proq pul sarflashni talab qiladi. bir soatdan ortiq). Batafsil ma'lumot olish uchun men ajoyib o'qishni tavsiya qilaman post tajriba mualliflaridan, shuningdek ilmiy maqola.

O'rganishni kuchaytirish yoki evolyutsion strategiyalar? - Ikkala

OpenAI dan ES usuli yordamida o'rganilgan antropomorfik tik yurishni o'rgatishning turli strategiyalari.

Qora quti

Ushbu usulning katta afzalligi shundaki, uni osongina parallellashtirish mumkin. A3C kabi RL usullari ishchi oqimlari va parametr serveri o'rtasida ma'lumot almashishni talab qilsa-da, ES faqat fitnes baholari va parametrlarni taqsimlash ma'lumotlariga muhtoj. Aynan shu soddaligi tufayli bu usul miqyoslash imkoniyatlari bo'yicha zamonaviy RL usullaridan ancha oldinda. Biroq, bularning barchasi behuda ketmaydi: siz tarmoqni qora quti printsipiga ko'ra optimallashtirishingiz kerak. Bunday holda, "qora quti" shuni anglatadiki, mashg'ulot paytida tarmoqning ichki tuzilishi butunlay e'tiborga olinmaydi va faqat umumiy natija (epizod uchun mukofot) ishlatiladi va ma'lum bir tarmoqning og'irligi unga bog'liq. keyingi avlodlarga meros bo'lib qoladi. Biz atrof-muhitdan ko'p fikr-mulohaza olmaydigan holatlarda va ko'plab an'anaviy RL muammolarida mukofotlar oqimi juda siyrak - muammo "qisman qora quti" dan "to'liq qora quti" ga o'tadi. Bunday holda, siz mahsuldorlikni sezilarli darajada oshirishingiz mumkin, shuning uchun, albatta, bunday kelishuv oqlanadi. "Agar ular umidsiz shovqinli bo'lsa, gradientlar kimga kerak?" - bu umumiy fikr.

Biroq, fikr-mulohazalar faolroq bo'lgan holatlarda, ES uchun ishlar noto'g'ri keta boshlaydi. OpenAI jamoasi oddiy MNIST tasniflash tarmog'i ES yordamida qanday o'qitilganini tasvirlaydi va bu safar trening 1000 marta sekinroq bo'ldi. Gap shundaki, tasvir tasnifidagi gradient signali tarmoqni yaxshiroq tasniflashni o'rgatish bo'yicha juda ma'lumotlidir. Shunday qilib, muammo RL texnikasi bilan kamroq va shovqinli gradientlarni ishlab chiqaradigan muhitda siyrak mukofotlar bilan ko'proq.

Tabiatning yechimi

Agar biz sun'iy intellektni rivojlantirish yo'llari haqida o'ylab, tabiat misolidan saboq olishga harakat qilsak, ba'zi hollarda AIni shunday tasavvur qilish mumkin. muammoga yo'naltirilgan yondashuv. Axir, tabiat kompyuter olimlarida mavjud bo'lmagan cheklovlar doirasida ishlaydi. Muayyan muammoni hal qilishda sof nazariy yondashuv empirik muqobillarga qaraganda samaraliroq echimlarni berishi mumkin degan fikr mavjud. Biroq, men hali ham ma'lum cheklovlar (Yer) ostida ishlaydigan dinamik tizim moslashuvchan va murakkab xatti-harakatlarga qodir bo'lgan agentlarni (hayvonlar, ayniqsa sutemizuvchilar) qanday yaratganini sinab ko'rishga arziydi deb o'ylayman. Ushbu cheklovlarning ba'zilari simulyatsiya qilingan ma'lumotlar fanlari dunyolarida qo'llanilmasa-da, boshqalari juda yaxshi.

Sutemizuvchilarning intellektual xulq-atvorini o'rganib chiqib, u bir-biri bilan chambarchas bog'liq ikkita jarayonning murakkab o'zaro ta'siri natijasida shakllanganligini ko'ramiz: boshqalarning tajribasidan o'rganish и qilish orqali o'rganish. Birinchisi ko'pincha tabiiy tanlanish natijasida yuzaga keladigan evolyutsiya bilan tenglashtiriladi, ammo bu erda men epigenetika, mikrobiomlar va genetik jihatdan bog'liq bo'lmagan organizmlar o'rtasida tajriba almashish imkonini beruvchi boshqa mexanizmlarni hisobga olish uchun kengroq atama ishlataman. Ikkinchi jarayon, tajribadan o'rganish - bu hayvonning butun hayoti davomida o'rganishga muvaffaq bo'lgan barcha ma'lumotlari va bu ma'lumot bevosita ushbu hayvonning tashqi dunyo bilan o'zaro ta'siri bilan belgilanadi. Bu turkumga ob'ektlarni tanib olishni o'rganishdan tortib o'quv jarayoniga xos bo'lgan muloqotni o'zlashtirishgacha bo'lgan barcha narsalar kiradi.

Taxminan aytganda, tabiatda sodir bo'ladigan bu ikki jarayonni neyron tarmoqlarni optimallashtirishning ikkita varianti bilan solishtirish mumkin. Organizm haqidagi ma'lumotni yangilash uchun gradientlar haqidagi ma'lumotlardan foydalaniladigan evolyutsion strategiyalar boshqalarning tajribasidan o'rganishga yaqinlashadi. Xuddi shunday, u yoki bu tajribani olish agentning xatti-harakatlarida u yoki bu o'zgarishlarga olib keladigan gradient usullarini o'z tajribasidan o'rganish bilan solishtirish mumkin. Agar biz ushbu ikki yondashuvning har biri hayvonlarda qanday aqlli xatti-harakatlar yoki qobiliyatlarni rivojlantiradigan bo'lsak, taqqoslash yanada aniqroq bo'ladi. Ikkala holatda ham "evolyutsion usullar" insonning ma'lum bir fitnesni (tirik qolish uchun etarli) rivojlantirishga imkon beruvchi reaktiv xatti-harakatlarni o'rganishga yordam beradi. Yurish yoki asirlikdan qochishni o'rganish ko'p hollarda genetik darajadagi ko'plab hayvonlarda "qattiq simli" bo'lgan ko'proq "instinktiv" xatti-harakatlarga tengdir. Bundan tashqari, ushbu misol evolyutsion usullar mukofot signali juda kam uchraydigan holatlarda (masalan, chaqaloqni muvaffaqiyatli tarbiyalash faktida) qo'llanilishini tasdiqlaydi. Bunday holda, mukofotni ushbu fakt sodir bo'lishidan ko'p yillar oldin amalga oshirilgan har qanday muayyan harakatlar to'plami bilan bog'lash mumkin emas. Boshqa tomondan, agar biz ES muvaffaqiyatsizlikka uchragan holatni, ya'ni tasvir tasnifini ko'rib chiqsak, natijalar 100 yildan ortiq yillar davomida o'tkazilgan son-sanoqsiz xatti-harakatlar psixologik tajribalarida erishilgan hayvonlarni o'rganish natijalari bilan ajoyib darajada taqqoslanadi.

Hayvonlardan o'rganish

Mustahkamlash ta'limida qo'llaniladigan usullar ko'p hollarda to'g'ridan-to'g'ri psixologik adabiyotlardan olinadi operativ konditsionerlik, va operant konditsionerlik hayvonlar psixologiyasi yordamida o'rganildi. Aytgancha, Richard Sutton, mustahkamlovchi ta'limning ikki asoschisidan biri, psixologiya bo'yicha bakalavr darajasiga ega. Operant konditsionerligi sharoitida hayvonlar mukofot yoki jazoni o'ziga xos xulq-atvor namunalari bilan bog'lashni o'rganadilar. Trenerlar va tadqiqotchilar ushbu mukofot assotsiatsiyasini u yoki bu tarzda boshqarib, hayvonlarni aql-zakovat yoki muayyan xatti-harakatlarni namoyish qilish uchun qo'zg'atishlari mumkin. Biroq, hayvonlarni tadqiq qilishda qo'llaniladigan operant konditsioner, hayvonlar butun hayoti davomida o'rganadigan bir xil konditsionerlikning aniqroq shaklidir. Biz doimo atrof-muhitdan ijobiy mustahkamlash signallarini olamiz va shunga mos ravishda xatti-harakatlarimizni o'zgartiramiz. Darhaqiqat, ko'plab nevrologlar va kognitiv olimlar odamlar va boshqa hayvonlar haqiqatan ham yuqori darajada ishlaydilar va potentsial mukofotlar asosida kelajakdagi vaziyatlarda o'zlarining xatti-harakatlari natijalarini bashorat qilishni doimiy ravishda o'rganadilar.

Tajribadan o'rganishda bashorat qilishning markaziy roli yuqorida tavsiflangan dinamikani sezilarli darajada o'zgartiradi. Ilgari juda siyrak (epizodik mukofot) deb hisoblangan signal juda zich bo'lib chiqadi. Nazariy jihatdan, vaziyat shunday: har qanday vaqtda sutemizuvchilarning miyasi murakkab hissiy stimullar va harakatlar oqimiga asoslangan natijalarni hisoblab chiqadi, hayvon esa shunchaki bu oqimga botiriladi. Bunday holda, hayvonning yakuniy xatti-harakati prognozlarni sozlash va xatti-harakatlarni rivojlantirish uchun ishlatilishi kerak bo'lgan kuchli signal beradi. Miya ushbu signallarning barchasini kelajakda prognozlarni (va shunga mos ravishda amalga oshirilgan harakatlar sifatini) optimallashtirish uchun ishlatadi. Ushbu yondashuvning umumiy ko'rinishi ajoyib kitobda berilgan "Surfing noaniqlikKognitiv olim va faylasuf Endi Klark. Agar biz bunday mulohazalarni sun'iy agentlarni o'qitishga ekstrapolyatsiya qilsak, unda mustahkamlashni o'rganishdagi asosiy kamchilik aniqlanadi: bu paradigmada ishlatiladigan signal nima bo'lishi mumkin (yoki bo'lishi kerak) bilan solishtirganda umidsiz darajada zaifdir. Signalning to'yinganligini oshirishning iloji bo'lmagan hollarda (ehtimol, u tabiatan zaif yoki past darajadagi reaktivlik bilan bog'liq bo'lganligi sababli), yaxshi parallellashtirilgan o'quv usulini afzal ko'rish yaxshidir, masalan, ES.

Neyron tarmoqlarni yanada boyroq tayyorlash

Doimiy ravishda bashorat qilish bilan band bo'lgan sutemizuvchilar miyasiga xos bo'lgan yuqori asabiy faollik tamoyillariga asoslanib, so'nggi paytlarda bunday bashoratlarning ahamiyatini hisobga oladigan mustahkamlashni o'rganishda so'nggi yutuqlarga erishildi. Men darhol sizga ikkita shunga o'xshash asarni tavsiya qilishim mumkin:

Ushbu ikkala maqolada ham mualliflar o'zlarining neyron tarmoqlarining odatiy standart siyosatini atrof-muhitning kelajakdagi holati to'g'risida bashorat qilish natijalari bilan to'ldiradilar. Birinchi maqolada prognozlash turli xil o'lchov o'zgaruvchilari uchun qo'llaniladi, ikkinchisida esa prognozlash muhitdagi o'zgarishlar va agentning xatti-harakatlariga nisbatan qo'llaniladi. Ikkala holatda ham ijobiy mustahkamlash bilan bog'liq bo'lgan siyrak signal ancha boy va ko'proq ma'lumotga ega bo'lib, tezroq o'rganish va yanada murakkab xatti-harakatlarni egallash imkonini beradi. Bunday yaxshilanishlar ES kabi "qora quti" tamoyili bo'yicha ishlaydigan usullar bilan emas, balki faqat gradient signalidan foydalanadigan usullar bilan mavjud.

Bundan tashqari, tajriba va gradient usullaridan o'rganish ancha samaralidir. ES usuli yordamida ma'lum bir muammoni kuchaytirishni o'rganishdan ko'ra tezroq o'rganish mumkin bo'lgan hollarda ham, ES strategiyasi RLga qaraganda bir necha baravar ko'p ma'lumotlarni o'z ichiga olganligi sababli erishildi. Bu holatda hayvonlarni o'rganish tamoyillari haqida fikr yuritar ekanmiz, biz shuni ta'kidlaymizki, birovning misolidan o'rganish natijasi ko'p avlodlardan keyin o'zini namoyon qiladi, ba'zan esa hayvon abadiy saboq olishi uchun o'z-o'zidan sodir bo'lgan bir voqea kifoya qiladi. Yoq ekan misollarsiz o'qitish Garchi u an'anaviy gradient usullariga to'liq mos kelmasa ham, u ESga qaraganda ancha tushunarli. kabi yondashuvlar mavjud asabiy epizodik nazorat, bu erda Q-qiymatlari mashg'ulot paytida saqlanadi, shundan so'ng dastur harakatlarni amalga oshirishdan oldin ularni tekshiradi. Natija gradient usuli bo'lib, muammolarni oldingidan ancha tezroq hal qilishni o'rganishga imkon beradi. Neyron epizodik nazoratga oid maqolada mualliflar bir tajribadan keyin ham voqea haqida ma'lumotni saqlab qolishga qodir bo'lgan va shuning uchun o'ynaydigan inson gipokampusini eslatib o'tadilar. hal qiluvchi rol eslash jarayonida. Bunday mexanizmlar agentning ichki tashkilotiga kirishni talab qiladi, bu esa, ta'rifiga ko'ra, ES paradigmasida imkonsizdir.

Xo'sh, nega ularni birlashtirmaysiz?

Ehtimol, ushbu maqolaning aksariyati men RL usullarini qo'llab-quvvatlayotgandek taassurot qoldirishi mumkin. Biroq, menimcha, uzoq muddatda eng yaxshi yechim ikkala usulni birlashtirishdir, shuning uchun har biri eng mos bo'lgan holatlarda qo'llaniladi. Shubhasiz, ko'plab reaktiv siyosatlar yoki ijobiy mustahkamlash signallari juda kam bo'lgan holatlarda, ES g'alaba qozonadi, ayniqsa sizda parallel ravishda mashg'ulotlarni o'tkazishingiz mumkin bo'lgan hisoblash quvvati mavjud bo'lsa. Boshqa tomondan, kuchaytiruvchi o'rganish yoki nazorat ostida o'rganishdan foydalanadigan gradient usullari, biz keng ko'lamli fikr-mulohazalarga ega bo'lganimizda va muammoni tez va kamroq ma'lumotlar bilan qanday hal qilishni o'rganishimiz kerak bo'lganda foydali bo'ladi.

Tabiatga murojaat qiladigan bo'lsak, birinchi usul, mohiyatiga ko'ra, ikkinchisiga poydevor qo'yishini topamiz. Shu sababli, evolyutsiya jarayonida sutemizuvchilar atrof-muhitdan keladigan murakkab signallarni juda samarali o'rganishga imkon beruvchi miyalarni rivojlantirdilar. Demak, savol ochiq qolmoqda. Ehtimol, evolyutsion strategiyalar bizga gradient o'rganish usullari uchun foydali bo'lgan samarali ta'lim arxitekturasini ixtiro qilishga yordam beradi. Axir, tabiat tomonidan topilgan yechim haqiqatan ham juda muvaffaqiyatli.

Manba: www.habr.com

a Izoh qo'shish