🥇Бэхжүүлэх сургалт эсвэл хувьслын стратеги уу? — Хоёулаа

Хөөе Хабр!

Бид энд хоёр жилийн настай, кодгүй, эрдэм шинжилгээний шинж чанартай текстийн орчуулгыг нийтлэхээр шийддэггүй, гэхдээ өнөөдөр бид онцгой тохиолдол гаргах болно. Өгүүллийн гарчигт үүссэн бэрхшээл нь манай олон уншигчдын санааг зовоож байна гэж найдаж байна, мөн та энэ нийтлэлд маргаж буй хувьслын стратегийн үндсэн бүтээлийг эх хувилбараар нь уншсан эсвэл одоо унших болно. Мууранд тавтай морил!

2017 оны XNUMX-р сард OpenAI "Гүнзгий суралцах нийгэмд давалгаа хийсэн"Хувьслын стратеги нь бататгах сургалтын өргөтгөх боломжтой хувилбар юм.” Энэхүү ажил нь бататгах сургалт (RL) нь шаантаг болоогүй бөгөөд нарийн төвөгтэй мэдрэлийн сүлжээг сургахдаа бусад аргыг туршиж үзэхийг зөвлөж байна гэсэн гайхалтай үр дүнг тодорхойлсон. Дараа нь бататгах сургалтын ач холбогдол, асуудал шийдвэрлэхэд заах "зайлшгүй байх" технологи гэсэн статусыг хэрхэн хүртэх ёстой талаар мэтгэлцээн өрнөв. Энд би эдгээр хоёр технологийг өрсөлдөгчид гэж үзэх ёсгүй гэдгийг хэлмээр байна, тэдгээрийн нэг нь нөгөөгөөсөө илүү дээр юм; эсрэгээрээ тэд эцсийн дүндээ бие биенээ нөхдөг. Үнэн хэрэгтээ, хэрэв та бүтээхэд юу шаардагдах талаар бага зэрэг бодож байвал ерөнхий AI оршин тогтнохынхоо туршид суралцах, шүүн тунгаах, төлөвлөх чадвартай ийм системүүд байгаа бол бид энэ эсвэл бусад хосолсон шийдэл шаардлагатай гэсэн дүгнэлтэд бараг хүрнэ. Дашрамд хэлэхэд, хувьслын явцад хөхтөн амьтад болон бусад дээд амьтдад нарийн төвөгтэй оюун ухааныг өгсөн байгаль яг ийм нэгдсэн шийдэлд хүрсэн юм.

Хувьслын стратеги

OpenAI-ийн илтгэлийн гол дипломын ажил нь уламжлалт backpropagation-тай хослуулан бэхжүүлэх сургалтыг ашиглахын оронд тэд "хувьслын стратеги" (ES) гэж нэрлэсэн зүйлийг ашиглан нарийн төвөгтэй асуудлыг шийдвэрлэхийн тулд мэдрэлийн сүлжээг амжилттай сургасан явдал байв. Энэхүү ES арга нь сүлжээний хэмжээнд жингийн хуваарилалтыг хадгалах, олон агентуудыг зэрэгцүүлэн ажиллуулж, энэ хуваарилалтаас сонгосон параметрүүдийг ашиглахаас бүрдэнэ. Агент бүр өөр өөрийн орчинд ажилладаг бөгөөд ангиллын тодорхой тооны анги эсвэл үе шат дууссаны дараа алгоритм нь фитнессийн оноогоор илэрхийлэгдсэн хуримтлагдсан шагналыг буцаана. Энэ утгыг харгалзан параметрийн хуваарилалтыг илүү амжилттай агентууд руу шилжүүлж, амжилт муутай хүмүүсийг хасаж болно. Ийм үйлдлийг хэдэн зуун төлөөлөгчийн оролцоотойгоор хэдэн сая удаа давтан хийснээр жингийн хуваарилалтыг төлөөлөгчдөд өгсөн үүрэг даалгаврыг шийдвэрлэх өндөр чанартай бодлого боловсруулах боломжтой орон зайд шилжүүлэх боломжтой. Үнэн хэрэгтээ, нийтлэлд үзүүлсэн үр дүн нь гайхалтай юм: хэрэв та мянга гаруй төлөөлөгчийг зэрэгцүүлэн ажиллуулбал хоёр хөл дээрээ антропоморфик хөдөлгөөнийг хагас цаг хүрэхгүй хугацаанд сурч болно (Хамгийн дэвшилтэт RL аргууд ч гэсэн илүү их зардал шаарддаг. үүн дээр нэг цаг гаруй). Дэлгэрэнгүй мэдээлэл авахын тулд би маш сайн уншихыг зөвлөж байна бичлэг туршилтын зохиогчдоос, түүнчлэн шинжлэх ухааны нийтлэл.

OpenAI-ийн ES аргыг ашиглан судалсан хүний хэв маягийн босоо алхалтыг заах өөр өөр стратеги.

Хар хайрцаг

Энэ аргын хамгийн том давуу тал нь үүнийг хялбархан зэрэгцүүлэх боломжтой юм. A3C зэрэг RL аргууд нь ажилчны хэлхээ болон параметрийн серверийн хооронд мэдээлэл солилцохыг шаарддаг бол ES-д зөвхөн фитнессийн тооцоолол болон ерөнхий параметрийн тархалтын мэдээлэл хэрэгтэй. Энэхүү энгийн байдлаас шалтгаалан энэ арга нь өргөтгөх чадвараараа орчин үеийн RL аргуудаас хамаагүй түрүүлж байгаа юм. Гэсэн хэдий ч энэ бүхэн дэмий хоосон зүйл биш юм: та хар хайрцагны зарчмын дагуу сүлжээг оновчтой болгох хэрэгтэй. Энэ тохиолдолд "хар хайрцаг" гэдэг нь сургалтын явцад сүлжээний дотоод бүтцийг бүрэн үл тоомсорлож, зөвхөн ерөнхий үр дүнг (ангиллын шагнал) ашигладаг бөгөөд энэ нь тухайн сүлжээний жинг ашиглах эсэхээс хамаарна гэсэн үг юм. хойч үеийнхэнд өвлөгдөнө. Бид хүрээлэн буй орчноос санал хүсэлтийг төдийлөн хүлээн авдаггүй, RL-ийн уламжлалт олон асуудалд урамшууллын урсгал маш ховор байдаг тохиолдолд асуудал "хэсэгчилсэн хар хайрцаг"-аас "бүрэн хар хайрцаг" болж хувирдаг. Энэ тохиолдолд та бүтээмжийг мэдэгдэхүйц нэмэгдүүлэх боломжтой тул ийм буулт хийх нь мэдээжийн хэрэг юм. "Хэрэв найдваргүй шуугиантай бол градиентууд хэнд хэрэгтэй вэ?" - Энэ бол ерөнхий үзэл бодол.

Гэсэн хэдий ч санал хүсэлт илүү идэвхтэй байгаа нөхцөлд ES-ийн хувьд бүх зүйл буруу болж эхэлдэг. OpenAI багийнхан MNIST ангиллын энгийн сүлжээг ES ашиглан хэрхэн сургасан талаар тайлбарласан бөгөөд энэ удаад сургалт 1000 дахин удааширсан. Зургийн ангилал дахь градиент дохио нь сүлжээг хэрхэн илүү сайн ангилах талаар маш их мэдээлэлтэй байдаг. Тиймээс асуудал нь RL техникт бага, харин чимээ шуугиантай градиент үүсгэдэг орчинд сийрэг урамшуулалтай байдаг.

Байгалийн шийдэл

Хэрэв бид хиймэл оюун ухааныг хөгжүүлэх арга замуудын талаар бодож, байгалийн жишээнээс суралцахыг оролдвол зарим тохиолдолд хиймэл оюун ухааныг ийм байдлаар төсөөлж болно. асуудалд чиглэсэн хандлага. Эцсийн эцэст байгаль компьютерийн эрдэмтдэд байдаггүй хязгаарлалтын хүрээнд ажилладаг. Тодорхой асуудлыг шийдвэрлэхэд цэвэр онолын арга барил нь эмпирик хувилбаруудаас илүү үр дүнтэй шийдлүүдийг гаргаж чадна гэсэн үзэл бодол байдаг. Гэсэн хэдий ч тодорхой хязгаарлалтын дор (Дэлхий) ажилладаг динамик систем нь уян хатан, нарийн төвөгтэй зан үйлийн чадвартай агентуудыг (амьтад, ялангуяа хөхтөн амьтад) хэрхэн бий болгосныг шалгах нь зүйтэй гэж би бодож байна. Эдгээр хязгаарлалтуудын зарим нь өгөгдлийн шинжлэх ухааны загварчилсан ертөнцөд хамаарахгүй боловч бусад нь зүгээр юм.

Хөхтөн амьтдын оюуны зан үйлийг судалж үзээд энэ нь хоорондоо нягт холбоотой хоёр үйл явцын цогц харилцан нөлөөллийн үр дүнд үүсдэг болохыг бид харж байна. бусдын туршлагаас суралцах и хийж сурах. Эхнийх нь ихэвчлэн байгалийн шалгарлаас үүдэлтэй хувьсалтай адилтгагддаг боловч энд би эпигенетик, микробиом болон генетикийн хувьд хамааралгүй организмуудын хооронд туршлага хуваалцах боломжийг олгодог бусад механизмуудыг харгалзан үзэхийн тулд илүү өргөн нэр томъёог ашигладаг. Хоёрдахь үйл явц буюу туршлагаас суралцах нь амьтны амьдралынхаа туршид сурч мэдсэн бүх мэдээлэл бөгөөд энэ мэдээлэл нь энэ амьтны гадаад ертөнцтэй харилцах харилцаанаас шууд тодорхойлогддог. Энэ ангилалд объектыг таних сурахаас эхлээд сургалтын үйл явцад хамаарах харилцаа холбоог эзэмших хүртэл бүх зүйл багтана.

Ойролцоогоор байгальд тохиолддог эдгээр хоёр процессыг мэдрэлийн сүлжээг оновчтой болгох хоёр хувилбартай харьцуулж болно. Организмын талаарх мэдээллийг шинэчлэхэд градиентийн талаарх мэдээллийг ашигладаг хувьслын стратеги нь бусдын туршлагаас суралцахад ойртдог. Үүний нэгэн адил, нэг юм уу өөр туршлага олж авснаар төлөөлөгчийн зан төлөвт нэг юмуу өөр өөрчлөлт гарахад хүргэдэг градиент аргуудыг өөрийн туршлагаас суралцахтай харьцуулж болно. Хэрэв бид эдгээр хоёр арга тус бүр нь амьтдад ямар төрлийн ухаалаг зан авир, чадварыг хөгжүүлдэг талаар бодох юм бол харьцуулалт илүү тод харагдах болно. Аль ч тохиолдолд "хувьслын аргууд" нь тодорхой фитнесс (амьд үлдэхэд хангалттай) хөгжүүлэх боломжийг олгодог реактив зан үйлийн судалгааг дэмждэг. Алхаж сурах эсвэл олзлогдолоос зугтаж сурах нь генетикийн түвшинд олон амьтдын "хатуу утастай" илүү "зөн совинтой" зан үйлтэй дүйцэхүйц байдаг. Нэмж дурдахад, энэ жишээ нь шагналын дохио маш ховор тохиолддог (жишээлбэл, хүүхэд амжилттай өсгөсөн гэх мэт) тохиолдолд хувьслын аргыг ашиглах боломжтойг баталж байна. Ийм тохиолдолд шагналыг олон жилийн өмнө хийсэн тодорхой үйлдлүүдтэй уялдуулах боломжгүй юм. Нөгөөтэйгүүр, хэрэв бид ES бүтэлгүйтсэн тохиолдлыг, тухайлбал зургийн ангиллыг авч үзвэл үр дүн нь 100 гаруй жилийн турш явуулсан зан үйлийн сэтгэлзүйн тоо томшгүй олон туршилтын үр дүнд хүрсэн амьтдын сургалтын үр дүнтэй харьцуулах боломжтой юм.

Амьтнаас суралцах

Бататгах сургалтанд ашигладаг аргуудыг ихэвчлэн сэтгэлзүйн ном зохиолоос шууд авдаг оперант нөхцөл, мөн амьтдын сэтгэл зүйг ашиглан оперант нөхцөлийг судалсан. Дашрамд дурдахад, бататгах сургалтыг үндэслэгч хоёрын нэг Ричард Саттон сэтгэл судлалын бакалаврын зэрэгтэй. Үйлдлийн нөхцөл байдлын хүрээнд амьтад шагнал, шийтгэлийг зан үйлийн тодорхой хэв маягтай холбож сурдаг. Сургагч багш, судлаачид энэ шагналын холбоог ямар нэг байдлаар удирдаж, амьтдыг оюун ухаан эсвэл тодорхой зан үйлийг харуулахад өдөөж болно. Гэсэн хэдий ч амьтны судалгаанд ашигладаг оперант нөхцөл байдал нь амьтад амьдралынхаа туршид суралцдаг ижил нөхцөл байдлын илүү тод хэлбэрээс өөр зүйл биш юм. Бид хүрээлэн буй орчноос эерэг хүч чадлын дохиог байнга хүлээн авч, зан үйлээ тохируулдаг. Үнэн хэрэгтээ олон мэдрэл судлаачид болон танин мэдэхүйн эрдэмтэд хүмүүс болон бусад амьтад үнэхээр илүү өндөр түвшинд ажилладаг бөгөөд боломжит шагнал дээр үндэслэн ирээдүйн нөхцөл байдалд өөрсдийн зан үйлийн үр дүнг урьдчилан таамаглаж сурдаг гэдэгт итгэдэг.

Туршлагаас суралцахад урьдчилан таамаглах гол үүрэг нь дээр дурдсан динамикийг ихээхэн хэмжээгээр өөрчилдөг. Өмнө нь маш сийрэг (эпизодын шагнал) гэж тооцогддог байсан дохио нь маш нягт болж хувирдаг. Онолын хувьд нөхцөл байдал ийм байна: ямар ч үед хөхтөн амьтны тархи мэдрэхүйн өдөөлт, үйлдлүүдийн цогц урсгал дээр үндэслэн үр дүнг тооцдог бол амьтан энэ урсгалд зүгээр л дүрэлздэг. Энэ тохиолдолд амьтны эцсийн зан байдал нь урьдчилсан таамаглалыг тохируулах, зан төлөвийг хөгжүүлэхэд чиглүүлэхэд ашиглах ёстой хүчтэй дохиог өгдөг. Тархи нь эдгээр бүх дохиог ирээдүйд урьдчилан таамаглах (мөн үүний дагуу авсан арга хэмжээний чанарыг) оновчтой болгохын тулд ашигладаг. Энэ аргын тоймыг маш сайн номонд өгсөн болно "Тодорхой бус байдал” танин мэдэхүйн эрдэмтэн, гүн ухаантан Энди Кларк. Хэрэв бид ийм үндэслэлийг хиймэл төлөөлөгчийн сургалтанд шилжүүлбэл, бэхжүүлэх сургалтын үндсэн дутагдал илэрсэн болно: энэ парадигмд ашигласан дохио нь байж болох (эсвэл байх ёстой) зүйлтэй харьцуулахад найдваргүй сул байна. Дохионы ханалтыг нэмэгдүүлэх боломжгүй тохиолдолд (магадгүй энэ нь сул дорой эсвэл бага түвшний реактив чадвартай холбоотой байж магадгүй) сайн параллель сургалтын аргыг, жишээлбэл, ES-ийг илүүд үзэх нь дээр.

Мэдрэлийн сүлжээг илүү баялаг сургах

Урьдчилан таамаглах завгүй байдаг хөхтөн амьтдын тархинд байдаг дээд мэдрэлийн үйл ажиллагааны зарчмууд дээр тулгуурлан сүүлийн үед ийм таамаглалын ач холбогдлыг харгалзан бэхжүүлэх сургалтад сүүлийн үед ахиц дэвшил гарсан. Би танд нэн даруй хоёр ижил төстэй бүтээл санал болгож чадна:

Эдгээр хоёр баримт бичигт зохиогчид өөрсдийн мэдрэлийн сүлжээнүүдийн ердийн үндсэн бодлогыг ирээдүйд хүрээлэн буй орчны төлөв байдлын талаархи таамаглалын үр дүнд нэмж оруулсан болно. Эхний нийтлэлд урьдчилан таамаглах нь янз бүрийн хэмжилтийн хувьсагчид, хоёрдугаарт, урьдчилан таамаглах нь хүрээлэн буй орчны өөрчлөлт, агентын зан төлөвт хамаарна. Аль ч тохиолдолд эерэг бэхлэлттэй холбоотой сийрэг дохио нь илүү баялаг, илүү мэдээлэлтэй болж, илүү хурдан суралцах, илүү төвөгтэй зан үйлийг олж авах боломжийг олгодог. Ийм сайжруулалтыг зөвхөн градиент дохио ашигладаг аргуудаар хийх боломжтой бөгөөд ES гэх мэт "хар хайрцаг" зарчмаар ажилладаг аргуудыг ашиглах боломжгүй.

Үүнээс гадна туршлага, градиент аргуудаас суралцах нь илүү үр дүнтэй байдаг. Тодорхой асуудлыг ES аргыг ашиглан бэхжүүлэх сургалтыг ашиглахаас илүү хурдан судлах боломжтой байсан ч гэсэн ES стратеги нь RL-ээс хэд дахин их мэдээлэл агуулсан тул үр дүнд хүрсэн. Энэ тохиолдолд амьтдад суралцах зарчмуудын талаар эргэцүүлэн бодоход хэн нэгний үлгэр жишээнээс суралцсаны үр дүн олон үеийн дараа илэрдэг бол заримдаа өөрөө тохиолдсон ганц үйл явдал амьтанд үүрд сургамж авахад хангалттай байдаг гэдгийг бид тэмдэглэж байна. Дуртай байхдаа жишээгүй сургалт Хэдийгээр энэ нь уламжлалт градиент аргуудад тохирохгүй ч ES-ээс хамаагүй илүү ойлгомжтой юм. гэх мэт арга барилууд байх жишээтэй мэдрэлийн эпизодик хяналтСургалтын явцад Q-утгууд хадгалагддаг бөгөөд үүний дараа програм нь арга хэмжээ авахаасаа өмнө тэдгээрийг шалгадаг. Үр дүн нь өмнөхөөсөө хамаагүй хурдан асуудлыг шийдвэрлэх аргад суралцах боломжийг олгодог градиент арга юм. Мэдрэлийн эпизодик хяналтын тухай өгүүлэлд зохиогчид хүний гиппокампыг дурьдсан бөгөөд энэ нь нэг удаагийн туршлагын дараа ч үйл явдлын талаарх мэдээллийг хадгалах чадвартай тул үйл явдлын тухай мэдээллийг хадгалах чадвартай байдаг. чухал үүрэг гүйцэтгэдэг санах үйл явцад. Ийм механизмууд нь төлөөлөгчийн дотоод зохион байгуулалтад нэвтрэхийг шаарддаг бөгөөд энэ нь ES парадигмд боломжгүй юм.

Тэгэхээр яагаад тэдгээрийг нэгтгэж болохгүй гэж?

Энэ нийтлэлийн ихэнх хэсэг нь би RL-ийн аргуудыг дэмжиж байна гэсэн сэтгэгдэл төрүүлж магадгүй юм. Гэсэн хэдий ч, урт хугацаанд хамгийн сайн шийдэл бол хоёр аргыг хослуулах бөгөөд ингэснээр тус бүрийг хамгийн тохиромжтой нөхцөлд ашиглах болно гэж би бодож байна. Мэдээжийн хэрэг, олон реактив бодлогууд эсвэл эерэг бэхжилтийн маш сийрэг дохиотой нөхцөлд ES ялах нь ойлгомжтой, ялангуяа танд маш их хэмжээний зэрэгцээ сургалт явуулах боломжтой тооцоолох хүчин чадал байгаа бол. Нөгөөтэйгүүр, бататгасан сургалт эсвэл хяналттай сургалтыг ашигладаг градиент аргууд нь өргөн хүрээний санал хүсэлтийг авах боломжтой бөгөөд асуудлыг хэрхэн хурдан, бага өгөгдөлтэй шийдвэрлэх талаар сурах шаардлагатай үед ашигтай байх болно.

Байгальд хандахад эхний арга нь үндсэндээ хоёр дахь арга барилын үндэс суурийг тавьдаг болохыг бид олж мэдэв. Тийм ч учраас хувьслын явцад хөхтөн амьтад хүрээлэн буй орчноос ирж буй нарийн төвөгтэй дохионоос маш үр дүнтэй суралцах боломжийг олгодог тархийг хөгжүүлсэн. Тиймээс асуулт нээлттэй хэвээр байна. Магадгүй хувьслын стратеги нь градиент сургалтын аргуудад хэрэг болох үр дүнтэй сургалтын архитектурыг зохион бүтээхэд бидэнд туслах болно. Эцсийн эцэст, байгалиас олдсон шийдэл нь үнэхээр амжилттай байдаг.

Эх сурвалж: www.habr.com

Сургалтыг бэхжүүлэх үү эсвэл хувьслын стратеги уу? -Хоёулаа