Хөөе Хабр!
Бид энд хоёр жилийн настай, кодгүй, эрдэм шинжилгээний шинж чанартай текстийн орчуулгыг нийтлэхээр шийддэггүй, гэхдээ өнөөдөр бид онцгой тохиолдол гаргах болно. Өгүүллийн гарчигт үүссэн бэрхшээл нь манай олон уншигчдын санааг зовоож байна гэж найдаж байна, мөн та энэ нийтлэлд маргаж буй хувьслын стратегийн үндсэн бүтээлийг эх хувилбараар нь уншсан эсвэл одоо унших болно. Мууранд тавтай морил!
2017 оны XNUMX-р сард OpenAI "Гүнзгий суралцах нийгэмд давалгаа хийсэн"
Хувьслын стратеги
OpenAI-ийн илтгэлийн гол дипломын ажил нь уламжлалт backpropagation-тай хослуулан бэхжүүлэх сургалтыг ашиглахын оронд тэд "хувьслын стратеги" (ES) гэж нэрлэсэн зүйлийг ашиглан нарийн төвөгтэй асуудлыг шийдвэрлэхийн тулд мэдрэлийн сүлжээг амжилттай сургасан явдал байв. Энэхүү ES арга нь сүлжээний хэмжээнд жингийн хуваарилалтыг хадгалах, олон агентуудыг зэрэгцүүлэн ажиллуулж, энэ хуваарилалтаас сонгосон параметрүүдийг ашиглахаас бүрдэнэ. Агент бүр өөр өөрийн орчинд ажилладаг бөгөөд ангиллын тодорхой тооны анги эсвэл үе шат дууссаны дараа алгоритм нь фитнессийн оноогоор илэрхийлэгдсэн хуримтлагдсан шагналыг буцаана. Энэ утгыг харгалзан параметрийн хуваарилалтыг илүү амжилттай агентууд руу шилжүүлж, амжилт муутай хүмүүсийг хасаж болно. Ийм үйлдлийг хэдэн зуун төлөөлөгчийн оролцоотойгоор хэдэн сая удаа давтан хийснээр жингийн хуваарилалтыг төлөөлөгчдөд өгсөн үүрэг даалгаврыг шийдвэрлэх өндөр чанартай бодлого боловсруулах боломжтой орон зайд шилжүүлэх боломжтой. Үнэн хэрэгтээ, нийтлэлд үзүүлсэн үр дүн нь гайхалтай юм: хэрэв та мянга гаруй төлөөлөгчийг зэрэгцүүлэн ажиллуулбал хоёр хөл дээрээ антропоморфик хөдөлгөөнийг хагас цаг хүрэхгүй хугацаанд сурч болно (Хамгийн дэвшилтэт RL аргууд ч гэсэн илүү их зардал шаарддаг. үүн дээр нэг цаг гаруй). Дэлгэрэнгүй мэдээлэл авахын тулд би маш сайн уншихыг зөвлөж байна
OpenAI-ийн ES аргыг ашиглан судалсан хүний хэв маягийн босоо алхалтыг заах өөр өөр стратеги.
Хар хайрцаг
Энэ аргын хамгийн том давуу тал нь үүнийг хялбархан зэрэгцүүлэх боломжтой юм. A3C зэрэг RL аргууд нь ажилчны хэлхээ болон параметрийн серверийн хооронд мэдээлэл солилцохыг шаарддаг бол ES-д зөвхөн фитнессийн тооцоолол болон ерөнхий параметрийн тархалтын мэдээлэл хэрэгтэй. Энэхүү энгийн байдлаас шалтгаалан энэ арга нь өргөтгөх чадвараараа орчин үеийн RL аргуудаас хамаагүй түрүүлж байгаа юм. Гэсэн хэдий ч энэ бүхэн дэмий хоосон зүйл биш юм: та хар хайрцагны зарчмын дагуу сүлжээг оновчтой болгох хэрэгтэй. Энэ тохиолдолд "хар хайрцаг" гэдэг нь сургалтын явцад сүлжээний дотоод бүтцийг бүрэн үл тоомсорлож, зөвхөн ерөнхий үр дүнг (ангиллын шагнал) ашигладаг бөгөөд энэ нь тухайн сүлжээний жинг ашиглах эсэхээс хамаарна гэсэн үг юм. хойч үеийнхэнд өвлөгдөнө. Бид хүрээлэн буй орчноос санал хүсэлтийг төдийлөн хүлээн авдаггүй, RL-ийн уламжлалт олон асуудалд урамшууллын урсгал маш ховор байдаг тохиолдолд асуудал "хэсэгчилсэн хар хайрцаг"-аас "бүрэн хар хайрцаг" болж хувирдаг. Энэ тохиолдолд та бүтээмжийг мэдэгдэхүйц нэмэгдүүлэх боломжтой тул ийм буулт хийх нь мэдээжийн хэрэг юм. "Хэрэв найдваргүй шуугиантай бол градиентууд хэнд хэрэгтэй вэ?" - Энэ бол ерөнхий үзэл бодол.
Гэсэн хэдий ч санал хүсэлт илүү идэвхтэй байгаа нөхцөлд ES-ийн хувьд бүх зүйл буруу болж эхэлдэг. OpenAI багийнхан MNIST ангиллын энгийн сүлжээг ES ашиглан хэрхэн сургасан талаар тайлбарласан бөгөөд энэ удаад сургалт 1000 дахин удааширсан. Зургийн ангилал дахь градиент дохио нь сүлжээг хэрхэн илүү сайн ангилах талаар маш их мэдээлэлтэй байдаг. Тиймээс асуудал нь RL техникт бага, харин чимээ шуугиантай градиент үүсгэдэг орчинд сийрэг урамшуулалтай байдаг.
Байгалийн шийдэл
Хэрэв бид хиймэл оюун ухааныг хөгжүүлэх арга замуудын талаар бодож, байгалийн жишээнээс суралцахыг оролдвол зарим тохиолдолд хиймэл оюун ухааныг ийм байдлаар төсөөлж болно.
Хөхтөн амьтдын оюуны зан үйлийг судалж үзээд энэ нь хоорондоо нягт холбоотой хоёр үйл явцын цогц харилцан нөлөөллийн үр дүнд үүсдэг болохыг бид харж байна. бусдын туршлагаас суралцах и хийж сурах. Эхнийх нь ихэвчлэн байгалийн шалгарлаас үүдэлтэй хувьсалтай адилтгагддаг боловч энд би эпигенетик, микробиом болон генетикийн хувьд хамааралгүй организмуудын хооронд туршлага хуваалцах боломжийг олгодог бусад механизмуудыг харгалзан үзэхийн тулд илүү өргөн нэр томъёог ашигладаг. Хоёрдахь үйл явц буюу туршлагаас суралцах нь амьтны амьдралынхаа туршид сурч мэдсэн бүх мэдээлэл бөгөөд энэ мэдээлэл нь энэ амьтны гадаад ертөнцтэй харилцах харилцаанаас шууд тодорхойлогддог. Энэ ангилалд объектыг таних сурахаас эхлээд сургалтын үйл явцад хамаарах харилцаа холбоог эзэмших хүртэл бүх зүйл багтана.
Ойролцоогоор байгальд тохиолддог эдгээр хоёр процессыг мэдрэлийн сүлжээг оновчтой болгох хоёр хувилбартай харьцуулж болно. Организмын талаарх мэдээллийг шинэчлэхэд градиентийн талаарх мэдээллийг ашигладаг хувьслын стратеги нь бусдын туршлагаас суралцахад ойртдог. Үүний нэгэн адил, нэг юм уу өөр туршлага олж авснаар төлөөлөгчийн зан төлөвт нэг юмуу өөр өөрчлөлт гарахад хүргэдэг градиент аргуудыг өөрийн туршлагаас суралцахтай харьцуулж болно. Хэрэв бид эдгээр хоёр арга тус бүр нь амьтдад ямар төрлийн ухаалаг зан авир, чадварыг хөгжүүлдэг талаар бодох юм бол харьцуулалт илүү тод харагдах болно. Аль ч тохиолдолд "хувьслын аргууд" нь тодорхой фитнесс (амьд үлдэхэд хангалттай) хөгжүүлэх боломжийг олгодог реактив зан үйлийн судалгааг дэмждэг. Алхаж сурах эсвэл олзлогдолоос зугтаж сурах нь генетикийн түвшинд олон амьтдын "хатуу утастай" илүү "зөн совинтой" зан үйлтэй дүйцэхүйц байдаг. Нэмж дурдахад, энэ жишээ нь шагналын дохио маш ховор тохиолддог (жишээлбэл, хүүхэд амжилттай өсгөсөн гэх мэт) тохиолдолд хувьслын аргыг ашиглах боломжтойг баталж байна. Ийм тохиолдолд шагналыг олон жилийн өмнө хийсэн тодорхой үйлдлүүдтэй уялдуулах боломжгүй юм. Нөгөөтэйгүүр, хэрэв бид ES бүтэлгүйтсэн тохиолдлыг, тухайлбал зургийн ангиллыг авч үзвэл үр дүн нь 100 гаруй жилийн турш явуулсан зан үйлийн сэтгэлзүйн тоо томшгүй олон туршилтын үр дүнд хүрсэн амьтдын сургалтын үр дүнтэй харьцуулах боломжтой юм.
Амьтнаас суралцах
Бататгах сургалтанд ашигладаг аргуудыг ихэвчлэн сэтгэлзүйн ном зохиолоос шууд авдаг
Туршлагаас суралцахад урьдчилан таамаглах гол үүрэг нь дээр дурдсан динамикийг ихээхэн хэмжээгээр өөрчилдөг. Өмнө нь маш сийрэг (эпизодын шагнал) гэж тооцогддог байсан дохио нь маш нягт болж хувирдаг. Онолын хувьд нөхцөл байдал ийм байна: ямар ч үед хөхтөн амьтны тархи мэдрэхүйн өдөөлт, үйлдлүүдийн цогц урсгал дээр үндэслэн үр дүнг тооцдог бол амьтан энэ урсгалд зүгээр л дүрэлздэг. Энэ тохиолдолд амьтны эцсийн зан байдал нь урьдчилсан таамаглалыг тохируулах, зан төлөвийг хөгжүүлэхэд чиглүүлэхэд ашиглах ёстой хүчтэй дохиог өгдөг. Тархи нь эдгээр бүх дохиог ирээдүйд урьдчилан таамаглах (мөн үүний дагуу авсан арга хэмжээний чанарыг) оновчтой болгохын тулд ашигладаг. Энэ аргын тоймыг маш сайн номонд өгсөн болно "
Мэдрэлийн сүлжээг илүү баялаг сургах
Урьдчилан таамаглах завгүй байдаг хөхтөн амьтдын тархинд байдаг дээд мэдрэлийн үйл ажиллагааны зарчмууд дээр тулгуурлан сүүлийн үед ийм таамаглалын ач холбогдлыг харгалзан бэхжүүлэх сургалтад сүүлийн үед ахиц дэвшил гарсан. Би танд нэн даруй хоёр ижил төстэй бүтээл санал болгож чадна:
Эдгээр хоёр баримт бичигт зохиогчид өөрсдийн мэдрэлийн сүлжээнүүдийн ердийн үндсэн бодлогыг ирээдүйд хүрээлэн буй орчны төлөв байдлын талаархи таамаглалын үр дүнд нэмж оруулсан болно. Эхний нийтлэлд урьдчилан таамаглах нь янз бүрийн хэмжилтийн хувьсагчид, хоёрдугаарт, урьдчилан таамаглах нь хүрээлэн буй орчны өөрчлөлт, агентын зан төлөвт хамаарна. Аль ч тохиолдолд эерэг бэхлэлттэй холбоотой сийрэг дохио нь илүү баялаг, илүү мэдээлэлтэй болж, илүү хурдан суралцах, илүү төвөгтэй зан үйлийг олж авах боломжийг олгодог. Ийм сайжруулалтыг зөвхөн градиент дохио ашигладаг аргуудаар хийх боломжтой бөгөөд ES гэх мэт "хар хайрцаг" зарчмаар ажилладаг аргуудыг ашиглах боломжгүй.
Үүнээс гадна туршлага, градиент аргуудаас суралцах нь илүү үр дүнтэй байдаг. Тодорхой асуудлыг ES аргыг ашиглан бэхжүүлэх сургалтыг ашиглахаас илүү хурдан судлах боломжтой байсан ч гэсэн ES стратеги нь RL-ээс хэд дахин их мэдээлэл агуулсан тул үр дүнд хүрсэн. Энэ тохиолдолд амьтдад суралцах зарчмуудын талаар эргэцүүлэн бодоход хэн нэгний үлгэр жишээнээс суралцсаны үр дүн олон үеийн дараа илэрдэг бол заримдаа өөрөө тохиолдсон ганц үйл явдал амьтанд үүрд сургамж авахад хангалттай байдаг гэдгийг бид тэмдэглэж байна. Дуртай байхдаа
Тэгэхээр яагаад тэдгээрийг нэгтгэж болохгүй гэж?
Энэ нийтлэлийн ихэнх хэсэг нь би RL-ийн аргуудыг дэмжиж байна гэсэн сэтгэгдэл төрүүлж магадгүй юм. Гэсэн хэдий ч, урт хугацаанд хамгийн сайн шийдэл бол хоёр аргыг хослуулах бөгөөд ингэснээр тус бүрийг хамгийн тохиромжтой нөхцөлд ашиглах болно гэж би бодож байна. Мэдээжийн хэрэг, олон реактив бодлогууд эсвэл эерэг бэхжилтийн маш сийрэг дохиотой нөхцөлд ES ялах нь ойлгомжтой, ялангуяа танд маш их хэмжээний зэрэгцээ сургалт явуулах боломжтой тооцоолох хүчин чадал байгаа бол. Нөгөөтэйгүүр, бататгасан сургалт эсвэл хяналттай сургалтыг ашигладаг градиент аргууд нь өргөн хүрээний санал хүсэлтийг авах боломжтой бөгөөд асуудлыг хэрхэн хурдан, бага өгөгдөлтэй шийдвэрлэх талаар сурах шаардлагатай үед ашигтай байх болно.
Байгальд хандахад эхний арга нь үндсэндээ хоёр дахь арга барилын үндэс суурийг тавьдаг болохыг бид олж мэдэв. Тийм ч учраас хувьслын явцад хөхтөн амьтад хүрээлэн буй орчноос ирж буй нарийн төвөгтэй дохионоос маш үр дүнтэй суралцах боломжийг олгодог тархийг хөгжүүлсэн. Тиймээс асуулт нээлттэй хэвээр байна. Магадгүй хувьслын стратеги нь градиент сургалтын аргуудад хэрэг болох үр дүнтэй сургалтын архитектурыг зохион бүтээхэд бидэнд туслах болно. Эцсийн эцэст, байгалиас олдсон шийдэл нь үнэхээр амжилттай байдаг.
Эх сурвалж: www.habr.com