Hey Habr!
Kita ora kerep mutusake ngirim terjemahan teks sing umure rong taun, tanpa kode lan jelas babagan akademisi - nanging dina iki kita bakal nggawe pangecualian. Muga-muga dilema sing ditimbulake ing judhul artikel kasebut nggawe kuwatir para pamaca, lan sampeyan wis maca karya dhasar babagan strategi evolusioner sing diumumake postingan iki ing asline utawa bakal diwaca saiki. Sugeng rawuh ing kucing!
Ing Maret 2017, OpenAI nggawe gelombang ing komunitas sinau jero kanthi kertas "
Sastranegara evolusioner
Tesis utama kertas OpenAI yaiku, tinimbang nggunakake pembelajaran penguatan sing digabungake karo backpropagation tradisional, dheweke kasil nglatih jaringan saraf kanggo ngatasi masalah sing rumit nggunakake apa sing diarani "strategi evolusi" (ES). Pendekatan ES iki kalebu njaga distribusi bobot ing jaringan, nglibatake pirang-pirang agen sing makarya bebarengan lan nggunakake paramèter sing dipilih saka distribusi iki. Saben agen makaryakke ing lingkungan dhewe, lan sawise rampung nomer tartamtu saka episode utawa orane tumrap sekolah saka episode, algoritma ngasilake ganjaran kumulatif, ditulis minangka skor fitness. Nanggepi nilai kasebut, distribusi paramèter bisa dialihake menyang agen sing luwih sukses, nyuda sing kurang sukses. Kanthi mbaleni operasi kasebut kaping pirang-pirang kanthi partisipasi atusan agen, sampeyan bisa mindhah distribusi bobot menyang papan sing ngidini para agen ngrumusake kabijakan sing berkualitas kanggo ngrampungake tugas sing ditugasake. Pancen, asil sing ditampilake ing artikel kasebut nyengsemaken: ditampilake yen sampeyan mbukak sewu agen kanthi podo karo, mula gerakan antropomorfik ing sikil loro bisa disinaoni kurang saka setengah jam (nalika metode RL sing paling maju mbutuhake mbuwang luwih akeh. luwih saka siji jam iki). Kanggo informasi sing luwih rinci, aku nyaranake maca sing apik banget
Strategi sing beda-beda kanggo mulang antropomorfik mlaku tegak, disinaoni nggunakake metode ES saka OpenAI.
Kothak ireng
Keuntungan gedhe saka metode iki yaiku bisa gampang diparalel. Nalika cara RL, kayata A3C, mbutuhake informasi sing diijolke antarane benang pekerja lan server parameter, ES mung butuh perkiraan fitness lan informasi distribusi parameter umum. Amarga kesederhanaan iki, metode iki luwih maju tinimbang metode RL modern ing babagan kemampuan skala. Nanging, kabeh iki ora muspra: sampeyan kudu ngoptimalake jaringan miturut prinsip kothak ireng. Ing kasus iki, "kothak ireng" tegese sajrone latihan struktur internal jaringan ora digatekake, lan mung asil sakabèhé (ganjaran kanggo episode) sing digunakake, lan gumantung saka bobot jaringan tartamtu. bisa diwarisake dening generasi sabanjure. Ing kahanan kita ora nampa akeh saran saka lingkungan-lan ing akeh masalah RL tradisional aliran ganjaran banget arang-masalah dadi saka "kotak ireng sebagean" kanggo "kotak ireng rampung." Ing kasus iki, sampeyan bisa nambah produktivitas kanthi signifikan, mula, mesthine, kompromi kasebut dibenerake. "Sapa sing butuh gradien yen pancen rame banget?" - iki pendapat umum.
Nanging, ing kahanan sing umpan balik luwih aktif, mula ana masalah kanggo ES. Tim OpenAI nerangake carane jaringan klasifikasi MNIST prasaja dilatih nggunakake ES, lan wektu iki latihan 1000 kaping luwih alon. Kasunyatane yaiku sinyal gradien ing klasifikasi gambar banget informatif babagan carane ngajar klasifikasi jaringan sing luwih apik. Mangkono, masalah kurang karo teknik RL lan luwih akeh kanthi ganjaran sing jarang ing lingkungan sing ngasilake gradien rame.
Solusi alam
Yen kita nyoba sinau saka conto alam, mikir babagan cara ngembangake AI, banjur ing sawetara kasus AI bisa dianggep minangka
Sawise nliti prilaku intelektual mamalia, kita bisa ndeleng manawa kedadeyan kasebut minangka akibat saka pengaruh saling kompleks saka rong proses sing saling gegandhengan: sinau saka pengalaman wong liya и sinau kanthi nindakake. Tilas asring disamakan karo evolusi sing didorong dening seleksi alam, nanging ing kene aku nggunakake istilah sing luwih jembar kanggo nganggep epigenetik, mikrobioma, lan mekanisme liyane sing bisa nuduhake pengalaman antarane organisme sing ora ana hubungane kanthi genetis. Proses kapindho, sinau saka pengalaman, yaiku kabeh informasi sing bisa disinaoni kewan sajrone urip, lan informasi iki langsung ditemtokake dening interaksi kewan iki karo donya njaba. Kategori iki kalebu kabeh saka sinau kanggo ngenali obyek kanggo nguwasani komunikasi gawan ing proses learning.
Secara kasar, rong proses sing kedadeyan ing alam iki bisa dibandhingake karo rong pilihan kanggo ngoptimalake jaringan saraf. Strategi evolusi, ing ngendi informasi babagan gradien digunakake kanggo nganyari informasi babagan organisme, nyedhaki sinau saka pengalaman wong liya. Kajaba iku, cara gradien, ing ngendi entuk pengalaman siji utawa liyane ndadékaké owah-owahan ing prilaku agen, bisa dibandhingake karo sinau saka pengalaman dhewe. Yen kita mikir babagan jinis prilaku cerdas utawa kabisan sing saben loro pendekatan kasebut berkembang ing kewan, perbandingan kasebut dadi luwih jelas. Ing kasus loro kasebut, "metode evolusi" ningkatake sinau babagan tindak tanduk reaktif sing ngidini wong ngembangake kabugaran tartamtu (cukup kanggo tetep urip). Sinau lumaku utawa uwal saka panangkaran ing pirang-pirang kasus padha karo tindak tanduk "naluriah" sing "hard-wired" ing akeh kewan ing tingkat genetik. Kajaba iku, conto iki negesake manawa metode evolusi bisa ditrapake ing kasus nalika sinyal ganjaran arang banget (contone, kasunyatan sukses ngunggahake bayi). Ing kasus kaya mengkono, ora mungkin kanggo nggandhengake ganjaran karo tumindak tartamtu sing bisa ditindakake pirang-pirang taun sadurunge kedadeyan kasebut. Ing sisih liya, yen kita nimbang kasus sing gagal ES, yaiku klasifikasi gambar, asil kasebut bisa dibandhingake karo asil sinau kewan sing ditindakake ing eksperimen psikologis prilaku sing ora kaetung sing ditindakake sajrone 100 taun luwih.
Sinau saka Kewan
Cara sing digunakake ing sinau penguatan ing akeh kasus dijupuk langsung saka sastra psikologi ing
Peran utama prediksi ing sinau saka pengalaman ngganti dinamika sing kasebut ing ndhuwur kanthi cara sing signifikan. Sinyal sing sadurunge dianggep arang banget (ganjaran episodik) dadi padhet banget. Secara teoritis, kahanan kaya mangkene: ing sembarang wektu, otak mamalia ngetung asil adhedhasar aliran rangsangan sensori lan tumindak sing kompleks, dene kewan kasebut mung nyemplungake ing aliran iki. Ing kasus iki, prilaku pungkasan kewan menehi sinyal sing kuat sing kudu digunakake kanggo nuntun imbuhan ramalan lan pangembangan prilaku. Otak nggunakake kabeh sinyal kasebut kanggo ngoptimalake ramalan (lan, kanthi mangkono, kualitas tumindak sing ditindakake) ing mangsa ngarep. Ringkesan pendekatan iki diwenehake ing buku sing apik banget "
Pelatihan jaringan saraf sing luwih sugih
Mbangun prinsip aktivitas saraf sing luwih dhuwur sing ana ing otak mamalia, sing terus-terusan sibuk nggawe prediksi, kemajuan anyar wis digawe ing pembelajaran penguatan, sing saiki nganggep pentinge prediksi kasebut. Aku bisa langsung menehi rekomendasi loro karya sing padha kanggo sampeyan:
Ing loro makalah kasebut, panulis nambah kabijakan standar khas jaringan saraf kanthi asil prediksi babagan kahanan lingkungan ing mangsa ngarep. Ing artikel pisanan, prakiraan ditrapake kanggo macem-macem variabel pangukuran, lan ing kaloro, prakiraan ditrapake kanggo owah-owahan ing lingkungan lan prilaku agen kasebut. Ing kasus kasebut, sinyal jarang sing ana gandhengane karo penguatan positif dadi luwih sugih lan luwih informatif, ngidini sinau luwih cepet lan entuk prilaku sing luwih rumit. dandan kuwi mung kasedhiya karo cara sing nggunakake sinyal gradien, lan ora karo cara sing operate ing prinsip "kotak ireng", kayata ES.
Kajaba iku, sinau saka pengalaman lan metode gradien luwih efektif. Malah ing kasus sing bisa nyinaoni masalah tartamtu kanthi nggunakake metode ES luwih cepet tinimbang nggunakake pembelajaran penguatan, gain kasebut digayuh amarga strategi ES melu data kaping pirang-pirang tinimbang karo RL. Nggambarake ing kasus iki babagan prinsip sinau ing kewan, kita nyathet yen asil sinau saka conto wong liya katon sawise pirang-pirang generasi, dene kadhangkala kedadeyan siji sing dialami dhewe cukup kanggo kewan sinau pelajaran ing salawas-lawase. Nalika kaya
Dadi, kenapa ora gabungke?
Mesthine akeh artikel iki bisa menehi kesan yen aku nyengkuyung metode RL. Nanging, Aku bener mikir sing ing roto dawa solusi paling apik kanggo gabungke loro cara, supaya saben digunakake ing kahanan kang paling cocog. Temenan, ing kasus akeh kabijakan reaktif utawa ing kahanan kanthi sinyal penguatan positif sing arang banget, ES menang, utamane yen sampeyan duwe daya komputasi sing bisa digunakake kanggo latihan paralel massively. Ing sisih liya, metode gradien nggunakake sinau penguatan utawa sinau sing diawasi bakal migunani nalika kita duwe akses menyang umpan balik ekstensif lan kudu sinau carane ngatasi masalah kanthi cepet lan kurang data.
Nguripake menyang alam, kita nemokake yen cara pisanan, ing intine, nggawe dhasar kanggo sing kapindho. Mulane, sajrone evolusi, mamalia wis ngembangake otak sing ngidini dheweke sinau kanthi efektif saka sinyal kompleks sing teka saka lingkungan. Dadi, pitakonan tetep mbukak. Mbok menawa strategi evolusi bakal mbantu kita nemokake arsitektur pembelajaran sing efektif sing uga migunani kanggo metode pembelajaran gradien. Sawise kabeh, solusi sing ditemokake dening alam pancen sukses banget.
Source: www.habr.com