Hey Habr!
Nou pa souvan deside afiche isit la tradiksyon tèks ki te gen dezan, san kòd ak klèman nan nati akademik - men jodi a nou pral fè yon eksepsyon. Nou espere ke dilèm ki poze nan tit la nan atik la enkyete anpil nan lektè nou yo, epi ou te deja li travay la fondamantal sou estrateji evolisyonè ak ki pòs sa a diskite nan orijinal la oswa ou pral li li kounye a. Byenveni nan chat la!
Nan mwa mas 2017, OpenAI te fè vag nan kominote aprantisaj pwofon ak papye a "
Estrateji evolisyonè
Tèz prensipal papye OpenAI a te ke, olye pou yo sèvi ak aprantisaj ranfòsman konbine avèk backpropagation tradisyonèl yo, yo te byen antrene yon rezo neral pou rezoud pwoblèm konplèks lè l sèvi avèk sa yo rele yon "estrateji evolisyonè" (ES). Apwòch ES sa a konsiste de kenbe yon distribisyon pwa nan tout rezo a, ki enplike plizyè ajan k ap travay an paralèl epi sèvi ak paramèt yo chwazi nan distribisyon sa a. Chak ajan opere nan pwòp anviwònman li, epi lè yo fini yon kantite espesifik epizòd oswa etap nan yon epizòd, algorithm la retounen yon rekonpans kimilatif, ki eksprime kòm yon nòt kondisyon fizik. Lè w pran valè sa a an kont, distribisyon paramèt yo ka deplase nan direksyon pou ajan ki gen plis siksè, anpeche moun ki gen mwens siksè. Lè yo repete yon operasyon konsa plizyè milyon fwa ak patisipasyon plizyè santèn ajan, li posib pou deplase distribisyon pwa yo nan yon espas ki pral pèmèt ajan yo fòmile yon bon jan kalite politik pou rezoud travay yo ba yo. Vreman vre, rezilta yo prezante nan atik la se enpresyonan: li montre ke si ou kouri yon mil ajan an paralèl, Lè sa a, mouvman antropomòfik sou de pye yo ka aprann nan mwens pase yon demi èdtan (pandan ke menm metòd RL ki pi avanse yo mande pou depanse plis. pase yon èdtan sou sa a). Pou plis enfòmasyon detaye, mwen rekòmande li ekselan la
Diferan estrateji pou ansèyman anthropomorphic mache dwat, etidye lè l sèvi avèk metòd la ES soti nan OpenAI.
Bwat nwa
Gwo benefis nan metòd sa a se ke li ka fasil paralelize. Pandan ke metòd RL, tankou A3C, mande pou enfòmasyon yo dwe echanje ant fil travayè yo ak yon sèvè paramèt, ES sèlman bezwen estimasyon kondisyon fizik ak enfòmasyon jeneralize distribisyon paramèt. Li se akòz senplisite sa a ke metòd sa a se byen lwen devan metòd modèn RL an tèm de kapasite dekale. Sepandan, tout bagay sa yo pa rive pou gremesi: ou dwe optimize rezo a dapre prensip bwat nwa a. Nan ka sa a, "bwat nwa a" vle di ke pandan fòmasyon estrikti entèn rezo a konplètman inyore, epi sèlman rezilta an jeneral (rekonpans pou Episode la) yo itilize, epi li depann de si pwa yo nan yon rezo patikilye pral. dwe eritye pa jenerasyon ki vin apre yo. Nan sitiyasyon kote nou pa resevwa anpil fidbak nan anviwònman an—ak nan anpil pwoblèm tradisyonèl RL koule nan rekonpans yo trè ra—pwoblèm nan soti nan yo te yon "an pati nwa bwat" nan yon "konplètman bwat nwa." Nan ka sa a, ou ka siyifikativman ogmante pwodiktivite, kidonk, nan kou, tankou yon konpwomi jistifye. "Ki moun ki bezwen gradyan si yo san espwa fè bwi de tout fason?" - sa a se opinyon jeneral la.
Sepandan, nan sitiyasyon kote fidbak pi aktif, bagay yo kòmanse ale mal pou ES la. Ekip OpenAI a dekri kijan yon senp rezo klasifikasyon MNIST te fòme lè l sèvi avèk ES, e fwa sa a fòmasyon an te 1000 fwa pi dousman. Reyalite a se ke siyal la gradyan nan klasifikasyon imaj trè enfòmatif konsènan fason yo anseye rezo a pi bon klasifikasyon. Kidonk, pwoblèm nan se mwens ak teknik RL a ak plis ak rekonpans rar nan anviwònman ki pwodui gradyan fè bwi.
Solisyon nati a
Si nou eseye aprann nan egzanp lanati, panse sou fason yo devlope AI, Lè sa a, nan kèk ka AI ka panse a kòm
Lè w fin egzamine konpòtman entelektyèl mamifè yo, nou wè ke li fòme kòm yon rezilta konplèks enfliyans mityèl de pwosesis ki byen relye: aprann nan eksperyans lòt moun и aprann nan fè. Ansyen an souvan egalize ak evolisyon kondwi pa seleksyon natirèl, men isit la mwen itilize yon tèm pi laj pou pran an kont epigenetik, mikrobyom, ak lòt mekanis ki pèmèt pataje eksperyans ant òganis ki pa gen rapò jenetikman. Dezyèm pwosesis la, aprann nan eksperyans, se tout enfòmasyon ke yon bèt jere aprann pandan tout lavi li, epi enfòmasyon sa a se dirèkteman detèmine pa entèraksyon an nan bèt sa a ak mond lan deyò. Kategori sa a gen ladan tout bagay soti nan aprann rekonèt objè yo metrize kominikasyon an nannan nan pwosesis aprantisaj la.
Apeprè pale, de pwosesis sa yo ki fèt nan lanati ka konpare ak de opsyon pou optimize rezo neral yo. Estrateji evolisyonè, kote yo itilize enfòmasyon sou gradyan yo pou mete ajou enfòmasyon sou òganis lan, vin tou pre aprann nan eksperyans lòt moun. Menm jan an tou, metòd gradyan, kote jwenn youn oswa yon lòt eksperyans mennen nan youn oswa yon lòt chanjman nan konpòtman ajan an, yo konparab ak aprann nan pwòp eksperyans yon moun. Si nou panse sou kalite konpòtman entèlijan oswa kapasite ke chak nan de apwòch sa yo devlope nan bèt yo, konparezon an vin pi pwononse. Nan de ka yo, "metòd evolisyonè" ankouraje etid konpòtman reyaktif ki pèmèt yon moun devlope yon sèten kondisyon fizik (ase pou rete vivan). Aprann mache oswa chape anba depòte se nan anpil ka ekivalan a plis "enstenktif" konpòtman ki "difisil-branche" nan anpil bèt nan nivo jenetik. Anplis de sa, egzanp sa a konfime ke metòd evolisyonè yo aplikab nan ka kote siyal rekonpans la ra anpil (pa egzanp, reyalite a nan siksè ogmante yon ti bebe). Nan yon ka konsa, li enposib korelasyon rekonpans la ak nenpòt seri aksyon espesifik ki te ka fèt anpil ane anvan ensidan an nan reyalite sa a. Nan lòt men an, si nou konsidere yon ka kote ES echwe, sètadi klasifikasyon imaj, rezilta yo konsiderableman konparab ak rezilta yo nan aprantisaj bèt reyalize nan eksperyans inonbrabl konpòtman sikolojik ki fèt sou plis pase 100 ane.
Aprann nan men bèt
Metòd yo itilize nan aprantisaj ranfòsman yo nan anpil ka pran dirèkteman nan literati sikolojik la
Wòl santral prediksyon nan aprann nan eksperyans chanje dinamik ki dekri pi wo a nan fason enpòtan. Siyal la ki te deja konsidere kòm trè rar (rekonpans epizod) vire soti yo dwe trè dans. Teyorikman, sitiyasyon an se yon bagay tankou sa a: nan nenpòt ki lè, sèvo mamifè a ap kalkile rezilta ki baze sou yon kouran konplèks nan stimuli sansoryèl ak aksyon, pandan y ap bèt la se tou senpleman benyen nan kouran sa a. Nan ka sa a, konpòtman final la nan bèt la bay yon siyal fò ki dwe itilize pou gide ajisteman nan prévisions ak devlopman nan konpòtman. Sèvo a sèvi ak tout siyal sa yo nan lòd yo optimize prévisions (ak, kòmsadwa, bon jan kalite a nan aksyon yo pran) nan lavni an. Yon apèsi sou apwòch sa a bay nan liv la ekselan "
Pi rich fòmasyon nan rezo neral
Bati sou prensip ki pi wo aktivite neral nannan nan sèvo a mamifè, ki toujou ap okipe fè prediksyon, dènye pwogrè yo te fè nan aprantisaj ranfòsman, ki kounye a pran an kont enpòtans ki genyen nan prediksyon sa yo. Mwen ka imedyatman rekòmande de travay menm jan an pou ou:
Nan tou de nan papye sa yo, otè yo konplete politik default tipik nan rezo neral yo ak rezilta prediksyon sou eta a nan anviwònman an nan lavni. Nan premye atik la, prévisions aplike nan yon varyete varyab mezi, ak nan dezyèm lan, prévisions aplike nan chanjman nan anviwònman an ak konpòtman ajan an kòm sa yo. Nan de ka yo, siyal ki pa gen anpil ki asosye ak ranfòsman pozitif vin pi rich ak plis enfòmasyon, sa ki pèmèt tou de aprantisaj pi rapid ak akizisyon de konpòtman ki pi konplèks. Amelyorasyon sa yo disponib sèlman ak metòd ki itilize yon siyal gradyan, epi yo pa ak metòd ki fonksyone sou yon prensip "bwat nwa", tankou ES.
Anplis de sa, aprann nan eksperyans ak metòd gradyan yo pi efikas. Menm nan ka kote li te posib pou etidye yon pwoblèm patikilye lè l sèvi avèk metòd ES la pi vit pase lè l sèvi avèk aprantisaj ranfòsman, yo te reyalize pwogrè a akòz lefèt ke estrateji ES la enplike anpil fwa plis done pase ak RL. Lè nou reflechi nan ka sa a sou prensip aprantisaj bèt yo, nou note ke rezilta aprann nan egzanp yon lòt moun manifeste tèt li apre anpil jenerasyon, pandan ke pafwa yon sèl evènman ki gen eksperyans poukont li se ase pou bèt la aprann leson an pou tout tan. Pandan ke tankou
Se konsa, poukisa pa konbine yo?
Li posib ke anpil nan atik sa a ta ka kite enpresyon ke mwen defann metòd RL. Sepandan, mwen aktyèlman panse ke nan kouri nan longè pi bon solisyon an se konbine tou de metòd, se konsa ke chak yo itilize nan sitiyasyon yo nan ki li pi byen adapte. Li evidan, nan ka a nan anpil politik reyaktif oswa nan sitiyasyon ki gen anpil siyal ranfòsman pozitif, ES la genyen, espesyalman si ou gen pouvwa a informatique a jete ou sou ki ou ka kouri twouve fòmasyon paralèl. Nan lòt men an, metòd gradyan ki itilize aprantisaj ranfòsman oswa aprantisaj sipèvize pral itil lè nou gen aksè a anpil fidbak epi nou bezwen aprann kijan pou rezoud yon pwoblèm byen vit epi ak mwens done.
Lè nou tounen vin jwenn lanati, nou jwenn ke premye metòd la, nan sans, mete fondasyon pou dezyèm lan. Se poutèt sa, pandan evolisyon an, mamifè yo te devlope sèvo ki pèmèt yo aprann yon fason trè efikas nan siyal konplèks ki soti nan anviwònman an. Se konsa, kesyon an rete louvri. Petèt estrateji evolisyonè yo pral ede nou envante achitekti aprantisaj efikas ki pral itil tou pou metòd aprantisaj gradyan. Apre yo tout, solisyon an jwenn pa lanati se tout bon anpil siksè.
Sous: www.habr.com