Aprantisaj ranfòsman oswa estrateji evolisyonè? - Tou de

Hey Habr!

Nou pa souvan deside afiche isit la tradiksyon tèks ki te gen dezan, san kòd ak klèman nan nati akademik - men jodi a nou pral fè yon eksepsyon. Nou espere ke dilèm ki poze nan tit la nan atik la enkyete anpil nan lektè nou yo, epi ou te deja li travay la fondamantal sou estrateji evolisyonè ak ki pòs sa a diskite nan orijinal la oswa ou pral li li kounye a. Byenveni nan chat la!

Aprantisaj ranfòsman oswa estrateji evolisyonè? - Tou de

Nan mwa mas 2017, OpenAI te fè vag nan kominote aprantisaj pwofon ak papye a "Estrateji Evolisyon yo kòm yon altènativ évolutive pou ranfòsman aprantisaj" Travay sa a dekri rezilta enpresyonan an favè lefèt ke aprantisaj ranfòsman (RL) pa te vin tounen yon bon rapò sere, epi lè fòmasyon rezo neral konplèks, li se konseye eseye lòt metòd. Lè sa a, yon deba te eklate konsènan enpòtans ki genyen nan aprantisaj ranfòsman ak ki jan merite estati li kòm yon "dwe genyen" teknoloji pou ansèyman rezoud pwoblèm. Isit la mwen vle di ke de teknoloji sa yo pa ta dwe konsidere kòm konpetisyon, youn nan yo ki klèman pi bon pase lòt la; okontrè, yo finalman konplete youn ak lòt. Vreman vre, si ou panse yon ti kras sou sa li pran yo kreye AI jeneral ak sistèm sa yo, ki pandan tout egzistans yo ta kapab aprann, jijman ak planifikasyon, Lè sa a, nou pral prèske sètènman rive nan konklizyon an ke sa a oswa solisyon konbine yo pral mande. By wout la, li te jisteman solisyon konbine sa a ke lanati te vin jwenn, ki doue mamifè ak lòt bèt ki pi wo ak entèlijans konplèks pandan kou a nan evolisyon.

Estrateji evolisyonè

Tèz prensipal papye OpenAI a te ke, olye pou yo sèvi ak aprantisaj ranfòsman konbine avèk backpropagation tradisyonèl yo, yo te byen antrene yon rezo neral pou rezoud pwoblèm konplèks lè l sèvi avèk sa yo rele yon "estrateji evolisyonè" (ES). Apwòch ES sa a konsiste de kenbe yon distribisyon pwa nan tout rezo a, ki enplike plizyè ajan k ap travay an paralèl epi sèvi ak paramèt yo chwazi nan distribisyon sa a. Chak ajan opere nan pwòp anviwònman li, epi lè yo fini yon kantite espesifik epizòd oswa etap nan yon epizòd, algorithm la retounen yon rekonpans kimilatif, ki eksprime kòm yon nòt kondisyon fizik. Lè w pran valè sa a an kont, distribisyon paramèt yo ka deplase nan direksyon pou ajan ki gen plis siksè, anpeche moun ki gen mwens siksè. Lè yo repete yon operasyon konsa plizyè milyon fwa ak patisipasyon plizyè santèn ajan, li posib pou deplase distribisyon pwa yo nan yon espas ki pral pèmèt ajan yo fòmile yon bon jan kalite politik pou rezoud travay yo ba yo. Vreman vre, rezilta yo prezante nan atik la se enpresyonan: li montre ke si ou kouri yon mil ajan an paralèl, Lè sa a, mouvman antropomòfik sou de pye yo ka aprann nan mwens pase yon demi èdtan (pandan ke menm metòd RL ki pi avanse yo mande pou depanse plis. pase yon èdtan sou sa a). Pou plis enfòmasyon detaye, mwen rekòmande li ekselan la pòs soti nan otè yo nan eksperyans la, osi byen ke atik syantifik.

Aprantisaj ranfòsman oswa estrateji evolisyonè? - Tou de

Diferan estrateji pou ansèyman anthropomorphic mache dwat, etidye lè l sèvi avèk metòd la ES soti nan OpenAI.

Bwat nwa

Gwo benefis nan metòd sa a se ke li ka fasil paralelize. Pandan ke metòd RL, tankou A3C, mande pou enfòmasyon yo dwe echanje ant fil travayè yo ak yon sèvè paramèt, ES sèlman bezwen estimasyon kondisyon fizik ak enfòmasyon jeneralize distribisyon paramèt. Li se akòz senplisite sa a ke metòd sa a se byen lwen devan metòd modèn RL an tèm de kapasite dekale. Sepandan, tout bagay sa yo pa rive pou gremesi: ou dwe optimize rezo a dapre prensip bwat nwa a. Nan ka sa a, "bwat nwa a" vle di ke pandan fòmasyon estrikti entèn rezo a konplètman inyore, epi sèlman rezilta an jeneral (rekonpans pou Episode la) yo itilize, epi li depann de si pwa yo nan yon rezo patikilye pral. dwe eritye pa jenerasyon ki vin apre yo. Nan sitiyasyon kote nou pa resevwa anpil fidbak nan anviwònman an—ak nan anpil pwoblèm tradisyonèl RL koule nan rekonpans yo trè ra—pwoblèm nan soti nan yo te yon "an pati nwa bwat" nan yon "konplètman bwat nwa." Nan ka sa a, ou ka siyifikativman ogmante pwodiktivite, kidonk, nan kou, tankou yon konpwomi jistifye. "Ki moun ki bezwen gradyan si yo san espwa fè bwi de tout fason?" - sa a se opinyon jeneral la.

Sepandan, nan sitiyasyon kote fidbak pi aktif, bagay yo kòmanse ale mal pou ES la. Ekip OpenAI a dekri kijan yon senp rezo klasifikasyon MNIST te fòme lè l sèvi avèk ES, e fwa sa a fòmasyon an te 1000 fwa pi dousman. Reyalite a se ke siyal la gradyan nan klasifikasyon imaj trè enfòmatif konsènan fason yo anseye rezo a pi bon klasifikasyon. Kidonk, pwoblèm nan se mwens ak teknik RL a ak plis ak rekonpans rar nan anviwònman ki pwodui gradyan fè bwi.

Solisyon nati a

Si nou eseye aprann nan egzanp lanati, panse sou fason yo devlope AI, Lè sa a, nan kèk ka AI ka panse a kòm apwòch ki oryante sou pwoblèm. Apre yo tout, lanati opere nan kontrent ke syantis òdinatè tou senpleman pa genyen. Gen yon opinyon ke yon apwòch piman teyorik pou rezoud yon pwoblèm patikilye ka bay solisyon pi efikas pase altènativ anpirik. Sepandan, mwen toujou panse ke li ta entérésan pou teste kijan yon sistèm dinamik opere anba sèten kontrent (Latè) te pwodwi ajan (bèt, patikilyèman mamifè) ki kapab konpòtman fleksib ak konplèks. Pandan ke kèk nan kontrent sa yo pa aplike nan mond syans done simulation, lòt moun yo jis amann.

Lè w fin egzamine konpòtman entelektyèl mamifè yo, nou wè ke li fòme kòm yon rezilta konplèks enfliyans mityèl de pwosesis ki byen relye: aprann nan eksperyans lòt moun и aprann nan fè. Ansyen an souvan egalize ak evolisyon kondwi pa seleksyon natirèl, men isit la mwen itilize yon tèm pi laj pou pran an kont epigenetik, mikrobyom, ak lòt mekanis ki pèmèt pataje eksperyans ant òganis ki pa gen rapò jenetikman. Dezyèm pwosesis la, aprann nan eksperyans, se tout enfòmasyon ke yon bèt jere aprann pandan tout lavi li, epi enfòmasyon sa a se dirèkteman detèmine pa entèraksyon an nan bèt sa a ak mond lan deyò. Kategori sa a gen ladan tout bagay soti nan aprann rekonèt objè yo metrize kominikasyon an nannan nan pwosesis aprantisaj la.

Apeprè pale, de pwosesis sa yo ki fèt nan lanati ka konpare ak de opsyon pou optimize rezo neral yo. Estrateji evolisyonè, kote yo itilize enfòmasyon sou gradyan yo pou mete ajou enfòmasyon sou òganis lan, vin tou pre aprann nan eksperyans lòt moun. Menm jan an tou, metòd gradyan, kote jwenn youn oswa yon lòt eksperyans mennen nan youn oswa yon lòt chanjman nan konpòtman ajan an, yo konparab ak aprann nan pwòp eksperyans yon moun. Si nou panse sou kalite konpòtman entèlijan oswa kapasite ke chak nan de apwòch sa yo devlope nan bèt yo, konparezon an vin pi pwononse. Nan de ka yo, "metòd evolisyonè" ankouraje etid konpòtman reyaktif ki pèmèt yon moun devlope yon sèten kondisyon fizik (ase pou rete vivan). Aprann mache oswa chape anba depòte se nan anpil ka ekivalan a plis "enstenktif" konpòtman ki "difisil-branche" nan anpil bèt nan nivo jenetik. Anplis de sa, egzanp sa a konfime ke metòd evolisyonè yo aplikab nan ka kote siyal rekonpans la ra anpil (pa egzanp, reyalite a nan siksè ogmante yon ti bebe). Nan yon ka konsa, li enposib korelasyon rekonpans la ak nenpòt seri aksyon espesifik ki te ka fèt anpil ane anvan ensidan an nan reyalite sa a. Nan lòt men an, si nou konsidere yon ka kote ES echwe, sètadi klasifikasyon imaj, rezilta yo konsiderableman konparab ak rezilta yo nan aprantisaj bèt reyalize nan eksperyans inonbrabl konpòtman sikolojik ki fèt sou plis pase 100 ane.

Aprann nan men bèt

Metòd yo itilize nan aprantisaj ranfòsman yo nan anpil ka pran dirèkteman nan literati sikolojik la kondisyone operant, ak kondisyone operant te etidye lè l sèvi avèk sikoloji bèt. By wout la, Richard Sutton, youn nan de fondatè yo nan aprantisaj ranfòsman, gen yon diplòm bakaloreya nan sikoloji. Nan kontèks kondisyone opere, bèt yo aprann asosye rekonpans oswa pinisyon ak modèl konpòtman espesifik. Fòmatè ak chèchè yo ka manipile asosyasyon rekonpans sa a nan yon fason oswa yon lòt, pwovoke bèt yo demontre entèlijans oswa sèten konpòtman. Sepandan, kondisyone operant, jan yo itilize nan rechèch sou bèt, se pa plis pase yon fòm ki pi pwononse nan menm kondisyone sou baz bèt yo aprann pandan tout lavi yo. Nou toujou ap resevwa siyal ranfòsman pozitif nan anviwònman an epi ajiste konpòtman nou kòmsadwa. An reyalite, anpil nerosyantis ak syantis kognitif kwè ke moun ak lòt bèt aktyèlman opere nan yon nivo menm pi wo epi yo toujou ap aprann predi rezilta konpòtman yo nan sitiyasyon nan lavni ki baze sou rekonpans potansyèl yo.

Wòl santral prediksyon nan aprann nan eksperyans chanje dinamik ki dekri pi wo a nan fason enpòtan. Siyal la ki te deja konsidere kòm trè rar (rekonpans epizod) vire soti yo dwe trè dans. Teyorikman, sitiyasyon an se yon bagay tankou sa a: nan nenpòt ki lè, sèvo mamifè a ap kalkile rezilta ki baze sou yon kouran konplèks nan stimuli sansoryèl ak aksyon, pandan y ap bèt la se tou senpleman benyen nan kouran sa a. Nan ka sa a, konpòtman final la nan bèt la bay yon siyal fò ki dwe itilize pou gide ajisteman nan prévisions ak devlopman nan konpòtman. Sèvo a sèvi ak tout siyal sa yo nan lòd yo optimize prévisions (ak, kòmsadwa, bon jan kalite a nan aksyon yo pran) nan lavni an. Yon apèsi sou apwòch sa a bay nan liv la ekselan "Navigasyon Ensètitid” syantis mantal ak filozòf Andy Clark. Si nou ekstrè rezònman sa yo nan fòmasyon ajan atifisyèl yo, Lè sa a, yon defo fondamantal nan aprantisaj ranfòsman revele: siyal yo itilize nan paradigm sa a se san espwa fèb konpare ak sa li ta ka (oswa yo ta dwe). Nan ka kote li enposib ogmante saturation siyal la (petèt paske li natirèlman fèb oswa ki asosye ak reyaksyon ba-nivo), li se pwobableman pi bon pito yon metòd fòmasyon ki byen paralelize, pou egzanp, ES.

Pi rich fòmasyon nan rezo neral

Bati sou prensip ki pi wo aktivite neral nannan nan sèvo a mamifè, ki toujou ap okipe fè prediksyon, dènye pwogrè yo te fè nan aprantisaj ranfòsman, ki kounye a pran an kont enpòtans ki genyen nan prediksyon sa yo. Mwen ka imedyatman rekòmande de travay menm jan an pou ou:

Nan tou de nan papye sa yo, otè yo konplete politik default tipik nan rezo neral yo ak rezilta prediksyon sou eta a nan anviwònman an nan lavni. Nan premye atik la, prévisions aplike nan yon varyete varyab mezi, ak nan dezyèm lan, prévisions aplike nan chanjman nan anviwònman an ak konpòtman ajan an kòm sa yo. Nan de ka yo, siyal ki pa gen anpil ki asosye ak ranfòsman pozitif vin pi rich ak plis enfòmasyon, sa ki pèmèt tou de aprantisaj pi rapid ak akizisyon de konpòtman ki pi konplèks. Amelyorasyon sa yo disponib sèlman ak metòd ki itilize yon siyal gradyan, epi yo pa ak metòd ki fonksyone sou yon prensip "bwat nwa", tankou ES.

Anplis de sa, aprann nan eksperyans ak metòd gradyan yo pi efikas. Menm nan ka kote li te posib pou etidye yon pwoblèm patikilye lè l sèvi avèk metòd ES la pi vit pase lè l sèvi avèk aprantisaj ranfòsman, yo te reyalize pwogrè a akòz lefèt ke estrateji ES la enplike anpil fwa plis done pase ak RL. Lè nou reflechi nan ka sa a sou prensip aprantisaj bèt yo, nou note ke rezilta aprann nan egzanp yon lòt moun manifeste tèt li apre anpil jenerasyon, pandan ke pafwa yon sèl evènman ki gen eksperyans poukont li se ase pou bèt la aprann leson an pou tout tan. Pandan ke tankou fòmasyon san egzanp Pandan ke li pa byen anfòm nan metòd gradyan tradisyonèl yo, li se pi plis konpreyansib pase ES. Gen, pou egzanp, apwòch tankou kontwòl epizod neral, kote Q-valè yo estoke pandan pwosesis fòmasyon an, apre sa pwogram nan tcheke yo anvan yo pran aksyon. Rezilta a se yon metòd gradyan ki pèmèt ou aprann kijan pou rezoud pwoblèm pi vit pase anvan. Nan yon atik sou kontwòl epizòd neral, otè yo mansyone ipokanp imen an, ki kapab kenbe enfòmasyon sou yon evènman menm apre yon eksperyans sèl epi, Se poutèt sa, jwe. wòl kritik nan pwosesis pou sonje. Mekanis sa yo mande pou aksè nan òganizasyon entèn ajan an, ki se tou, pa definisyon, enposib nan paradigm ES la.

Se konsa, poukisa pa konbine yo?

Li posib ke anpil nan atik sa a ta ka kite enpresyon ke mwen defann metòd RL. Sepandan, mwen aktyèlman panse ke nan kouri nan longè pi bon solisyon an se konbine tou de metòd, se konsa ke chak yo itilize nan sitiyasyon yo nan ki li pi byen adapte. Li evidan, nan ka a nan anpil politik reyaktif oswa nan sitiyasyon ki gen anpil siyal ranfòsman pozitif, ES la genyen, espesyalman si ou gen pouvwa a informatique a jete ou sou ki ou ka kouri twouve fòmasyon paralèl. Nan lòt men an, metòd gradyan ki itilize aprantisaj ranfòsman oswa aprantisaj sipèvize pral itil lè nou gen aksè a anpil fidbak epi nou bezwen aprann kijan pou rezoud yon pwoblèm byen vit epi ak mwens done.

Lè nou tounen vin jwenn lanati, nou jwenn ke premye metòd la, nan sans, mete fondasyon pou dezyèm lan. Se poutèt sa, pandan evolisyon an, mamifè yo te devlope sèvo ki pèmèt yo aprann yon fason trè efikas nan siyal konplèks ki soti nan anviwònman an. Se konsa, kesyon an rete louvri. Petèt estrateji evolisyonè yo pral ede nou envante achitekti aprantisaj efikas ki pral itil tou pou metòd aprantisaj gradyan. Apre yo tout, solisyon an jwenn pa lanati se tout bon anpil siksè.

Sous: www.habr.com

Add nouvo kòmantè