Habari Habr!
Mara nyingi huwa hatuamui kuchapisha hapa tafsiri za maandishi ambayo yalikuwa na umri wa miaka miwili, bila msimbo na dhahiri ya asili ya kitaaluma - lakini leo tutafanya hali isiyo ya kawaida. Tunatumahi kuwa shida inayoletwa katika kichwa cha kifungu hicho inasumbua wasomaji wetu wengi, na tayari umesoma kazi ya kimsingi juu ya mikakati ya mageuzi ambayo chapisho hili linabishana nalo katika asili au utalisoma sasa. Karibu paka!
Mnamo Machi 2017, OpenAI ilifanya mawimbi katika jumuiya ya kujifunza kwa kina na karatasi "
Mikakati ya Mageuzi
Dhana kuu ya karatasi ya OpenAI ilikuwa kwamba, badala ya kutumia mafunzo ya kuimarisha pamoja na uenezaji wa jadi, walifanikiwa kufunza mtandao wa neva ili kutatua matatizo changamano kwa kutumia kile walichokiita "mkakati wa mageuzi" (ES). Mbinu hii ya ES inajumuisha kudumisha usambazaji wa vizito kwenye mtandao mzima, unaohusisha mawakala wengi wanaofanya kazi sambamba na kutumia vigezo vilivyochaguliwa kutoka kwa usambazaji huu. Kila wakala hufanya kazi katika mazingira yake, na baada ya kukamilisha idadi maalum ya vipindi au hatua za kipindi, kanuni hurejesha jumla ya zawadi, inayoonyeshwa kama alama ya siha. Kwa kuzingatia thamani hii, usambazaji wa vigezo unaweza kubadilishwa kwa mawakala waliofaulu zaidi, na kuwanyima waliofanikiwa kidogo. Kwa kurudia operesheni hiyo mamilioni ya mara kwa ushiriki wa mamia ya mawakala, inawezekana kuhamisha usambazaji wa uzito kwenye nafasi ambayo itawawezesha mawakala kuunda sera ya ubora wa kutatua kazi waliyopewa. Hakika, matokeo yaliyotolewa katika kifungu hicho ni ya kuvutia: inaonyeshwa kuwa ikiwa unaendesha mawakala elfu sambamba, basi harakati za anthropomorphic kwenye miguu miwili zinaweza kujifunza chini ya nusu saa (wakati hata njia za juu zaidi za RL zinahitaji matumizi zaidi. zaidi ya saa moja juu ya hili). Kwa habari zaidi, napendekeza kusoma bora
Mikakati tofauti ya kufundisha anthropomorphic kutembea wima, iliyosomwa kwa kutumia mbinu ya ES kutoka OpenAI.
Sanduku nyeusi
Faida kubwa ya njia hii ni kwamba inaweza kusawazishwa kwa urahisi. Ingawa mbinu za RL, kama vile A3C, zinahitaji taarifa kubadilishana kati ya nyuzi za mfanyakazi na seva ya vigezo, ES inahitaji tu makadirio ya siha na maelezo ya jumla ya usambazaji wa vigezo. Ni kutokana na unyenyekevu huu kwamba njia hii iko mbele zaidi ya mbinu za kisasa za RL katika suala la uwezo wa kuongeza. Walakini, haya yote hayakuja bure: lazima uboresha mtandao kulingana na kanuni ya sanduku nyeusi. Katika kesi hii, "sanduku nyeusi" inamaanisha kuwa wakati wa mafunzo muundo wa ndani wa mtandao hauzingatiwi kabisa, na tu matokeo ya jumla (thawabu ya sehemu) hutumiwa, na inategemea ikiwa uzani wa mtandao fulani utatumika. kurithiwa na vizazi vijavyo. Katika hali ambapo hatupokei maoni mengi kutoka kwa mazingiraβna katika matatizo mengi ya kitamaduni ya RL mtiririko wa zawadi ni mdogo sanaβtatizo huenda kutoka kuwa "sanduku nyeusi kiasi" hadi "kisanduku cheusi kabisa." Katika kesi hii, unaweza kuongeza tija kwa kiasi kikubwa, kwa hivyo, kwa kweli, maelewano kama haya ni sawa. "Nani anahitaji gradients ikiwa wana kelele zisizo na matumaini?" - hii ni maoni ya jumla.
Hata hivyo, katika hali ambapo maoni ni kazi zaidi, mambo huanza kwenda vibaya kwa ES. Timu ya OpenAI inaeleza jinsi mtandao rahisi wa uainishaji wa MNIST ulivyofunzwa kwa kutumia ES, na wakati huu mafunzo yalikuwa polepole mara 1000. Ukweli ni kwamba ishara ya gradient katika uainishaji wa picha ni ya habari sana kuhusu jinsi ya kufundisha mtandao uainishaji bora. Kwa hivyo, tatizo ni kidogo na mbinu ya RL na zaidi na malipo machache katika mazingira ambayo hutoa gradients yenye kelele.
Suluhisho la asili
Ikiwa tunajaribu kujifunza kutoka kwa mfano wa maumbile, tukifikiria juu ya njia za kukuza AI, basi katika hali zingine AI inaweza kuzingatiwa kama
Baada ya kukagua tabia ya kiakili ya mamalia, tunaona kwamba inaundwa kama matokeo ya ushawishi mgumu wa kuheshimiana wa michakato miwili inayohusiana sana: kujifunza kutokana na uzoefu wa wengine ΠΈ kujifunza kwa kufanya. Ya kwanza mara nyingi hulinganishwa na mageuzi yanayoendeshwa na uteuzi asilia, lakini hapa ninatumia neno pana zaidi kutilia maanani epijenetiki, mikrobiomu, na mifumo mingine inayowezesha kushiriki uzoefu kati ya viumbe visivyohusiana kijeni. Mchakato wa pili, kujifunza kutokana na uzoefu, ni habari zote ambazo mnyama anaweza kujifunza katika maisha yake yote, na habari hii imedhamiriwa moja kwa moja na mwingiliano wa mnyama huyu na ulimwengu wa nje. Kitengo hiki kinajumuisha kila kitu kuanzia kujifunza kutambua vitu hadi kusimamia mawasiliano yaliyopo katika mchakato wa kujifunza.
Kwa kusema, michakato hii miwili inayotokea katika asili inaweza kulinganishwa na chaguo mbili za kuboresha mitandao ya neural. Mikakati ya mageuzi, ambapo taarifa kuhusu kipenyo hutumika kusasisha taarifa kuhusu kiumbe hai, hukaribia kujifunza kutokana na uzoefu wa wengine. Vile vile, mbinu za gradient, ambapo kupata uzoefu mmoja au mwingine husababisha mabadiliko moja au nyingine katika tabia ya wakala, ni sawa na kujifunza kutokana na uzoefu wa mtu mwenyewe. Ikiwa tunafikiria juu ya aina za tabia ya akili au uwezo ambao kila moja ya njia hizi mbili hukua kwa wanyama, kulinganisha kunakuwa wazi zaidi. Katika visa vyote viwili, "mbinu za mageuzi" hukuza utafiti wa tabia tendaji zinazoruhusu mtu kukuza utimamu fulani (unaotosha kusalia hai). Kujifunza kutembea au kutoroka kutoka kwa utumwa mara nyingi ni sawa na tabia za "asili" ambazo "zina waya ngumu" katika wanyama wengi katika kiwango cha maumbile. Kwa kuongezea, mfano huu unathibitisha kuwa njia za mageuzi zinatumika katika hali ambapo ishara ya malipo ni nadra sana (kwa mfano, ukweli wa kumlea mtoto kwa mafanikio). Katika hali kama hiyo, haiwezekani kuoanisha thawabu na seti yoyote maalum ya vitendo ambavyo vinaweza kufanywa miaka mingi kabla ya kutokea kwa ukweli huu. Kwa upande mwingine, ikiwa tunazingatia kesi ambayo ES inashindwa, yaani uainishaji wa picha, matokeo yanalinganishwa kwa kushangaza na matokeo ya kujifunza kwa wanyama yaliyopatikana katika majaribio mengi ya kisaikolojia ya tabia yaliyofanywa zaidi ya miaka 100-pamoja.
Kujifunza kutoka kwa Wanyama
Njia zinazotumiwa katika ujifunzaji wa kuimarisha mara nyingi huchukuliwa moja kwa moja kutoka kwa maandiko ya kisaikolojia
Jukumu kuu la utabiri katika kujifunza kutokana na uzoefu hubadilisha mienendo iliyoelezwa hapo juu kwa njia muhimu. Ishara ambayo hapo awali ilizingatiwa kuwa ndogo sana (malipo ya episodic) inageuka kuwa mnene sana. Kinadharia, hali ni kama hii: wakati wowote, ubongo wa mamalia huhesabu matokeo kulingana na mkondo changamano wa msukumo wa hisia na vitendo, wakati mnyama anaingizwa tu kwenye mkondo huu. Katika kesi hiyo, tabia ya mwisho ya mnyama inatoa ishara kali ambayo lazima itumike kuongoza marekebisho ya utabiri na maendeleo ya tabia. Ubongo hutumia mawimbi haya yote ili kuboresha utabiri (na, ipasavyo, ubora wa hatua zilizochukuliwa) katika siku zijazo. Muhtasari wa mbinu hii umetolewa katika kitabu bora kabisa "
Mafunzo tajiri ya mitandao ya neva
Kujengwa juu ya kanuni za shughuli za juu za neva zinazopatikana katika ubongo wa mamalia, ambao unashughulika kila wakati kufanya utabiri, maendeleo ya hivi karibuni yamefanywa katika ujifunzaji wa kuimarisha, ambayo sasa inazingatia umuhimu wa utabiri kama huo. Ninaweza kupendekeza kazi mbili zinazofanana na wewe mara moja:
Katika karatasi hizi zote mbili, waandishi huongeza sera ya kawaida chaguo-msingi ya mitandao yao ya neva na matokeo ya utabiri kuhusu hali ya mazingira katika siku zijazo. Katika makala ya kwanza, utabiri unatumika kwa vigezo mbalimbali vya kipimo, na katika pili, utabiri unatumika kwa mabadiliko katika mazingira na tabia ya wakala kama vile. Katika visa vyote viwili, ishara ndogo inayohusishwa na uimarishaji mzuri inakuwa tajiri zaidi na yenye habari zaidi, ikiruhusu ujifunzaji wa haraka na upataji wa tabia ngumu zaidi. Maboresho kama haya yanapatikana tu kwa njia zinazotumia mawimbi ya gradient, na si kwa mbinu zinazotumia kanuni ya "sanduku nyeusi", kama vile ES.
Kwa kuongeza, kujifunza kutokana na uzoefu na mbinu za gradient zinafaa zaidi. Hata katika hali ambapo iliwezekana kujifunza tatizo fulani kwa kutumia njia ya ES kwa kasi zaidi kuliko kutumia mafunzo ya kuimarisha, faida ilipatikana kutokana na ukweli kwamba mkakati wa ES ulihusisha data mara nyingi zaidi kuliko RL. Kutafakari katika kesi hii juu ya kanuni za kujifunza kwa wanyama, tunaona kwamba matokeo ya kujifunza kutoka kwa mfano wa mtu mwingine yanajidhihirisha baada ya vizazi vingi, wakati wakati mwingine tukio moja lililojitokeza yenyewe ni la kutosha kwa mnyama kujifunza somo milele. Wakati kama
Kwa hivyo, kwa nini usiwachanganye?
Kuna uwezekano kwamba sehemu kubwa ya nakala hii inaweza kuacha maoni kwamba ninatetea njia za RL. Hata hivyo, kwa kweli nadhani kwamba kwa muda mrefu suluhisho bora ni kuchanganya njia zote mbili, ili kila mmoja atumike katika hali ambayo inafaa zaidi. Ni wazi, katika kesi ya sera nyingi tendaji au katika hali zenye ishara chache sana za uimarishaji chanya, ES inashinda, haswa ikiwa una uwezo wa kompyuta ambao unaweza kuendesha mafunzo sambamba. Kwa upande mwingine, mbinu za kupunguza kasi kwa kutumia mafunzo ya uimarishaji au ujifunzaji unaosimamiwa zitakuwa muhimu tunapokuwa na uwezo wa kufikia maoni mengi na tunahitaji kujifunza jinsi ya kutatua tatizo kwa haraka na kwa kutumia data kidogo.
Kugeuka kwa asili, tunaona kwamba njia ya kwanza, kwa asili, inaweka msingi wa pili. Hii ndiyo sababu, katika kipindi cha mageuzi, mamalia wamekuza akili zinazowawezesha kujifunza kwa ufanisi kutokana na ishara changamano zinazotoka kwa mazingira. Kwa hivyo, swali linabaki wazi. Labda mikakati ya mageuzi itatusaidia kuvumbua usanifu bora wa ujifunzaji ambao pia utakuwa muhimu kwa mbinu za ujifunzaji za gradient. Baada ya yote, suluhisho lililopatikana kwa asili ni kweli limefanikiwa sana.
Chanzo: mapenzi.com