🥇Je, ungependa kuimarisha mafunzo au mikakati ya mageuzi? - Mbili

Habari Habr!

Mara nyingi huwa hatuamui kuchapisha hapa tafsiri za maandishi ambayo yalikuwa na umri wa miaka miwili, bila msimbo na dhahiri ya asili ya kitaaluma - lakini leo tutafanya hali isiyo ya kawaida. Tunatumahi kuwa shida inayoletwa katika kichwa cha kifungu hicho inasumbua wasomaji wetu wengi, na tayari umesoma kazi ya kimsingi juu ya mikakati ya mageuzi ambayo chapisho hili linabishana nalo katika asili au utalisoma sasa. Karibu paka!

Mnamo Machi 2017, OpenAI ilifanya mawimbi katika jumuiya ya kujifunza kwa kina na karatasi "Mikakati ya Mageuzi kama Njia Mbadala Inayoweza Kupanuka kwa Kuimarisha Mafunzo" Kazi hii ilielezea matokeo ya kuvutia kwa kupendelea ukweli kwamba ujifunzaji wa kuimarisha (RL) haujawa kabari, na wakati wa mafunzo ya mitandao tata ya neural, inashauriwa kujaribu njia zingine. Kisha mjadala ukazuka kuhusu umuhimu wa mafunzo ya kuimarisha na jinsi inavyostahili hadhi yake kama teknolojia ya "lazima iwe nayo" ya kufundisha kutatua matatizo. Hapa nataka kusema kwamba teknolojia hizi mbili zisichukuliwe kuwa zinashindana, moja wapo ni bora kuliko nyingine; kinyume chake, hatimaye hukamilishana. Hakika, ikiwa unafikiri kidogo juu ya kile kinachohitajika kuunda AI ya jumla na mifumo hiyo, ambayo katika kuwepo kwao ingekuwa na uwezo wa kujifunza, hukumu na kupanga, basi karibu tutakuja kuhitimisha kwamba hii au suluhisho la pamoja litahitajika. Kwa njia, ilikuwa ni suluhisho hili la pamoja ambalo asili ilikuja, ambayo iliwapa mamalia na wanyama wengine wa juu na akili ngumu wakati wa mageuzi.

Mikakati ya Mageuzi

Dhana kuu ya karatasi ya OpenAI ilikuwa kwamba, badala ya kutumia mafunzo ya kuimarisha pamoja na uenezaji wa jadi, walifanikiwa kufunza mtandao wa neva ili kutatua matatizo changamano kwa kutumia kile walichokiita "mkakati wa mageuzi" (ES). Mbinu hii ya ES inajumuisha kudumisha usambazaji wa vizito kwenye mtandao mzima, unaohusisha mawakala wengi wanaofanya kazi sambamba na kutumia vigezo vilivyochaguliwa kutoka kwa usambazaji huu. Kila wakala hufanya kazi katika mazingira yake, na baada ya kukamilisha idadi maalum ya vipindi au hatua za kipindi, kanuni hurejesha jumla ya zawadi, inayoonyeshwa kama alama ya siha. Kwa kuzingatia thamani hii, usambazaji wa vigezo unaweza kubadilishwa kwa mawakala waliofaulu zaidi, na kuwanyima waliofanikiwa kidogo. Kwa kurudia operesheni hiyo mamilioni ya mara kwa ushiriki wa mamia ya mawakala, inawezekana kuhamisha usambazaji wa uzito kwenye nafasi ambayo itawawezesha mawakala kuunda sera ya ubora wa kutatua kazi waliyopewa. Hakika, matokeo yaliyotolewa katika kifungu hicho ni ya kuvutia: inaonyeshwa kuwa ikiwa unaendesha mawakala elfu sambamba, basi harakati za anthropomorphic kwenye miguu miwili zinaweza kujifunza chini ya nusu saa (wakati hata njia za juu zaidi za RL zinahitaji matumizi zaidi. zaidi ya saa moja juu ya hili). Kwa habari zaidi, napendekeza kusoma bora chapisho kutoka kwa waandishi wa jaribio, na vile vile makala ya kisayansi.

Mikakati tofauti ya kufundisha anthropomorphic kutembea wima, iliyosomwa kwa kutumia mbinu ya ES kutoka OpenAI.

Sanduku nyeusi

Faida kubwa ya njia hii ni kwamba inaweza kusawazishwa kwa urahisi. Ingawa mbinu za RL, kama vile A3C, zinahitaji taarifa kubadilishana kati ya nyuzi za mfanyakazi na seva ya vigezo, ES inahitaji tu makadirio ya siha na maelezo ya jumla ya usambazaji wa vigezo. Ni kutokana na unyenyekevu huu kwamba njia hii iko mbele zaidi ya mbinu za kisasa za RL katika suala la uwezo wa kuongeza. Walakini, haya yote hayakuja bure: lazima uboresha mtandao kulingana na kanuni ya sanduku nyeusi. Katika kesi hii, "sanduku nyeusi" inamaanisha kuwa wakati wa mafunzo muundo wa ndani wa mtandao hauzingatiwi kabisa, na tu matokeo ya jumla (thawabu ya sehemu) hutumiwa, na inategemea ikiwa uzani wa mtandao fulani utatumika. kurithiwa na vizazi vijavyo. Katika hali ambapo hatupokei maoni mengi kutoka kwa mazingira—na katika matatizo mengi ya kitamaduni ya RL mtiririko wa zawadi ni mdogo sana—tatizo huenda kutoka kuwa "sanduku nyeusi kiasi" hadi "kisanduku cheusi kabisa." Katika kesi hii, unaweza kuongeza tija kwa kiasi kikubwa, kwa hivyo, kwa kweli, maelewano kama haya ni sawa. "Nani anahitaji gradients ikiwa wana kelele zisizo na matumaini?" - hii ni maoni ya jumla.

Hata hivyo, katika hali ambapo maoni ni kazi zaidi, mambo huanza kwenda vibaya kwa ES. Timu ya OpenAI inaeleza jinsi mtandao rahisi wa uainishaji wa MNIST ulivyofunzwa kwa kutumia ES, na wakati huu mafunzo yalikuwa polepole mara 1000. Ukweli ni kwamba ishara ya gradient katika uainishaji wa picha ni ya habari sana kuhusu jinsi ya kufundisha mtandao uainishaji bora. Kwa hivyo, tatizo ni kidogo na mbinu ya RL na zaidi na malipo machache katika mazingira ambayo hutoa gradients yenye kelele.

Suluhisho la asili

Ikiwa tunajaribu kujifunza kutoka kwa mfano wa maumbile, tukifikiria juu ya njia za kukuza AI, basi katika hali zingine AI inaweza kuzingatiwa kama mbinu yenye mwelekeo wa matatizo. Baada ya yote, asili hufanya kazi ndani ya vikwazo ambavyo wanasayansi wa kompyuta hawana. Kuna maoni kwamba mbinu pekee ya kinadharia ya kutatua tatizo fulani inaweza kutoa masuluhisho yenye ufanisi zaidi kuliko njia mbadala za kimajaribio. Walakini, bado nadhani ingefaa kujaribu jinsi mfumo wa nguvu unaofanya kazi chini ya vizuizi fulani (Dunia) umetoa mawakala (wanyama, haswa mamalia) wenye uwezo wa kubadilika na tabia ngumu. Ingawa baadhi ya vikwazo hivi havitumiki katika ulimwengu wa sayansi ya data iliyoiga, vingine ni sawa.

Baada ya kukagua tabia ya kiakili ya mamalia, tunaona kwamba inaundwa kama matokeo ya ushawishi mgumu wa kuheshimiana wa michakato miwili inayohusiana sana: kujifunza kutokana na uzoefu wa wengine и kujifunza kwa kufanya. Ya kwanza mara nyingi hulinganishwa na mageuzi yanayoendeshwa na uteuzi asilia, lakini hapa ninatumia neno pana zaidi kutilia maanani epijenetiki, mikrobiomu, na mifumo mingine inayowezesha kushiriki uzoefu kati ya viumbe visivyohusiana kijeni. Mchakato wa pili, kujifunza kutokana na uzoefu, ni habari zote ambazo mnyama anaweza kujifunza katika maisha yake yote, na habari hii imedhamiriwa moja kwa moja na mwingiliano wa mnyama huyu na ulimwengu wa nje. Kitengo hiki kinajumuisha kila kitu kuanzia kujifunza kutambua vitu hadi kusimamia mawasiliano yaliyopo katika mchakato wa kujifunza.

Kwa kusema, michakato hii miwili inayotokea katika asili inaweza kulinganishwa na chaguo mbili za kuboresha mitandao ya neural. Mikakati ya mageuzi, ambapo taarifa kuhusu kipenyo hutumika kusasisha taarifa kuhusu kiumbe hai, hukaribia kujifunza kutokana na uzoefu wa wengine. Vile vile, mbinu za gradient, ambapo kupata uzoefu mmoja au mwingine husababisha mabadiliko moja au nyingine katika tabia ya wakala, ni sawa na kujifunza kutokana na uzoefu wa mtu mwenyewe. Ikiwa tunafikiria juu ya aina za tabia ya akili au uwezo ambao kila moja ya njia hizi mbili hukua kwa wanyama, kulinganisha kunakuwa wazi zaidi. Katika visa vyote viwili, "mbinu za mageuzi" hukuza utafiti wa tabia tendaji zinazoruhusu mtu kukuza utimamu fulani (unaotosha kusalia hai). Kujifunza kutembea au kutoroka kutoka kwa utumwa mara nyingi ni sawa na tabia za "asili" ambazo "zina waya ngumu" katika wanyama wengi katika kiwango cha maumbile. Kwa kuongezea, mfano huu unathibitisha kuwa njia za mageuzi zinatumika katika hali ambapo ishara ya malipo ni nadra sana (kwa mfano, ukweli wa kumlea mtoto kwa mafanikio). Katika hali kama hiyo, haiwezekani kuoanisha thawabu na seti yoyote maalum ya vitendo ambavyo vinaweza kufanywa miaka mingi kabla ya kutokea kwa ukweli huu. Kwa upande mwingine, ikiwa tunazingatia kesi ambayo ES inashindwa, yaani uainishaji wa picha, matokeo yanalinganishwa kwa kushangaza na matokeo ya kujifunza kwa wanyama yaliyopatikana katika majaribio mengi ya kisaikolojia ya tabia yaliyofanywa zaidi ya miaka 100-pamoja.

Kujifunza kutoka kwa Wanyama

Njia zinazotumiwa katika ujifunzaji wa kuimarisha mara nyingi huchukuliwa moja kwa moja kutoka kwa maandiko ya kisaikolojia hali ya uendeshaji, na hali ya uendeshaji ilisomwa kwa kutumia saikolojia ya wanyama. Kwa njia, Richard Sutton, mmoja wa waanzilishi wawili wa mafunzo ya kuimarisha, ana shahada ya bachelor katika saikolojia. Katika muktadha wa hali ya uendeshaji, wanyama hujifunza kuhusisha malipo au adhabu na mifumo mahususi ya kitabia. Wakufunzi na watafiti wanaweza kuendesha chama hiki cha malipo kwa njia moja au nyingine, na kuwachochea wanyama kuonyesha akili au tabia fulani. Walakini, hali ya uendeshaji, kama inavyotumiwa katika utafiti wa wanyama, sio kitu zaidi ya fomu iliyotamkwa zaidi ya hali sawa kwa msingi ambao wanyama hujifunza katika maisha yao yote. Tunapokea kila mara ishara za uimarishaji mzuri kutoka kwa mazingira na kurekebisha tabia zetu ipasavyo. Kwa kweli, wanasayansi wengi wa neva na wanasayansi wa utambuzi wanaamini kwamba wanadamu na wanyama wengine wanafanya kazi katika kiwango cha juu zaidi na daima hujifunza kutabiri matokeo ya tabia zao katika hali za baadaye kulingana na zawadi zinazowezekana.

Jukumu kuu la utabiri katika kujifunza kutokana na uzoefu hubadilisha mienendo iliyoelezwa hapo juu kwa njia muhimu. Ishara ambayo hapo awali ilizingatiwa kuwa ndogo sana (malipo ya episodic) inageuka kuwa mnene sana. Kinadharia, hali ni kama hii: wakati wowote, ubongo wa mamalia huhesabu matokeo kulingana na mkondo changamano wa msukumo wa hisia na vitendo, wakati mnyama anaingizwa tu kwenye mkondo huu. Katika kesi hiyo, tabia ya mwisho ya mnyama inatoa ishara kali ambayo lazima itumike kuongoza marekebisho ya utabiri na maendeleo ya tabia. Ubongo hutumia mawimbi haya yote ili kuboresha utabiri (na, ipasavyo, ubora wa hatua zilizochukuliwa) katika siku zijazo. Muhtasari wa mbinu hii umetolewa katika kitabu bora kabisa "Kutokuwa na uhakika wa Kuteleza” mwanasayansi na mwanafalsafa wa utambuzi Andy Clark. Ikiwa tutaongeza hoja kama hizo kwa mafunzo ya mawakala bandia, basi dosari ya kimsingi katika ujifunzaji wa uimarishaji inafichuliwa: ishara inayotumiwa katika dhana hii ni dhaifu sana ikilinganishwa na inavyoweza kuwa (au inapaswa kuwa). Katika hali ambapo haiwezekani kuongeza kueneza kwa ishara (labda kwa sababu ni dhaifu au inahusishwa na utendakazi wa kiwango cha chini), labda ni bora kupendelea njia ya mafunzo ambayo imesawazishwa vizuri, kwa mfano, ES.

Mafunzo tajiri ya mitandao ya neva

Kujengwa juu ya kanuni za shughuli za juu za neva zinazopatikana katika ubongo wa mamalia, ambao unashughulika kila wakati kufanya utabiri, maendeleo ya hivi karibuni yamefanywa katika ujifunzaji wa kuimarisha, ambayo sasa inazingatia umuhimu wa utabiri kama huo. Ninaweza kupendekeza kazi mbili zinazofanana na wewe mara moja:

Katika karatasi hizi zote mbili, waandishi huongeza sera ya kawaida chaguo-msingi ya mitandao yao ya neva na matokeo ya utabiri kuhusu hali ya mazingira katika siku zijazo. Katika makala ya kwanza, utabiri unatumika kwa vigezo mbalimbali vya kipimo, na katika pili, utabiri unatumika kwa mabadiliko katika mazingira na tabia ya wakala kama vile. Katika visa vyote viwili, ishara ndogo inayohusishwa na uimarishaji mzuri inakuwa tajiri zaidi na yenye habari zaidi, ikiruhusu ujifunzaji wa haraka na upataji wa tabia ngumu zaidi. Maboresho kama haya yanapatikana tu kwa njia zinazotumia mawimbi ya gradient, na si kwa mbinu zinazotumia kanuni ya "sanduku nyeusi", kama vile ES.

Kwa kuongeza, kujifunza kutokana na uzoefu na mbinu za gradient zinafaa zaidi. Hata katika hali ambapo iliwezekana kujifunza tatizo fulani kwa kutumia njia ya ES kwa kasi zaidi kuliko kutumia mafunzo ya kuimarisha, faida ilipatikana kutokana na ukweli kwamba mkakati wa ES ulihusisha data mara nyingi zaidi kuliko RL. Kutafakari katika kesi hii juu ya kanuni za kujifunza kwa wanyama, tunaona kwamba matokeo ya kujifunza kutoka kwa mfano wa mtu mwingine yanajidhihirisha baada ya vizazi vingi, wakati wakati mwingine tukio moja lililojitokeza yenyewe ni la kutosha kwa mnyama kujifunza somo milele. Wakati kama mafunzo bila mifano Ingawa hailingani kabisa na njia za jadi za upinde rangi, inaeleweka zaidi kuliko ES. Kuna, kwa mfano, mbinu kama vile udhibiti wa matukio ya neva, ambapo maadili ya Q huhifadhiwa wakati wa mchakato wa mafunzo, baada ya hapo programu inakagua kabla ya kuchukua hatua. Matokeo yake ni njia ya gradient ambayo inakuwezesha kujifunza jinsi ya kutatua matatizo kwa kasi zaidi kuliko hapo awali. Katika makala juu ya udhibiti wa matukio ya neva, waandishi wanataja hippocampus ya binadamu, ambayo ina uwezo wa kuhifadhi habari kuhusu tukio hata baada ya uzoefu mmoja na, kwa hiyo, inacheza. jukumu muhimu katika mchakato wa kukumbuka. Taratibu hizo zinahitaji upatikanaji wa shirika la ndani la wakala, ambayo pia, kwa ufafanuzi, haiwezekani katika dhana ya ES.

Kwa hivyo, kwa nini usiwachanganye?

Kuna uwezekano kwamba sehemu kubwa ya nakala hii inaweza kuacha maoni kwamba ninatetea njia za RL. Hata hivyo, kwa kweli nadhani kwamba kwa muda mrefu suluhisho bora ni kuchanganya njia zote mbili, ili kila mmoja atumike katika hali ambayo inafaa zaidi. Ni wazi, katika kesi ya sera nyingi tendaji au katika hali zenye ishara chache sana za uimarishaji chanya, ES inashinda, haswa ikiwa una uwezo wa kompyuta ambao unaweza kuendesha mafunzo sambamba. Kwa upande mwingine, mbinu za kupunguza kasi kwa kutumia mafunzo ya uimarishaji au ujifunzaji unaosimamiwa zitakuwa muhimu tunapokuwa na uwezo wa kufikia maoni mengi na tunahitaji kujifunza jinsi ya kutatua tatizo kwa haraka na kwa kutumia data kidogo.

Kugeuka kwa asili, tunaona kwamba njia ya kwanza, kwa asili, inaweka msingi wa pili. Hii ndiyo sababu, katika kipindi cha mageuzi, mamalia wamekuza akili zinazowawezesha kujifunza kwa ufanisi kutokana na ishara changamano zinazotoka kwa mazingira. Kwa hivyo, swali linabaki wazi. Labda mikakati ya mageuzi itatusaidia kuvumbua usanifu bora wa ujifunzaji ambao pia utakuwa muhimu kwa mbinu za ujifunzaji za gradient. Baada ya yote, suluhisho lililopatikana kwa asili ni kweli limefanikiwa sana.

Chanzo: mapenzi.com

Kuimarisha mafunzo au mikakati ya mageuzi? - Wote wawili