🥇 Foghlaim treisithe nó straitéisí éabhlóideacha? — An dá

Hey Habr!

Ní minic a shocraíonn muid aistriúcháin ar théacsanna a bhí dhá bhliain d’aois, gan chód agus go soiléir de nádúr acadúil, a phostáil anseo - ach déanfaimid eisceacht inniu. Tá súil againn go gcuireann an aincheist a bhaineann le teideal an ailt imní ar go leor dár léitheoirí, agus tá an obair bhunúsach ar straitéisí éabhlóideacha léite agat cheana féin lena n-áitíonn an post seo sa bhunleagan nó léifidh tú anois é. Fáilte go dtí an cat!

I mí an Mhárta 2017, rinne OpenAI tonnta sa phobal domhainfhoghlama leis an bpáipéar “Straitéisí Éabhlúcháin mar Rogha Inscálaithe ar Fhoghlaim Neartaithe" Chuir an obair seo síos ar thorthaí suntasacha i bhfabhar an fhíric nach bhfuil an fhoghlaim athneartaithe (RL) tar éis éirí ina ding, agus nuair a bhíonn líonraí néaracha casta á n-oiliúint, moltar triail a bhaint as modhanna eile. Thosaigh díospóireacht ansin maidir le tábhacht na foghlama treisithe agus cé chomh tuillteanach dá stádas mar theicneolaíocht “riachtanach” chun fadhbréiteach a theagasc. Anseo ba mhaith liom a rá nár cheart an dá theicneolaíocht seo a mheas mar iomaíocht, agus is léir go bhfuil ceann acu níos fearr ná an ceann eile; a mhalairt ar fad, comhlánaíonn siad a chéile ar deireadh thiar. Go deimhin, má cheapann tú beagán faoi cad a thógann sé a chruthú AI ginearálta agus córais dá leithéid, a bheadh in ann foghlaim, breithiúnas agus pleanáil le linn dóibh a bheith ann, is beagnach cinnte go dtiocfaimid ar an tátal go mbeidh an réiteach seo nó an réiteach comhcheangailte sin ag teastáil. Dála an scéil, ba é an réiteach comhcheangailte seo go beacht a tháinig an dúlra chuige, rud a thug faisnéis chasta do mamaigh agus d'ainmhithe níos airde eile le linn na héabhlóide.

Straitéisí Éabhlóideacha

Ba é príomhthráchtas an pháipéir OpenAI ná, in ionad úsáid a bhaint as foghlaim athneartaithe i dteannta le cúl-leagan traidisiúnta, d’éirigh leo líonra néarúil a oiliúint chun fadhbanna casta a réiteach ag baint úsáide as an rud ar a dtug siad “straitéis éabhlóideach” (ES). Is éard atá i gcur chuige an ES seo dáileadh meáchain ar fud an líonra a chothabháil, ina mbeidh gníomhairí iolracha ag obair go comhthreomhar agus ag baint úsáide as paraiméadair a roghnaíodh ón dáileadh seo. Feidhmíonn gach gníomhaire ina thimpeallacht féin, agus nuair a chríochnaíonn an t-algartam líon sonraithe eipeasóid nó céimeanna d'eachtra, tugann an algartam luach saothair carnach, arna shloinneadh mar scór folláine. Agus an luach seo á chur san áireamh, is féidir dáileadh na bparaiméadar a aistriú i dtreo gníomhairí níos rathúla, ag baint na cinn nach bhfuil chomh rathúil céanna. Trí oibríocht den sórt sin a athdhéanamh na milliúin uaireanta le rannpháirtíocht na gcéadta gníomhairí, is féidir dáileadh meáchain a aistriú go spás a ligfidh do na gníomhairí beartas ardcháilíochta a cheapadh chun an tasc a shanntar dóibh a réiteach. Go deimhin, tá na torthaí a chuirtear i láthair san alt go hiontach: tá sé léirithe má ritheann tú míle gníomhairí ag an am céanna, ansin is féidir locomotion antrapamorfach ar dhá chosa a fhoghlaim i níos lú ná leath uair an chloig (cé go n-éilíonn fiú na modhanna RL is airde a chaitheamh níos mó. ná uair an chloig ar seo). Le haghaidh faisnéise níos mionsonraithe, molaim an scoth a léamh post ó údair an turgnaimh, chomh maith le alt eolaíoch.

Straitéisí éagsúla chun siúl antrapamorfach ina seasamh a mhúineadh, staidéar ag baint úsáide as an modh ES ó OpenAI.

Bosca dubh

Is é an buntáiste mór a bhaineann leis an modh seo ná gur féidir é a chomhthreomharú go héasca. Cé go n-éilíonn modhanna RL, ar nós A3C, faisnéis a mhalartú idir snáitheanna oibrithe agus freastalaí paraiméadar, níl ag teastáil ó ES ach meastacháin folláine agus faisnéis maidir le dáileadh paraiméadar ginearálaithe. Is mar gheall ar an simplíocht seo go bhfuil an modh seo i bhfad chun tosaigh ar mhodhanna RL nua-aimseartha i dtéarmaí cumais scálaithe. Mar sin féin, ní thagann sé seo go léir in vain: caithfidh tú an líonra a bharrfheabhsú de réir phrionsabal an bhosca dhubh. Sa chás seo, ciallaíonn an "bosca dubh" go ndéantar neamhaird iomlán ar struchtúr inmheánach an líonra le linn na hoiliúna, agus nach n-úsáidtear ach an toradh foriomlán (luach saothair don eipeasóid), agus braitheann sé air cé acu an ndéanfaidh meáchain líonra áirithe. a bheith le hoidhreacht ag na glúnta ina dhiaidh sin. I gcásanna nach bhfaigheann muid mórán aiseolais ón gcomhshaol - agus i go leor fadhbanna traidisiúnta RL tá sreabhadh na luach saothair an-ghann - téann an fhadhb ó bheith ina "bhosca i bpáirt dubh" go "bosca iomlán dubh." Sa chás seo, is féidir leat táirgiúlacht a mhéadú go suntasach, mar sin, ar ndóigh, tá údar maith le comhréiteach den sórt sin. “Cé a bhfuil grádáin de dhíth orthu má bhíonn siad gan dóchas gan stad ar aon nós?” - is é seo an tuairim ghinearálta.

Mar sin féin, i gcásanna ina mbíonn aiseolas níos gníomhaí, tosaíonn rudaí ag dul in olcas don Ráiteas Timpeallachta. Déanann foireann OpenAI cur síos ar conas a cuireadh oiliúint ar líonra aicmithe simplí MNIST ag baint úsáide as ES, agus an uair seo bhí an oiliúint 1000 uair níos moille. Is é fírinne an scéil go bhfuil an comhartha grádán i rangú íomhá thar a bheith faisnéiseach maidir le conas rangú níos fearr a dhéanamh ar an líonra. Mar sin, tá an fhadhb níos lú leis an teicníc RL agus níos mó le luach saothair gann i dtimpeallachtaí a tháirgeann grádáin torannacha.

Réiteach an dúlra

Má dhéanaimid iarracht foghlaim ó shampla an dúlra, ag smaoineamh ar bhealaí chun AI a fhorbairt, ansin i gcásanna áirithe is féidir smaoineamh ar AI mar cur chuige fadhb-dhírithe. Tar éis an tsaoil, feidhmíonn an dúlra laistigh de shrianta nach bhfuil ag ríomheolaithe. Tá tuairim ann gur féidir le cur chuige teoiriciúil amháin chun fadhb áirithe a réiteach réitigh níos éifeachtaí a sholáthar ná roghanna eimpíreacha eile. Mar sin féin, is dóigh liom fós gurbh fhiú a thástáil conas a ghin córas dinimiciúil a oibríonn faoi shrianta áirithe (an Domhan) gníomhairí (ainmhithe, go háirithe mamaigh) atá in ann iompar solúbtha agus casta. Cé nach bhfuil feidhm ag cuid de na srianta seo i saolta eolaíochta sonraí insamhladh, tá cinn eile go breá.

Tar éis scrúdú a dhéanamh ar iompar intleachtúil mamaigh, feicimid go bhfuil sé déanta mar thoradh ar an tionchar casta frithpháirteach ar dhá phróiseas a bhfuil dlúthbhaint acu leis: ag foghlaim ó thaithí daoine eile и ag foghlaim trí dhéanamh. Is minic a bhíonn an chéad cheann comhionann le héabhlóid arna thiomáint ag roghnú nádúrtha, ach anseo bainim úsáid as téarma níos leithne chun epigenetics, micribhithóim, agus meicníochtaí eile a chur san áireamh a chuireann ar chumas na n-eispéiris a roinnt idir orgánaigh ghéiniteacha nach mbaineann leo. Is é an dara próiseas, ag foghlaim ó thaithí, an fhaisnéis go léir a bhainistíonn ainmhí a fhoghlaim ar feadh a shaoil, agus déantar an fhaisnéis seo a chinneadh go díreach ag idirghníomhú an ainmhí seo leis an domhan lasmuigh. Áirítear sa chatagóir seo gach rud ó fhoghlaim go rudaí a aithint go máistreacht a fháil ar an gcumarsáid is gné dhílis den phróiseas foghlama.

Go garbh, is féidir an dá phróiseas seo a tharlaíonn sa nádúr a chur i gcomparáid le dhá rogha chun líonraí néaracha a bharrfheabhsú. Tagann straitéisí éabhlóideacha, ina n-úsáidtear faisnéis faoi ghrádáin chun faisnéis faoin orgánach a nuashonrú, gar don fhoghlaim ó thaithí daoine eile. Mar an gcéanna, tá modhanna grádáin, nuair a bhíonn athrú amháin nó eile ar iompar an ghníomhaire mar thoradh ar thaithí amháin nó eile a fháil, inchomparáide le foghlaim ó thaithí an duine féin. Má smaoinímid ar na cineálacha iompair chliste nó cumais a fhorbraíonn gach ceann den dá chur chuige seo in ainmhithe, éiríonn an chomparáid níos suntasaí. Sa dá chás, cuireann “modhanna éabhlóideacha” staidéar ar iompraíochtaí imoibríocha chun cinn a ligeann do dhuine aclaíocht áirithe a fhorbairt (dóthain chun fanacht beo). I go leor cásanna tá foghlaim conas siúl nó éalú ó bhraighdeanas comhionann le hiompraíochtaí níos “intleachtúla” atá “crua-sreangaithe” i go leor ainmhithe ag an leibhéal géiniteach. Ina theannta sin, deimhníonn an sampla seo go bhfuil modhanna éabhlóideacha infheidhme i gcásanna ina bhfuil an comhartha luach saothair fíor-annamh (mar shampla, an bhfíric go n-ardaítear leanbh go rathúil). I gcás den sórt sin, ní féidir an luach saothair a chomhghaolú le haon tacar sonrach gníomhaíochtaí a d’fhéadfadh a bheith déanta blianta fada sular tharla an méid sin. Ar an láimh eile, má bhreithnímid cás ina dteipeann ar ES, is é sin aicmiú íomhá, tá na torthaí inchomparáide go mór leis na torthaí ar fhoghlaim ainmhithe a baineadh amach i líon turgnaimh shíceolaíocha iompraíochta a rinneadh thar 100 bliain níos mó.

Foghlaim ó Ainmhithe

Tógtar na modhanna a úsáidtear san fhoghlaim athneartaithe i mórán cásanna go díreach ón litríocht shíceolaíoch ar aghaidh aeroiriúnaithe oibriúcháin, agus rinneadh staidéar ar riochtú oibrithe ag baint úsáide as síceolaíocht ainmhithe. Dála an scéil, tá céim bhaitsiléara sa tsíceolaíocht ag Richard Sutton, duine de bheirt bhunaitheoirí na foghlama treisithe. I gcomhthéacs aeroiriúnaithe oibriúcháin, foghlaimíonn ainmhithe conas luach saothair nó pionós a cheangal le patrúin iompraíochta ar leith. Is féidir le hoiliúnóirí agus taighdeoirí an comhlachas luach saothair seo a ionramháil ar bhealach amháin nó ar bhealach eile, ag spreagadh ainmhithe chun faisnéis nó iompraíochtaí áirithe a léiriú. Mar sin féin, níl an riochtú oibriúcháin, mar a úsáidtear i dtaighde ainmhithe, ach foirm níos suntasaí den riochtú céanna ar a mbonn a bhfoghlaimíonn ainmhithe ar feadh a saoil. Faighimid comharthaí athneartaithe dearfacha ón gcomhshaol i gcónaí agus coigeartaítear ár n-iompraíocht dá réir. Go deimhin, creideann go leor néareolaithe agus eolaithe cognaíocha go n-oibríonn daoine agus ainmhithe eile ag leibhéal níos airde fós agus go bhfoghlaimíonn siad go leanúnach toradh a n-iompraíochta i gcásanna amach anseo a thuar bunaithe ar luach saothair féideartha.

Athraíonn ról lárnach an tuar i bhfoghlaim ó thaithí na dinimic a gcuirtear síos orthu thuas ar bhealaí suntasacha. An comhartha a measadh roimhe seo an-ghann (luach saothair eipeasóideach) casadh amach a bheith an-dlúth. Go teoiriciúil, is é an cás rud éigin mar seo: ag aon am ar leith, tá inchinn an mhamach ag ríomh torthaí bunaithe ar shruth casta spreagthaí céadfacha agus gníomhartha, cé go bhfuil an t-ainmhí tumtha go simplí sa sruth seo. Sa chás seo, tugann iompar deiridh an ainmhí comhartha láidir a chaithfear a úsáid chun coigeartú réamhaisnéisí agus forbairt iompair a threorú. Úsáideann an inchinn na comharthaí seo go léir chun réamhaisnéisí a bharrfheabhsú (agus, dá réir sin, cáilíocht na ngníomhartha a dhéantar) sa todhchaí. Tá forbhreathnú ar an gcur chuige seo tugtha sa leabhar iontach “Éiginnteacht Surfála” eolaí cognaíocha agus fealsamh Andy Clark. Má dhéanaimid réasúnaíocht den sórt sin a eachtarshuíomh le hoiliúint oibreán saorga, ansin nochtar locht bunúsach san fhoghlaim athneartaithe: tá an comhartha a úsáidtear sa pharaidím seo lag gan dóchas i gcomparáid leis an méid a d’fhéadfadh a bheith (nó ba cheart a bheith). I gcásanna ina bhfuil sé dodhéanta an saturation comhartha a mhéadú (b'fhéidir toisc go bhfuil sé lag ó dhúchas nó go bhfuil baint aige le himoibríocht íseal-leibhéal), is dócha gur fearr modh oiliúna atá comhthreomhar go maith, mar shampla, ES.

Oiliúint níos saibhre ar líonraí néarúla

Ag tógáil ar phrionsabail na gníomhaíochta néaracha níos airde atá mar chuid dhílis den inchinn mhamach, atá i gcónaí gnóthach ag déanamh tuar, rinneadh dul chun cinn le déanaí i bhfoghlaim athneartaithe, a chuireann san áireamh anois an tábhacht a bhaineann le tuar den sórt sin. Is féidir liom dhá shaothar dá samhail a mholadh láithreach duit:

Sa dá pháipéar seo, cuireann na húdair le gnáthbheartas réamhshocraithe a líonraí néaracha le torthaí réamh-mheastacháin ar staid an chomhshaoil sa todhchaí. Sa chéad alt, cuirtear réamhaisnéis i bhfeidhm ar éagsúlacht athróg tomhais, agus sa dara ceann, cuirtear réamhaisnéis i bhfeidhm ar athruithe ar an gcomhshaol agus ar iompar an ghníomhaire mar sin. Sa dá chás, éiríonn an comhartha gann a bhaineann le hathneartú dearfach i bhfad níos saibhre agus níos faisnéiseach, rud a fhágann gur féidir foghlaim níos tapúla agus iompraíochtaí níos casta a fháil. Níl feabhsuithe den sórt sin ar fáil ach amháin le modhanna a úsáideann comhartha grádáin, agus ní le modhanna a fheidhmíonn ar phrionsabal “bosca dubh”, mar ES.

Ina theannta sin, tá foghlaim ó thaithí agus modhanna grádáin i bhfad níos éifeachtaí. Fiú i gcásanna inar féidir staidéar a dhéanamh ar fhadhb ar leith ag baint úsáide as an modh ES níos tapúla ná úsáid a bhaint as foghlaim athneartaithe, baineadh an gnóthachan amach toisc go raibh i bhfad níos mó sonraí i gceist leis an straitéis ES ná mar a bhí le RL. Ag machnamh sa chás seo ar phrionsabail na foghlama in ainmhithe, tugaimid faoi deara go dtagann toradh na foghlama ó shampla duine eile chun cinn tar éis na nglún go leor, agus uaireanta is leor imeacht amháin a bhfuil taithí aige ann féin chun an t-ainmhí a fhoghlaim go deo. Cé gur mhaith oiliúint gan samplaí Cé nach luíonn sé go hiomlán le modhanna traidisiúnta grádáin, tá sé i bhfad níos intuigthe ná an ES. Tá, mar shampla, cur chuige mar rialú néareach eipeasóideach, i gcás ina stóráiltear luachanna Q le linn na hoiliúna, agus ina dhiaidh sin seiceálann an clár iad sula ndéantar gníomhartha. Is é an toradh modh grádán a ligeann duit a fháil amach conas fadhbanna a réiteach i bhfad níos tapúla ná riamh. In alt ar rialú néareach eipeasóideach, luann na húdair an hippocampus daonna, atá in ann faisnéis a choinneáil faoi imeacht fiú tar éis taithí amháin agus, dá bhrí sin, imríonn sé ról criticiúil i bpróiseas cuimhneamh. Éilíonn meicníochtaí den sórt sin rochtain ar eagrúchán inmheánach an ghníomhaire, rud atá dodhéanta freisin, de réir sainmhínithe, i bparaidím an ES.

Mar sin, cén fáth nach gcuirfí le chéile iad?

Is dócha go bhfágann cuid mhór den alt seo an tuiscint go bhfuil modhanna RL á mholadh agam. Mar sin féin, is dóigh liom i ndáiríre gurb é an réiteach is fearr san fhadtréimhse ná an dá mhodh a chomhcheangal, ionas go n-úsáidtear gach ceann acu sna cásanna is fearr a oireann dó. Ar ndóigh, i gcás go leor beartas imoibríoch nó i gcásanna ina bhfuil comharthaí an-bheag de atreisiú dearfach, bíonn an bua ag an ES, go háirithe má tá an chumhacht ríomhaireachta ar fáil duit ar a bhféadfaidh tú oiliúint chomhthreomhar ollmhór a rith. Ar an láimh eile, beidh modhanna grádáin ina n-úsáidtear foghlaim athneartaithe nó foghlaim faoi mhaoirseacht úsáideach nuair a bhíonn rochtain againn ar aiseolas fairsing agus nuair a theastaíonn uainn foghlaim conas fadhb a réiteach go tapa agus le níos lú sonraí.

Ag casadh ar nádúr, feicimid go leagann an chéad mhodh, go bunúsach, an bunús don dara ceann. Sin é an fáth, le linn na héabhlóide, go bhfuil brains forbartha ag mamaigh a ligeann dóibh foghlaim go han-éifeachtach ó chomharthaí casta a thagann ón timpeallacht. Mar sin, tá an cheist fós oscailte. B’fhéidir go gcuideoidh straitéisí éabhlóideacha linn ailtireachtaí éifeachtacha foghlama a chumadh a bheidh úsáideach freisin do mhodhanna foghlama grádáin. Tar éis an tsaoil, tá an réiteach a aimsíonn nádúr an-rathúil go deimhin.

Foinse: will.com

Foghlaim treisithe nó straitéisí éabhlóideacha? - An dá