Hey Habr!
Ní minic a shocraíonn muid aistriúcháin ar théacsanna a bhí dhá bhliain d’aois, gan chód agus go soiléir de nádúr acadúil, a phostáil anseo - ach déanfaimid eisceacht inniu. Tá súil againn go gcuireann an aincheist a bhaineann le teideal an ailt imní ar go leor dár léitheoirí, agus tá an obair bhunúsach ar straitéisí éabhlóideacha léite agat cheana féin lena n-áitíonn an post seo sa bhunleagan nó léifidh tú anois é. Fáilte go dtí an cat!
I mí an Mhárta 2017, rinne OpenAI tonnta sa phobal domhainfhoghlama leis an bpáipéar “
Straitéisí Éabhlóideacha
Ba é príomhthráchtas an pháipéir OpenAI ná, in ionad úsáid a bhaint as foghlaim athneartaithe i dteannta le cúl-leagan traidisiúnta, d’éirigh leo líonra néarúil a oiliúint chun fadhbanna casta a réiteach ag baint úsáide as an rud ar a dtug siad “straitéis éabhlóideach” (ES). Is éard atá i gcur chuige an ES seo dáileadh meáchain ar fud an líonra a chothabháil, ina mbeidh gníomhairí iolracha ag obair go comhthreomhar agus ag baint úsáide as paraiméadair a roghnaíodh ón dáileadh seo. Feidhmíonn gach gníomhaire ina thimpeallacht féin, agus nuair a chríochnaíonn an t-algartam líon sonraithe eipeasóid nó céimeanna d'eachtra, tugann an algartam luach saothair carnach, arna shloinneadh mar scór folláine. Agus an luach seo á chur san áireamh, is féidir dáileadh na bparaiméadar a aistriú i dtreo gníomhairí níos rathúla, ag baint na cinn nach bhfuil chomh rathúil céanna. Trí oibríocht den sórt sin a athdhéanamh na milliúin uaireanta le rannpháirtíocht na gcéadta gníomhairí, is féidir dáileadh meáchain a aistriú go spás a ligfidh do na gníomhairí beartas ardcháilíochta a cheapadh chun an tasc a shanntar dóibh a réiteach. Go deimhin, tá na torthaí a chuirtear i láthair san alt go hiontach: tá sé léirithe má ritheann tú míle gníomhairí ag an am céanna, ansin is féidir locomotion antrapamorfach ar dhá chosa a fhoghlaim i níos lú ná leath uair an chloig (cé go n-éilíonn fiú na modhanna RL is airde a chaitheamh níos mó. ná uair an chloig ar seo). Le haghaidh faisnéise níos mionsonraithe, molaim an scoth a léamh
Straitéisí éagsúla chun siúl antrapamorfach ina seasamh a mhúineadh, staidéar ag baint úsáide as an modh ES ó OpenAI.
Bosca dubh
Is é an buntáiste mór a bhaineann leis an modh seo ná gur féidir é a chomhthreomharú go héasca. Cé go n-éilíonn modhanna RL, ar nós A3C, faisnéis a mhalartú idir snáitheanna oibrithe agus freastalaí paraiméadar, níl ag teastáil ó ES ach meastacháin folláine agus faisnéis maidir le dáileadh paraiméadar ginearálaithe. Is mar gheall ar an simplíocht seo go bhfuil an modh seo i bhfad chun tosaigh ar mhodhanna RL nua-aimseartha i dtéarmaí cumais scálaithe. Mar sin féin, ní thagann sé seo go léir in vain: caithfidh tú an líonra a bharrfheabhsú de réir phrionsabal an bhosca dhubh. Sa chás seo, ciallaíonn an "bosca dubh" go ndéantar neamhaird iomlán ar struchtúr inmheánach an líonra le linn na hoiliúna, agus nach n-úsáidtear ach an toradh foriomlán (luach saothair don eipeasóid), agus braitheann sé air cé acu an ndéanfaidh meáchain líonra áirithe. a bheith le hoidhreacht ag na glúnta ina dhiaidh sin. I gcásanna nach bhfaigheann muid mórán aiseolais ón gcomhshaol - agus i go leor fadhbanna traidisiúnta RL tá sreabhadh na luach saothair an-ghann - téann an fhadhb ó bheith ina "bhosca i bpáirt dubh" go "bosca iomlán dubh." Sa chás seo, is féidir leat táirgiúlacht a mhéadú go suntasach, mar sin, ar ndóigh, tá údar maith le comhréiteach den sórt sin. “Cé a bhfuil grádáin de dhíth orthu má bhíonn siad gan dóchas gan stad ar aon nós?” - is é seo an tuairim ghinearálta.
Mar sin féin, i gcásanna ina mbíonn aiseolas níos gníomhaí, tosaíonn rudaí ag dul in olcas don Ráiteas Timpeallachta. Déanann foireann OpenAI cur síos ar conas a cuireadh oiliúint ar líonra aicmithe simplí MNIST ag baint úsáide as ES, agus an uair seo bhí an oiliúint 1000 uair níos moille. Is é fírinne an scéil go bhfuil an comhartha grádán i rangú íomhá thar a bheith faisnéiseach maidir le conas rangú níos fearr a dhéanamh ar an líonra. Mar sin, tá an fhadhb níos lú leis an teicníc RL agus níos mó le luach saothair gann i dtimpeallachtaí a tháirgeann grádáin torannacha.
Réiteach an dúlra
Má dhéanaimid iarracht foghlaim ó shampla an dúlra, ag smaoineamh ar bhealaí chun AI a fhorbairt, ansin i gcásanna áirithe is féidir smaoineamh ar AI mar
Tar éis scrúdú a dhéanamh ar iompar intleachtúil mamaigh, feicimid go bhfuil sé déanta mar thoradh ar an tionchar casta frithpháirteach ar dhá phróiseas a bhfuil dlúthbhaint acu leis: ag foghlaim ó thaithí daoine eile и ag foghlaim trí dhéanamh. Is minic a bhíonn an chéad cheann comhionann le héabhlóid arna thiomáint ag roghnú nádúrtha, ach anseo bainim úsáid as téarma níos leithne chun epigenetics, micribhithóim, agus meicníochtaí eile a chur san áireamh a chuireann ar chumas na n-eispéiris a roinnt idir orgánaigh ghéiniteacha nach mbaineann leo. Is é an dara próiseas, ag foghlaim ó thaithí, an fhaisnéis go léir a bhainistíonn ainmhí a fhoghlaim ar feadh a shaoil, agus déantar an fhaisnéis seo a chinneadh go díreach ag idirghníomhú an ainmhí seo leis an domhan lasmuigh. Áirítear sa chatagóir seo gach rud ó fhoghlaim go rudaí a aithint go máistreacht a fháil ar an gcumarsáid is gné dhílis den phróiseas foghlama.
Go garbh, is féidir an dá phróiseas seo a tharlaíonn sa nádúr a chur i gcomparáid le dhá rogha chun líonraí néaracha a bharrfheabhsú. Tagann straitéisí éabhlóideacha, ina n-úsáidtear faisnéis faoi ghrádáin chun faisnéis faoin orgánach a nuashonrú, gar don fhoghlaim ó thaithí daoine eile. Mar an gcéanna, tá modhanna grádáin, nuair a bhíonn athrú amháin nó eile ar iompar an ghníomhaire mar thoradh ar thaithí amháin nó eile a fháil, inchomparáide le foghlaim ó thaithí an duine féin. Má smaoinímid ar na cineálacha iompair chliste nó cumais a fhorbraíonn gach ceann den dá chur chuige seo in ainmhithe, éiríonn an chomparáid níos suntasaí. Sa dá chás, cuireann “modhanna éabhlóideacha” staidéar ar iompraíochtaí imoibríocha chun cinn a ligeann do dhuine aclaíocht áirithe a fhorbairt (dóthain chun fanacht beo). I go leor cásanna tá foghlaim conas siúl nó éalú ó bhraighdeanas comhionann le hiompraíochtaí níos “intleachtúla” atá “crua-sreangaithe” i go leor ainmhithe ag an leibhéal géiniteach. Ina theannta sin, deimhníonn an sampla seo go bhfuil modhanna éabhlóideacha infheidhme i gcásanna ina bhfuil an comhartha luach saothair fíor-annamh (mar shampla, an bhfíric go n-ardaítear leanbh go rathúil). I gcás den sórt sin, ní féidir an luach saothair a chomhghaolú le haon tacar sonrach gníomhaíochtaí a d’fhéadfadh a bheith déanta blianta fada sular tharla an méid sin. Ar an láimh eile, má bhreithnímid cás ina dteipeann ar ES, is é sin aicmiú íomhá, tá na torthaí inchomparáide go mór leis na torthaí ar fhoghlaim ainmhithe a baineadh amach i líon turgnaimh shíceolaíocha iompraíochta a rinneadh thar 100 bliain níos mó.
Foghlaim ó Ainmhithe
Tógtar na modhanna a úsáidtear san fhoghlaim athneartaithe i mórán cásanna go díreach ón litríocht shíceolaíoch ar aghaidh
Athraíonn ról lárnach an tuar i bhfoghlaim ó thaithí na dinimic a gcuirtear síos orthu thuas ar bhealaí suntasacha. An comhartha a measadh roimhe seo an-ghann (luach saothair eipeasóideach) casadh amach a bheith an-dlúth. Go teoiriciúil, is é an cás rud éigin mar seo: ag aon am ar leith, tá inchinn an mhamach ag ríomh torthaí bunaithe ar shruth casta spreagthaí céadfacha agus gníomhartha, cé go bhfuil an t-ainmhí tumtha go simplí sa sruth seo. Sa chás seo, tugann iompar deiridh an ainmhí comhartha láidir a chaithfear a úsáid chun coigeartú réamhaisnéisí agus forbairt iompair a threorú. Úsáideann an inchinn na comharthaí seo go léir chun réamhaisnéisí a bharrfheabhsú (agus, dá réir sin, cáilíocht na ngníomhartha a dhéantar) sa todhchaí. Tá forbhreathnú ar an gcur chuige seo tugtha sa leabhar iontach “
Oiliúint níos saibhre ar líonraí néarúla
Ag tógáil ar phrionsabail na gníomhaíochta néaracha níos airde atá mar chuid dhílis den inchinn mhamach, atá i gcónaí gnóthach ag déanamh tuar, rinneadh dul chun cinn le déanaí i bhfoghlaim athneartaithe, a chuireann san áireamh anois an tábhacht a bhaineann le tuar den sórt sin. Is féidir liom dhá shaothar dá samhail a mholadh láithreach duit:
Sa dá pháipéar seo, cuireann na húdair le gnáthbheartas réamhshocraithe a líonraí néaracha le torthaí réamh-mheastacháin ar staid an chomhshaoil sa todhchaí. Sa chéad alt, cuirtear réamhaisnéis i bhfeidhm ar éagsúlacht athróg tomhais, agus sa dara ceann, cuirtear réamhaisnéis i bhfeidhm ar athruithe ar an gcomhshaol agus ar iompar an ghníomhaire mar sin. Sa dá chás, éiríonn an comhartha gann a bhaineann le hathneartú dearfach i bhfad níos saibhre agus níos faisnéiseach, rud a fhágann gur féidir foghlaim níos tapúla agus iompraíochtaí níos casta a fháil. Níl feabhsuithe den sórt sin ar fáil ach amháin le modhanna a úsáideann comhartha grádáin, agus ní le modhanna a fheidhmíonn ar phrionsabal “bosca dubh”, mar ES.
Ina theannta sin, tá foghlaim ó thaithí agus modhanna grádáin i bhfad níos éifeachtaí. Fiú i gcásanna inar féidir staidéar a dhéanamh ar fhadhb ar leith ag baint úsáide as an modh ES níos tapúla ná úsáid a bhaint as foghlaim athneartaithe, baineadh an gnóthachan amach toisc go raibh i bhfad níos mó sonraí i gceist leis an straitéis ES ná mar a bhí le RL. Ag machnamh sa chás seo ar phrionsabail na foghlama in ainmhithe, tugaimid faoi deara go dtagann toradh na foghlama ó shampla duine eile chun cinn tar éis na nglún go leor, agus uaireanta is leor imeacht amháin a bhfuil taithí aige ann féin chun an t-ainmhí a fhoghlaim go deo. Cé gur mhaith
Mar sin, cén fáth nach gcuirfí le chéile iad?
Is dócha go bhfágann cuid mhór den alt seo an tuiscint go bhfuil modhanna RL á mholadh agam. Mar sin féin, is dóigh liom i ndáiríre gurb é an réiteach is fearr san fhadtréimhse ná an dá mhodh a chomhcheangal, ionas go n-úsáidtear gach ceann acu sna cásanna is fearr a oireann dó. Ar ndóigh, i gcás go leor beartas imoibríoch nó i gcásanna ina bhfuil comharthaí an-bheag de atreisiú dearfach, bíonn an bua ag an ES, go háirithe má tá an chumhacht ríomhaireachta ar fáil duit ar a bhféadfaidh tú oiliúint chomhthreomhar ollmhór a rith. Ar an láimh eile, beidh modhanna grádáin ina n-úsáidtear foghlaim athneartaithe nó foghlaim faoi mhaoirseacht úsáideach nuair a bhíonn rochtain againn ar aiseolas fairsing agus nuair a theastaíonn uainn foghlaim conas fadhb a réiteach go tapa agus le níos lú sonraí.
Ag casadh ar nádúr, feicimid go leagann an chéad mhodh, go bunúsach, an bunús don dara ceann. Sin é an fáth, le linn na héabhlóide, go bhfuil brains forbartha ag mamaigh a ligeann dóibh foghlaim go han-éifeachtach ó chomharthaí casta a thagann ón timpeallacht. Mar sin, tá an cheist fós oscailte. B’fhéidir go gcuideoidh straitéisí éabhlóideacha linn ailtireachtaí éifeachtacha foghlama a chumadh a bheidh úsáideach freisin do mhodhanna foghlama grádáin. Tar éis an tsaoil, tá an réiteach a aimsíonn nádúr an-rathúil go deimhin.
Foinse: will.com