Dysgu atgyfnerthu neu strategaethau esblygiadol? — Y ddau

Hei Habr!

Nid ydym yn aml yn penderfynu postio yma gyfieithiadau o destunau a oedd yn ddwy flwydd oed, heb god ac yn amlwg o natur academaidd - ond heddiw byddwn yn gwneud eithriad. Gobeithiwn fod y cyfyng-gyngor a geir yn nheitl yr erthygl yn poeni llawer o’n darllenwyr, ac rydych eisoes wedi darllen y gwaith sylfaenol ar strategaethau esblygiadol y mae’r post hwn yn dadlau â nhw yn y gwreiddiol neu y byddwch yn ei ddarllen nawr. Croeso i'r gath!

Dysgu atgyfnerthu neu strategaethau esblygiadol? — Y ddau

Ym mis Mawrth 2017, gwnaeth OpenAI donnau yn y gymuned ddysgu ddwfn gyda'r papur “Strategaethau Esblygiad fel Dewis Amgen Graddadwy yn lle Dysgu Atgyfnerthu" Disgrifiodd y gwaith hwn ganlyniadau trawiadol o blaid y ffaith nad yw dysgu atgyfnerthu (RL) wedi dod yn lletem, ac wrth hyfforddi rhwydweithiau niwral cymhleth, fe'ch cynghorir i roi cynnig ar ddulliau eraill. Yna dechreuodd dadl ynghylch pwysigrwydd dysgu atgyfnerthu a pha mor deilwng o’i statws fel technoleg “rhaid ei chael” ar gyfer addysgu datrys problemau. Yma rwyf am ddweud na ddylid ystyried y ddwy dechnoleg hon fel rhai sy'n cystadlu, ac mae un ohonynt yn amlwg yn well na'r llall; i'r gwrthwyneb, maent yn y pen draw yn ategu ei gilydd. Yn wir, os ydych chi'n meddwl ychydig am yr hyn sydd ei angen i'w greu AI cyffredinol a systemau o'r fath, a fyddai drwy gydol eu bodolaeth yn gallu dysgu, barnu a chynllunio, mae bron yn sicr y byddwn yn dod i'r casgliad y bydd angen y datrysiad hwn neu'r datrysiad cyfunol hwnnw. Gyda llaw, yr union ateb cyfun hwn y daeth natur iddo, a gynysgaeddodd famaliaid ac anifeiliaid uwch eraill â deallusrwydd cymhleth yn ystod esblygiad.

Strategaethau Esblygiadol

Prif draethawd ymchwil papur OpenAI oedd eu bod, yn hytrach na defnyddio dysgu atgyfnerthu wedi'i gyfuno â lluosogi cefn traddodiadol, wedi hyfforddi rhwydwaith niwral yn llwyddiannus i ddatrys problemau cymhleth gan ddefnyddio'r hyn a elwir yn “strategaeth esblygiadol” (ES). Mae'r dull ES hwn yn cynnwys cynnal dosbarthiad pwysau ar draws y rhwydwaith, gan gynnwys asiantau lluosog yn gweithio ochr yn ochr a defnyddio paramedrau a ddewiswyd o'r dosbarthiad hwn. Mae pob asiant yn gweithredu yn ei amgylchedd ei hun, ac ar ôl cwblhau nifer penodol o episodau neu gamau o episod, mae'r algorithm yn dychwelyd gwobr gronnol, wedi'i fynegi fel sgôr ffitrwydd. Gan gymryd y gwerth hwn i ystyriaeth, gellir symud dosbarthiad y paramedrau tuag at asiantau mwy llwyddiannus, gan amddifadu rhai llai llwyddiannus. Trwy ailadrodd gweithrediad o'r fath filiynau o weithiau gyda chyfranogiad cannoedd o asiantau, mae'n bosibl symud y dosbarthiad pwysau i ofod a fydd yn caniatáu i'r asiantau lunio polisi o ansawdd uchel ar gyfer datrys y dasg a roddwyd iddynt. Yn wir, mae'r canlyniadau a gyflwynir yn yr erthygl yn drawiadol: dangosir, os ydych chi'n rhedeg mil o asiantau ochr yn ochr, yna gellir dysgu symudiad anthropomorffig ar ddwy goes mewn llai na hanner awr (tra bod hyd yn oed y dulliau RL mwyaf datblygedig yn gofyn am wario mwy nag awr ar hyn). Am wybodaeth fanylach, rwy'n argymell darllen y rhagorol post gan awduron yr arbrawf, yn ogystal â erthygl wyddonol.

Dysgu atgyfnerthu neu strategaethau esblygiadol? — Y ddau

Strategaethau gwahanol ar gyfer addysgu cerdded unionsyth anthropomorffig, wedi'u hastudio gan ddefnyddio'r dull ES gan OpenAI.

Blwch du

Mantais fawr y dull hwn yw y gellir ei gyfochrog yn hawdd. Er bod dulliau RL, fel A3C, yn mynnu bod gwybodaeth yn cael ei chyfnewid rhwng edafedd gweithwyr a gweinydd paramedr, dim ond amcangyfrifon ffitrwydd a gwybodaeth dosbarthiad paramedr cyffredinol sydd eu hangen ar ES. Oherwydd y symlrwydd hwn, mae'r dull hwn ymhell ar y blaen i ddulliau RL modern o ran galluoedd graddio. Fodd bynnag, nid yw hyn i gyd yn ofer: mae'n rhaid i chi wneud y gorau o'r rhwydwaith yn unol ag egwyddor y blwch du. Yn yr achos hwn, mae'r "blwch du" yn golygu bod strwythur mewnol y rhwydwaith yn cael ei anwybyddu'n llwyr yn ystod yr hyfforddiant, a dim ond y canlyniad cyffredinol (gwobr am y bennod) a ddefnyddir, ac mae'n dibynnu a fydd pwysau rhwydwaith penodol yn digwydd. gael ei etifeddu gan genedlaethau dilynol. Mewn sefyllfaoedd lle nad ydym yn derbyn llawer o adborth gan yr amgylchedd - ac mewn llawer o broblemau RL traddodiadol mae llif y gwobrau yn denau iawn - mae'r broblem yn mynd o fod yn "blwch rhannol ddu" i fod yn "blwch cwbl ddu." Yn yr achos hwn, gallwch gynyddu cynhyrchiant yn sylweddol, felly, wrth gwrs, gellir cyfiawnhau cyfaddawd o'r fath. “Pwy sydd angen graddiannau os ydyn nhw'n anobeithiol o swnllyd beth bynnag?” - dyma'r farn gyffredinol.

Fodd bynnag, mewn sefyllfaoedd lle mae adborth yn fwy gweithredol, mae pethau'n dechrau mynd o chwith i'r DA. Mae tîm OpenAI yn disgrifio sut y cafodd rhwydwaith dosbarthu MNIST syml ei hyfforddi gan ddefnyddio ES, a'r tro hwn roedd yr hyfforddiant 1000 gwaith yn arafach. Y ffaith yw bod y signal graddiant mewn dosbarthiad delwedd yn hynod addysgiadol ynglŷn â sut i ddysgu dosbarthiad gwell i'r rhwydwaith. Felly, mae'r broblem yn llai gyda'r dechneg RL ac yn fwy gyda gwobrau prin mewn amgylcheddau sy'n cynhyrchu graddiannau swnllyd.

Ateb natur

Os ceisiwn ddysgu o esiampl natur, gan feddwl am ffyrdd o ddatblygu AI, yna mewn rhai achosion gellir meddwl am AI fel ymagwedd sy'n canolbwyntio ar broblemau. Wedi'r cyfan, mae natur yn gweithredu o fewn cyfyngiadau nad oes gan wyddonwyr cyfrifiadurol. Mae yna farn y gall dull cwbl ddamcaniaethol o ddatrys problem benodol ddarparu atebion mwy effeithiol na dewisiadau empirig eraill. Fodd bynnag, rwy'n dal i feddwl y byddai'n werth profi sut mae system ddeinamig sy'n gweithredu o dan rai cyfyngiadau (y Ddaear) wedi cynhyrchu cyfryngau (anifeiliaid, yn enwedig mamaliaid) sy'n gallu ymddwyn yn hyblyg a chymhleth. Er nad yw rhai o'r cyfyngiadau hyn yn berthnasol mewn bydoedd gwyddor data efelychiedig, mae eraill yn iawn.

Ar ôl archwilio ymddygiad deallusol mamaliaid, gwelwn ei fod yn cael ei ffurfio o ganlyniad i ddylanwad cymhleth dwy broses gydberthnasol agos: dysgu o brofiadau pobl eraill и dysgu trwy wneud. Mae'r cyntaf yn aml yn cyfateb i esblygiad a yrrir gan ddetholiad naturiol, ond yma rwy'n defnyddio term ehangach i ystyried epigeneteg, microbiomau, a mecanweithiau eraill sy'n galluogi rhannu profiadau rhwng organebau nad ydynt yn perthyn yn enetig. Yr ail broses, dysgu o brofiad, yw'r holl wybodaeth y mae anifail yn llwyddo i'w dysgu trwy gydol ei oes, ac mae'r wybodaeth hon yn cael ei phennu'n uniongyrchol gan ryngweithio'r anifail hwn â'r byd y tu allan. Mae'r categori hwn yn cynnwys popeth o ddysgu i adnabod gwrthrychau i feistroli'r cyfathrebu sy'n gynhenid ​​yn y broses ddysgu.

Yn fras, gellir cymharu'r ddwy broses hon sy'n digwydd ym myd natur â dau opsiwn ar gyfer optimeiddio rhwydweithiau niwral. Mae strategaethau esblygiadol, lle defnyddir gwybodaeth am raddiannau i ddiweddaru gwybodaeth am yr organeb, yn agos at ddysgu o brofiad pobl eraill. Yn yr un modd, mae dulliau graddiant, lle mae cael profiad neu brofiad arall yn arwain at newid neu newid arall yn ymddygiad yr asiant, yn debyg i ddysgu o'ch profiad eich hun. Os meddyliwn am y mathau o ymddygiad neu alluoedd deallus y mae pob un o'r ddau ddull hyn yn eu datblygu mewn anifeiliaid, daw'r gymhariaeth yn fwy amlwg. Yn y ddau achos, mae “dulliau esblygiadol” yn hyrwyddo astudiaeth o ymddygiadau adweithiol sy'n caniatáu i rywun ddatblygu ffitrwydd penodol (digon i aros yn fyw). Mae dysgu cerdded neu ddianc o gaethiwed mewn llawer o achosion yn cyfateb i ymddygiadau mwy “reddfol” sy’n “gwifredig” mewn llawer o anifeiliaid ar y lefel enetig. Yn ogystal, mae'r enghraifft hon yn cadarnhau bod dulliau esblygiadol yn berthnasol mewn achosion lle mae'r signal gwobr yn hynod o brin (er enghraifft, y ffaith o fagu babi yn llwyddiannus). Mewn achos o'r fath, mae'n amhosibl cydberthyn y wobr ag unrhyw set benodol o gamau gweithredu a allai fod wedi'u cyflawni flynyddoedd lawer cyn i'r ffaith hon ddigwydd. Ar y llaw arall, os ydym yn ystyried achos lle mae ES yn methu, sef dosbarthiad delwedd, mae'r canlyniadau'n hynod debyg i ganlyniadau dysgu anifeiliaid a gyflawnwyd mewn arbrofion seicolegol ymddygiad di-rif a gynhaliwyd dros 100 mlynedd a mwy.

Dysgu oddi wrth Anifeiliaid

Mae'r dulliau a ddefnyddir mewn dysgu atgyfnerthu mewn llawer o achosion wedi'u cymryd yn uniongyrchol o'r llenyddiaeth seicolegol ymlaen cyflyru gweithredol, ac astudiwyd cyflyru gweithredol gan ddefnyddio seicoleg anifeiliaid. Gyda llaw, mae gan Richard Sutton, un o ddau sylfaenydd dysgu atgyfnerthu, radd baglor mewn seicoleg. Yng nghyd-destun cyflyru gweithredol, mae anifeiliaid yn dysgu cysylltu gwobr neu gosb â phatrymau ymddygiad penodol. Gall hyfforddwyr ac ymchwilwyr drin y gymdeithas wobrwyo hon mewn un ffordd neu'r llall, gan ysgogi anifeiliaid i ddangos deallusrwydd neu ymddygiadau penodol. Fodd bynnag, nid yw cyflyru gweithredol, fel y'i defnyddir mewn ymchwil anifeiliaid, yn ddim mwy na ffurf amlycach o'r un cyflyru ar sail y mae anifeiliaid yn dysgu trwy gydol eu hoes. Rydym yn gyson yn derbyn signalau o atgyfnerthu cadarnhaol gan yr amgylchedd ac yn addasu ein hymddygiad yn unol â hynny. Mewn gwirionedd, mae llawer o niwrowyddonwyr a gwyddonwyr gwybyddol yn credu bod bodau dynol ac anifeiliaid eraill mewn gwirionedd yn gweithredu ar lefel uwch fyth ac yn dysgu'n barhaus i ragweld canlyniad eu hymddygiad mewn sefyllfaoedd yn y dyfodol yn seiliedig ar wobrau posibl.

Mae rôl ganolog rhagfynegi wrth ddysgu o brofiad yn newid y ddeinameg a ddisgrifir uchod mewn ffyrdd arwyddocaol. Mae'r signal a ystyriwyd yn denau iawn yn flaenorol (gwobr episodig) yn troi allan i fod yn drwchus iawn. Yn ddamcaniaethol, mae'r sefyllfa yn rhywbeth fel hyn: ar unrhyw adeg benodol, mae ymennydd y mamaliaid yn cyfrifo canlyniadau yn seiliedig ar ffrwd gymhleth o ysgogiadau a gweithredoedd synhwyraidd, tra bod yr anifail yn cael ei drochi yn y llif hwn. Yn yr achos hwn, mae ymddygiad terfynol yr anifail yn rhoi arwydd cryf y mae'n rhaid ei ddefnyddio i arwain addasu rhagolygon a datblygiad ymddygiad. Mae'r ymennydd yn defnyddio'r holl arwyddion hyn er mwyn gwneud y gorau o ragolygon (ac, yn unol â hynny, ansawdd y camau a gymerir) yn y dyfodol. Rhoddir trosolwg o'r dull hwn yn y llyfr rhagorol “Ansicrwydd Syrffio” gwyddonydd gwybyddol ac athronydd Andy Clark. Os ydym yn allosod rhesymu o'r fath i hyfforddi asiantau artiffisial, yna datgelir diffyg sylfaenol mewn dysgu atgyfnerthu: mae'r signal a ddefnyddir yn y patrwm hwn yn anobeithiol o wan o'i gymharu â'r hyn y gallai fod (neu y dylai fod). Mewn achosion lle mae'n amhosibl cynyddu dirlawnder y signal (efallai oherwydd ei fod yn gynhenid ​​wan neu'n gysylltiedig ag adweithedd lefel isel), mae'n debyg ei bod yn well ffafrio dull hyfforddi sydd wedi'i gyfochrog yn dda, er enghraifft, ES.

Hyfforddiant cyfoethocach o rwydweithiau niwral

Gan adeiladu ar egwyddorion gweithgaredd niwral uwch sy'n gynhenid ​​​​yn yr ymennydd mamalaidd, sy'n brysur yn gwneud rhagfynegiadau yn gyson, mae datblygiadau diweddar wedi'u gwneud mewn dysgu atgyfnerthu, sydd bellach yn ystyried pwysigrwydd rhagfynegiadau o'r fath. Gallaf argymell dau waith tebyg ichi ar unwaith:

Yn y ddau bapur hyn, mae'r awduron yn ategu polisi rhagosodedig nodweddiadol eu rhwydweithiau niwral gyda chanlyniadau rhagfynegi am gyflwr yr amgylchedd yn y dyfodol. Yn yr erthygl gyntaf, cymhwysir rhagolygon i amrywiaeth o newidynnau mesur, ac yn yr ail, cymhwysir rhagolygon i newidiadau yn yr amgylchedd ac ymddygiad yr asiant fel y cyfryw. Yn y ddau achos, mae'r signal tenau sy'n gysylltiedig ag atgyfnerthu cadarnhaol yn dod yn llawer cyfoethocach ac yn fwy addysgiadol, gan ganiatáu ar gyfer dysgu cyflymach a chaffael ymddygiadau mwy cymhleth. Dim ond gyda dulliau sy'n defnyddio signal graddiant y mae gwelliannau o'r fath ar gael, ac nid gyda dulliau sy'n gweithredu ar egwyddor “blwch du”, fel ES.

Yn ogystal, mae dysgu o brofiad a dulliau graddiant yn llawer mwy effeithiol. Hyd yn oed mewn achosion lle'r oedd modd astudio problem benodol gan ddefnyddio'r dull ES yn gyflymach na defnyddio dysgu atgyfnerthu, cyflawnwyd y cynnydd oherwydd bod y strategaeth ES yn cynnwys llawer mwy o ddata nag ag RL. Wrth fyfyrio yn yr achos hwn ar egwyddorion dysg mewn anifeiliaid, nodwn fod canlyniad dysg o esiampl rhywun arall yn amlygu ei hun ar ôl cenedlaethau lawer, tra bod un digwyddiad a brofir ynddo'i hun weithiau yn ddigon i'r anifail ddysgu'r wers am byth. Tra fel hyfforddiant heb enghreifftiau Er nad yw'n cyd-fynd yn union â dulliau graddiant traddodiadol, mae'n llawer mwy dealladwy nag ES. Mae yna, er enghraifft, ymagweddau fel rheolaeth episodig niwral, lle mae gwerthoedd Q yn cael eu storio yn ystod hyfforddiant, ac ar ôl hynny mae'r rhaglen yn eu gwirio cyn cymryd camau. Y canlyniad yw dull graddiant sy'n eich galluogi i ddysgu sut i ddatrys problemau yn gynt o lawer nag o'r blaen. Mewn erthygl ar reolaeth episodig niwral, mae'r awduron yn sôn am yr hippocampus dynol, sy'n gallu cadw gwybodaeth am ddigwyddiad hyd yn oed ar ôl un profiad ac, felly, yn chwarae rôl hollbwysig yn y broses o gofio. Mae mecanweithiau o'r fath yn gofyn am fynediad i drefniadaeth fewnol yr asiant, sydd hefyd, trwy ddiffiniad, yn amhosibl yn y patrwm ES.

Felly, beth am eu cyfuno?

Mae'n debygol y gallai llawer o'r erthygl hon adael yr argraff fy mod yn argymell dulliau RL. Fodd bynnag, credaf mewn gwirionedd mai'r ateb gorau yn y tymor hir yw cyfuno'r ddau ddull fel bod pob un yn cael ei ddefnyddio yn y sefyllfaoedd y mae'n fwyaf addas ar eu cyfer. Yn amlwg, yn achos llawer o bolisïau adweithiol neu mewn sefyllfaoedd lle mae arwyddion prin iawn o atgyfnerthu cadarnhaol, mae'r ES yn ennill, yn enwedig os oes gennych chi'r pŵer cyfrifiadurol sydd ar gael ichi y gallwch chi redeg hyfforddiant hynod gyfochrog arno. Ar y llaw arall, bydd dulliau graddiant sy'n defnyddio dysgu atgyfnerthu neu ddysgu dan oruchwyliaeth yn ddefnyddiol pan fydd gennym fynediad at adborth helaeth ac mae angen inni ddysgu sut i ddatrys problem yn gyflym a chyda llai o ddata.

Gan droi at natur, cawn fod y dull cyntaf, yn ei hanfod, yn gosod y sylfaen i'r ail. Dyna pam, yn ystod esblygiad, mae mamaliaid wedi datblygu ymennydd sy'n caniatáu iddynt ddysgu'n hynod effeithiol o signalau cymhleth sy'n dod o'r amgylchedd. Felly, mae'r cwestiwn yn parhau i fod yn agored. Efallai y bydd strategaethau esblygiadol yn ein helpu i ddyfeisio saernïaeth ddysgu effeithiol a fydd hefyd yn ddefnyddiol ar gyfer dulliau dysgu graddiant. Wedi'r cyfan, mae'r ateb a ddarganfuwyd gan natur yn wir yn llwyddiannus iawn.

Ffynhonnell: hab.com

Ychwanegu sylw