Hoʻoikaika i ke aʻo ʻana a i ʻole nā ​​hoʻolālā evolutionary? - ʻelua

E Habr!

ʻAʻole mākou e hoʻoholo pinepine e kau ma ʻaneʻi i nā unuhi o nā kikokikona i piha i ʻelua makahiki, me ka ʻole o ke code a me ke ʻano hoʻonaʻauao - akā i kēia lā e hana mākou i kahi ʻokoʻa. Manaʻo mākou ua hopohopo ka pilikia i ka poʻo o ka ʻatikala i ka nui o kā mākou poʻe heluhelu, a ua heluhelu mua ʻoe i ka hana koʻikoʻi e pili ana i nā hoʻolālā evolutionary e hoʻopaʻapaʻa ai kēia pou i ka mea mua a i ʻole e heluhelu ʻia i kēia manawa. Welina mai i ka pōpoki!

Hoʻoikaika i ke aʻo ʻana a i ʻole nā ​​hoʻolālā evolutionary? - ʻelua

I Malaki 2017, ua hana ʻo OpenAI i nā nalu ma ke kaiāulu aʻo hohonu me ka pepa "Evolution Strategy ma ke ʻano he ʻokoʻa hiki ke hoʻonui ʻia i ka hoʻoikaika ʻana i ke aʻo ʻana.” Ua wehewehe kēia hana i nā hopena maikaʻi loa no ka ʻoiaʻiʻo ʻaʻole i lilo ka hoʻoikaika ʻana i ke aʻo ʻana (RL), a i ka wā e aʻo ai i nā neural network paʻakikī, pono e hoʻāʻo i nā ʻano hana ʻē aʻe. Ua hū aʻe ka hoʻopaʻapaʻa e pili ana i ke koʻikoʻi o ka hoʻoikaika ʻana i ke aʻo ʻana a me ke kūpono o kona kūlana ma ke ʻano he ʻenehana "pono" no ke aʻo ʻana i ka hoʻoponopono pilikia. Maanei, makemake wau e ʻōlelo ʻaʻole pono e manaʻo ʻia kēia mau ʻenehana ʻelua he hoʻokūkū, ʻoi aku ka maikaʻi o kekahi ma mua o kekahi; akā, hoʻokō lākou i kekahi i kekahi. ʻOiaʻiʻo, inā ʻoe e noʻonoʻo iki i ka mea e pono ai e hana nui AI a me nā ʻōnaehana like ʻole, i hiki i ko lākou ola ʻana ke aʻo, hoʻoholo a hoʻolālā, a laila ʻaneʻane hiki mākou i ka hopena e koi ʻia kēia a i ʻole ka hopena hui. Ma ke ala, ʻo ia ka hopena i hui pū ʻia i hiki mai ke ʻano, nāna i hāʻawi i nā mammals a me nā holoholona ʻē aʻe me ka naʻauao paʻakikī i ka wā o ka evolution.

Nā Kūlana Kūlana

ʻO ka thesis nui o ka pepa OpenAI, ʻo ia, ma kahi o ka hoʻohana ʻana i ke aʻo hoʻoikaika i hui pū ʻia me ka backpropagation kuʻuna, ua hoʻomaʻamaʻa maikaʻi lākou i kahi pūnaewele neural e hoʻoponopono i nā pilikia paʻakikī me ka hoʻohana ʻana i ka mea i kapa ʻia he "hoʻolālā evolutionary" (ES). Aia kēia ʻano ES i ka mālama ʻana i ka puʻunaue ākea o nā paona, e pili ana i nā mea hana lehulehu e hana like ana a me ka hoʻohana ʻana i nā ʻāpana i koho ʻia mai kēia māhele. Ke hana nei kēlā me kēia ʻelele i kona wahi ponoʻī, a i ka pau ʻana o kahi helu i ʻōlelo ʻia o nā ʻāpana a i ʻole nā ​​​​pae o kahi hanana, e hoʻihoʻi ka algorithm i kahi uku kumulative, i hōʻike ʻia ma ke ʻano he helu hoʻoikaika kino. Ma ka noʻonoʻo ʻana i kēia waiwai, hiki ke hoʻololi ʻia ka puʻunaue ʻana o nā ʻāpana i nā ʻoihana kūleʻa ʻoi aku ka maikaʻi, e hoʻonele ana i nā mea kūleʻa ʻole. Ma ka hana hou ʻana i ia hana he mau miliona mau manawa me ke komo ʻana o nā haneli he nui, hiki ke neʻe i ka hāʻawi ʻana i nā paona i kahi ākea e hiki ai i nā mea hana ke hoʻokumu i kahi kulekele kiʻekiʻe no ka hoʻoponopono ʻana i ka hana i hāʻawi ʻia iā lākou. ʻOiaʻiʻo, he mea kupanaha nā hopena i hōʻike ʻia ma ka ʻatikala: ua hōʻike ʻia inā e holo ʻoe i hoʻokahi kaukani ʻelele i ka like, a laila hiki ke aʻo ʻia ka locomotion anthropomorphic ma nā wāwae ʻelua ma lalo o ka hapalua hola (ʻoiai ʻo nā ʻano hana RL kiʻekiʻe loa e pono ai ka hoʻolilo ʻana i nā mea hou aku. ma mua o hoʻokahi hola ma kēia). No ka ʻike kikoʻī hou aku, paipai wau e heluhelu i ka mea maikaʻi loa leka mai nā mea kākau o ka hoʻokolohua, a me ʻatikala ʻepekema.

Hoʻoikaika i ke aʻo ʻana a i ʻole nā ​​hoʻolālā evolutionary? - ʻelua

Nā hoʻolālā like ʻole no ke aʻo ʻana i ka hele wāwae pololei i ka anthropomorphic, i aʻo ʻia me ka hoʻohana ʻana i ke ala ES mai OpenAI.

Pahu ʻeleʻele

ʻO ka pōmaikaʻi nui o kēia ʻano hana, ʻo ia ka hiki ke hoʻohālikelike maʻalahi. ʻOiai e koi ana nā ʻano RL, e like me A3C, e hoʻololi ʻia ka ʻike ma waena o nā kaula hana a me kahi server parameter, pono wale nō ʻo ES i nā koho hoʻoikaika kino a me ka ʻike hoʻohele ākea. Ma muli o kēia maʻalahi, ʻoi aku ka lōʻihi o kēia ʻano ma mua o nā ʻano RL hou e pili ana i ka hiki ke hoʻonui. Eia naʻe, ʻaʻole hele hewa kēia mau mea: pono ʻoe e hoʻomaikaʻi i ka pūnaewele e like me ke kumu o ka pahu ʻeleʻele. I kēia hihia, ʻo ka "pahu ʻeleʻele" ʻo ia ka mea i ka wā o ka hoʻomaʻamaʻa ʻana i ke ʻano o loko o ka pūnaewele i mālama ʻole ʻia, a ʻo ka hopena holoʻokoʻa wale nō (ka uku no ka episode) ke hoʻohana ʻia, a e hilinaʻi ʻia ia inā e paʻa nā paona o kahi pūnaewele. e hoʻoili ʻia e nā hanauna ma hope. Ma nā kūlana kahi i loaʻa ʻole ai iā mākou nā manaʻo nui mai ke kaiapuni-a i nā pilikia RL kuʻuna he kakaʻikahi loa ke kahe o nā uku-ʻo ka pilikia mai ka "pahu ʻeleʻele hapa" a i ka "pahu ʻeleʻele piha." I kēia hihia, hiki iā ʻoe ke hoʻonui nui i ka huahana, no laila, ʻoiaʻiʻo, ua ʻāpono ʻia kēlā ʻano kuʻikahi. "ʻO wai ka mea e pono ai i nā gradients inā he walaʻau lākou?" - ʻo kēia ka manaʻo nui.

Eia nō naʻe, i nā kūlana i ʻoi aku ka ikaika o ka manaʻo, hoʻomaka nā mea e hele hewa no ka ES. Hōʻike ka hui OpenAI i ke ʻano o ka hoʻomaʻamaʻa ʻana i kahi pūnaewele hoʻohālikelike MNIST maʻalahi me ka hoʻohana ʻana iā ES, a i kēia manawa ua 1000 mau manawa ʻoi aku ka lohi. ʻO ka ʻoiaʻiʻo, ʻo ka hōʻailona gradient i ka hoʻokaʻawale kiʻi he mea ʻike nui e pili ana i ke aʻo ʻana i ka ʻoihana ʻoi aku ka maikaʻi. No laila, emi ka pilikia me ka ʻenehana RL a ʻoi aku ka nui me nā uku liʻiliʻi i nā kaiapuni e hoʻopuka i nā gradient walaʻau.

ʻO ka hoʻonā kūlohelohe

Inā mākou e hoʻāʻo e aʻo mai ka laʻana o ke ʻano, e noʻonoʻo ana i nā ala e hoʻomohala ai i AI, a laila i kekahi mau manawa hiki ke noʻonoʻo ʻia ʻo AI. pili pili i ka pilikia. Ma hope o nā mea a pau, hana ke ʻano i loko o nā kaohi i loaʻa ʻole i ka poʻe ʻepekema kamepiula. Aia kekahi manaʻo e hiki ke hāʻawi i nā hoʻonā ʻoi aku ka maikaʻi ma mua o nā koho empirical. Eia naʻe, ke manaʻo nei au he mea pono ke hoʻāʻo i ka hana ʻana o kahi ʻōnaehana hoʻoikaika ma lalo o kekahi mau kaohi (ka Honua) i hana i nā mea hana (holoholona, ​​ʻoi aku nā mammals) hiki ke hana maʻalahi a paʻakikī. ʻOiai ʻaʻole pili kekahi o kēia mau kaohi i nā honua ʻepekema data simulated, maikaʻi wale kekahi.

Ma ka nānā ʻana i ka ʻano noʻonoʻo o nā mammals, ʻike mākou ua hana ʻia ma muli o ka paʻakikī paʻakikī o nā kaʻina hana pili pili ʻelua: ke aʻo ʻana mai nā mea ʻē aʻe и aʻo ma ka hana ʻana. Hoʻohālikelike pinepine ʻia ka mea mua me ka evolution i alakaʻi ʻia e ke koho kūlohelohe, akā eia wau ke hoʻohana nei i kahi huaʻōlelo ākea e noʻonoʻo i ka epigenetics, microbiomes, a me nā ʻano hana ʻē aʻe e hiki ai ke kaʻana like ʻana i nā ʻike ma waena o nā meaola pili ʻole. ʻO ke kaʻina hana ʻelua, ʻo ke aʻo ʻana mai ka ʻike, ʻo ia nā ʻike āpau a ka holoholona e aʻo ai i kona ola ʻana, a ua hoʻoholo pololei ʻia kēia ʻike e ka pilina o kēia holoholona me ka honua o waho. Aia kēia māhele i nā mea a pau mai ke aʻo ʻana e ʻike i nā mea a hiki i ka hoʻomaʻamaʻa ʻana i ke kamaʻilio i loko o ke kaʻina aʻo.

ʻO ka ʻōlelo koʻikoʻi, hiki ke hoʻohālikelike ʻia kēia mau kaʻina hana ʻelua i ke ʻano me nā koho ʻelua no ka hoʻonui ʻana i nā pūnaewele neural. Nā hoʻolālā evolutionary, kahi e hoʻohana ʻia ai ka ʻike e pili ana i nā gradients e hoʻohou i ka ʻike e pili ana i ke kino, e hoʻokokoke i ke aʻo ʻana mai ka ʻike o nā poʻe ʻē aʻe. Pēlā nō, nā ʻano gradient, kahi e loaʻa ai kekahi ʻike a i ʻole kekahi mea e hoʻololi ai i ka ʻano o ka ʻelele, ua hoʻohālikelike ʻia me ke aʻo ʻana mai ka ʻike ponoʻī. Inā mākou e noʻonoʻo e pili ana i nā ʻano o ka ʻano naʻauao a i ʻole nā ​​​​mana e ulu ai kēlā me kēia o kēia mau ala ʻelua i nā holoholona, ​​​​e ʻoi aku ka nui o ka hoʻohālikelike. Ma nā hihia ʻelua, hoʻolaha nā "ʻano evolutionary" i ke aʻo ʻana i nā ʻano hana e hiki ai i kekahi ke hoʻomohala i kahi kūpono ( lawa e noho ola ai). ʻO ke aʻo ʻana i ka hele wāwae a i ʻole ka pakele ʻana mai ka noho pio ʻana, ua like ia me nā ʻano "naʻau" ʻē aʻe i "hoʻopaʻa ʻia" i nā holoholona he nui ma ka pae genetic. Eia kekahi, hōʻoia kēia laʻana e pili ana nā ʻano evolutionary i nā hihia i loaʻa ʻole ai ka hōʻailona uku (e laʻana, ʻo ka ʻoiaʻiʻo o ka hanai ʻana i kahi pēpē). Ma ia ʻano, ʻaʻole hiki ke hoʻopili i ka uku me nā hana kikoʻī i hana ʻia i nā makahiki he nui ma mua o ka hiki ʻana o kēia ʻoiaʻiʻo. Ma ka ʻaoʻao ʻē aʻe, inā mākou e noʻonoʻo i kahi hihia i hāʻule ʻole ai ka ES, ʻo ia hoʻi ka hoʻohālikelike kiʻi, hoʻohālikelike ʻia nā hopena i nā hopena o ke aʻo ʻana i nā holoholona i loaʻa i nā hoʻokolohua noʻonoʻo ʻano he nui i hana ʻia ma luna o 100 mau makahiki.

Aʻo mai nā Holoholona

ʻO nā ʻano hana i hoʻohana ʻia i ka hoʻoikaika ʻana i ke aʻo ʻana i nā hihia he nui i lawe pololei ʻia mai nā palapala psychological ma hoʻo·kino hoʻopaʻa ʻana, a ua aʻo ʻia ka operant conditioning me ka hoʻohana ʻana i ka psychology holoholona. Ma ke ala, ʻo Richard Sutton, kekahi o nā mea hoʻokumu ʻelua o ka hoʻoikaika ʻana i ke aʻo ʻana, loaʻa ke kēkelē laepua ma ka psychology. I loko o ka pōʻaiapili o ka operant conditioning, aʻo nā holoholona i ka hoʻohui ʻana i ka uku a i ʻole ka hoʻopaʻi me nā hiʻohiʻona ʻano kikoʻī. Hiki i nā mea hoʻomaʻamaʻa a me nā mea noiʻi ke hoʻopunipuni i kēia hui uku ma kekahi ala a i ʻole, e hoʻonāukiuki i nā holoholona e hōʻike i ka naʻauao a i ʻole kekahi mau ʻano. Eia naʻe, ʻo ka operant conditioning, e like me ka mea i hoʻohana ʻia i ka noiʻi holoholona, ​​​​he mea ʻē aʻe ma mua o ke ʻano o ka hoʻohālikelike like ma ke kumu o nā holoholona e aʻo ai i ko lākou ola. Loaʻa iā mākou nā hōʻailona o ka hoʻoikaika maikaʻi ʻana mai ke kaiapuni a hoʻoponopono i kā mākou ʻano e like me ia. ʻO kaʻoiaʻiʻo, nui nā neuroscientists a me nā ʻepekema cognitive e manaʻoʻiʻo nei e hana maoli nā kānaka a me nā holoholona ʻē aʻe i kahi pae kiʻekiʻe aʻe a aʻo mau i ka wānana i ka hopena o kā lākou ʻano i nā kūlana e hiki mai ana ma muli o nā uku kūpono.

ʻO ka hana koʻikoʻi o ka wānana i ke aʻo ʻana mai ka ʻike e hoʻololi i ka dynamics i hōʻike ʻia ma luna ma nā ʻano koʻikoʻi. ʻO ka hōʻailona i manaʻo mua ʻia he liʻiliʻi loa (episodic reward) huli a paʻa loa. ʻO ka manaʻo manaʻo, he mea like kēia: i kēlā me kēia manawa, ke helu nei ka lolo o ka mammal i nā hopena e pili ana i kahi kahawai paʻakikī o nā hoʻoulu ʻana a me nā hana, ʻoiai ua hoʻokomo wale ʻia ka holoholona i kēia kahawai. I kēia hihia, hāʻawi ka hana hope o ka holoholona i kahi hōʻailona ikaika e pono e hoʻohana ʻia e alakaʻi i ka hoʻoponopono ʻana i nā wanana a me ka hoʻomohala ʻana i ka ʻano. Hoʻohana ka lolo i kēia mau hōʻailona a pau i mea e koho ai i nā wānana (a, no laila, ke ʻano o nā hana i hana ʻia) i ka wā e hiki mai ana. Hāʻawi ʻia kahi ʻike o kēia ala ma ka puke maikaʻi loa "Heʻenalu ʻAʻole maopopo” ʻepekema ʻepekema a me ke akeakamai Andy Clark. Inā mākou e hoʻonui i ka noʻonoʻo ʻana i ka hoʻomaʻamaʻa ʻana i nā mea hana hana, a laila ua hōʻike ʻia kahi hemahema nui o ka hoʻoikaika ʻana i ke aʻo ʻana: ʻo ka hōʻailona i hoʻohana ʻia ma kēia paradigm he nāwaliwali loa ke hoʻohālikelike ʻia i ka mea hiki (a i ʻole). I nā hihia kahi hiki ʻole ke hoʻonui i ka saturation hōʻailona (no ka mea he nāwaliwali maoli a pili pū paha me ka reactivity haʻahaʻa haʻahaʻa), ʻoi aku ka maikaʻi o ke koho ʻana i kahi ʻano hoʻomaʻamaʻa i hoʻohālikelike maikaʻi ʻia, no ka laʻana, ES.

ʻOi aku ka maikaʻi o ka hoʻomaʻamaʻa ʻana i nā ʻupena neural

Ke kūkulu nei ma luna o nā loina o ka hana neural kiʻekiʻe i loaʻa i loko o ka lolo mammalian, ka mea e paʻa mau nei i ka hana wānana, ua hana ʻia nā holomua hou i ka hoʻoikaika ʻana i ke aʻo ʻana, i kēia manawa e noʻonoʻo nei i ke koʻikoʻi o ia mau wānana. Hiki iaʻu ke paipai koke iā ʻoe i ʻelua mau hana like:

Ma kēia mau pepa ʻelua, hoʻohui nā mea kākau i ke kulekele maʻamau o kā lākou neural network me nā hopena wānana e pili ana i ke kūlana o ke kaiapuni i ka wā e hiki mai ana. Ma ka ʻatikala mua, hoʻohana ʻia ka wānana i nā ʻano ʻano ana like ʻole, a ma ka lua, pili ka wānana i nā loli o ke kaiapuni a me ke ʻano o ka ʻelele e like me ia. Ma nā hihia ʻelua, ʻoi aku ka waiwai o ka hōʻailona liʻiliʻi e pili ana me ka hoʻoikaika maikaʻi, e ʻae ana i ka wikiwiki o ke aʻo ʻana a me ka loaʻa ʻana o nā ʻano paʻakikī. Loaʻa ia mau hoʻomaikaʻi me nā ʻano hana e hoʻohana ana i kahi hōʻailona gradient, ʻaʻole me nā ʻano hana e hana ana ma ke kumu "pahu ʻeleʻele", e like me ES.

Eia kekahi, ʻoi aku ka maikaʻi o ke aʻo ʻana mai ka ʻike a me nā ʻano gradient. ʻOiai i nā hihia i hiki ke aʻo i kekahi pilikia me ka hoʻohana ʻana i ke ʻano ES ʻoi aku ka wikiwiki ma mua o ka hoʻohana ʻana i ke aʻo hoʻoikaika ʻana, ua loaʻa ka loaʻa ma muli o ka pili ʻana o ka hoʻolālā ES i nā manawa he nui aʻe ma mua o RL. Ma ka noʻonoʻo ʻana i kēia hihia i nā loina o ke aʻo ʻana i nā holoholona, ​​ʻike mākou i ka hopena o ke aʻo ʻana mai ka hiʻohiʻona ʻē aʻe e hōʻike iā ia iho ma hope o nā hanauna he nui, ʻoiai i kekahi manawa kahi hanana hoʻokahi i ʻike ʻia e lawa no ka holoholona e aʻo i ka haʻawina mau loa. ʻOiai like hoʻomaʻamaʻa ʻole me nā laʻana ʻOiai ʻaʻole kūpono i nā ʻano gradient kuʻuna, ʻoi aku ka ʻike ma mua o ES. Aia, no ka laʻana, nā hoʻokokoke e like me neural episodic control, kahi i mālama ʻia ai nā Q-waiwai i ka wā o ka hoʻomaʻamaʻa ʻana, a laila e nānā ka papahana iā lākou ma mua o ka hana ʻana. ʻO ka hopena he ala gradient e hiki ai iā ʻoe ke aʻo pehea e hoʻoponopono ai i nā pilikia i ʻoi aku ka wikiwiki ma mua o ka wā ma mua. Ma kahi ʻatikala e pili ana i ka mana episodic neural, ua haʻi nā mea kākau i ka hippocampus kanaka, hiki ke mālama i ka ʻike e pili ana i kahi hanana ma hope o ka ʻike hoʻokahi a, no laila, ke pāʻani nei. kuleana koʻikoʻi i ka hoʻomanaʻo ʻana. Pono ia mau hana e komo i ka hui kūloko o ka ʻelele, ʻo ia hoʻi, ma ka wehewehe ʻana, hiki ʻole i ka paradigm ES.

No laila, no ke aha e hui ʻole ai iā lākou?

Hiki paha i ka hapa nui o kēia ʻatikala ke waiho i ka manaʻo ke kākoʻo nei au i nā ala RL. Eia naʻe, ke manaʻo nei au i ka wā lōʻihi ka hopena maikaʻi loa e hoʻohui i nā ʻano ʻelua, i hoʻohana ʻia kēlā me kēia i nā kūlana i kūpono loa. ʻOiaʻiʻo, inā he nui nā kulekele reactive a i nā kūlana me nā hōʻailona liʻiliʻi o ka hoʻoikaika maikaʻi, lanakila ka ES, ʻoiai inā loaʻa iā ʻoe ka mana computing i hiki iā ʻoe ke holo i ka hoʻomaʻamaʻa like ʻana. Ma ka ʻaoʻao ʻē aʻe, ʻoi aku ka maikaʻi o nā ʻano gradient me ka hoʻohana ʻana i ke aʻo hoʻoikaika ʻana a i ʻole ke aʻo ʻana i mālama ʻia ke loaʻa iā mākou nā manaʻo nui a pono e aʻo pehea e hoʻoponopono wikiwiki ai i kahi pilikia me ka liʻiliʻi o ka ʻikepili.

I ka huli ʻana i ke ʻano, ʻike mākou ʻo ke ʻano mua, ma ke ʻano maoli, kau i ke kumu no ka lua. ʻO ia ke kumu, i ka wā o ka evolution, ua hoʻomohala nā mammals i nā lolo e hiki ai iā lākou ke aʻo maikaʻi loa mai nā hōʻailona paʻakikī e hele mai ana mai ke kaiapuni. No laila, wehe ʻia ka nīnau. Malia paha e kōkua nā hoʻolālā evolutionary iā mākou i ka hana ʻana i nā hana hoʻonaʻauao kūpono e pono ai no nā ʻano aʻo gradient. Ma hope o nā mea a pau, ʻo ka hoʻonā i loaʻa ma ke ʻano maoli he kūleʻa loa.

Source: www.habr.com

Pākuʻi i ka manaʻo hoʻopuka