Me pehea te mahi i runga i te kounga me te tere o te kowhiringa o nga taunakitanga

Ko Pavel Parkhomenko toku ingoa, he kaiwhakawhanake ML ahau. I roto i tenei tuhinga, ka hiahia ahau ki te korero mo te hanganga o te ratonga Yandex.Zen me te tiri i nga whakapainga hangarau, na te whakatinanatanga i taea ai te whakanui ake i te kounga o nga taunakitanga. Mai i tenei pou ka ako koe me pehea te rapu i nga mea e tino whai kiko ana mo te kaiwhakamahi i waenga i nga miriona tuhinga i roto i te iti noa o nga mirihakona; me pehea te whakapohehe tonu o te matrix nui (he miriona nga pou me nga tekau miriona rarangi) kia whiwhi tuhinga hou i to ratou vector i roto i te tekau meneti; me pehea te whakamahi ano i te whakangao matrix tuhinga-kaiwhakamahi kia pai ai te ahua o te vector mo te ataata.

Me pehea te mahi i runga i te kounga me te tere o te kowhiringa o nga taunakitanga

Kei roto i ta maatau papaarangi taunakitanga nga miriona tuhinga o nga momo ahuatanga: tuhinga tuhinga i hangaia i runga i ta maatau papaahi ka tangohia mai i nga waahi o waho, nga ataata, nga korero me nga panui poto. Ko te whakawhanaketanga o taua ratonga e pa ana ki te maha o nga wero hangarau. Anei etahi o ratou:

  • Wehewehea nga mahi rorohiko: mahi i nga mahi taumaha katoa i te tuimotu, a i te waa tuuturu ka mahi tere noa i nga tauira kia whai kawenga mo te 100-200 ms.
  • Kia tere te whai whakaaro ki nga mahi a nga kaiwhakamahi. Ki te mahi i tenei, he mea tika kia tukuna nga huihuinga katoa ki te kaiwhakatakoto whakaaro me te awe i nga hua o nga tauira.
  • Hangaia te whangai kia tere ai mo nga kaiwhakamahi hou ki o raatau whanonga. Ko nga tangata katahi ano ka uru mai ki te punaha me mahara kei te awe a raatau urupare ki nga taunakitanga.
  • Kia tere te mohio ki a wai ka tūtohu tuhinga hou.
  • Whakautu tere ki te puta tonu mai o nga mea hou. Tekau mano o nga tuhinga ka whakaputaina i ia ra, a he iti noa te roa o te nuinga o aua tuhinga (me kii, korero). Koinei te mea e wehewehe ana i a raatau i nga kiriata, waiata me etahi atu mea roa me te utu nui hei hanga.
  • Whakawhiti matauranga mai i tetahi rohe ki tetahi atu. Mena kua whakangunguhia e tetahi punaha tohutohu nga tauira mo nga tuhinga tuhinga ka taapirihia he ataata ki roto, ka taea e taatau te whakamahi ano i nga tauira o mua kia pai ake ai te ahua o te momo ihirangi hou.

Ka korerotia e ahau ki a koe me pehea ta matou whakaoti i enei raruraru.

Te kowhiringa o nga kaitono

Me pehea te whakaheke i te maha o nga tuhinga e whakaarohia ana e nga mano o nga wa i roto i etahi milliseconds, me te kore e paheketanga te kounga o te rarangi?

Mehemea i whakangungua e matou te maha o nga tauira ML, i hangaia nga ahuatanga i runga i a raatau, me te whakangungu i tetahi atu tauira e tohu ana i nga tuhinga mo te kaiwhakamahi. Ka pai nga mea katoa, engari kaore e taea e koe te tango me te tatau i nga tohu katoa mo nga tuhinga katoa i roto i te waa tuuturu, mena he miriona o enei tuhinga, me hanga nga taunakitanga i roto i te 100-200 ms. Ko te mahi ko te kowhiri i tetahi waahanga iti mai i nga miriona, ka tohua mo te kaiwhakamahi. Ko tenei waahanga ka kiia ko te kowhiringa kaitono. He maha nga whakaritenga mo taua mea. Tuatahi, me tere tere te kowhiringa, kia nui te wa e toe ana mo te tuunga ake. Tuarua, na te mea kua tino whakahekehia te maha o nga tuhinga mo te whakarangatira, me pupuri tonu nga tuhinga e tika ana mo te kaiwhakamahi.

Kua tipu ta matou maataapono mo te kowhiringa kaitono, a i tenei wa kua tae matou ki te kaupapa maha-waahanga:

Me pehea te mahi i runga i te kounga me te tere o te kowhiringa o nga taunakitanga

Tuatahi, ka wehewehea nga tuhinga katoa ki nga roopu, ka tangohia nga tuhinga tino rongonui mai i ia roopu. Ka taea e nga roopu te waahi, nga kaupapa, nga huinga. Mo ia kaiwhakamahi, i runga i tana hitori, ka tohua nga roopu e tata ana ki a ia, ka tangohia nga tuhinga pai mai i a raatau. Ka whakamahia ano e matou te tohu kNN ki te kowhiri i nga tuhinga e tata ana ki te kaiwhakamahi i te waa tuuturu. He maha nga tikanga mo te hanga taurangi kNN; he pai rawa atu ta maatau mahi HNSW (Nga kauwhata o te Ao Iti Whakatere Hierarchical). He tauira hierarchical tenei e taea ai e koe te kimi i nga vectors tino tata mo te kaiwhakamahi mai i te paataka miriona miriona i roto i etahi mirihakona. I te tuatahi ka tohuhia to maatau papaunga tuhinga katoa ki te tuimotu. I te mea he tere te mahi rapu i roto i te taurangi, mena he maha nga whakaurunga kaha, ka taea e koe te hanga i etahi taurangi (kotahi tohu mo ia whakaurunga) ka uru ki ia waahanga i te waa tuuturu.

He tekau mano nga tuhinga kei a matou mo ia kaiwhakamahi. He nui tonu tenei ki te tatau i nga ahuatanga katoa, no reira i tenei wa ka whakamahia e matou te rarangi marama - he tauira whakatauranga taumaha mama me te iti ake o nga ahuatanga. Ko te mahi he matapae ko nga tuhinga ka mau i te tauira taumaha ki runga. Ko nga tuhinga whai tohu matapae teitei ka whakamahia i roto i te tauira taumaha, ara, i te wahanga whakamutunga o te whakarangatira. Ma tenei huarahi ka taea e koe te whakaiti i te papaaarangi o nga tuhinga e whakaarohia ana mo te kaiwhakamahi mai i nga miriona ki nga mano i roto i te tekau maero.

ALS taahiraa i roto i te wa whakahaere

Me pehea te whai whakaaro ki nga urupare a nga kaiwhakamahi i muri tonu i te panui?

Ko tetahi take nui i roto i nga taunakitanga ko te wa whakautu ki nga urupare a nga kaiwhakamahi. He mea tino nui tenei mo nga kaiwhakamahi hou: ka timata te tangata ki te whakamahi i te punaha taunakitanga, ka whiwhi ia i te whangai kore-whaiaro o nga tuhinga o nga kaupapa rereke. I te wa e mahi ana ia i te paato tuatahi, me whai whakaaro tonu koe me te urutau ki ana hiahia. Mena ka tatauhia e koe nga mea katoa kei te tuimotu, ka kore e taea te whakautu a te punaha na te whakaroa. Na he mea tika ki te tukatuka i nga mahi a te kaiwhakamahi i roto i te waa. Mo enei kaupapa, ka whakamahia e matou te hikoi ALS i te wa whakahaere ki te hanga i tetahi whakaaturanga vector o te kaiwhakamahi.

Me whakaaro kei a tatou he whakaaturanga vector mo nga tuhinga katoa. Hei tauira, ka taea e tatou te hanga whakaurunga tuimotu i runga i te tuhinga o te tuhinga ma te whakamahi i te ELMo, BERT, etahi atu tauira ako miihini ranei. Me pehea e taea ai e tatou te whiwhi tohu tohu o nga kaiwhakamahi i te waahi kotahi i runga i o raatau taunekeneke i roto i te punaha?

Te maataapono whanui mo te hanga me te pirau o te matrix tuhinga-kaiwhakamahiKia m kaiwhakamahi me n tuhinga. Mo etahi kaiwhakamahi, ka mohiotia to raatau hononga ki etahi tuhinga. Na ka taea te whakaatu i enei korero hei matrix m x n: he rite nga rarangi ki nga kaiwhakamahi, me nga pou e rite ana ki nga tuhinga. Mai i te mea kaore te tangata i kite i te nuinga o nga tuhinga, ka noho kau te nuinga o nga pūtau matrix, ko etahi ka whakakiia. Mo ia takahanga (pērā, karekau, pawhiria) ka whakaratohia etahi uara ki te matrix - engari me whakaaro tatou ki tetahi tauira ngawari e rite ana te rite ki te 1, me te kore pai ki te -1.

Me whakawehe te matrix kia rua: P (m x d) me Q (d x n), ko te d ko te inenga o te whakaaturanga vector (he tau iti te nuinga). Na ka rite ia ahanoa ki te vector ahu-d (mo te kaiwhakamahi - he rarangi kei te matrix P, mo te tuhinga - he pou kei te matrix Q). Ka noho enei vector hei whakaurunga o nga mea e pa ana. Ki te matapae mena ka pai te kaiwhakamahi ki tetahi tuhinga, ka taea e koe te whakarea noa i o raatau whakaurunga.

Me pehea te mahi i runga i te kounga me te tere o te kowhiringa o nga taunakitanga
Ko tetahi o nga huarahi ka taea te whakakore i te matrix ko te ALS (Alternating Least Squares). Ka arotau tatou i te mahi ngaro e whai ake nei:

Me pehea te mahi i runga i te kounga me te tere o te kowhiringa o nga taunakitanga

Anei ko te rui te taunekeneke a te kaiwhakamahi u me te tuhinga i, ko qi te vector o te tuhinga i, ko te pu te vector o te kaiwhakamahi u.

Katahi ka kitea ko te vector kaiwhakamahi tino pai mai i te tirohanga o te hapa tapawha toharite (mo nga vectors tuhinga kua whakaritea) ka kitea ma te wetewete ma te whakaoti i te whakahekenga raina e pa ana.

Ka kiia tenei ko te "taahiraa ALS". A ko te ALS algorithm ake ko taatau ki te whakatika i tetahi o nga matrices (kaiwhakamahi me nga tuhinga) me te whakahou i tetahi atu, ka kitea te otinga tino pai.

Waimarie, he tere tere te rapu tohu tohu a te kaiwhakamahi ka taea te mahi i te wa whakahaere ma te whakamahi i nga tohutohu vector. Ma tenei mahi tinihanga ka taea e koe te whai whakaaro tonu ki nga urupare a nga kaiwhakamahi i roto i te whakatauranga. Ka taea ano te whakauru ki te taurangi kNN hei whakapai ake i te kowhiringa kaitono.

Tātari Mahi tahi kua tohatohahia

Me pehea te mahi i te tauwehenga matrix tohatoha me te kimi tere i nga whakaaturanga vector o nga tuhinga hou?

Ehara i te mea ko te ihirangi anake te puna o nga tohu tohutoro. Ko tetahi atu puna nui ko nga korero mahi tahi. Ko nga ahuatanga rangatira pai ka taea te tiki mai i te pirau o te matrix tuhinga-kaiwhakamahi. Engari i te wa e ngana ana matou ki te mahi i te pirau, ka raru matou:

1. Kei a matou nga miriona tuhinga me nga tekau miriona o nga kaiwhakamahi. Karekau te matrix e uru katoa ki runga i te miihini kotahi, ka roa rawa te pirau.
2. Ko te nuinga o nga mea kei roto i te punaha he poto te ora: ka noho tika nga tuhinga mo etahi haora noa iho. No reira, he mea tika kia tere te hanga i o raatau tohu vector.
3. Ki te hanga koe i te pirau i muri tonu i te whakaputanga o te tuhinga, karekau he wa tika ki te arotake i te maha o nga kaiwhakamahi. No reira, kare pea e tino pai ana whakaaturanga vector.
4. Ki te pai, karekau ranei te kaiwhakamahi, e kore e taea e matou te whakaaro tonu i tenei i roto i te pirau.

Hei whakaoti i enei rapanga, i whakatinanahia e matou he wehewehenga toha o te matrix tuhinga-kaiwhakamahi me nga whakahou taapiri auau. Me pehea te mahi?

Ki te mea he kapoi o N mihini (N kei ​​roto i nga rau) a ka hiahia matou ki te mahi i te tohatoha toha o te matrix ki runga i aua miihini kaore e uru ki te miihini kotahi. Ko te patai me pehea te mahi i tenei whakangao kia, i tetahi taha, he nui nga raraunga mo ia miihini, a, i tetahi atu, kia noho motuhake nga tatauranga?

Me pehea te mahi i runga i te kounga me te tere o te kowhiringa o nga taunakitanga

Ka whakamahia e matou te ALS decomposition algorithm i whakaahuatia i runga ake nei. Me titiro me pehea te mahi i tetahi taahiraa ALS ma te tohatoha - ka rite nga toenga o nga hikoinga. Me kii kei a matou he matrix o nga tuhinga ka hiahia matou ki te hanga i te matrix o nga kaiwhakamahi. Ki te mahi i tenei, ka wehewehea e matou ki nga waahanga N ma nga rarangi, ka rite tonu te maha o nga rarangi kei ia waahanga. Ka tukuna e matou ki ia miihini nga pūtau kore-kapua o nga rarangi e rite ana, me te matrix o nga whakauru tuhinga (katoa). I te mea kaore i te tino nui tona rahi, a he iti noa te matrix tuhinga-kaiwhakamahi, ka uru tenei raraunga ki runga miihini.

Ka taea te tukurua i tenei mahi i roto i nga wa maha tae noa ki te hurihanga o te tauira, me te huri i te matrix kua whakaritea kia kotahi. Engari ahakoa tera, he maha nga haora ka roa te pirau matrix. A kaore tenei e whakaoti i te raru e hiahia ana koe ki te tango tere i nga whakaurunga o nga tuhinga hou me te whakahou i nga whakaurunga o nga mea he iti nei nga korero i te wa e hanga ana te tauira.

Ko te whakaurunga o nga whakahōu tauira tere tere i awhina i a matou. Me kii he tauira kua whakangungua taatau. Mai i tana whakangungu, he tuhinga hou kua taunekenekehia e o maatau kaiwhakamahi, tae atu ki nga tuhinga he iti noa te taunekeneke i te wa e whakangungu ana. Kia tere te tiki i nga whakaurunga o aua tuhinga, ka whakamahia e matou nga whakaurunga kaiwhakamahi i whiwhi i te whakangungu nui tuatahi o te tauira me te mahi i tetahi taahiraa ALS ki te tatau i te matrix tuhinga kua hoatu he matrix kaiwhakamahi pumau. Ma tenei ka taea e koe te whiwhi whakaurunga - i roto i etahi meneti i muri i te whakaputanga o te tuhinga - me te whakahou i nga whakaurunga o nga tuhinga tata.

Kia whai whakaaro tonu ki nga mahi a te tangata, i te wa whakahaere kaore matou e whakamahi i nga whakaurunga kaiwhakamahi kua whiwhi tuimotu. Engari, ka mahia e matou he taahiraa ALS me te tiki i te vector kaiwhakamahi.

Whakawhiti ki tetahi atu rohe rohe

Me pehea te whakamahi i nga urupare a nga kaiwhakamahi mo nga tuhinga tuhinga hei hanga i te whakaaturanga vector o te ataata?

I te timatanga, ko nga tuhinga tuhinga anake i taunakihia e matou, na te maha o a matou algorithm e whakangao ana ki tenei momo ihirangi. Engari i te taapiri i etahi atu momo ihirangi, i pa ki a matou te hiahia ki te urutau i nga tauira. I pehea te whakaoti i tenei raru ma te whakamahi i tetahi tauira ataata? Ko tetahi whiringa ko te whakangungu ano i nga tauira katoa mai i te wahanga. Engari he wa roa tenei, a ko etahi o nga algorithms e tono ana mo te rahi o te tauira whakangungu, kaore ano i te waatea i roto i te rahinga e hiahiatia ana mo te momo ihirangi hou i nga wa tuatahi o tona oranga i runga i te ratonga.

I haere matou ki tetahi atu huarahi me te whakamahi ano i nga tauira tuhinga mo te ataata. Ko taua mahi tinihanga ALS i awhina i a maatau ki te hanga whakaaturanga vector o nga ataata. I tangohia e matou he whakaaturanga vector o nga kaiwhakamahi i runga i nga tuhinga tuhinga me te mahi i tetahi taahiraa ALS ma te whakamahi i nga korero tirohanga ataata. Na ka ngawari ki a maatau he whakaaturanga vector o te ataata. A i te wa whakahaere ka tatau noa i te tata i waenga i te vector kaiwhakamahi i whiwhi mai i nga tuhinga tuhinga me te vector ataata.

mutunga

He maha nga wero ki te whakawhanake i te uho o te punaha taunakitanga wa-tūturu. Me tere te tukatuka raraunga me te whakamahi i nga tikanga ML kia pai ai te whakamahi i enei raraunga; te hanga i nga punaha toha uaua ka taea ki te tukatuka tohu kaiwhakamahi me nga waahanga hou o te ihirangi i roto i te wa iti; me te maha atu o nga mahi.

I roto i te punaha o naianei, ko te hoahoa i whakaahuahia e au, ko te kounga o nga taunakitanga mo te kaiwhakamahi ka tipu haere me tana mahi me te roa o te noho ki te ratonga. Engari ko te tikanga, kei konei te tino uaua: he uaua mo te punaha ki te mohio tonu ki nga hiahia o te tangata he iti nei te taunekeneke me te ihirangi. Ko te whakapai ake i nga taunakitanga mo nga kaiwhakamahi hou ko ta matou whainga matua. Ka haere tonu matou ki te arotau i nga algorithms kia tere ake te uru o nga ihirangi e tika ana ki te tangata ki roto i tana whangai, kia kore ai e whakaatuhia nga ihirangi koretake.

Source: will.com

Tāpiri i te kōrero