’S e Pavel Parkhomenko an t-ainm a th’ orm, agus ’s e leasaiche ML a th’ annam. San artaigil seo, bu mhath leam dealbhadh Yandex.Zen a mhìneachadh agus na leasachaidhean teicnigeach a tha air càileachd nam molaidhean a leasachadh a cho-roinn. San dreuchd seo, ionnsaichidh tu mar a lorgas tu na sgrìobhainnean as buntainniche am measg milleanan de sgrìobhainnean ann am beagan mhìle-diogan; mar a nì thu factaradh leantainneach air maitrís mhòr (air a dhèanamh suas de mhilleanan de cholbhan agus deichean de mhilleanan de shreathan) gus am faigh sgrìobhainnean ùra na vectaran aca ann an deichean de mhionaidean; agus mar a chleachdas tu factaradh maitrís an neach-cleachdaidh-artaigil a-rithist gus riochdachadh vectar math fhaighinn airson bhideothan.

Tha milleanan de sgrìobhainnean ann an diofar chruthan anns an stòr-dàta mholaidhean againn: artaigilean teacsa a chaidh a chruthachadh air an àrd-ùrlar againn agus air an toirt bho làraich-lìn taobh a-muigh, bhideothan, aithrisean, agus puist ghoirid. Tha grunn dhùbhlain theicnigeach an lùib seirbheis mar seo a leasachadh. Seo cuid dhiubh:
- Roinn gnìomhan coimpiutaireachd: dèan a h-uile gnìomhachd throm far-loidhne, agus na dèan ach tagradh modail luath ann an àm fìor, gus am bi na h-amannan freagairt taobh a-staigh 100-200 ms.
- Cuir gnìomhan an neach-cleachdaidh a-steach gu sgiobalta. Feumaidh seo a h-uile tachartas a lìbhrigeadh sa bhad don neach-molaidh agus buaidh a thoirt air coileanadh nam modailean.
- Dealbhaich am biadhadh gus am bi e ag atharrachadh gu sgiobalta ri giùlan luchd-cleachdaidh ùr. Bu chòir do luchd-cleachdaidh ùr a bhith a’ faireachdainn gu bheil am fios-air-ais a’ toirt buaidh air molaidhean.
- Tuig gu sgiobalta cò dha a bu chòir artaigil ùr a mholadh.
- Freagair gu sgiobalta ri susbaint ùr a tha a’ nochdadh fad na h-ùine. Tha deichean de mhìltean de artaigilean air am foillseachadh a h-uile latha, agus tha fad-beatha cuibhrichte aig mòran dhiubh (leithid naidheachdan, mar eisimpleir). Tha seo gan sgaradh bho fhilmichean, ceòl, agus susbaint eile a tha air a bhith fad-ùine agus air a thoirt gu buil gu daor.
- Gluasad eòlais bho aon raon gu raon eile. Ma tha modalan air an trèanadh aig siostam molaidh airson artaigilean teacsa agus ma chuireas sinn bhideothan ris, is urrainn dhuinn na modalan a th’ ann mar-thà ath-chleachdadh gus rangachadh sheòrsaichean susbaint ùra a leasachadh.
Innsidh mi dhut mar a dh’fhuasgail sinn na duilgheadasan seo.
Taghadh thagraichean
Ciamar as urrainn dhuinn an àireamh de sgrìobhainnean a thathar a’ beachdachadh a lùghdachadh le factar mìltean ann am beagan mhìle-diogan, gun cha mhòr buaidh sam bith air càileachd an rangachaidh?
Abair gu bheil sinn air iomadh modail ML a thrèanadh, feartan a chruthachadh stèidhichte orra, agus modail eile a thrèanadh a bhios a’ rangachadh sgrìobhainnean airson an neach-cleachdaidh. Bhiodh seo uile gu math agus gu math, ach chan urrainn dhuinn dìreach na feartan uile airson gach sgrìobhainn obrachadh a-mach ann an àm fìor ma tha milleanan dhiubh ann, agus feumar molaidhean a chruthachadh ann an 100-200 ms. Is e an t-amas fo-sheata de mhilleanan a thaghadh a thèid a rangachadh airson an neach-cleachdaidh. Mar as trice canar taghadh thagraichean ris an ìre seo. Tha grunn riatanasan ann. An toiseach, feumaidh an taghadh a bhith gu math luath, a’ fàgail uiread ùine 's as urrainn airson a’ phròiseas rangachaidh. San dàrna àite, le bhith a’ lughdachadh gu mòr an àireamh de sgrìobhainnean ri rangachadh, feumaidh sinn uiread de sgrìobhainnean buntainneach 's as urrainn dhuinn a chumail.
Tha am pròiseas taghaidh againn air atharrachadh thar ùine, agus tha sinn a-nis air dòigh-obrach ioma-ìre a ruighinn:

An toiseach, tha na sgrìobhainnean uile air an roinn ann am buidhnean, agus tha na sgrìobhainnean as mòr-chòrdte air an taghadh bho gach buidheann. Faodaidh buidhnean a bhith nan làraichean, nan cuspairean, no nan cruinneachaidhean. Airson gach neach-cleachdaidh, tha na buidhnean as buntainniche air an taghadh stèidhichte air an eachdraidh, agus tha na sgrìobhainnean as fheàrr air an taghadh bho na buidhnean sin. Bidh sinn cuideachd a’ cleachdadh clàr-amais kNN gus na sgrìobhainnean as buntainniche don neach-cleachdaidh a thaghadh ann an àm fìor. Tha grunn dhòighean ann airson clàr-amais kNN a thogail, ach is e an dòigh againne a tha ag obair as fheàrr. (Grafaichean Beaga Saoghal Seòlaidh Ìrearach). 'S e modail ìrearach a tha seo a leigeas leinn na N vectaran as fhaisge airson neach-cleachdaidh a lorg bho stòr-dàta de mhilleanan ann am beagan mhìle-diogan. An toiseach, bidh sinn a’ clàr-amais ar stòr-dàta sgrìobhainnean gu lèir far-loidhne. Leis gu bheil rannsachadh clàr-amais gu math luath, ma tha grunn leabachaidhean làidir ann, is urrainn dhuinn iomadh clàr-amais a chruthachadh (aon chlàr-amais airson gach leabachadh) agus faighinn gu gach fear dhiubh ann an àm fìor.
Tha deichean de mhìltean de sgrìobhainnean againn airson gach neach-cleachdaidh. Tha seo fhathast ro mhòr airson na feartan uile obrachadh a-mach, agus mar sin aig an ìre seo bidh sinn a’ cleachdadh rangachadh aotrom—modail aotrom den rangachadh throm le nas lugha de fheartan. Is e an t-amas ro-innse dè na sgrìobhainnean a bhios aig mullach a’ mhodail throm. Thèid na sgrìobhainnean leis an luach ro-innseach as àirde a chleachdadh anns a’ mhodail throm, is e sin an ìre rangachaidh mu dheireadh. Leigidh an dòigh-obrach seo leinn an stòr-dàta de sgrìobhainnean a thathar a’ beachdachadh airson neach-cleachdaidh a lughdachadh bho mhilleanan gu mìltean ann an deichean de mhìle-diogan.
Ceum ruith-ùine ALS
Ciamar a bheir thu aire do bheachdan luchd-cleachdaidh dìreach às dèidh cliog?
Is e prìomh fheart ann am molaidhean an ùine freagairt do bheachdan luchd-cleachdaidh. Tha seo gu sònraichte cudromach do luchd-cleachdaidh ùr: nuair a thòisicheas cuideigin a’ cleachdadh siostam molaidh an toiseach, thèid biadhadh neo-phearsanta de sgrìobhainnean air diofar chuspairean a thaisbeanadh dhaibh. Cho luath ‘s a nì iad a’ chiad bhriogadh aca, tha e riatanach seo a thoirt fa-near sa bhad agus atharrachadh a rèir an ùidhean. Ma thèid na factaran uile obrachadh a-mach far-loidhne, bidh freagairt luath siostaim do-dhèanta air sgàth dàil. Mar sin, tha e riatanach gnìomhan luchd-cleachdaidh a phròiseasadh ann an àm fìor. Airson an adhbhair seo, bidh sinn a’ cleachdadh ceum ALS aig àm ruith gus riochdachadh vectar den neach-cleachdaidh a thogail.
Gabhamaid ris gu bheil riochdachadh vectar againn airson a h-uile sgrìobhainn. Mar eisimpleir, is urrainn dhuinn leabachaidhean a thogail far-loidhne stèidhichte air teacsa an artaigil a’ cleachdadh ELMo, BERT, no modalan ionnsachaidh innealan eile. Ciamar as urrainn dhuinn riochdachadh vectar fhaighinn de luchd-cleachdaidh san aon àite stèidhichte air na h-eadar-obrachaidhean aca san t-siostam?
Prionnsabal coitcheann cruthachadh agus lobhadh maitrís an neach-cleachdaidh-sgrìobhainnAbair gu bheil m luchd-cleachdaidh agus n sgrìobhainnean againn. Airson cuid de luchd-cleachdaidh, tha fios againn dè na beachdan a th’ aca a thaobh sgrìobhainnean sònraichte. Faodar an fhiosrachadh seo a riochdachadh mar mhaitris m x n: tha na sreathan a’ freagairt ri luchd-cleachdaidh agus na colbhan ri sgrìobhainnean. Leis nach fhaca an neach-cleachdaidh a’ mhòr-chuid de na sgrìobhainnean, fuirichidh a’ mhòr-chuid de na ceallan maitrís falamh, agus bidh cuid eile air an lìonadh. Airson gach tachartas (is toil leam, is mì-thoil leam, cliog), tha luach aig a’ mhaitris—ach beachdaichidh sinn air modail shìmplichte anns a bheil is toil leam a’ freagairt ri 1 agus is mì-thoil leam a’ freagairt ri 1.
Sgaoilidh sinn am maitrís ann an dà dhà: P (m x d) agus Q (d x n), far a bheil d a’ riochdachadh tomhasachd an vectar (mar as trice àireamh bheag). An uairsin, bidh gach nì a’ freagairt ri vectar d-thomhasach (is e sreath ann am maitrís P an neach-cleachdaidh, agus is e colbh ann am maitrís Q an sgrìobhainn). Bidh na vectaran sin nan leabachaidhean de na nithean co-fhreagarrach. Gus ro-innse am bu toil le neach-cleachdaidh sgrìobhainn, faodaidh tu dìreach na leabachaidhean aca iomadachadh.

Is e aon dhòigh factaraidh maitrís ALS (Alternating Least Squares). Nì sinn an gnìomh call a leanas nas fheàrr:

An seo, 's e rui an eadar-obrachadh eadar an neach-cleachdaidh u agus sgrìobhainn i, 's e qi vectar sgrìobhainn i, 's e pu vectar an neach-cleachdaidh u.
An uairsin lorgar am vectar cleachdaiche as fheàrr a thaobh a’ mhearachd cheàrnagach chuibheasaich (le vectaran sgrìobhainn stèidhichte) gu anailiseach le bhith a’ fuasgladh an ath-tharraing loidhneach co-fhreagarrach.
Canar “ceum ALS” ris an seo. Tha algairim ALS fhèin a’ toirt a-steach aon de na matrais (luchd-cleachdaidh agus artaigilean) a chàradh mu seach agus am fear eile ùrachadh, a’ lorg an fhuasglaidh as fheàrr.
Gu fortanach, 's e obair gu math luath a th' ann a bhith a' lorg riochdachadh vectar neach-cleachdaidh agus faodar sin a dhèanamh aig àm ruith le bhith a' cleachdadh stiùiridhean vectar. Leigidh an cleas seo le fios-air-ais luchd-cleachdaidh a bhith air a thoirt a-steach sa bhad don rangachadh. Faodar an aon leabachadh a chleachdadh ann an clàr-amais kNN gus taghadh thagraichean a leasachadh.
Criathradh co-obrachail sgaoilte
Ciamar a nì thu factarachadh maitrís sgaoilte mean air mhean agus a lorgas tu riochdachaidhean vectar de artaigilean ùra gu sgiobalta?
Chan e susbaint an aon stòr chomharran molaidh. Is e dàta co-obrachail stòr cudromach eile. Faodar deagh fheartan rangachaidh a thoirt a-mach gu traidiseanta bho bhith a’ dèanamh dì-dhèanamh maitrís cleachdaiche-sgrìobhainn. Ach, nuair a bha sinn a’ feuchainn ri dì-dhèanamh mar sin a chur an gnìomh, thachair sinn ri grunn dhuilgheadasan:
1. Tha milleanan de sgrìobhainnean againn agus deichean de mhilleanan de luchd-cleachdaidh. Chan eil am maitrís gu lèir iomchaidh air aon inneal, agus bheir e ùine mhòr a bhith ga lobhadh.
2. Tha fad-beatha goirid aig a’ mhòr-chuid den t-susbaint san t-siostam: chan eil sgrìobhainnean buntainneach ach airson beagan uairean a thìde. Mar sin, tha e riatanach an riochdachadh vectar aca a thogail cho luath ‘s a ghabhas.
3. Ma thogas tu an dì-dhealachadh dìreach às dèidh do sgrìobhainn a bhith air fhoillseachadh, cha bhi ùine aice airson a bhith air a measadh le àireamh gu leòr de luchd-cleachdaidh. Mar sin, tha e glè choltach gum bi an riochdachadh vectar aice bochd.
4. Mura h-eil neach-cleachdaidh air post a thoileachadh no a dhì-thoileachadh, cha bhith e comasach dhuinn seo a thoirt a-steach don bhriseadh sìos sa bhad.
Gus na duilgheadasan seo fhuasgladh, chuir sinn an gnìomh lobhadh sgaoilte den mhaitris cleachdaiche-sgrìobhainn le ùrachaidhean mean air mhean tric. Ciamar dìreach a tha e ag obair?
Abair gu bheil cruinneachadh de N innealan againn (tha N anns na ceudan) agus gu bheil sinn airson dì-dhèanamh sgaoilte a dhèanamh air maitrís thar an dà inneal nach eil iomchaidh air aon inneal. Is e a’ cheist: ciamar as urrainn dhuinn an dì-dhèanamh seo a dhèanamh gus am bi dàta gu leòr aig gach inneal air an aon làimh agus, air an làimh eile, gu bheil na h-àireamhachadh neo-eisimeileach?

Cleachdaidh sinn an algairim lobhadh ALS a chaidh a mhìneachadh gu h-àrd. Beachdaichidh sinn air mar a nì sinn aon cheum ALS ann an dòigh sgaoilte - bidh na ceumannan a tha air fhàgail coltach ri chèile. Ma tha maitrís sgrìobhainnean stèidhichte againn agus gu bheil sinn airson maitrís cleachdaiche a thogail. Gus seo a dhèanamh, roinnidh sinn e ann an N pàirtean le sreathan, gach pàirt anns a bheil timcheall air an aon àireamh de shreathan. Sgaoilidh sinn na ceallan neo-falamh de na sreathan co-fhreagarrach gu gach inneal, a bharrachd air maitrís leabachaidh an sgrìobhainn gu lèir. Leis nach eil an dàta seo glè mhòr, agus mar as trice bidh maitrísichean cleachdaiche-sgrìobhainn glè gann, bidh an dàta seo iomchaidh air inneal àbhaisteach.
Faodar an cleas seo ath-aithris airson grunn amannan gus am bi am modail a’ tighinn còmhla, ag atharrachadh a’ mhaitris stèidhichte mu seach. Ach eadhon an uairsin, faodaidh lobhadh a’ mhaitris grunn uairean a thìde a thoirt. Agus chan eil seo a’ fuasgladh na trioblaid a thaobh a bhith a’ faighinn leabachaidhean gu sgiobalta airson sgrìobhainnean ùra agus ag ùrachadh leabachaidhean an fheadhainn mu nach robh mòran fiosrachaidh ri fhaighinn nuair a chaidh am modail a thogail.
Fhuair sinn cuideachadh le bhith a’ cur an gnìomh ùrachaidhean modail mean air mhean a tha luath is mean air mhean. Gabhamaid ris gu bheil modail againn a chaidh a thrèanadh an-dràsta. Bho chaidh a thrèanadh, chaidh artaigilean ùra a chur ris leis an do rinn ar luchd-cleachdaidh eadar-obrachadh, a bharrachd air artaigilean aig nach robh mòran eadar-obrachadh rè an trèanaidh. Gus leabachaidhean fhaighinn gu sgiobalta airson nan artaigilean sin, bidh sinn a’ cleachdadh leabachaidhean an neach-cleachdaidh a fhuaireadh rè a’ chiad thrèanadh mhòr den mhodail agus a’ dèanamh aon cheum ALS gus maitrís an sgrìobhainn obrachadh a-mach le maitrís neach-cleachdaidh stèidhichte. Leigidh seo leinn leabachaidhean fhaighinn gu math luath - taobh a-staigh mionaidean bho fhoillseachadh sgrìobhainn - agus leabachaidhean sgrìobhainnean ùra ùrachadh gu tric.
Gus dèanamh cinnteach gu bheil molaidhean stèidhichte sa bhad air gnìomhan daonna, chan eil sinn a’ cleachdadh leabachadh luchd-cleachdaidh a gheibhear far-loidhne aig àm ruith. An àite sin, bidh sinn a’ dèanamh ceum ALS agus a’ faighinn vectar an neach-cleachdaidh làithreach.
Gluasad gu raon fearainn eile
Ciamar a chleachdas tu fios-air-ais luchd-cleachdaidh air artaigilean teacsa gus riochdachadh vectar de bhidio a thogail?
An toiseach, mhol sinn artaigilean teacsa a-mhàin, agus mar sin tha mòran de na h-algairim againn air an dèanamh freagarrach don t-seòrsa susbaint seo. Ach, nuair a bha sinn a’ cur seòrsachan eile de shusbaint ris, thàinig oirnn a bhith feumach air na modailean againn atharrachadh. Ciamar a dh’fhuasgail sinn an duilgheadas seo le bhith a’ cleachdadh bhidio mar eisimpleir? B’ e aon roghainn na modailean uile ath-thrèanadh bhon fhìor thoiseach. Ach tha seo a’ toirt ùine, agus tha cuid de na h-algairim a’ cur cuideam mòr air meud an t-sampall trèanaidh, nach eil fhathast ri fhaighinn ann an tomhas gu leòr airson seòrsachan susbaint ùra anns na tràth ìrean de am beatha air an t-seirbheis.
Ghabh sinn dòigh-obrach eadar-dhealaichte agus chleachd sinn modalan teacsa a-rithist airson bhideothan. Chuidich an aon chleas ALS sinn le bhith a’ cruthachadh riochdachaidhean vectar bhidio. Ghabh sinn riochdachadh vectar an neach-cleachdaidh stèidhichte air artaigilean teacsa agus rinn sinn ceum ALS a’ cleachdadh dàta seallaidh bhidio. San dòigh seo, fhuair sinn riochdachadh vectar bhidio gu furasta. Aig àm ruith, bidh sinn dìreach a’ tomhas an coltachd eadar vectar an neach-cleachdaidh a fhuaireadh bho artaigilean teacsa agus vectar a’ bhidio.
co-dhùnadh
Tha grunn dhùbhlain an lùib leasachadh cridhe siostam molaidh fìor-ùine. Feumaidh e dàta a phròiseasadh gu sgiobalta agus dòighean ionnsachaidh innealan a chur an sàs gus a chleachdadh gu h-èifeachdach; siostaman sgaoilte iom-fhillte a thogail a tha comasach air comharran luchd-cleachdaidh agus aonadan susbaint ùra a phròiseasadh ann an ùine ghoirid; agus mòran ghnìomhan eile.
Anns an t-siostam làithreach, an dealbhadh a mhìnich mi, bidh càileachd nam molaidhean airson neach-cleachdaidh ag àrdachadh còmhla ris an gnìomhachd agus fad an cleachdaidh. Ach gu dearbh, is ann an seo cuideachd a tha am prìomh dhùbhlan: tha e duilich don t-siostam tuigsinn sa bhad dè na h-ùidhean a th’ aig cuideigin nach do rinn mòran eadar-obrachadh leis an t-susbaint. Is e leasachadh mholaidhean airson luchd-cleachdaidh ùr ar prìomh amas. Cumaidh sinn oirnn a’ leasachadh nan algairidhean gus dèanamh cinnteach gum bi susbaint buntainneach a’ ruighinn biadhadh neach-cleachdaidh nas luaithe agus nach tèid susbaint neo-iomchaidh a shealltainn.
Source: www.habr.com
