An chaoi a n-oibrímid ar cháilíocht agus ar luas roghnúcháin na moltaí

Pavel Parkhomenko is ainm dom, is forbróir ML mé. San Airteagal seo, ba mhaith liom labhairt faoi struchtúr na seirbhíse Yandex.Zen agus feabhsuithe teicniúla a roinnt, a d'éirigh le cur i bhfeidhm caighdeán na moltaí a mhéadú. Ón bpost seo foghlaimeoidh tú conas na cinn is ábhartha don úsáideoir a aimsiú i measc na milliúin doiciméad i gceann cúpla milleasoicind; conas dianscaoileadh leanúnach a dhéanamh ar mhaitrís mhór (ina bhfuil na milliúin colún agus na mílte sraitheanna) ionas go bhfaighidh doiciméid nua a veicteoir i ndeich nóiméad; conas an dianscaoileadh maitrís earra úsáideora a athúsáid chun léiriú veicteoireach maith a fháil don fhís.

An chaoi a n-oibrímid ar cháilíocht agus ar luas roghnúcháin na moltaí

Tá na milliúin doiciméad d’fhormáidí éagsúla inár mbunachar sonraí moltaí: ailt téacs a cruthaíodh ar ár n-ardán agus a tógadh ó shuímh sheachtracha, físeáin, scéalta agus poist ghearra. Tá baint ag forbairt seirbhíse den sórt sin le líon mór dúshlán teicniúil. Seo cuid acu:

  • Roinn tascanna ríomhaireachta: déan gach oibríocht throm as líne, agus i bhfíor-am gan ach cur i bhfeidhm tapa na samhlacha a dhéanamh chun a bheith freagrach as 100-200 ms.
  • Go tapa a chur san áireamh gníomhartha úsáideora. Chun seo a dhéanamh, is gá na himeachtaí go léir a sheachadadh láithreach chuig an moltóir agus tionchar a imirt ar thorthaí na samhlacha.
  • Déan an fotha ionas go n-oiriúnóidh sé go tapa dá n-iompraíocht d'úsáideoirí nua. Ba chóir go mothaíonn daoine atá díreach tar éis dul isteach sa chóras go mbíonn tionchar ag a n-aiseolas ar mholtaí.
  • A thuiscint go tapa cé dó a mholfaidh alt nua.
  • Freagair go tapa ar theacht chun cinn leanúnach ábhar nua. Foilsítear na mílte alt gach lá, agus saolré teoranta ag go leor acu (abair, nuacht). Is é seo a dhéanann idirdhealú idir iad agus scannáin, ceol agus ábhar eile a bhfuil saol fada agus costasach le cruthú.
  • Aistrigh eolas ó réimse fearainn amháin go ceann eile. Má tá múnlaí oilte le haghaidh ailt téacs ag córas molta agus má chuirimid físeán leis, is féidir linn na samhlacha atá ann cheana a athúsáid ionas go mbeidh an cineál nua ábhair níos fearr.

Inseoidh mé duit conas a réitigh muid na fadhbanna seo.

Roghnú iarrthóirí

Conas líon na ndoiciméad atá á mbreithniú a laghdú na mílte uair i gceann cúpla milleasoicindí, gan beagnach aon mheath ar cháilíocht an rangú?

Cuir i gcás go ndearnamar oiliúint ar go leor samhlacha ML, ghin muid gnéithe bunaithe orthu, agus chuireamar oiliúint ar mhúnla eile a dhéanann rangú ar dhoiciméid don úsáideoir. Bheadh ​​​​gach rud go breá, ach ní féidir leat na comharthaí go léir do na doiciméid go léir a ghlacadh agus a ríomh i bhfíor-am, má tá na milliúin de na doiciméid seo ann, agus ní mór moltaí a thógáil i 100-200 ms. Is é an tasc ná fo-thacar áirithe a roghnú ó na milliúin, a dhéanfar a rangú don úsáideoir. Roghnú iarrthóra a thugtar ar an gcéim seo de ghnáth. Tá roinnt riachtanas ann dó. Ar an gcéad dul síos, caithfidh an roghnú tarlú go han-tapa, ionas go mbeidh an oiread ama agus is féidir fágtha don rangú féin. Ar an dara dul síos, tar éis líon na ndoiciméad le haghaidh rangú a laghdú go mór, ní mór dúinn doiciméid a bhaineann leis an úsáideoir a chaomhnú chomh hiomlán agus is féidir.

Tá ár bprionsabal roghnúcháin iarrthóirí tagtha chun cinn, agus faoi láthair tá scéim ilchéime sroichte againn:

An chaoi a n-oibrímid ar cháilíocht agus ar luas roghnúcháin na moltaí

Ar dtús, roinntear na doiciméid go léir i ngrúpaí, agus tógtar na doiciméid is coitianta ó gach grúpa. Is féidir le grúpaí a bheith ina suíomhanna, topaicí, braislí. Do gach úsáideoir, bunaithe ar a stair, roghnaítear na grúpaí is gaire dó agus baintear na doiciméid is fearr uathu. Bainimid úsáid freisin as an t-innéacs kNN chun doiciméid a roghnú is gaire don úsáideoir i bhfíor-am. Tá go leor modhanna ann chun innéacs kNN a thógáil; HNSW (graif Ordlathach Inseolta Domhanda Beag). Samhail ordlathach é seo a ligeann duit na N veicteoirí is gaire d’úsáideoir a aimsiú ó bhunachar sonraí de na milliúin i gceann cúpla milleasoicind. Déanaimid ár mbunachar sonraí doiciméad iomlán a innéacsú as líne ar dtús. Ós rud é go n-oibríonn cuardach san innéacs go tapa go leor, má tá roinnt leabaithe láidre ann, is féidir leat roinnt innéacsanna a chruthú (innéacs amháin le haghaidh gach leabú) agus rochtain a fháil ar gach ceann acu i bhfíor-am.

Tá na mílte doiciméad againn fós do gach úsáideoir. Tá sé seo fós go leor chun na gnéithe go léir a chomhaireamh, agus mar sin ag an gcéim seo úsáidimid rangú éadrom - múnla rangú éadrom trom le níos lú gnéithe. Is é an tasc a thuar cad iad na doiciméid a bheidh ag múnla trom sa bharr. Bainfear úsáid as doiciméid leis an tuar is airde sa mhúnla trom, is é sin, ag an gcéim dheireanach den rangú. Ligeann an cur chuige seo duit an bunachar sonraí de dhoiciméid a mheastar don úsáideoir a laghdú ó na milliúin go dtí na mílte i ndeicheanna milleasoicindí.

Céim ALS in am rite

Conas aiseolas úsáideora a chur san áireamh díreach tar éis cliceáil?

Fachtóir tábhachtach i moltaí is ea an t-am freagartha ar aiseolas ó úsáideoirí. Tá sé seo tábhachtach go háirithe d'úsáideoirí nua: nuair a thosaíonn duine díreach ag baint úsáide as an gcóras moltaí, faigheann sé fotha neamhphearsanta de dhoiciméid ar ábhair éagsúla. Chomh luath agus a dhéanann sé an chéad cliceáil, ní mór duit é seo a chur san áireamh láithreach agus a oiriúnú dá leasanna. Má ríomhann tú na fachtóirí go léir as líne, beidh freagra tapa córais dodhéanta mar gheall ar an moill. Mar sin tá sé riachtanach gníomhartha úsáideora a phróiseáil i bhfíor-am. Chun na gcríoch sin, úsáidimid an chéim ALS ag am rite chun léiriú veicteoireach den úsáideoir a thógáil.

Glacaimid leis go bhfuil ionadaíocht veicteora againn do gach doiciméad. Mar shampla, is féidir linn leabaithe a thógáil as líne bunaithe ar théacs ailt ag baint úsáide as ELMo, BERT nó samhlacha meaisínfhoghlama eile. Conas is féidir linn léiriú veicteoireach a fháil ar úsáideoirí sa spás céanna bunaithe ar a n-idirghníomhaíochtaí sa chóras?

Prionsabal ginearálta foirmiú agus dhianscaoileadh na maitrís doiciméad úsáideoraBíodh m úsáideoirí agus n doiciméid againn. I gcás roinnt úsáideoirí, tá a gcaidreamh le doiciméid áirithe ar eolas. Ansin is féidir an fhaisnéis seo a léiriú mar mhaitrís m x n: comhfhreagraíonn sraitheanna d’úsáideoirí, agus comhfhreagraíonn colúin do dhoiciméid. Ós rud é nach bhfuil an chuid is mó de na doiciméid le feiceáil ag an duine, fanfaidh an chuid is mó de na cealla maitrís folamh, agus líonfar daoine eile. I gcás gach imeachta (cosúil le, nach dtaitníonn, cliceáil) soláthraítear luach éigin sa mhaitrís - ach déanaimis machnamh ar mhúnla simplithe ina gcomhfhreagraíonn a leithéid do 1, agus ina gcomhfhreagraíonn dislike do -1.

Déanaimis an mhaitrís a dhianscaoileadh ina dhá cheann: P (m x d) agus Q (d x n), áit arb é d toise an léiriú veicteora (líon beag de ghnáth). Ansin comhfhreagróidh gach réad le veicteoir d-tríthoiseach (d'úsáideoir - as a chéile sa mhaitrís P, le haghaidh doiciméad - colún sa mhaitrís Q). Beidh na veicteoirí seo mar leabú na n-oibiachtaí comhfhreagracha. Chun a thuar cé acu an dtaitníonn doiciméad le húsáideoir, ní féidir leat ach a leabaithe a iolrú.

An chaoi a n-oibrímid ar cháilíocht agus ar luas roghnúcháin na moltaí
Ceann de na bealaí is féidir le maitrís a dhianscaoileadh ná ALS (Alternating Lest Squares). Déanfaimid an fheidhm caillteanais seo a leanas a bharrfheabhsú:

An chaoi a n-oibrímid ar cháilíocht agus ar luas roghnúcháin na moltaí

Seo é rui idirghníomhú an úsáideora u le doiciméad i, is é qi veicteoir dhoiciméad i, is é pu veicteoir úsáideora u.

Ansin aimsítear an veicteoir úsáideora is fearr ó thaobh na meánearráide cearnacha (le haghaidh veicteoirí doiciméad seasta) go hanailíseach tríd an aischéimniú líneach comhfhreagrach a réiteach.

Tugtar "céim ALS" air seo. Agus is é an t-algartam ALS féin ná go ndéanaimid ceann de na maitrísí (úsáideoirí agus earraí) a shocrú gach re seach agus an ceann eile a nuashonrú, ag teacht ar an réiteach is fearr.

Ar ámharaí an tsaoil, is oibríocht sách tapa é ionadaíocht veicteoir an úsáideora a aimsiú is féidir a dhéanamh ag am rite ag baint úsáide as treoracha veicteora. Ligeann an cleas seo duit aiseolas úsáideoirí a chur san áireamh láithreach agus tú ag rangú. Is féidir an leabú céanna a úsáid san innéacs kNN chun roghnú na n-iarrthóirí a fheabhsú.

Scagadh Comhoibríoch Dáilte

Conas fachtóiriú maitrís incriminteach dáilte a dhéanamh agus léiriú veicteoireach ar earraí nua a aimsiú go tapa?

Ní ábhar an t-aon fhoinse comharthaí molta. Foinse thábhachtach eile is ea faisnéis chomhoibríoch. Is féidir dea-ghnéithe rangú a fháil go traidisiúnta ó dhianscaoileadh na maitrís doiciméad úsáideora. Ach nuair a bhíothas ag iarraidh a leithéid de lobhadh a dhéanamh, tháinig muid ar fhadhbanna:

1. Tá na milliúin doiciméad agus na mílte úsáideoirí againn. Ní luíonn an maitrís go hiomlán ar mheaisín amháin, agus glacfaidh an dianscaoileadh am an-fhada.
2. Tá saolré gearr ag an gcuid is mó den ábhar sa chóras: fanann na doiciméid ábhartha ar feadh cúpla uair an chloig. Dá bhrí sin, is gá a n-ionadaíocht veicteora a thógáil chomh tapa agus is féidir.
3. Má thógann tú lobhadh díreach tar éis an doiciméad a fhoilsiú, ní bheidh am ag líon leordhóthanach úsáideoirí é a mheas. Mar sin, is dóichí nach mbeidh ionadaíocht veicteora an-mhaith aige.
4. Más maith nó nach dtaitníonn úsáideoir, ní bheimid in ann é seo a chur san áireamh láithreach sa dianscaoileadh.

Chun na fadhbanna seo a réiteach, chuireamar dianscaoileadh dáilte ar an maitrís doiciméad úsáideora i bhfeidhm le nuashonruithe incriminteacha go minic. Conas go díreach a oibríonn sé?

Cuir i gcás go bhfuil braisle de mheaisíní N againn (tá N sna céadta) agus ba mhaith linn dianscaoileadh dáilte maitrís a dhéanamh orthu nach n-oireann ar mheaisín amháin. Is í an cheist conas an dianscaoileadh seo a dhéanamh ionas go mbeidh, ar thaobh amháin, go leor sonraí ar gach meaisín agus, ar an taobh eile, ionas go mbeidh na ríomhanna neamhspleách?

An chaoi a n-oibrímid ar cháilíocht agus ar luas roghnúcháin na moltaí

Bainfimid úsáid as an algartam dianscaoilte ALS a thuairiscítear thuas. Breathnaímid ar conas céim ALS amháin a fhorghníomhú ar bhealach dáilte - beidh an chuid eile de na céimeanna cosúil le chéile. Ligean le rá go bhfuil maitrís seasta doiciméad againn agus ba mhaith linn maitrís úsáideoirí a thógáil. Chun seo a dhéanamh, roinnfimid é ina chuid N de réir línte, beidh thart ar an líon céanna línte i ngach cuid. Seolfaimid chuig gach meaisín cealla neamhfholamh de na sraitheanna comhfhreagracha, chomh maith le maitrís leabaithe doiciméad (go hiomlán). Ós rud é nach bhfuil a mhéid an-mhór, agus go bhfuil an maitrís doiciméad úsáideora an-bheag de ghnáth, beidh na sonraí seo oiriúnach ar mheaisín rialta.

Is féidir an cleas seo a athdhéanamh thar roinnt tréimhsí go dtí go dtagann an tsamhail le chéile, ag malartú an mhaitrís sheasta ceann ar cheann. Ach fiú ansin, is féidir le dianscaoileadh maitrís roinnt uaireanta an chloig a ghlacadh. Agus ní réitíonn sé seo an fhadhb a theastaíonn uait chun leabú doiciméad nua a fháil go tapa agus leabú na ndaoine sin nach raibh mórán faisnéise orthu agus an tsamhail á thógáil agat a nuashonrú.

Chabhraigh tabhairt isteach nuashonruithe samhail incriminteacha tapa linn. Ligean le rá go bhfuil múnla oilte againn faoi láthair. Ón uair a fuair sí oiliúint, tá ailt nua ann a raibh idirghníomhú ag ár n-úsáideoirí leo, chomh maith le hailt nach raibh mórán idirghníomhaíochta acu le linn na hoiliúna. Chun leabú earraí den sórt sin a fháil go tapa, bainimid úsáid as na leabaithe úsáideora a fuarthas le linn na chéad oiliúna mór den tsamhail agus déanaimid céim ALS amháin chun an mhaitrís doiciméad a ríomh nuair a thugtar maitrís úsáideora seasta. Ligeann sé seo duit leabaithe a fháil go tapa go leor - laistigh de chúpla nóiméad tar éis an doiciméad a fhoilsiú - agus go minic nuashonraíonn sé leabaithe na ndoiciméad is déanaí.

Chun moltaí a dhéanamh láithreach cuir gníomhartha daonna san áireamh, le linn am rite ní úsáidimid leabaithe úsáideora a fhaightear as líne. Ina áit sin, déanaimid céim ALS agus faighimid an veicteoir úsáideora iarbhír.

Aistrigh chuig réimse fearainn eile

Conas aiseolas úsáideoirí ar ailt téacs a úsáid chun léiriú veicteoireach a chruthú ar fhís?

Ar dtús, ní mholamar ach ailt téacs, mar sin tá go leor dár halgartaim in oiriúint don chineál seo ábhar. Ach nuair a bhí cineálacha eile ábhar á gcur leis, bhí muid ag tabhairt aghaidh ar an ngá na samhlacha a oiriúnú. Conas a réitigh muid an fhadhb seo ag baint úsáide as sampla físeáin? Rogha amháin is ea gach samhail a athoiliúint ón tús. Ach tógann sé seo le fada an lá, agus tá cuid de na halgartaim ag éileamh ar mhéid an tsampla oiliúna, nach bhfuil ar fáil fós sa chainníocht riachtanach le haghaidh cineál nua ábhar sa chéad chuimhneacháin dá shaol ar an tseirbhís.

Chuaigh muid an bealach eile agus athúsáideamar na samhlacha téacs don fhís. Chuidigh an cleas ALS céanna linn léirithe veicteora físeáin a chruthú. Rinneamar léiriú veicteoireach ar úsáideoirí bunaithe ar ailt téacs agus rinneamar céim ALS ag baint úsáide as faisnéis físamhairc. Mar sin fuaireamar léiriú veicteoireach ar an bhfíseán go héasca. Agus ag am rite ní dhéanaimid ach an ghaireacht idir an veicteoir úsáideora a fhaightear ó ailt téacs agus an veicteoir físeáin a ríomh.

Conclúid

Is iomaí dúshlán atá i gceist le croí-chóras moltaí fíor-ama a fhorbairt. Ní mór duit sonraí a phróiseáil go tapa agus modhanna ML a chur i bhfeidhm chun na sonraí seo a úsáid go héifeachtach; córais casta dáilte a thógáil a bheidh in ann comharthaí úsáideora agus aonaid nua ábhair a phróiseáil laistigh de thréimhse íosta; agus go leor tascanna eile.

Sa chóras reatha, ar a ndearna mé cur síos ar an dearadh, fásann cáilíocht na moltaí don úsáideoir mar aon lena ghníomhaíocht agus a fhad fanachta ar an tseirbhís. Ach ar ndóigh, luíonn anseo an deacracht is mó: tá sé deacair don chóras a thuiscint láithreach ar mhaithe le duine nach bhfuil mórán idirghníomhú leis an ábhar. Is é ár bpríomhsprioc moltaí d’úsáideoirí nua a fheabhsú. Leanfaimid orainn ag uasmhéadú na halgartaim ionas go dtiocfaidh ábhar atá ábhartha do dhuine isteach ina bheatha níos tapúla, agus nach dtaispeántar ábhar nach mbaineann le hábhar.

Foinse: will.com

Add a comment