Qualiter operamur in commendatione qualitatis et celeritatis lectionis

Nomen meum est Pavel Parkhomenko, sum ML elit. In hoc articulo loqui de structura Yandex.Zen servitii ac technicae incrementi participes, quarum exsecutio efficere potuit ut qualitatem commendationis augeret. Ex hoc poste disces quam maxime pertinentes usori inter myriades documentorum in paucis milliseconds invenire; facere continua compositione magnae matricis (ex centenis milibus columnarum et decem miliones ordinum) ut nova documenta vectorem suum in decem minutis recipiant; quomodo ad reuse compositionis matricis usoris articulum ut vector repraesentationem bonam obtinendam pro video.

Qualiter operamur in commendatione qualitatis et celeritatis lectionis

Nostra commendatio datorum decies documenta variarum formarum continet: vasa texta in nostro suggestu creata et ex locis externis, videos, narrationibus et brevibus nuntia desumpta sunt. Explicatio talis servitii cum pluribus provocationibus technicis coniungitur. Hic sunt quidam eorum;

  • Opera computandi divide: omnes gravia operationes offline faciunt, et in reali tempus tantum celeris applicationis exemplorum agunt ut responsabiles 100-200 ms sint.
  • Celeriter in ratione actus usoris. Ad hoc faciendum, necesse est ut omnia eventus exemplorum commendatori et influentia statim tradantur.
  • Fac cibos ut novis usoribus mores eorum cito adaptet. Homines qui systemati modo coniuncti sunt sentire debent suas opiniones suas influentiae.
  • Celeriter intellege qui novum articulum commendet.
  • Responde cito ad constantem cessum novorum contentorum. Decem milia articulorum cottidie divulgantur, et multi ex eis vitam limitatam habent (dicunt, nuntium). Hoc est quod distinguit eos a pelliculis, musicis et aliis contenta diuturna et pretiosa ad creandum.
  • Scientiam transferunt ab uno regio in aliam regionem. Si ratio commendaticiis exempla in articulis textibus exercuit et nos video ei adiungimus, exempla exempla exsistentia reicere possumus ut novum genus contentorum melius ordinet.

Dicam vobis quomodo has difficultates solvimus.

Electio candidatorum

Quomodo numerum documentorum sub consideratione minuere millies in paucis millies secundus, cum nulla fere depravatione in qualitate ordo?

Puta nos multa ML exempla exercuisse, lineamenta generata in illis fundari, et aliud exemplar instituisse quod documenta pro usuario habeat. Omnia denique essent, sed omnia signa omnia documentorum tempore reali capere et computare non potes, si decies documentorum horum habentur, et commendationes in 100-200 ms aedificandae sunt. Negotium est certum aliquid e decies centena millia deligere, quod pro usore computabitur. Haec scaena candidatorum lectio appellari solet. Plures requiruntur. Primo, lectio celerrime evenire debet, ut quam maxime tempore ipsi ordo relinquatur. Secundo, numero documentorum ad ordinem redacto, documenta ad usorem quam maxime pertinentia conservare debemus.

Principium nostrum candidatorum selectio evolutum est, et in momento temporis schema perventum est:

Qualiter operamur in commendatione qualitatis et celeritatis lectionis

Primum omnia documenta in circulos dividuntur, et documenta popularia ex utroque coetu sumuntur. Coetus possunt esse sites, argumenta, botri. Pro unoquoque usuario, ex historia sua innixi, sodalitates sibi proximae eliguntur et documenta optima ex iis deducuntur. KNN indicem quoque adhibemus ad documenta selecta quae proximis usoris in tempore reali sunt. Plures modi sunt ad construendum indicem kNN; nostrum optimum laboraverunt HNSW (Hierarchicus Navigabilis Orbis Parvus). Hoc exemplar hierarchicum est quod permittit te invenire vectorem N arctissimum pro usuario ex database of millions in paucis milliseconds. Primum indicem nostri totius documenti database offline. Cum perscrutantes in indice operum satis cito, si plures fortes sunt inefficaces, plures indices (unus index pro singulis emblemationibus) creare potest et singulas in tempore reali accedere.

Adhuc decem milia documentorum pro quolibet usuario habemus. Hoc adhuc multum est ad omnia lineamenta computanda, quare in hac scaena utimur lucis ordo - leve et gravius ​​ordo cum paucioribus notationibus. Negotium est praedicere quae documenta magnum exemplum in summa habebunt. Documenta cum supremo predicto in gravi exemplari adhibebuntur, hoc est in ultimo gradu ordinis. Accessus hic permittit te reducere datorum documentorum pro usuario a decies ad milia in decies millies secundus.

ALS gradum runtime

Quomodo consideret user feedback statim post clic?

Suasiones magni momenti est responsio tempus ad user feedback. Hoc maxime interest pro novis utentibus: cum homo iustus incipit ratio commendationis utens, non personale alimentum accipit documentorum varii argumenti. Simulac primum cliccum facit, statim hoc in ratione accipere debes et eius commodis accommodare. Si omnes factores computas online, responsio velox systematis ob moram impossibilis fiet. Necessarium est igitur in usuario actuum processum temporis reali. Ad haec, utimur ALS gradatim ad runtime aedificandum repraesentationem vectoris utentis.

Demus repraesentationem habere vectorem pro omnibus documentis. Exempli gratia, emblemationes construere possumus offline e textu articuli adhibitis ELMo, BERT vel aliis exemplaribus eruditionis apparatus. Quomodo vector repraesentationem consequi possumus usorum in eodem spatio secundum eorum interactiones in systemate?

Principium generale formationis et compositionis matricis utentisHabeamus m utentes et n documenta. Pro quibusdam utentibus, relatio certa documentis notum est. Tunc haec notitia tamquam matrix mxn repraesentari potest: ordines respondent utentibus, columnae documentis respondent. Cum homo documenta plurima non viderit, pleraeque matricis cellae vacuae manebunt, aliae vero implebuntur. Pro unoquoque eventu (sicut, abominatio, preme) in matrice aliquid valoris praebetur - sed exemplar simpliciorem consideremus cui simile correspondet 1 , et fastidium correspondet -1.

Matricem in duas resolvamus: P (mxd) et Q (dxn), ubi d est dimensio repraesentationis vectoris (plerumque paucitatis). Tunc unumquodque obiectum respondebit vectori d dimensiva (pro usore - ordine in matrice P, pro documento - columna in matrice Q). Hi vectores implicationes obiectis respondentium erunt. Praedicere utrum usor documento similis erit, emblemationes suas simpliciter multiplicare potes.

Qualiter operamur in commendatione qualitatis et celeritatis lectionis
Una ex modis matricem corrumpi potest ALS (Alternating Quadrata Minima). Hoc damnum munus optimize faciemus:

Qualiter operamur in commendatione qualitatis et celeritatis lectionis

Hic rui est commercium utentis u cum document i, qi est vector documenti i, pu vector utentis u.

Tunc optimus usor vector ex parte erroris medii quadrati (pro vectori certo documento) analytice invenitur regressio linearis respondentis solvendo.

Hoc nomen "ALS gradus" appellatur. Ipsumque ALS algorithmus est quod alteram matrices (usores et articulos) alternatim figimus et alteram renovamus, optimam solutionem invenientes.

Fortunate, repraesentatio vectoris utentis invenire est operatio satis celeriter velocis quae fieri potest tempore currentis instructionibus utens vector. Haec fraus te permittit ut statim in user feedback rationem in ranking accipias. Eadem inflexio in kNN indice adhiberi potest ad electionem candidatorum emendandam.

Distribuit Collaborative Filtering

Quomodo facere incrementales factorisationum matrix distributae et cito invenire repraesentationes vectoris novorum articulorum?

Contentus non est solus fons commendationis annuit. Alius fons momenti notitia adiutrix est. Bona notae notae traditionaliter obtineri possunt ex compositione matricis usoris. Sed cum huiusmodi compositionem moliuntur, difficultates invenimus;

1. Decem milia documentorum habemus et decies centena milia utentium. Matrix in una machina omnino non convenit, et compositione diutissime capiet.
2. Pleraque argumenta in systemate brevem vitam habent: documenta tantum paucas horas manent pertinentes. Ergo necesse est repraesentationem vector quam celerrime construere.
3. Si compositionem aedifices statim post documentum evulgatum, numerus utentium satis aestimandi tempus non erit. Ergo repraesentatio eius vector verisimillimum non erit valde bona.
4. Si utens placet aut oderit, hoc statim in compositione rationem accipere non poterimus.

Ad has quaestiones solvendas, compositionem partitam de matricis utentis-documento crebris updates incrementalibus implevimus. Quam exacte operatur?

Esto nobis botrus N machinis (N est in centenis) et volumus facere in iis quae in una machina non conveniunt in compositione matricis distributam. Quaeritur quomodo hanc compositionem perficiat ut, ex una parte, in unaquaque machina notitia satis sit, ex altera ut calculi sui iuris sint?

Qualiter operamur in commendatione qualitatis et celeritatis lectionis

Utemur ALS compositione algorithm de quo supra. Intueamur quomodo unum ALS exequendi gradum secundum modum distributum - reliqui gradibus similes erunt. Dicamus nos certam matricem documentorum habere et matrix utentium aedificare volumus. Ad hoc faciendum illud in N partes per lineas dividemus, utraque pars totidem fere lineas continebit. Singulis machinae cellulis non-vacuis ordinum respondentium, necnon matricem documenti emblemationis (omnino). Cum magnitudo eius non magna sit, et matrix usoris documentum plerumque valde sparsum est, haec notitia in machinam regularem aptabit.

Haec stropha per plures epochas repeti potest, donec exemplar convergat, matrix fixa singillatim alternat. Sed tunc etiam matrix dissolutio plures horas capere potest. Nec obstat hoc problema quod debes cito novarum documentorum incommoda recipere et incommoda eorum renovare, de quibus exemplum aedificationis parum notitiae erat.

Substantia incrementalis celeritatis introductio nos adiuverunt. Dicamus nos exemplar hodiernum exercitatum habere. Cum eius educatio, novi articuli extiterunt quos usores nostri commercium habent, tum vasa quae in disciplina parum commercii habuerunt. Ad huiusmodi articulorum incommoda cito obtinenda, utentis embedinges in prima exemplaris magna institutione consecuta utimur et unum ALS gradum facere ad calculandum documentum matricis fixum matricis datum. Id tibi permittit ut emblemationes satis cito recipias — paucis minutis post divulgatum documentum — ac saepe recentium documentorum inclusiones renovas.

Commendationes statim ut actiones humanas rationem habeant, in runtime non utimur usoribus embedsionibus offline impetratis. Sed nos gradum ALS facimus et vector usoris actualis obtinemus.

Transferre ad alium aream domain

Quomodo utendi feedback in textibus usoris ad fabricandum vector repraesentationem video?

Initio tantum articulos textus commendavimus, tot algorithmorum nostrorum ad hoc genus contenti discriminatim discriminantur. Sed cum alia genera contentorum adderemus, praemittebamus necessitatem exemplorum accommodandi. Quomodo hanc quaestionem solvimus utens exemplo video? Optio una est omnia exempla de integro retinere. Sed hoc longum est tempus, et quaedam algorithms exigunt pro magnitudine exempli disciplinae, quae nondum praesto est in quantitate debita ad novum genus contenti in primis vitae suae momentis in usus.

Alio modo venimus et reddimus textum ad exempla vide. Eadem ALS fraus nos adiuvit repraesentationes vectoris imaginum creare. Repraesentationem vectoris usorum cepimus in articulis textibus niti et ALS gradum utens informationes visibiles. Facile igitur vector repraesentationem imaginis obtinuit. Et in runtime simpliciter computamus propinquitatem inter vectorem utentem nactus ex articulis textibus et vector.

conclusio,

Progrediens nucleum commendaticiis systematis realis-vicis multas provocationes implicat. Opus est ut notitias cito expedias et ML modos adhibeas ut hac notitia efficaciter utaris; systemata complexa distributa construere capax ad expediendas signa et novas contentorum unitates in minimo tempore; et alia multa opera.

In hodierna systemate, de quo diximus consilio, qualitas commendationis utentis crescit cum opera sua et mora in ministerio. Sed sane hic praecipua difficultas est: difficile est ut statim ratio cognoscat utilitates eius, qui parum commercii cum argumento habet. Suasiones ad novos utentes meliores finis clavis noster est. Algorithms optimize pergamus ut contentum, quod ad hominem pertinet, citius in feeds recipiatur, et nullius rei contentum non ostendat.

Source: www.habr.com

Add a comment