Bawo ni a dede ipolowo

Bawo ni a dede ipolowo

Iṣẹ kọọkan ti awọn olumulo le ṣẹda akoonu ti ara wọn (UGC - Akoonu ti ipilẹṣẹ olumulo) ti fi agbara mu kii ṣe lati yanju awọn iṣoro iṣowo nikan, ṣugbọn tun lati fi awọn nkan lelẹ ni UGC. Iwọntunwọnsi akoonu ti ko dara tabi kekere le dinku ifamọra ti iṣẹ naa fun awọn olumulo, paapaa ti pari iṣẹ rẹ.

Loni a yoo sọ fun ọ nipa amuṣiṣẹpọ laarin Yula ati Odnoklassniki, eyiti o ṣe iranlọwọ fun wa ni iwọntunwọnsi awọn ipolowo ni imunadoko ni Yula.

Amuṣiṣẹpọ ni gbogbogbo jẹ ohun ti o wulo pupọ, ati ni agbaye ode oni, nigbati awọn imọ-ẹrọ ati awọn aṣa yipada ni yarayara, o le yipada si igbala aye. Kini idi ti awọn ohun elo ti o ṣọwọn ati akoko pilẹṣẹ nkan ti o ti ṣẹda tẹlẹ ti o mu wa si ọkan ṣaaju?

A ro ohun kanna nigba ti a dojuko pẹlu iṣẹ-ṣiṣe ni kikun ti iwọntunwọnsi akoonu olumulo - awọn aworan, ọrọ ati awọn ọna asopọ. Awọn olumulo wa gbejade awọn miliọnu awọn ege akoonu si Yula lojoojumọ, ati laisi sisẹ adaṣe ko ṣee ṣe patapata lati ṣe iwọntunwọnsi gbogbo data yii pẹlu ọwọ.

Nitorinaa, a lo pẹpẹ iwọntunwọnsi ti a ti ṣetan, eyiti lakoko yẹn awọn ẹlẹgbẹ wa lati Odnoklassniki ti pari si ipo “o fẹrẹ to pipe.”

Kini idi ti Odnoklassniki?

Lojoojumọ, awọn mewa ti awọn miliọnu awọn olumulo wa si nẹtiwọọki awujọ ati ṣe atẹjade awọn miliọnu awọn ege akoonu: lati awọn fọto si awọn fidio ati awọn ọrọ. Syeed iwọntunwọnsi Odnoklassniki ṣe iranlọwọ lati ṣayẹwo awọn iwọn nla ti data ati koju awọn spammers ati awọn botilẹjẹ.

Ẹgbẹ iwọntunwọnsi OK ti ṣajọpọ iriri pupọ, niwọn bi o ti n ṣe ilọsiwaju ohun elo rẹ fun ọdun 12. O ṣe pataki ki wọn ko le pin awọn ipinnu ti a ti ṣetan nikan, ṣugbọn tun ṣe aṣa faaji ti pẹpẹ wọn lati baamu awọn iṣẹ ṣiṣe kan pato.

Bawo ni a dede ipolowo

Lati isisiyi lọ, fun kukuru, a yoo kan pe pẹpẹ iwọntunwọnsi OK “Syeed.”

Bawo ni ohun gbogbo ṣe n ṣiṣẹ

Paṣipaarọ data laarin Yula ati Odnoklassniki ti wa ni idasilẹ nipasẹ Afun Kafka.

Kini idi ti a fi yan ọpa yii:

  • Ni Yula, gbogbo awọn ipolowo ti wa ni ipo-ifiweranṣẹ, nitorina ni ibẹrẹ ko nilo esi amuṣiṣẹpọ.
  • Ti paragi buburu kan ba ṣẹlẹ ati pe Yula tabi Odnoklassniki ko si, pẹlu nitori diẹ ninu awọn ẹru giga, lẹhinna data lati Kafka kii yoo parẹ nibikibi ati pe o le ka nigbamii.
  • Syeed ti wa tẹlẹ pẹlu Kafka, nitorinaa ọpọlọpọ awọn ọran aabo ni ipinnu.

Bawo ni a dede ipolowo

Fun ipolowo kọọkan ti o ṣẹda tabi ṣe atunṣe nipasẹ olumulo ni Yula, JSON kan pẹlu data jẹ ipilẹṣẹ, eyiti o gbe sinu Kafka fun iwọntunwọnsi atẹle. Lati Kafka, awọn ikede ti wa ni ikojọpọ sinu pẹpẹ, nibiti wọn ti ṣe idajọ laifọwọyi tabi pẹlu ọwọ. Awọn ipolowo buburu ti dinamọ pẹlu idi kan, ati pe ninu eyiti pẹpẹ ko rii irufin jẹ samisi bi “dara.” Lẹhinna gbogbo awọn ipinnu ni a firanṣẹ pada si Yula ati lo ninu iṣẹ naa.

Ni ipari, fun Yula gbogbo rẹ wa si awọn iṣe ti o rọrun: firanṣẹ ipolowo kan si pẹpẹ Odnoklassniki ki o gba ipinnu kan pada “ok”, tabi kilode ti kii ṣe “dara”.

Ṣiṣe adaṣe adaṣe

Kini yoo ṣẹlẹ si ipolowo naa lẹhin ti o de ori pẹpẹ? Ipolowo kọọkan ti pin si ọpọlọpọ awọn nkan:

  • Orukọ,
  • apejuwe,
  • awọn fọto,
  • Ẹka ti olumulo yan ati ipin ti ipolowo,
  • owo

Bawo ni a dede ipolowo

Syeed lẹhinna ṣe iṣupọ fun nkan kọọkan lati wa awọn ẹda-ẹda. Pẹlupẹlu, ọrọ ati awọn fọto ti wa ni akojọpọ ni ibamu si awọn ero oriṣiriṣi.

Ṣaaju kikojọpọ, awọn ọrọ jẹ deede lati yọ awọn ohun kikọ pataki kuro, awọn lẹta ti o yipada ati awọn idoti miiran. Awọn data ti o gba ti pin si N-grams, ọkọọkan wọn jẹ hashed. Abajade jẹ ọpọlọpọ awọn hashes alailẹgbẹ. Ijọra laarin awọn ọrọ ti pinnu nipasẹ Jackcard ká odiwon laarin awọn meji Abajade tosaaju. Ti ibajọra naa ba tobi ju iloro lọ, lẹhinna awọn ọrọ ti dapọ si iṣupọ kan. Lati yara wiwa fun awọn iṣupọ ti o jọra, MinHash ati hashing-ifamọ agbegbe ni a lo.

Awọn aṣayan oriṣiriṣi fun awọn aworan gluing ni a ti ṣe fun awọn fọto, lati fiwera awọn aworan pHash si wiwa awọn ẹda-ẹda nipa lilo nẹtiwọọki nkankikan.

Ọna ti o kẹhin julọ jẹ “lile”. Lati ṣe ikẹkọ awoṣe, awọn mẹta ti awọn aworan (N, A, P) ni a yan ninu eyiti N ko jọra si A, ati P jẹ iru A (jẹ ologbele-ẹda-ẹda). Lẹhinna nẹtiwọọki nkankikan kọ ẹkọ lati jẹ ki A ati P sunmọ bi o ti ṣee, ati A ati N bi o ti ṣee ṣe. Eyi ṣe abajade awọn idaniloju iro diẹ ni akawe si gbigba awọn ifibọ lasan lati inu nẹtiwọọki ti a ti kọkọ tẹlẹ.

Nigbati nẹtiwọọki nkankikan ba gba awọn aworan bi titẹ sii, o ṣe agbejade fekito onisẹpo N (128) fun ọkọọkan wọn ati pe a ṣe ibeere kan lati ṣe ayẹwo isunmọ aworan naa. Nigbamii ti, iloro ti wa ni iṣiro ni eyiti awọn aworan ti o sunmọ ni a kà si awọn ẹda-ẹda.

Awoṣe naa ni anfani lati ni oye wa awọn spammers ti o ya aworan ọja kanna ni pataki lati awọn igun oriṣiriṣi lati le fori afiwe pHash naa.

Bawo ni a dede ipolowoBawo ni a dede ipolowo
Apeere ti awọn fọto àwúrúju glued papọ nipasẹ nẹtiwọọki nkankikan bi awọn ẹda-ẹda.

Ni ipele ikẹhin, awọn ipolowo ẹda ẹda ni a ṣewadii nigbakanna nipasẹ ọrọ mejeeji ati aworan.

Ti awọn ipolowo meji tabi diẹ sii ti di papo ni iṣupọ kan, eto naa bẹrẹ idinamọ laifọwọyi, eyiti, lilo awọn algoridimu kan, yan iru awọn ẹda-ẹda lati paarẹ ati eyiti yoo lọ kuro. Fun apẹẹrẹ, ti awọn olumulo meji ba ni awọn fọto kanna ni ipolowo, eto naa yoo dènà ipolowo aipẹ diẹ sii.

Ni kete ti o ṣẹda, gbogbo awọn iṣupọ lọ nipasẹ lẹsẹsẹ awọn asẹ adaṣe. Ajọ kọọkan n ṣe iyasọtọ Dimegilio kan si iṣupọ: bawo ni o ṣe ṣee ṣe pe o ni irokeke ti àlẹmọ yii ṣe idanimọ.

Fun apẹẹrẹ, eto naa ṣe itupalẹ apejuwe ninu ipolowo kan ati yan awọn ẹka ti o pọju fun rẹ. Lẹhinna o gba eyi ti o ni iṣeeṣe ti o pọju ati ki o ṣe afiwe rẹ pẹlu ẹka ti a sọ pato nipasẹ onkọwe ti ipolongo naa. Ti wọn ko ba baramu, ipolowo ti dinamọ fun ẹka ti ko tọ. Ati pe niwọn bi a ti jẹ oninuure ati ooto, a sọ taara olumulo iru ẹka wo ni o nilo lati yan ki ipolowo naa le kọja iwọntunwọnsi.

Bawo ni a dede ipolowo
Ifitonileti ti ìdènà fun ẹka ti ko tọ.

Ẹkọ ẹrọ kan lara ni ile ni pẹpẹ wa. Fun apẹẹrẹ, pẹlu iranlọwọ rẹ a wa ninu awọn orukọ ati awọn apejuwe ti awọn ọja ti o ni idinamọ ni Russian Federation. Ati awọn awoṣe nẹtiwọọki nkankikan ni “ṣayẹwo” awọn aworan lati rii boya wọn ni URL ninu, awọn ọrọ àwúrúju, awọn nọmba tẹlifoonu, ati alaye “eewọ” kanna.

Fun awọn ọran nibiti wọn ti n gbiyanju lati ta ọja eewọ ti para bi nkan ti ofin, ati pe ko si ọrọ ninu boya akọle tabi apejuwe, a lo fifi aami si aworan. Fun aworan kọọkan, to awọn aami oriṣiriṣi 11 ẹgbẹrun le ṣe afikun ti o ṣe apejuwe ohun ti o wa ninu aworan naa.

Bawo ni a dede ipolowo
Wọn n gbiyanju lati ta hookah naa nipa yiyipada rẹ bi samovar.

Ni afiwe pẹlu awọn asẹ eka, awọn ti o rọrun tun ṣiṣẹ, yanju awọn iṣoro ti o han gbangba ti o ni ibatan si ọrọ:

  • antimat;
  • URL ati oluṣawari nọmba foonu;
  • darukọ awọn ojiṣẹ lojukanna ati awọn olubasọrọ miiran;
  • dinku owo;
  • awọn ipolongo ninu eyiti ko si ohun ti o wa fun tita, ati bẹbẹ lọ.

Loni, gbogbo ipolowo n lọ nipasẹ sieve ti o dara ti diẹ sii ju awọn asẹ adaṣe adaṣe 50 ti o gbiyanju lati wa nkan buburu ninu ipolowo naa.

Ti ko ba si ọkan ninu awọn aṣawari ti o ṣiṣẹ, lẹhinna esi kan ranṣẹ si Yula pe ipolowo jẹ “o ṣeeṣe julọ” ni aṣẹ pipe. A lo idahun yii funrara wa, ati awọn olumulo ti o ti ṣe alabapin si eniti o ta ọja gba ifitonileti kan nipa wiwa ọja tuntun kan.

Bawo ni a dede ipolowo
Iwifunni pe eniti o ta ọja naa ni ọja tuntun.

Bi abajade, ipolowo kọọkan jẹ “poju” pẹlu metadata, diẹ ninu eyiti o jẹ ipilẹṣẹ nigbati ipolowo ba ṣẹda (adirẹsi IP onkọwe, aṣoju-olumulo, pẹpẹ, agbegbe agbegbe, ati bẹbẹ lọ), ati pe iyoku ni Dimegilio ti a gbejade nipasẹ àlẹmọ kọọkan .

Awọn isinyi ikede

Nigbati ipolowo ba de ori pẹpẹ, eto naa fi sii sinu ọkan ninu awọn ila. A ṣẹda isinyi kọọkan nipa lilo agbekalẹ mathematiki kan ti o ṣajọpọ metadata ipolowo ni ọna ti o ṣe iwari eyikeyi awọn ilana buburu.

Fun apẹẹrẹ, o le ṣẹda isinyi ti awọn ipolowo ni ẹka “Awọn foonu alagbeka” lati ọdọ awọn olumulo Yula ti o yẹ lati St.

Bawo ni a dede ipolowo
Apeere ti awọn ipolowo ti a fiweranṣẹ nipasẹ olumulo kan ni awọn ilu oriṣiriṣi.

Tabi o le ṣe awọn ila ti o da lori awọn ikun ti nẹtiwọọki nkankikan fi si awọn ipolowo, ṣeto wọn ni ọna ti o sọkalẹ.

Ọkọọkan ti isinyi, ni ibamu si agbekalẹ tirẹ, fi Dimegilio ipari si ipolowo naa. Lẹhinna o le tẹsiwaju ni awọn ọna oriṣiriṣi:

  • pato ẹnu-ọna eyiti ipolowo kan yoo gba iru ìdènà kan;
  • firanṣẹ gbogbo awọn ipolowo ni isinyi si awọn oniwontunniwonsi fun atunyẹwo afọwọṣe;
  • tabi ṣajọpọ awọn aṣayan iṣaaju: pato ẹnu-ọna idinaduro aifọwọyi ki o firanṣẹ si awọn oniwontunniwonsi awọn ipolowo ti ko ti de iloro yii.

Bawo ni a dede ipolowo

Kini idi ti awọn ila wọnyi nilo? Jẹ ki a sọ pe olumulo kan ṣe agbejade fọto ti ohun ija kan. Nẹtiwọọki nkankikan fun ni Dimegilio lati 95 si 100 ati pinnu pẹlu deede 99 ogorun pe ohun ija kan wa ninu aworan naa. Ṣugbọn ti iye Dimegilio ba wa ni isalẹ 95%, deede ti awoṣe bẹrẹ lati dinku (eyi jẹ ẹya ti awọn awoṣe nẹtiwọọki nkankikan).

Bi abajade, isinyi ti wa ni ipilẹ ti o da lori awoṣe Dimegilio, ati pe awọn ipolowo ti o gba laarin 95 ati 100 ti dinamọ laifọwọyi bi “Awọn ọja Idiwọ”. Awọn ipolowo pẹlu Dimegilio ti o wa ni isalẹ 95 ni a firanṣẹ si awọn oniwontunniwonsi fun sisẹ afọwọṣe.

Bawo ni a dede ipolowo
Chocolate Beretta pẹlu awọn katiriji. Nikan fun iwọntunwọnsi afọwọṣe! 🙂

Iwontunwonsi Afowoyi

Ni ibẹrẹ ọdun 2019, nipa 94% ti gbogbo awọn ipolowo ni Yula ti ni iwọntunwọnsi laifọwọyi.

Bawo ni a dede ipolowo

Ti pẹpẹ ko ba le pinnu lori diẹ ninu awọn ipolowo, o firanṣẹ fun iwọntunwọnsi afọwọṣe. Odnoklassniki ni idagbasoke ọpa tiwọn: awọn iṣẹ-ṣiṣe fun awọn oniwontunniwonsi lẹsẹkẹsẹ ṣafihan gbogbo alaye pataki lati ṣe ipinnu iyara - ipolowo naa dara tabi o yẹ ki o dina, nfihan idi naa.

Ati pe ki didara iṣẹ ko ni jiya lakoko iwọntunwọnsi afọwọṣe, a ṣe abojuto iṣẹ eniyan nigbagbogbo. Fun apẹẹrẹ, ninu ṣiṣan iṣẹ-ṣiṣe, oluṣeto ti han “awọn ẹgẹ” -awọn ipolowo eyiti o ti wa tẹlẹ awọn solusan ti a ti ṣetan. Ti ipinnu oniwontunniwonsi ko ba ni ibamu pẹlu eyi ti o pari, oluṣetoju yoo fun ni aṣiṣe.

Ni apapọ, adari kan lo iṣẹju-aaya 10 lati ṣayẹwo ipolowo kan. Pẹlupẹlu, nọmba awọn aṣiṣe ko ju 0,5% ti gbogbo awọn ipolowo idaniloju.

Iwontunwonsi eniyan

Awọn ẹlẹgbẹ lati Odnoklassniki lọ paapaa siwaju ati lo anfani ti “iranlọwọ ti awọn olugbo”: wọn kọ ohun elo ere kan fun nẹtiwọọki awujọ ninu eyiti o le samisi iye nla ti data ni iyara, ti n ṣe afihan diẹ ninu ami buburu - Alakoso Odnoklassniki (https://ok.ru/app/moderator). Ọna ti o dara lati lo anfani iranlọwọ ti awọn olumulo OK ti o ngbiyanju lati jẹ ki akoonu jẹ igbadun diẹ sii.

Bawo ni a dede ipolowo
Ere ninu eyiti awọn olumulo fi aami si awọn fọto ti o ni nọmba foonu lori wọn.

Eyikeyi ti isinyi ti awọn ipolowo ni pẹpẹ le jẹ darí si ere Alakoso Odnoklassniki. Ohun gbogbo ti awọn olumulo ere samisi ni a firanṣẹ si awọn oniwontunnisi inu fun atunyẹwo. Eto yii ngbanilaaye lati ṣe idiwọ awọn ipolowo eyiti a ko ti ṣẹda awọn asẹ, ati ṣẹda awọn ayẹwo ikẹkọ ni nigbakannaa.

Titoju awọn abajade iwọntunwọnsi

A fipamọ gbogbo awọn ipinnu ti a ṣe lakoko iwọntunwọnsi ki a ko tun ṣe awọn ipolowo wọnyẹn lori eyiti a ti ṣe ipinnu tẹlẹ.

Milionu awọn iṣupọ ni a ṣẹda lojoojumọ ti o da lori awọn ipolowo. Ni akoko pupọ, iṣupọ kọọkan jẹ aami “dara” tabi “buburu.” Ìpolówó tuntun kọ̀ọ̀kan tàbí àtúnyẹ̀wò rẹ̀, títẹ ìṣùpọ̀ kan wọlé pẹ̀lú àmì kan, gba ìpinnu kan ní aládàáṣe láti ọwọ́ ìdìpọ̀ fúnrarẹ̀. Nibẹ ni o wa nipa 20 ẹgbẹrun iru awọn ipinnu aifọwọyi fun ọjọ kan.

Bawo ni a dede ipolowo

Ti ko ba si awọn ikede tuntun ti o de si iṣupọ, o yọkuro lati iranti ati hash ati ojutu rẹ ni a kọ si Apache Cassandra.

Nigbati Syeed ba gba ipolowo tuntun, o kọkọ gbiyanju lati wa iṣupọ kan ti o jọra laarin awọn ti o ṣẹda tẹlẹ ati mu ojutu kan lati ọdọ rẹ. Ti ko ba si iru iṣupọ bẹ, pẹpẹ naa lọ si Cassandra ati ki o wo ibẹ. Se o ri? Nla, kan ojutu si iṣupọ ati firanṣẹ si Yula. O wa ni apapọ 70 ẹgbẹrun iru awọn ipinnu "tun" ni gbogbo ọjọ-8% ti apapọ.

Summing soke

A ti nlo pẹpẹ iwọntunwọnsi Odnoklassniki fun ọdun meji ati idaji. A nifẹ awọn abajade:

  • A ṣe iwọntunwọnsi laifọwọyi 94% ti gbogbo awọn ipolowo fun ọjọ kan.
  • Iye owo ti iṣatunṣe ipolowo kan dinku lati 2 rubles si 7 kopecks.
  • Ṣeun si ọpa ti a ti ṣetan, a gbagbe nipa awọn iṣoro ti iṣakoso awọn alakoso.
  • A pọ si nọmba awọn ipolowo ti a ṣe pẹlu ọwọ nipasẹ awọn akoko 2,5 pẹlu nọmba kanna ti awọn oniwontunniwonsi ati isuna. Didara iwọntunwọnsi afọwọṣe tun ti pọ si nitori iṣakoso adaṣe, ati yiyi ni ayika 0,5% ti awọn aṣiṣe.
  • A ni kiakia bo awọn iru àwúrúju tuntun pẹlu awọn asẹ.
  • A yarayara sopọ awọn ẹka tuntun si iwọntunwọnsi "Yula inaro". Lati ọdun 2017, Yula ti ṣafikun Ohun-ini Gidi, Awọn aye ati awọn inaro Aifọwọyi.

orisun: www.habr.com

Fi ọrọìwòye kun