Bii o ṣe le ṣii awọn asọye ati ki o ma ṣe rì sinu àwúrúju

Bii o ṣe le ṣii awọn asọye ati ki o ma ṣe rì sinu àwúrúju

Nigbati iṣẹ rẹ ba ni lati ṣẹda nkan ti o lẹwa, o ko ni lati sọrọ pupọ nipa rẹ, nitori abajade jẹ niwaju gbogbo eniyan. Ṣugbọn ti o ba pa awọn iwe afọwọkọ rẹ kuro ni awọn odi, ko si ẹnikan ti yoo ṣe akiyesi iṣẹ rẹ niwọn igba ti awọn odi ba wo bojumu tabi titi ti o fi pa ohun ti ko tọ.

Eyikeyi iṣẹ nibi ti o ti le fi ọrọìwòye, awotẹlẹ, fi ifiranṣẹ kan ranṣẹ tabi po si awọn aworan pẹ tabi ya awọn isoro ti àwúrúju, jegudujera ati aimọkan. Eyi ko le yago fun, ṣugbọn o gbọdọ ṣe pẹlu.

Orukọ mi ni Mikhail, Mo ṣiṣẹ lori ẹgbẹ Antispam, eyiti o ṣe aabo fun awọn olumulo ti awọn iṣẹ Yandex lati iru awọn iṣoro bẹ. Iṣẹ wa kii ṣe akiyesi (ati pe iyẹn jẹ ohun ti o dara!), Nitorinaa loni Emi yoo sọ fun ọ diẹ sii nipa rẹ. Iwọ yoo kọ ẹkọ nigbati iwọntunwọnsi ko wulo ati idi ti deede kii ṣe afihan imunadoko rẹ nikan. A tún máa sọ̀rọ̀ nípa lílo àpẹẹrẹ ológbò àti ajá àti ìdí tó fi máa ń wúlò nígbà míì láti “rò bí ẹni búra.”

Awọn iṣẹ diẹ sii ati siwaju sii han ni Yandex nibiti awọn olumulo ṣe atẹjade akoonu wọn. O le beere ibeere kan tabi kọ idahun ni Yandex.Q, jiroro awọn iroyin àgbàlá ni Yandex.District, pin awọn ipo ijabọ ni awọn ibaraẹnisọrọ lori Yandex.Maps. Ṣugbọn nigbati awọn olugbo ti iṣẹ naa ba dagba, o di wuni si awọn scammers ati awọn spammers. Wọn wa ati kun awọn asọye: wọn funni ni owo ti o rọrun, polowo awọn iwosan iyanu ati ṣe ileri awọn anfani awujọ. Nitori ti awọn spammers, diẹ ninu awọn olumulo padanu owo, nigba ti awọn miran padanu ifẹ lati lo akoko lori iṣẹ ti ko ni aiṣan ti o pọju pẹlu àwúrúju.

Ati pe eyi kii ṣe iṣoro nikan. A tiraka kii ṣe lati daabobo awọn olumulo nikan lati awọn scammers, ṣugbọn tun lati ṣẹda oju-aye itunu fun ibaraẹnisọrọ. Ti awọn eniyan ba dojuko pẹlu ibura ati ẹgan ninu awọn asọye, wọn ṣee ṣe lati lọ kuro ati pe ko pada. Eyi tumọ si pe o tun nilo lati ni anfani lati koju eyi.

Wẹẹbu mimọ

Gẹgẹbi igbagbogbo pẹlu wa, awọn idagbasoke akọkọ ni a bi ni Ṣawari, ni apakan ti o ja àwúrúju ninu awọn abajade wiwa. Ní nǹkan bí ọdún mẹ́wàá sẹ́yìn, iṣẹ́ àlẹ̀mọ́ àkóónú àgbà fún àwọn ìṣàwárí ẹbí àti fún àwọn ìbéèrè tí kò nílò ìdáhùn láti ẹ̀ka 18+ han níbẹ̀. Eyi ni bii awọn iwe-itumọ akọkọ ti a fi ọwọ tẹ ti onihoho ati ibura han, wọn ti kun nipasẹ awọn atunnkanka. Iṣẹ akọkọ ni lati pin awọn ibeere si awọn ibiti o jẹ itẹwọgba lati ṣafihan akoonu agbalagba ati nibiti kii ṣe. Fun iṣẹ-ṣiṣe yii, a ti gba ami-ami, ti a kọ awọn heuristics, ati awọn awoṣe ti ni ikẹkọ. Eyi ni bii awọn idagbasoke akọkọ fun sisẹ akoonu ti aifẹ han.

Ni akoko pupọ, UGC (akoonu ti ipilẹṣẹ olumulo) bẹrẹ si han ni Yandex - awọn ifiranṣẹ ti a kọ nipasẹ awọn olumulo funrararẹ, ati Yandex nikan gbejade. Fun awọn idi ti a ṣalaye loke, ọpọlọpọ awọn ifiranṣẹ ko le ṣe atẹjade laisi wiwo - a nilo iwọntunwọnsi. Lẹhinna wọn pinnu lati ṣẹda iṣẹ kan ti yoo pese aabo lodi si àwúrúju ati awọn ikọlu fun gbogbo awọn ọja Yandex UGC ati lo awọn idagbasoke lati ṣe àlẹmọ akoonu ti aifẹ ni wiwa. Iṣẹ naa ni a pe ni “Wẹẹbu mimọ”.

Awọn iṣẹ-ṣiṣe titun ati iranlọwọ lati awọn titari

Ni akọkọ, adaṣe ti o rọrun nikan ṣiṣẹ fun wa: awọn iṣẹ naa firanṣẹ awọn ọrọ si wa, ati pe a ran awọn iwe-itumọ aṣiwere, awọn iwe-itumọ onihoho ati awọn ọrọ deede lori wọn - awọn atunnkanka ṣajọ ohun gbogbo pẹlu ọwọ. Ṣugbọn ni akoko pupọ, a lo iṣẹ naa ni nọmba ti o pọ si ti awọn ọja Yandex, ati pe a ni lati kọ ẹkọ lati ṣiṣẹ pẹlu awọn iṣoro tuntun.

Nigbagbogbo, dipo atunyẹwo, awọn olumulo ṣe atẹjade akojọpọ awọn lẹta ti ko ni itumọ, n gbiyanju lati mu awọn aṣeyọri wọn pọ si, nigbakan wọn polowo ile-iṣẹ wọn ni awọn atunyẹwo ti ile-iṣẹ oludije kan, ati nigba miiran wọn daru awọn ajo nirọrun ati kọ sinu atunyẹwo nipa ile itaja ọsin kan: “ Ẹja tí a sè dáadáa!” Boya ni ọjọ kan oye itetisi atọwọda yoo kọ ẹkọ lati loye ni pipe itumọ ọrọ eyikeyi, ṣugbọn ni bayi adaṣe nigbakan koju buru ju eniyan lọ.

Ó wá ṣe kedere pé a ò lè ṣe èyí láìsí àmì àfọwọ́kọ, a sì fi ìpele kejì kún àyíká wa—tí a fi ránṣẹ́ fún àyẹ̀wò àfọwọ́kọ láti ọwọ́ ènìyàn. Awọn ọrọ ti a tẹjade fun eyiti olupilẹṣẹ ko rii awọn iṣoro eyikeyi wa ninu rẹ. O le ni irọrun fojuinu iwọn iru iṣẹ-ṣiṣe bẹ, nitorinaa a ko gbẹkẹle awọn oluyẹwo nikan, ṣugbọn tun lo anfani ti “ọgbọn ti ogunlọgọ,” iyẹn ni, a yipada si awọn oluranlọwọ fun iranlọwọ. Wọn jẹ awọn ti o ṣe iranlọwọ fun wa lati ṣe idanimọ ohun ti ẹrọ naa padanu, ati nitorinaa kọni.

Smart caching ati LSH hashing

Iṣoro miiran ti a ba pade nigba ṣiṣẹ pẹlu awọn asọye jẹ àwúrúju, tabi diẹ sii ni deede, iwọn didun rẹ ati iyara itankale. Nigbati awọn olugbo Yandex.Region bẹrẹ si dagba ni kiakia, awọn spammers wa nibẹ. Wọn kọ ẹkọ lati fori awọn ikosile deede nipa yiyipada ọrọ diẹ diẹ. Spam, dajudaju, tun rii ati paarẹ, ṣugbọn lori iwọn ti Yandex, ifiranṣẹ ti ko ṣe itẹwọgba ti a firanṣẹ paapaa fun awọn iṣẹju 5 le rii nipasẹ awọn ọgọọgọrun eniyan.

Bii o ṣe le ṣii awọn asọye ati ki o ma ṣe rì sinu àwúrúju

Nitoribẹẹ, eyi ko baamu wa, ati pe a ṣe caching ọrọ ọlọgbọn ti o da lori LSH (hashing ifamọ agbegbe). O ṣiṣẹ bi eleyi: a ṣe deede ọrọ naa, yọ awọn ọna asopọ kuro lati inu rẹ ati ge sinu awọn giramu n-n (awọn ilana ti awọn lẹta n). Nigbamii ti, awọn hashes ti n-grams ni a ṣe iṣiro, ati pe a ṣe itumọ ti LSH vector ti iwe naa lati ọdọ wọn. Koko naa ni pe awọn ọrọ ti o jọra, paapaa ti wọn ba yipada diẹ, yipada si awọn adaṣe ti o jọra.

Ojutu yii jẹ ki o ṣee ṣe lati tun lo awọn idajo ti awọn kilasika ati awọn olutọpa fun awọn ọrọ ti o jọra. Lakoko ikọlu àwúrúju kan, ni kete ti ifiranṣẹ akọkọ ti kọja ọlọjẹ ati tẹ kaṣe pẹlu idajo “àwúrúju”, gbogbo awọn ifiranṣẹ iru tuntun, paapaa awọn ti a tunṣe, gba idajo kanna ati paarẹ laifọwọyi. Nigbamii, a kọ ẹkọ bi a ṣe le ṣe ikẹkọ ati tun ṣe atunṣe awọn ikasi spam laifọwọyi, ṣugbọn “kaṣe ọlọgbọn” yii wa pẹlu wa ati tun ṣe iranlọwọ fun wa nigbagbogbo.

Ti o dara ọrọ classifier

Laisi ni akoko lati ya isinmi lati ija àwúrúju, a rii pe 95% ti akoonu wa jẹ iwọntunwọnsi pẹlu ọwọ: awọn ikasi nikan fesi si awọn irufin, ati pe pupọ julọ awọn ọrọ naa dara. A kojọpọ awọn olutọpa ti o wa ninu awọn ọran 95 ninu 100 ti o fun ni idiyele “Ohun gbogbo dara”. Mo ni lati ṣe iṣẹ ti ko dani - ṣiṣe awọn kilasika ti akoonu ti o dara, laanu to ti isamisi ti kojọpọ lakoko yii.

Olupilẹṣẹ akọkọ dabi eyi: a lemmatize ọrọ naa (dinku awọn ọrọ si fọọmu ibẹrẹ wọn), jabọ gbogbo awọn ẹya arannilọwọ ti ọrọ ati lo “itumọ-itumọ ti awọn lemmas ti o dara” ti a ti pese tẹlẹ. Ti gbogbo awọn ọrọ inu ọrọ naa ba jẹ “dara”, lẹhinna gbogbo ọrọ ko ni awọn irufin eyikeyi ninu. Lori awọn iṣẹ oriṣiriṣi, ọna yii lẹsẹkẹsẹ funni lati 25 si 35% adaṣe ti isamisi afọwọṣe. Nitoribẹẹ, ọna yii ko dara julọ: o rọrun lati darapọ ọpọlọpọ awọn ọrọ alaiṣẹ ati gba alaye ibinu pupọ, ṣugbọn o gba wa laaye lati yara de ipele adaṣe ti o dara ati fun wa ni akoko lati kọ awọn awoṣe eka diẹ sii.

Awọn ẹya atẹle ti awọn kilasika ọrọ ti o dara tẹlẹ pẹlu awọn awoṣe laini, awọn igi ipinnu, ati awọn akojọpọ wọn. Lati samisi arínifín ati ẹgan, fun apẹẹrẹ, a gbiyanju nẹtiwọki neural BERT. O ṣe pataki lati ni oye itumọ ọrọ kan ni agbegbe ati asopọ laarin awọn ọrọ lati awọn gbolohun ọrọ oriṣiriṣi, ati BERT ṣe iṣẹ to dara fun eyi. (Ni ọna, awọn ẹlẹgbẹ laipe lati News so fun, bawo ni a ṣe lo imọ-ẹrọ fun iṣẹ-ṣiṣe ti kii ṣe deede - wiwa awọn aṣiṣe ninu awọn akọle.) Bi abajade, o ṣee ṣe lati ṣe adaṣe to 90% ti sisan, da lori iṣẹ naa.

Yiye, aṣepari ati iyara

Lati dagbasoke, o nilo lati loye kini awọn anfani diẹ ninu awọn ikasi adaṣe adaṣe mu, awọn ayipada ninu wọn, ati boya didara awọn sọwedowo afọwọṣe jẹ ibajẹ. Lati ṣe eyi, a lo deede ati awọn metiriki iranti.

Ipeye jẹ ipin ti awọn idajo to pe laarin gbogbo awọn idajo nipa akoonu buburu. Awọn ti o ga awọn išedede, awọn díẹ eke positives. Ti o ko ba san ifojusi si iṣedede, lẹhinna ni imọran o le pa gbogbo awọn àwúrúju ati awọn aimọ, ati pẹlu wọn idaji awọn ifiranṣẹ ti o dara. Ni apa keji, ti o ba gbẹkẹle deede nikan, lẹhinna imọ-ẹrọ ti o dara julọ yoo jẹ eyiti ko mu ẹnikẹni rara. Nitorinaa, itọka pipe tun wa: ipin ti akoonu buburu ti a damọ laarin iwọn didun lapapọ ti akoonu buburu. Awọn metiriki meji wọnyi dọgbadọgba kọọkan miiran jade.

Lati wiwọn, a ṣe ayẹwo gbogbo ṣiṣan ti nwọle fun iṣẹ kọọkan ati fun awọn ayẹwo akoonu si awọn oluyẹwo fun igbelewọn amoye ati lafiwe pẹlu awọn solusan ẹrọ.

Ṣugbọn itọkasi pataki miiran wa.

Mo kowe loke pe ifiranṣẹ ti ko ni itẹwọgba le rii nipasẹ awọn ọgọọgọrun eniyan paapaa ni awọn iṣẹju 5. Nitorinaa a ka iye igba ti a fi akoonu buburu han eniyan ṣaaju ki a to fi pamọ. Eyi ṣe pataki nitori pe ko to lati ṣiṣẹ daradara - o tun nilo lati ṣiṣẹ ni iyara. Ati nigba ti a kọ aabo lodi si ibura, a ni imọlara rẹ ni kikun.

Antimatism lilo apẹẹrẹ ti awọn ologbo ati awọn aja

Digression lyrical kekere kan. Diẹ ninu awọn le sọ pe aibikita ati awọn ẹgan ko lewu bi awọn ọna asopọ irira, ati pe kii ṣe didanubi bi àwúrúju. Ṣugbọn a ngbiyanju lati ṣetọju awọn ipo itunu fun ibaraẹnisọrọ fun awọn miliọnu awọn olumulo, ati pe eniyan ko nifẹ lati pada si awọn aaye ti wọn ti bu wọn. Kii ṣe lainidii pe idinamọ lori bura ati ẹgan ni a sọ jade ninu awọn ofin ti ọpọlọpọ awọn agbegbe, pẹlu lori Habré. Sugbon a digress.

Awọn iwe-itumọ ti o bura ko le koju gbogbo ọrọ ti ede Rọsia. Ni otitọ pe awọn gbongbo bura akọkọ mẹrin nikan wa, lati ọdọ wọn o le ṣe nọmba ainiye ti awọn ọrọ ti ko le mu nipasẹ awọn ẹrọ deede eyikeyi. Ni afikun, o le kọ apakan ti ọrọ kan ni itumọ, rọpo awọn lẹta pẹlu awọn akojọpọ ti o jọra, tunṣe awọn lẹta, ṣafikun awọn asterisks, bbl Nigba miiran, laisi ọrọ-ọrọ, ko ṣee ṣe lati pinnu pe olumulo tumọ si ọrọ bura. A bọwọ fun awọn ofin Habr, nitorinaa a yoo ṣafihan eyi kii ṣe pẹlu awọn apẹẹrẹ laaye, ṣugbọn pẹlu awọn ologbo ati awọn aja.

Bii o ṣe le ṣii awọn asọye ati ki o ma ṣe rì sinu àwúrúju

“Ofin,” ologbo naa sọ. Ṣugbọn a loye pe ologbo naa sọ ọrọ ti o yatọ…

A bẹrẹ lati ronu nipa awọn algoridimu “ibaramu iruju” fun iwe-itumọ wa ati nipa ṣiṣe iṣaju ijafafa: a pese itumọ, awọn aaye ti o lẹ pọ ati aami ifamisi papọ, wa awọn ilana ati kọ awọn ikosile deede lọtọ lori wọn. Ọna yii mu awọn abajade wa, ṣugbọn nigbagbogbo dinku deede ati pe ko pese pipe ti o fẹ.

Lẹ́yìn náà, a pinnu láti “ronú bí àwọn tí ń búra.” A bẹrẹ lati ṣafihan ariwo sinu data funrara wa: a ṣe atunto awọn lẹta, ipilẹṣẹ typos, rọpo awọn lẹta pẹlu awọn akọtọ ti o jọra, ati bẹbẹ lọ. Iṣamisi ibẹrẹ fun eyi ni a mu nipasẹ lilo awọn iwe-itumọ akete si akojọpọ awọn ọrọ nla. Ti o ba mu gbolohun kan ki o yi pada ni awọn ọna pupọ, o pari pẹlu ọpọlọpọ awọn gbolohun ọrọ. Ni ọna yii o le mu apẹẹrẹ ikẹkọ pọ si awọn igba mẹwa. Gbogbo ohun ti o ku ni lati ṣe ikẹkọ lori adagun ti o yọrisi diẹ ninu awoṣe ọlọgbọn diẹ sii tabi kere si ti o ṣe akiyesi agbegbe naa.

Bii o ṣe le ṣii awọn asọye ati ki o ma ṣe rì sinu àwúrúju

O ti wa ni kutukutu lati sọrọ nipa ipinnu ikẹhin. A tun n ṣe idanwo pẹlu awọn isunmọ si iṣoro yii, ṣugbọn a le rii tẹlẹ pe nẹtiwọọki itọka aami ti o rọrun ti ọpọlọpọ awọn fẹlẹfẹlẹ ṣe pataki ju awọn iwe-itumọ ati awọn ẹrọ deede lọ: o ṣee ṣe lati mu deede mejeeji ati iranti.

Nitoribẹẹ, a loye pe awọn ọna nigbagbogbo yoo wa lati fori paapaa adaṣe to ti ni ilọsiwaju, paapaa nigbati ọrọ naa ba lewu: kọ ni iru ọna ti ẹrọ aṣiwere ko ni loye. Nibi, bii ninu igbejako àwúrúju, ibi-afẹde wa kii ṣe lati pa o ṣeeṣe pupọ ti kikọ nkan aibikita; iṣẹ-ṣiṣe wa ni lati rii daju pe ere naa ko tọ abẹla naa.

Nsii aye lati pin ero rẹ, ibasọrọ ati asọye ko nira. O nira pupọ lati ṣaṣeyọri ailewu, awọn ipo itunu ati itọju ọwọ eniyan. Ati laisi eyi ko ni si idagbasoke ti agbegbe eyikeyi.

orisun: www.habr.com

Fi ọrọìwòye kun