Sida loo furo faallooyinka oo aan lagu qarqin spam

Sida loo furo faallooyinka oo aan lagu qarqin spam

Marka shaqadaadu tahay inaad abuurto wax qurux badan, uma baahnid inaad wax badan ka hadasho, sababtoo ah natiijadu waxay hor taagan tahay indhaha qof kasta. Laakiin haddii aad ka tirtirto qoraallada deyrarka, ninna ma dareemi doono shaqadaada ilaa inta ay xayndaabyadu u muuqdaan kuwo wanaagsan ama ilaa aad ka tirtirto shay khaldan.

Adeeg kasta oo aad kaga tagi karto faallo, dib-u-eegis, fariin dirid ama sawiro ku dhejin kartaa mar hore ama hadhow waxay la kulantaa dhibaatada spam, khayaanada iyo fisqiga. Tan lama ilaalin karo, laakiin waa in wax laga qabtaa.

Magacaygu waa Mikhail, waxaan ka shaqeeyaa kooxda Antispam, kaas oo ka ilaaliya dadka isticmaala adeegyada Yandex dhibaatooyinkaas. Shaqadeena waa dhif in la dareemo (waana wax wanaagsan!), Markaa maanta waxaan wax badan kaaga sheegi doonaa. Waxaad baran doontaa marka dhexdhexaadintu aanay faa'iido lahayn iyo sababta saxnimadu aanay ahayn tilmaanta keliya ee waxtarkeeda. Waxaan sidoo kale ka hadli doonaa dhaarta annaga oo adeegsanayna tusaale ahaan bisadaha iyo eyda iyo sababta ay mararka qaarkood faa'iido u leedahay "in loo fikiro sida dhaarta oo kale."

Adeegyo badan ayaa ka soo muuqda Yandex halkaas oo isticmaalayaashu ay daabacaan nuxurkooda. Waxaad ku weydiin kartaa su'aal ama jawaab ku qori kartaa Yandex.Q, kala hadal wararka deyrka gudaha Yandex.District, la wadaag xaaladaha taraafikada wada hadalada Yandex.Maps. Laakiin marka daawadayaasha adeeggu koraan, waxay noqotaa mid soo jiidasho leh khayaanada iyo spammers. Way yimaadaan oo buuxiyaan faallooyinka: waxay bixiyaan lacag sahlan, waxay xayeysiiyaan dawooyinka mucjisada ah waxayna ballanqaadaan dheefaha bulshada. Sababtoo ah spameriyeyaasha, dadka isticmaala qaarkood ayaa luminaya lacag, halka kuwa kalena ay lumiyaan rabitaanka inay waqti ku qaataan adeeg aan fiicneyn oo ka badan spam.

Taasina maaha dhibka kaliya. Waxaan ku dadaaleynaa kaliya inaan ka ilaalino isticmaalayaasha khayaanada, laakiin sidoo kale inaan abuurno jawi raaxo leh oo isgaarsiinta ah. Haddi dadka ay la kulmaan aflagaado iyo aflagaado faallooyinka, waxay u badan tahay inay baxaan oo aysan dib u soo laaban. Tani waxay ka dhigan tahay inaad sidoo kale u baahan tahay inaad tan wax ka qabato.

Shabakad nadiif ah

Sida inta badan kiiska nala ah, horumarradii ugu horreeyay waxay ku dhasheen Raadinta, qaybta la dagaallama spamka natiijooyinka raadinta. Ilaa toban sano ka hor, hawsha shaandhaynta macluumaadka dadka waaweyn ee raadinta qoyska iyo su'aalaha aan u baahnayn jawaabaha qaybta 18+ ayaa halkaas ka muuqday. Tani waa sida qaamuusyadii ugu horreeyay ee gacanta lagu qoray ee lulataaye iyo dhaarta ay u muuqdeen, waxaa buuxiyey falanqeeyayaasha. Hawsha ugu weyni waxay ahayd in codsiyada loo kala saaro kuwa la aqbali karo in lagu muujiyo nuxurka dadka waaweyn iyo meelaha aanay ahayn. Hawshan, calaamadaynta ayaa la ururiyey, heuristics ayaa la dhisay, iyo moodooyinka la tababaray. Tani waa sida horumarradii ugu horreeyay ee shaandhaynta waxyaabaha aan loo baahnayn ay u soo baxeen.

Waqti ka dib, UGC (content user-ka) ayaa bilaabay inuu ka soo muuqdo Yandex - farriimaha ay qoraan isticmaalayaasha naftooda, iyo Yandex oo kaliya ayaa daabaca. Sababaha kor lagu sheegay dartood, fariimo badan lama daabici karo iyadoon la eegin - dhexdhexaadin ayaa loo baahnaa. Kadibna waxay go'aansadeen inay abuuraan adeeg ka hortagaya spam iyo weeraryahannada dhammaan alaabooyinka Yandex UGC waxayna isticmaalaan horumarinta si ay u shaandheeyaan waxyaabaha aan loo baahnayn ee Raadinta. Adeegga waxaa loo yaqaan "Web nadiif ah".

Hawlo cusub iyo caawinta riixayaasha

Markii hore, kaliya otomaatig fudud ayaa noo shaqeeyay: adeegyadu waxay noo soo direen qoraallo, waxaanan ku soconnay qaamuusyo foolxun, qaamuusyo qaamuus ah iyo tibaaxo joogto ah iyaga - falanqeeyayaasha ayaa wax walba gacanta ku soo ururiyay. Laakiin waqti ka dib, adeegga waxaa loo isticmaalay tirada sii kordhaysa ee alaabta Yandex, waxaanan ku qasbanahay inaan barano inaan la shaqeyno dhibaatooyin cusub.

Inta badan, halkii dib u eegis, isticmaalayaashu waxay daabacaan xarfo aan macno lahayn, iyagoo isku dayaya inay kordhiyaan guulahooda, mararka qaarkood waxay ku xayeysiiyaan shirkadooda dib u eegista shirkadda tartanka, mararka qaarkoodna waxay si fudud u jahawareeraan ururada waxayna ku qoraan dib u eegis ku saabsan dukaanka xayawaanka: " Kalluun si fiican loo kariyey!” Waxaa laga yaabaa in maalin maalmaha ka mid ah sirdoonka macmal uu baran doono in uu si fiican u fahmo macnaha qoraal kasta, laakiin hadda automation-ka ayaa mararka qaarkood la tacaalaya si ka sii xun tan aadanaha.

Waxaa caddaatay in aanan tan samayn karin iyada oo aan la calaamadin gacanta, waxaanan ku darnay marxalad labaad oo wareeg ah - u diritaanka kormeerka gacanta ee qof. Qoraalladaas la daabacay ee kala saaruhu uusan u arkin wax dhibaato ah ayaa lagu daray halkaas. Waxaad si fudud u qiyaasi kartaa miisaanka hawshan oo kale, markaa kuma tiirsanayn oo kaliya qiimeeyayaasha, laakiin sidoo kale waxaan ka faa'iidaysanay "xikmadda dadka badan", taas oo ah, waxaan u jeesannay gargaarayaasha. Waa kuwa naga caawiya in aan ogaano waxa mishiinku seegay, oo sidaas ku bara.

Caching smart iyo hashing LSH

Dhibaato kale oo aan la kulanay markii aan la shaqeyneyno faallooyinka waxay ahayd spam, ama si sax ah, mugga iyo xawaaraha faafinta. Markay dhagaystayaasha Yandex.Region bilaabeen inay si degdeg ah u koraan, spammers ayaa yimid halkaas. Waxay barteen inay dhaafaan tibaaxaha caadiga ah iyagoo wax yar beddelaya qoraalka. Spam, dabcan, wali waa la helay oo la tirtiray, laakiin qiyaasta Yandex, fariin aan la aqbali karin oo la dhajiyay xitaa daqiiqadaha 5 waxaa arki kara boqolaal qof.

Sida loo furo faallooyinka oo aan lagu qarqin spam

Dabcan, tani naguma habboona, waxaanan samaynay kaydin qoraal ah oo caqli badan oo ku salaysan LSH (xashiishada xasaasiga ah ee deegaanka). Waxay u shaqeysaa sidatan: waxaan caadi ka dhignay qoraalka, ka saarnay xiriirinta oo ka jarnay n-grams (taxane xarfaha n). Marka xigta, xashiishka n-gram-yada ayaa la xisaabiyay, waxaana laga dhisay vector LSH ee dukumeentiga iyaga. Ujeeddadu waxay tahay in qoraallada la midka ah, xitaa haddii waxyar laga beddelay, ay isu beddeleen vectors la mid ah.

Xalkani waxa uu suurtageliyay in dib loo isticmaalo xukunnada kala-soociyaasha iyo kuwa u-bandhigayaasha qoraallada la midka ah. Inta lagu guda jiro weerarka spam, isla markii fariintii ugu horeysay ay dhaaftay skaanka oo ay gashay khasnad leh xukun "spam", dhammaan fariimaha cusub ee la midka ah, xitaa kuwa wax laga beddelay, waxay heleen xukun isku mid ah oo si toos ah ayaa loo tirtiray. Ka dib, waxaan barannay sida loo tababaro oo si toos ah dib loogu tababaro kala soocida spam, laakiin "cache smart" waa nala joogay oo weli inta badan naga caawisaa.

Kala soocida qoraalka wanaagsan

Anagoon haysan waqti aad kaga nasato la dagaalanka spamka, waxaan ogaanay in 95% waxyaabahayagu gacanta lagu habeeyay: kalasaarayaashu kaliya waxay ka falceliyaan xadgudubyada, qoraalada badankooduna way wanaagsan yihiin. Waxaan rarnaa nadiifiyeyaasha kuwaas oo 95 kiisba 100 ay bixiyaan qiimeynta "Wax walba waa OK". Waxay ahayd inaan qabto shaqo aan caadi ahayn - samaynta kala soocida nuxurka wanaagsan, nasiib wanaag calaamad ku filan ayaa ururay inta lagu jiro wakhtigan.

Kala-saarkii kowaad wuxuu u ekaa sidan: waxaanu ku yaraynaynaa qoraalka ( ereyada ku yarayna qaabkoodii hore), tuurin dhammaan qaybaha kaaliyaha hadalka oo isticmaal "qaamuuska lemmas wanaagsan" horay loo sii diyaariyay. Haddii dhammaan erayada qoraalka ay yihiin "wanaagsan", markaa qoraalka oo dhan kuma jiraan wax xadgudub ah. Adeegyada kala duwan, habkani wuxuu isla markiiba bixiyay 25 ilaa 35% automation ee calaamadaynta gacanta. Dabcan, habkani maaha mid ku habboon: way fududahay in la isku daro dhowr erey oo aan waxba galabsan oo aan helno hadal aad u xun, laakiin waxay noo ogolaatay inaan si dhakhso ah u gaarno heer wanaagsan oo otomaatig ah waxayna na siisay waqti aan ku tababarno noocyo badan oo adag.

Noocyada soo socda ee kala soocida qoraalka wanaagsan waxay horeyba ugu jireen moodooyinka toosan, geedaha go'aannada, iyo isku-darkooda. Si loo calaamadiyo edeb-darrada iyo cayda, tusaale ahaan, waxaanu isku daynaa shabakada neerfaha ee BERT. Waxaa muhiim ah in la fahmo macnaha erayga macnaha guud iyo xiriirka ka dhexeeya erayada weedho kala duwan, BERT-na shaqo fiican ayay ka qabtaa arrintan. (Sidoo kale, asxaabtii dhawaan ka timid News sheegay, sida tignoolajiyada loo isticmaalo hawl aan caadi ahayn - raadinta khaladaadka madaxyada.

Saxnaanta, dhammaystirnaanta iyo xawaaraha

Si aad u horumariso, waxaad u baahan tahay inaad fahamto faa'iidooyinka kala-saareyaasha otomaatiga ah qaarkood ay keenaan, isbeddellada ku yimaadda, iyo haddii tayada hubinta gacanta ay hoos u dhacayso. Si tan loo sameeyo, waxaan isticmaalnaa saxnaanta iyo dib u soo celinta cabbirada.

Saxnimadu waa saamiga xukunnada saxda ah ee dhammaan xukunnada ku saabsan nuxurka xun. Markasta oo ay sare u kacdo saxnaanta, waxaa yaraanaya faa'iidooyinka beenta ah. Haddii aadan fiiro gaar ah u yeelan saxnaanta, markaa aragti ahaan waxaad tirtiri kartaa dhammaan spam iyo fisqiga, oo ay la socdaan kala badh farriimaha wanaagsan. Dhanka kale, haddii aad ku tiirsan tahay oo kaliya saxnaanta, markaa tignoolajiyada ugu fiican ayaa noqon doonta mid aan cidna qaban. Sidaa darteed, waxaa sidoo kale jira tilmaame dhammaystiran: saamiga waxyaabaha xun ee la aqoonsaday ee ka mid ah wadarta guud ee nuxurka xun. Labadan halbeeg ayaa midba midka kale dheellitirayaa.

Si loo cabbiro, waxaanu muunadaynaa dhammaan qulqulka soo socda ee adeeg kasta waxaanu siinaa muunado ka kooban qiimeeyayaasha qiimaynta khabiirka iyo isbarbardhigga xalalka mashiinka.

Laakiin waxaa jira tilmaame kale oo muhiim ah.

Waxaan kor ku qoray in fariin aan la aqbali karin ay arki karaan boqolaal qof xitaa 5 daqiiqo. Markaa waxaan tirinaa inta jeer ee aan dadka tusnay waxyaabo xun ka hor intaanan qarin. Tani waa muhiim sababtoo ah kuma filna inaad si hufan u shaqeyso - waxaad sidoo kale u baahan tahay inaad si degdeg ah u shaqeyso. Markii aanu dhisnay difaac aanu ku dhaarannay, ayaanu si buuxda u dareemaynay.

Antimatism iyadoo la isticmaalayo tusaale ahaan bisadaha iyo eyda

Digression yar oo heeseed. Qaar ayaa laga yaabaa inay yiraahdaan fisqiga iyo aflagaadadu maaha khatar sida xiriirinta xaasidnimada ah, oo aan dhib lahayn sida spamka. Laakiin waxaan ku dadaaleynaa inaan ilaalino xaaladaha raaxada leh ee isgaarsiinta malaayiin isticmaaleyaal ah, dadkuna ma jecla inay ku noqdaan meelaha lagu caayo. Waxba maaha in mamnuucida cayda iyo cayda lagu qeexay qawaaniinta bulshooyin badan, oo ay ku jiraan HabrΓ©. Laakin waanu dhuuxnay.

Qaamuusyada dhaarta ma la qabsan karaan dhammaan hodannimada luqadda Ruushka. In kasta oo xaqiiqda ah in ay jiraan afar xidid oo waaweyn oo dhaar ah, iyaga waxaad ka samayn kartaa tiro aan la tirin karin oo ereyo ah oo aan lagu qaban karin matoorada caadiga ah. Intaa waxaa dheer, waxaad ku qori kartaa qayb ka mid ah ereyada tarjumaadda, ku beddel xarfaha isku dhafan oo isku mid ah, dib u habeyn xarfaha, ku darso xiddigiyayaal, iwm. Mararka qaarkood, iyada oo aan macnaha guud, asal ahaan aan macquul ahayn in la ogaado in isticmaaluhu uu ula jeedo eray dhaar ah. Waanu ixtiraamaynaa xeerarka Habr, markaa tan kuma muujin doono tusaalayaal nool, laakiin bisadaha iyo eyda.

Sida loo furo faallooyinka oo aan lagu qarqin spam

"Sharciga," ayay bisadu tidhi. Laakiin waxaan fahamsanahay in bisadu ay tiri eray ka duwan...

Waxaan bilownay inaan ka fikirno algorithm-yada "is-waafajinta fuzzy" ee qaamuuskeena iyo wax ku saabsan ka-hor-u-samaynta xariifnimada leh: waxaan siinay tarjumaad, meelo dhejis ah iyo xarakayn wadajir ah, raadinnay qaabab waxaana ku qornay tibaaxo joogto ah oo gaar ah. Habkani wuxuu keenay natiijooyin, laakiin inta badan waxay hoos u dhigtay saxnaanta mana bixinin dhammaystirka la rabay.

Kadib waxaan go'aansanay inaan "u maleyno sida kuwa dhaarta." Waxaan bilownay inaan buuqa ku soo bandhigno xogta nafteena: waxaan dib u habeyn ku sameynay xarfaha, waxaan abuurnay qoraalo, ku bedelnay xarfo leh higaad la mid ah, iyo wixii la mid ah. Calaamadaynta bilawga ah ee tan waxa la qaatay iyada oo la adeegsanayo qaamuusyada darbiyada qoraallada waaweyn. Haddii aad hal jumlad qaadato oo aad siyaalo kala duwan u maroojiso, waxa aad ku dambaynaysaa weedho badan. Sidan ayaad ku kordhin kartaa muunada tababarka tobanaan jeer. Waxa hadhay oo dhan waxay ahayd in lagu tababaro barkadda ka soo baxday nooc ka badan ama ka yar oo caqli badan oo xisaabta ku darsaday macnaha guud.

Sida loo furo faallooyinka oo aan lagu qarqin spam

Waa goor hore in laga hadlo go'aanka kama dambaysta ah. Waxaan wali tijaabineynaa hababka loo wajahayo dhibaatadan, laakiin waxaan horeyba u arki karnaa in shabakad iskuxiran oo fudud oo dhowr lakab ah ay si weyn uga sarreyso qaamuusyada iyo matoorada caadiga ah: waxaa suurtagal ah in la kordhiyo saxnaanta iyo dib u soo celinta labadaba.

Dabcan, waxaan fahamsanahay in had iyo jeer ay jiri doonaan siyaabo lagu dhaafo xitaa otomatiga ugu horumarsan, gaar ahaan marka arrintu ay aad khatar u tahay: u qor qaab mashiin nacas ah uusan fahmin. Halkan, sida dagaalka lagula jiro spamka, hadafkayagu maaha inaan tirtirno suurtagalnimada qorista wax fisqi ah; shaqadeenu waa inaan hubinno in ciyaartu aysan u qalmin shumaca.

Furista fursadda aad ku wadaagi karto ra'yigaaga, la xiriirto oo aad faallo ka bixiso maaha wax adag. Aad bay u adag tahay in la gaaro xaalado ammaan ah, raaxo leh iyo daaweynta ixtiraam leh ee dadka. Taas la’aanteedna ma jiri doono horumar bulsho.

Source: www.habr.com

Add a comment