Kif tiftaħ kummenti u ma jegħrqux fl-ispam

Kif tiftaħ kummenti u ma jegħrqux fl-ispam

Meta xogħolek hu li toħloq xi ħaġa sabiħa, m'għandekx għalfejn titkellem wisq dwarha, għax ir-riżultat jinsab quddiem għajnejn kulħadd. Imma jekk tħassar l-iskrizzjonijiet minn ċnut, ħadd ma jinduna x-xogħol tiegħek sakemm iċ-ċnut jidhru deċenti jew sakemm tħassar xi ħaġa ħażina.

Kwalunkwe servizz fejn tista’ tħalli kumment, tirrevedi, tibgħat messaġġ jew ittella’ stampi illum jew għada jiffaċċja l-problema ta’ spam, frodi u oxxenità. Dan ma jistax jiġi evitat, iżda għandu jiġi ttrattat.

Jisimni Mikhail, naħdem fit-tim Antispam, li jipproteġi lill-utenti tas-servizzi Yandex minn problemi bħal dawn. Ix-xogħol tagħna rari jiġi nnutat (u din hija ħaġa tajba!), għalhekk illum ngħidilkom aktar dwaru. Int ser titgħallem meta l-moderazzjoni tkun inutli u għaliex l-eżattezza mhix l-uniku indikatur tal-effettività tagħha. Se nitkellmu wkoll dwar il-ġurament billi tuża l-eżempju tal-qtates u l-klieb u għaliex xi drabi jkun utli li "taħseb bħal min jaħlef."

Qed jidhru aktar u aktar servizzi f'Yandex fejn l-utenti jippubblikaw il-kontenut tagħhom. Tista 'saqsi mistoqsija jew tikteb tweġiba f'Yandex.Q, tiddiskuti l-aħbarijiet tat-tarzna f'Yandex.District, taqsam il-kundizzjonijiet tat-traffiku f'konversazzjonijiet fuq Yandex.Maps. Iżda meta l-udjenza tas-servizz tikber, issir attraenti għall-scammers u l-ispammers. Jiġu u jimlew kummenti: joffru flus faċli, jirreklamaw kura miraklu u jwiegħdu benefiċċji soċjali. Minħabba l-ispammers, xi utenti jitilfu l-flus, filwaqt li oħrajn jitilfu x-xewqa li jqattgħu ħin fuq servizz mhux ikkumplikat mimli spam.

U din mhix l-unika problema. Aħna nistinkaw mhux biss biex nipproteġu lill-utenti minn scammers, iżda wkoll biex noħolqu atmosfera komda għall-komunikazzjoni. Jekk in-nies jiġu ffaċċjati b’ħalif u insulti fil-kummenti, x’aktarx jitilqu u qatt ma jerġgħu lura. Dan ifisser li għandek bżonn ukoll li tkun kapaċi tittratta dan.

Web Nadif

Kif spiss jiġri magħna, l-ewwel żviluppi twieldu fit-Tiftix, fil-parti li tiġġieled l-ispam fir-riżultati tat-tfittxija. Madwar għaxar snin ilu, il-kompitu li jiġi ffiltrat il-kontenut għall-adulti għal tfittxijiet tal-familja u għal mistoqsijiet li ma kinux jeħtieġu tweġibiet mill-kategorija 18+ deher hemmhekk. Dan huwa kif dehru l-ewwel dizzjunarji ttajpjati manwalment tal-porn u l-ġurament, ġew mimlija mill-analisti. Il-kompitu ewlieni kien li t-talbiet jiġu kklassifikati f'dawk fejn huwa aċċettabbli li jintwera kontenut għall-adulti u fejn ma jkunx. Għal dan il-kompitu, inġabar il-markup, inbnew euristiċi, u ġew imħarrġa mudelli. Hekk dehru l-ewwel żviluppi għall-iffiltrar tal-kontenut mhux mixtieq.

Maż-żmien, UGC (kontenut iġġenerat mill-utent) beda jidher f'Yandex - messaġġi li jinkitbu mill-utenti nfushom, u Yandex jippubblika biss. Għar-raġunijiet deskritti hawn fuq, ħafna messaġġi ma setgħux jiġu ppubblikati mingħajr ħarsa – kienet meħtieġa moderazzjoni. Imbagħad iddeċidew li joħolqu servizz li jipprovdi protezzjoni kontra l-ispam u l-attakkanti għall-prodotti kollha Yandex UGC u jużaw żviluppi biex jiffiltraw kontenut mhux mixtieq fit-Tiftix. Is-servizz kien jissejjaħ "Clean Web".

Ħidmiet ġodda u għajnuna minn dawk li jimbuttaw

Għall-ewwel, l-awtomazzjoni sempliċi biss ħadmet għalina: is-servizzi bagħtulna testi, u konna mexxa dizzjunarji oxxenitajiet, dizzjunarji pornografiċi u espressjonijiet regolari fuqhom - l-analisti ġabru kollox manwalment. Iżda maż-żmien, is-servizz intuża f'numru dejjem jikber ta 'prodotti Yandex, u kellna nitgħallmu naħdmu bi problemi ġodda.

Ħafna drabi, minflok reviżjoni, l-utenti jippubblikaw sett ta 'ittri bla sens, jippruvaw iżidu l-kisbiet tagħhom, xi drabi jirreklamaw il-kumpanija tagħhom f'reviżjonijiet tal-kumpanija ta' kompetitur, u xi drabi sempliċement iħawdu organizzazzjonijiet u jiktbu f'reviżjoni dwar ħanut tal-annimali domestiċi: " Ħut imsajjar perfettament!” Forsi xi darba l-intelliġenza artifiċjali titgħallem tifhem perfettament it-tifsira ta 'kwalunkwe test, iżda issa l-awtomazzjoni kultant tlaħħaq agħar mill-bnedmin.

Deher ċar li ma stajniex nagħmlu dan mingħajr immarkar manwali, u żidna tieni stadju fiċ-ċirkwit tagħna—bagħtuh għal spezzjoni manwali minn persuna. Dawk it-testi ppubblikati li għalihom il-klassifikatur ma ra l-ebda problema ġew inklużi hemmhekk. Tista 'faċilment timmaġina l-iskala ta' biċċa xogħol bħal din, għalhekk aħna mhux biss qagħdu fuq assessuri, iżda wkoll ħadna vantaġġ mill- "għerf tal-folla", jiġifieri, rrikorrejna lejn it-tolokers għall-għajnuna. Huma dawk li jgħinuna nidentifikaw dak li tilfet il-magna, u b'hekk jgħallmuh.

Caching intelliġenti u hashing LSH

Problema oħra li ltqajna magħhom meta naħdmu bil-kummenti kienet l-ispam, jew aktar preċiżament, il-volum u l-veloċità tat-tixrid tiegħu. Meta l-udjenza ta 'Yanddex.Region bdiet tikber malajr, l-ispammers waslu hemm. Huma tgħallmu jevitaw espressjonijiet regolari billi biddlu ftit it-test. L-ispam, ovvjament, xorta nstab u tħassar, iżda fuq l-iskala ta 'Yandex, messaġġ inaċċettabbli mibgħut anke għal minuti 5 jista' jidher minn mijiet ta 'nies.

Kif tiftaħ kummenti u ma jegħrqux fl-ispam

Naturalment, dan ma kienx tajjeb għalina, u għamilna smart test caching ibbażat fuq LSH (hashing sensittiv għall-lokalità). Taħdem hekk: innormalizzajna t-test, neħħejna r-rabtiet minnu u qatgħuh f'n-grammi (sekwenzi ta 'n ittri). Sussegwentement, il-hashes ta 'n-grammi ġew ikkalkulati, u l-vettur LSH tad-dokument inbena minnhom. Il-punt hu li testi simili, anke jekk kienu ftit mibdula, inbidel f'vettori simili.

Din is-soluzzjoni għamlitha possibbli li jerġgħu jintużaw il-verdetti ta 'klassifikaturi u tolokers għal testi simili. Waqt attakk ta 'spam, hekk kif l-ewwel messaġġ għadda mill-iskan u daħal fil-cache b'verdett ta' "spam", il-messaġġi simili ġodda kollha, anke dawk modifikati, irċevew l-istess verdett u tħassru awtomatikament. Aktar tard, tgħallimna kif inħarrġu u nħarrġu mill-ġdid awtomatikament il-klassifikaturi tal-ispam, iżda din il-"cache intelliġenti" baqgħet magħna u xorta spiss tgħinna.

Klassifikatur tat-test tajjeb

Mingħajr ma kellna ħin biex nieħdu pawża mill-ġlieda kontra l-ispam, indunajna li 95% tal-kontenut tagħna huwa mmoderat manwalment: il-klassifikaturi jirreaġixxu biss għall-ksur, u ħafna mit-testi huma tajbin. Aħna tagħbija cleaners li f'95 każ minn 100 jagħtu l-klassifikazzjoni "Kollox tajjeb". Kelli nagħmel xogħol mhux tas-soltu - nagħmel klassifikaturi ta 'kontenut tajjeb, fortunatament markup biżżejjed kien akkumula matul dan iż-żmien.

L-ewwel klassifikatur deher hekk: aħna lemmatizzaw it-test (naqqas il-kliem għall-forma inizjali tagħhom), armi l-partijiet awżiljarji kollha tad-diskors u nużaw "dizzjunarju ta 'lemmi tajbin" ippreparat minn qabel. Jekk il-kliem kollu fit-test huwa "tajjeb", allura t-test kollu ma fih l-ebda ksur. Fuq servizzi differenti, dan l-approċċ immedjatament ta minn 25 sa 35% awtomazzjoni tal-markup manwali. Naturalment, dan l-approċċ mhuwiex ideali: huwa faċli li tgħaqqad diversi kliem innoċenti u tikseb dikjarazzjoni offensiva ħafna, iżda ppermettilna malajr nilħqu livell tajjeb ta 'awtomazzjoni u tana ħin biex inħarrġu mudelli aktar kumplessi.

Il-verżjonijiet li jmiss ta 'klassifikaturi ta' test tajbin diġà kienu jinkludu mudelli lineari, siġar tad-deċiżjonijiet, u l-kombinazzjonijiet tagħhom. Biex timmarka rudeness u insulti, pereżempju, nippruvaw in-netwerk newrali BERT. Huwa importanti li wieħed jifhem it-tifsira ta' kelma fil-kuntest u l-konnessjoni bejn kliem minn sentenzi differenti, u BERT jagħmel xogħol tajjeb f'dan. (Mill-mod, dan l-aħħar kollegi minn News qal, kif it-teknoloġija tintuża għal kompitu mhux standard - issib żbalji fl-intestaturi.) Bħala riżultat, kien possibbli li jiġi awtomatizzat sa 90% tal-fluss, skont is-servizz.

Eżattezza, kompletezza u veloċità

Biex tiżviluppa, trid tifhem x'benefiċċji jġibu ċerti klassifikaturi awtomatiċi, bidliet fihom, u jekk il-kwalità tal-kontrolli manwali hijiex degradanti. Biex nagħmlu dan, nużaw metriċi ta’ preċiżjoni u ta’ recall.

L-eżattezza hija l-proporzjon ta' verdetti korretti fost il-verdetti kollha dwar kontenut ħażin. Aktar ma tkun għolja l-eżattezza, inqas pożittivi foloz. Jekk ma tagħtix attenzjoni għall-eżattezza, allura fit-teorija tista 'tħassar l-ispam u l-oxxenitajiet kollha, u flimkien magħhom nofs il-messaġġi tajbin. Min-naħa l-oħra, jekk tiddependi biss fuq l-eżattezza, allura l-aħjar teknoloġija tkun dik li ma taqbad lil ħadd. Għalhekk, hemm ukoll indikatur ta 'kompletezza: is-sehem ta' kontenut ħażin identifikat fost il-volum totali ta 'kontenut ħażin. Dawn iż-żewġ metriċi jibbilanċjaw lil xulxin.

Biex inkejlu, aħna nieħdu kampjun tal-fluss deħlin kollu għal kull servizz u nagħtu kampjuni tal-kontenut lill-assessuri għal evalwazzjoni esperta u tqabbil ma 'soluzzjonijiet tal-magni.

Iżda hemm indikatur importanti ieħor.

Jien ktibt hawn fuq li messaġġ inaċċettabbli jista’ jidher minn mijiet ta’ nies anke f’5 minuti. Allura ngħoddu kemm-il darba urejna lin-nies kontenut ħażin qabel ħbejna. Dan huwa importanti għaliex mhux biżżejjed li taħdem b'mod effiċjenti - trid ukoll taħdem malajr. U meta bnejna difiża kontra l-ġurament, ħassejna bis-sħiħ.

Antimatiżmu bl-użu tal-eżempju tal-qtates u l-klieb

Digressjoni lirika żgħira. Xi wħud jistgħu jgħidu li l-oxxenità u l-insulti mhumiex perikolużi daqs links malizzjużi, u mhux tedjanti daqs l-ispam. Imma naħdmu biex inżommu kundizzjonijiet komdi għall-komunikazzjoni għal miljuni ta 'utenti, u n-nies ma jħobbux jirritornaw f'postijiet fejn jiġu insultati. Mhux ta’ b’xejn li l-projbizzjoni ta’ ġurament u insulti hija spjegata fir-regoli ta’ ħafna komunitajiet, inkluż fuq Habré. Imma aħna digress.

Dizzjunarji tal-ġurament ma jistgħux ilaħħqu mar-rikkezza kollha tal-lingwa Russa. Minkejja l-fatt li hemm biss erba 'għeruq ta' ħalef ewlenin, minnhom tista 'tagħmel numru bla għadd ta' kliem li ma jistgħux jinqabdu minn xi magni regolari. Barra minn hekk, tista 'tikteb parti minn kelma fit-traslitterazzjoni, tissostitwixxi ittri b'kombinazzjonijiet simili, tirranġa l-ittri mill-ġdid, iżżid asterisks, eċċ. Xi drabi, mingħajr kuntest, huwa bażikament impossibbli li jiġi ddeterminat li l-utent fisser kelma ta' naħlef. Nirrispettaw ir-regoli ta’ Habr, għalhekk se nuru dan mhux b’eżempji ħajjin, iżda bi qtates u klieb.

Kif tiftaħ kummenti u ma jegħrqux fl-ispam

“Liġi,” qal il-qattus. Imma nifhmu li l-qattus qal kelma differenti...

Bdejna naħsbu dwar algoritmi ta’ “tqabbil fuzzy” għad-dizzjunarju tagħna u dwar preproċessar aktar intelliġenti: ipprovdejna translitterazzjoni, spazji inkollati u punteġġjatura flimkien, fittixna mudelli u ktibna espressjonijiet regolari separati fuqhom. Dan l-approċċ ġab riżultati, iżda ħafna drabi naqqas l-eżattezza u ma pprovdiex il-kompletezza mixtieqa.

Imbagħad iddeċidejna li “naħsbu bħal dawk li naħlef.” Bdejna nintroduċu l-istorbju fid-dejta aħna stess: rranġajna l-ittri mill-ġdid, ġġenera typos, biddel ittri b'ortografiji simili, eċċ. Il-markup inizjali għal dan ittieħdet billi ġew applikati dizzjunarji mat għal corpus kbar ta' testi. Jekk tieħu sentenza waħda u ddawwarha b’diversi modi, tispiċċa b’ħafna sentenzi. Dan il-mod tista 'żżid il-kampjun tat-taħriġ għexieren ta' drabi. Li baqa’ kien li jitħarreġ fuq il-pool li rriżulta xi mudell xi ftit jew wisq intelliġenti li qies il-kuntest.

Kif tiftaħ kummenti u ma jegħrqux fl-ispam

Għadu kmieni wisq biex nitkellmu dwar id-deċiżjoni finali. Għadna qed nesperimentaw b'approċċi għal din il-problema, iżda diġà nistgħu naraw li netwerk konvoluzzjonali simboliku sempliċi ta 'diversi saffi jaqbeż b'mod sinifikanti d-dizzjunarji u l-magni regolari: huwa possibbli li tiżdied kemm l-eżattezza kif ukoll ir-recall.

Naturalment, aħna nifhmu li dejjem se jkun hemm modi biex tevita anki l-aktar awtomazzjoni avvanzata, speċjalment meta l-kwistjoni hija tant perikoluża: ikteb b'tali mod li magna stupida ma tifhimx. Hawnhekk, bħal fil-ġlieda kontra l-ispam, l-għan tagħna mhuwiex li neqerdu l-possibbiltà stess li niktbu xi ħaġa oxxena; il-kompitu tagħna huwa li niżguraw li l-logħba ma tiswax ix-xemgħa.

Li tiftaħ l-opportunità li taqsam l-opinjoni tiegħek, tikkomunika u tikkummenta mhix diffiċli. Huwa ħafna aktar diffiċli li jinkisbu kundizzjonijiet sikuri, komdi u trattament rispettuż tan-nies. U mingħajr dan ma jkun hemm l-ebda żvilupp ta’ xi komunità.

Sors: www.habr.com

Żid kumment