Nola ireki iruzkinak eta ez ito spam

Nola ireki iruzkinak eta ez ito spam

Zure lana zerbait ederra sortzea denean, ez duzu horri buruz gehiegi hitz egin behar, emaitza guztion begien aurrean baitago. Baina hesietatik inskripzioak ezabatzen badituzu, inork ez du zure lanari erreparatuko hesiek duin itxura duten bitartean edo zerbait gaizki ezabatu arte.

Iruzkin bat utzi, berrikusi, mezu bat bidali edo argazkiak igo ditzakezun edozein zerbitzuk lehenago edo beranduago spam, iruzurra eta lizunkeriaren arazoa izango du. Hori ezin da saihestu, baina aurre egin behar zaio.

Nire izena Mikhail da, Antispam taldean lan egiten dut, Yandex zerbitzuen erabiltzaileak horrelako arazoetatik babesten dituena. Gure lana oso gutxitan nabaritzen da (eta hori ona da!), beraz, gaur bertan gehiago kontatuko dizuet. Ikasiko duzu moderazioa noiz den alferrikakoa eta zergatik ez den zehaztasuna eraginkortasunaren adierazle bakarra. Zin egiteari buruz ere hitz egingo dugu katuen eta txakurren adibidea erabiliz eta zergatik den batzuetan baliagarria "zinak bezala pentsatzea".

Gero eta zerbitzu gehiago agertzen dira Yandex-en, non erabiltzaileek euren edukia argitaratzen duten. Galdera bat egin edo erantzun bat idatzi dezakezu Yandex.Q-en, Yandex.District-en patioko albisteak eztabaidatu, trafiko-baldintzak partekatu Yandex.Maps-en elkarrizketetan. Baina zerbitzuaren audientzia hazten denean, iruzurgile eta spammerentzat erakargarri bihurtzen da. Etortzen dira eta iruzkinak betetzen dituzte: diru erraza eskaintzen dute, sendabide miragarriak iragartzen dituzte eta onura sozialak agintzen dituzte. Spammer-ak direla eta, erabiltzaile batzuek dirua galtzen dute, eta beste batzuek spamz gainezka dagoen zerbitzu desegoki batean denbora pasatzeko gogoa galtzen dute.

Eta hau ez da arazo bakarra. Erabiltzaileak iruzurgileetatik babesten ez ezik, komunikaziorako giro erosoa sortzen saiatzen gara. Jendeak iruzkinetan birao eta irainen aurrean aurkitzen badira, litekeena da alde egitea eta ez itzultzea. Horrek esan nahi du horri aurre egiteko gai izan behar duzula ere.

Web garbia

Askotan gertatzen zaigun moduan, bilaketa-emaitzetan spam-a borrokatzen duen zatian jaio ziren lehen garapenak. Duela hamar bat urte, helduentzako edukia iragazteko zeregina agertu zen bertan, familiaren bilaketetarako eta 18 urtetik gorakoen kategoriako erantzunik behar ez zuten kontsultetarako. Horrela agertu ziren eskuz idatzitako pornografiaren eta zinaren lehen hiztegiak, analistek bete zituzten. Eginkizun nagusia eskaerak sailkatzea izan zen helduentzako edukia erakustea onargarria den eta ez. Zeregin horretarako, markaketak bildu, heuristikoak eraiki eta ereduak trebatu ziren. Horrela agertu ziren nahi ez diren edukiak iragazteko lehen garapenak.

Denborarekin, UGC (erabiltzaileek sortutako edukia) Yandex-en agertzen hasi zen - erabiltzaileek berak idatzitako mezuak eta Yandex-ek soilik argitaratzen ditu. Goian azaldutako arrazoiengatik, mezu asko ezin izan dira argitaratu begiratu gabe - moderazioa beharrezkoa zen. Orduan, Yandex UGC produktu guztien spam eta erasotzaileen aurkako babesa emango zuen zerbitzu bat sortzea erabaki zuten eta bilakaeran nahi ez den edukia iragazteko garapenak erabiltzea erabaki zuten. Zerbitzuari β€œWeb garbia” izena jarri zioten.

Zeregin berriak eta bultzatzaileen laguntza

Hasieran, automatizazio sinpleak bakarrik funtzionatzen zigun: zerbitzuek testuak bidaltzen zizkiguten, eta lizunen hiztegiak, porno-hiztegiak eta esamolde erregularrak exekutatzen genituen. Analistek eskuz biltzen zuten guztia. Baina denborarekin, zerbitzua Yandex produktu gehiagotan erabili zen, eta arazo berriekin lan egiten ikasi behar izan genuen.

Sarritan, berrikuspen baten ordez, erabiltzaileek zentzurik gabeko gutun multzoa argitaratzen dute, lorpenak areagotu nahian, batzuetan lehiakide baten enpresaren berrikuspenetan euren enpresa iragartzen dute eta beste batzuetan erakundeak nahastu eta maskota denda bati buruzko iritzi batean idazten dute: " Arraina primeran prestatua!” Agian noizbait adimen artifizialak edozein testuren esanahia ezin hobeto ulertzen ikasiko du, baina orain automatizazioak batzuetan gizakiak baino okerrago egiten du aurre.

Argi geratu zen ezin genuela hori egin eskuzko markarik gabe, eta gure zirkuituari bigarren etapa bat gehitu genion: pertsona batek eskuz ikuskatzeko bidaltzea. Sailkatzaileak arazorik ikusten ez zuen argitaratutako testuak bertan sartu ziren. Erraz imajina dezakezue zeregin horren tamaina, beraz, ebaluatzaileengan fidatu ez ezik, "jendearen jakinduria" ere aprobetxatu genuen, hau da, tolokerengana jo genuen laguntza eske. Haiek dira makinak galdu zuena identifikatzen laguntzen digutenak, eta horrela irakasten.

Cache adimenduna eta LSH hashing

Iruzkinekin lan egitean aurkitu genuen beste arazo bat spam-a izan zen, edo zehatzago esanda, haren bolumena eta hedapen-abiadura. Yandex.Region audientzia azkar hazten hasi zenean, spammer-ak bertaratu ziren. Adierazpen erregularrak saihesten ikasi zuten testua pixka bat aldatuz. Spam-a, noski, oraindik aurkitu eta ezabatzen zen, baina Yandex-en eskalan, 5 minutuz ere argitaratutako mezu onartezin bat ehunka pertsonek ikusi ahal izan zuten.

Nola ireki iruzkinak eta ez ito spam

Noski, hau ez zitzaigun komeni, eta LSHn oinarritutako testuen cache adimenduna egin genuen (tokikotasun-sentikorra hashing). Honela funtzionatzen du: testua normalizatu, estekak kendu eta n-grametan (n hizkiko sekuentziak) moztu dugu. Ondoren, n-gramen hashak kalkulatu ziren, eta dokumentuaren LSH bektorea eraiki zen haietatik. Kontua da antzeko testuak, apur bat aldatuta ere, antzeko bektore bihurtu zirela.

Irtenbide honek sailkatzaileen eta tolokeren epaiak antzeko testuetarako berrerabiltzea ahalbidetu zuen. Spam-eraso batean, lehen mezuak eskaneatu eta cachean "spam" epai batekin sartu bezain laster, antzeko mezu berri guztiek, nahiz eta aldatutakoek, epai bera jasotzen zuten eta automatikoki ezabatzen ziren. Geroago, spam sailkatzaileak nola entrenatu eta automatikoki birmoldatzen ikasi genuen, baina "cache adimendun" hori gurekin geratu zen eta oraindik askotan laguntzen digu.

Testu sailkatzaile ona

Spam-aren aurka borrokatzeko tarte bat hartzeko astirik izan gabe, konturatu ginen gure edukiaren %95 eskuz moderatzen dela: sailkatzaileek urraketen aurrean soilik erreakzionatzen dute, eta testu gehienak onak dira. Garbitzaileak kargatzen ditugu, 95eko 100 kasutan "Dena ondo dago" kalifikazioa ematen dutenak. Ezohiko lan bat egin behar izan nuen: eduki onen sailkatzaileak egitea, zorionez nahikoa marka pilatu zen denbora horretan.

Lehenengo sailkatzaileak itxura hau zuen: testua lematizatzen dugu (hitzak hasierako formara murriztu), hizkeraren zati laguntzaile guztiak bota eta aldez aurretik prestatutako β€œlema onen hiztegia” erabiltzen dugu. Testuko hitz guztiak "onak" badira, testu osoak ez du urraketarik. Zerbitzu ezberdinetan, hurbilketa honek berehala eskuzko markaketaren %25etik %35era automatizatzen zuen. Jakina, ikuspegi hau ez da aproposa: erraza da hainbat hitz inuzente uztartzea eta oso adierazpen iraingarria lortzea, baina automatizazio maila on batera azkar heltzeko aukera eman digu eta eredu konplexuagoak trebatzeko denbora eman digu.

Testu-sailkatzaile onen hurrengo bertsioek eredu linealak, erabaki-zuhaitzak eta haien konbinazioak barne hartzen zituzten. Zakarkeriak eta irainak markatzeko, adibidez, BERT sare neuronalarekin probatzen dugu. Garrantzitsua da hitz baten esanahia testuinguruan eta esaldi ezberdinetako hitzen arteko loturaz jabetzea, eta BERTek lan ona egiten du horretan. (Bide batez, berriki News-eko lankideek esan, nola erabiltzen den teknologia zeregin ez-estandarra baterako - goiburuetan akatsak aurkitzeko.) Ondorioz, fluxuaren % 90eraino automatizatzea posible zen, zerbitzuaren arabera.

Zehaztasuna, osotasuna eta abiadura

Garatzeko, zenbait sailkatzaile automatikok zer onura ekartzen duten, horien aldaketak eta eskuzko egiaztapenen kalitatea hondatzen ari den ulertu behar duzu. Horretarako, zehaztasuna eta oroimenaren neurketak erabiltzen ditugu.

Zehaztasuna eduki txarrari buruzko epai guztien artean epai zuzenen proportzioa da. Zenbat eta zehaztasun handiagoa, orduan eta positibo faltsu gutxiago. Zehaztasunari erreparatzen ez badiozu, teorian spam eta lizun guztiak ezabatu ditzakezu, eta horiekin batera mezu onen erdia. Bestalde, zehaztasunean soilik oinarritzen bazara, orduan teknologiarik onena inor harrapatzen ez duena izango da. Beraz, osotasunaren adierazle bat ere badago: identifikatutako eduki txarren zatia eduki txarren bolumen osoaren artean. Bi neurri hauek elkar orekatzen dute.

Neurtzeko, zerbitzu bakoitzerako sarrerako korronte osoa lagintzen dugu eta ebaluatzaileei eduki-laginak ematen dizkiegu adituen ebaluazioa eta makinen soluzioekin alderatzeko.

Baina badago beste adierazle garrantzitsu bat.

Goian idatzi nuen mezu onartezin bat ehunka pertsonek ikus dezaketela 5 minututan ere. Beraz, ezkutatu aurretik eduki txarra jendeari zenbat aldiz erakutsi diogun zenbatzen dugu. Garrantzitsua da, ez baita nahikoa eraginkortasunez lan egitea - azkar ere lan egin behar duzu. Eta biraoen aurkako defentsa eraiki genuenean, bete-betean sentitu genuen.

Antimatismoa katuen eta txakurren adibidea erabiliz

Digresio liriko txiki bat. Batzuek esan dezakete lizunkeria eta irainak ez direla lotura gaiztoak bezain arriskutsuak, eta ez spama bezain gogaikarria. Baina milioika erabiltzaileren komunikaziorako baldintza erosoak mantentzen ahalegintzen gara, eta jendeari ez zaio gustatzen irainak jasotzen dituen tokietara itzultzea. Ez da alferrik zin eta irainen debekua komunitate askotako arauetan zehazten dela, HabrΓ©-n barne. Baina alde egiten dugu.

Zinezko hiztegiek ezin diote errusiar hizkuntzaren aberastasun guztiari aurre egin. Izan ere, lau zin-sustrai nagusi baino ez diren arren, horietatik hamaika hitz osa ditzakezu, edozein motor arruntek harrapatu ezin dituztenak. Horrez gain, hitz baten zati bat transliterazioan idatz dezakezu, letrak antzeko konbinazioekin ordezkatu, letrak berrantolatu, izartxoak gehitu, etab. Batzuetan, testuingururik gabe, funtsean ezinezkoa da erabiltzaileak birao bat esan nahi zuela zehaztea. Habr-en arauak errespetatzen ditugu, beraz, ez dugu adibide zuzenekin erakutsiko, katu eta txakurrekin baizik.

Nola ireki iruzkinak eta ez ito spam

"Legea", esan zuen katuak. Baina ulertzen dugu katuak beste hitz bat esan zuela...

Gure hiztegirako "bat-etortze lausoa" algoritmoetan eta aurreprozesamendu adimentsuagoan pentsatzen hasi ginen: transliterazioa, espazioak itsatsi eta puntuazio-markak batera jarri genituen, ereduak bilatu eta adierazpen erregular bereiziak idatzi genituen. Ikuspegi honek emaitzak ekarri zituen, baina askotan zehaztasuna murrizten zuen eta ez zuen nahi den osotasuna ematen.

Orduan erabaki genuen "zinak bezala pentsatzea". Datuetan zarata sartzen hasi ginen: letrak berrantolatu, akatsak sortu, letrak antzeko ortografiarekin ordezkatu eta abar. Honen hasierako markaketa testu-corpus handietan hiztegi matak aplikatuz hartu zen. Esaldi bat hartu eta hainbat modutara bihurritzen baduzu, esaldi askorekin amaituko duzu. Horrela entrenamendu-lagina hamar aldiz handitu dezakezu. Sortutako igerilekuan testuingurua kontuan hartzen zuen eredu gutxi-asko adimendun bat prestatzea besterik ez zen geratzen.

Nola ireki iruzkinak eta ez ito spam

Goiz da azken erabakiaz hitz egiteko. Oraindik arazo honen inguruko planteamenduak esperimentatzen ari gara, baina dagoeneko ikus dezakegu hainbat geruzaz osatutako sare sinboliko konboluzional soil batek hiztegi eta ohiko motorrak nabarmen gainditzen dituela: posible da zehaztasuna eta oroimena areagotzea.

Jakina, ulertzen dugu beti egongo dela automatizazio aurreratuena ere saihesteko moduak, batez ere kontua hain arriskutsua denean: idatzi makina ergel batek ulertuko ez duen moduan. Hemen, spamaren aurkako borrokan bezala, gure helburua ez da zerbait lizuna idazteko aukera bera desagerraraztea; gure zeregina jokoak kandela merezi ez duela ziurtatzea da.

Zure iritzia partekatzeko, komunikatzeko eta iruzkintzeko aukera irekitzea ez da zaila. Askoz zailagoa da baldintza seguruak, erosoak eta pertsonenganako errespetuzko tratua lortzea. Eta hori gabe ez da inolako komunitateren garapenik izango.

Iturria: www.habr.com

Gehitu iruzkin berria