Cumu apre i cumenti è micca affucà in spam

Cumu apre i cumenti è micca affucà in spam

Quandu u vostru travagliu hè di creà qualcosa bella, ùn avete micca da parlà troppu, perchè u risultatu hè davanti à l'ochji di tutti. Ma s'è vo sguassate inscriptions da e fences, nimu hà da nutà u vostru travagliu, sempre chì e fence parenu decentu o finu à chì sguassate qualcosa di sbagliatu.

Qualchese serviziu induve pudete lascià un cumentu, rivisione, mandà un missaghju o caricate ritratti prima o dopu face u prublema di spam, fraude è obscenity. Questu ùn pò esse evitata, ma deve esse trattatu.

Mi chjamu Mikhail, u travagliu nantu à a squadra Antispam, chì prutege l'utilizatori di servizii Yandex da tali prublemi. U nostru travagliu hè raramente nutatu (è questu hè una bona cosa !), cusì oghje vi ne dicu di più. Ampararete quandu a moderazione hè inutile è perchè a precisione ùn hè micca l'unicu indicatore di a so efficacità. Parleremu ancu di ghjurà cù l'esempiu di i misgi è i cani è perchè hè qualchì volta utile "pensà cum'è un ghjuramentu".

Sempre più servizii appariscenu in Yandex induve l'utilizatori publicanu u so cuntenutu. Pudete fà una quistione o scrive una risposta in Yandex.Q, discute e nutizie di u cantiere in Yandex.District, sparte e cundizioni di trafficu in conversazioni in Yandex.Maps. Ma quandu l'audienza di u serviziu cresce, diventa attrattiva per i scammers è i spammers. Venanu à cummentà i cumenti: offrenu soldi faciuli, publicità cure miraculi è prumettenu benefici suciali. A causa di i spammers, certi utilizatori perdenu soldi, mentri àutri perdenu u desideriu di passà u tempu nantu à un serviziu disgraziatu sopra à u puzzicheghju.

È questu ùn hè micca solu u prublema. Avemu sforzu micca solu per prutege l'utilizatori da i scammers, ma ancu per creà un ambiente còmode per a cumunicazione. Se a ghjente hè cunfruntatu cù ghjuramentu è insulti in i cumenti, sò prubabilmente lascià è ùn vultà mai. Questu significa chì avete ancu bisognu di pudè trattà cun questu.

Web pulita

Cum'è spessu a noi, i primi sviluppi sò nati in Ricerca, in a parte chì cumbatte u puzzicheghju in i risultati di ricerca. Circa deci anni fà, u compitu di filtrà u cuntenutu adultu per e ricerche di famiglia è per e dumande chì ùn anu micca bisognu di risposte da a categuria 18+ apparsu quì. Hè cusì chì apparsu i primi dizziunari di porn è ghjuramentu digitati manualmente, sò stati rimpiazzati da l'analista. U compitu principalu era di classificà e dumande in quelli induve hè accettatu per vede u cuntenutu adultu è induve ùn hè micca. Per questu compitu, a marcatura hè stata cullata, l'euristiche sò state custruite, è i mudelli sò furmatu. Hè cusì chì i primi sviluppi per filtrà u cuntenutu indesevule apparsu.

À u tempu, UGC (cuntenutu generatu da l'utilizatori) hà cuminciatu à apparisce in Yandex - missaghji chì sò scritti da l'utilizatori stessi, è Yandex solu publica. Per i motivi descritti sopra, parechji missaghji ùn pudianu esse publicati senza circà - era necessariu di moderazione. Allora decisu di creà un serviziu chì furnisce a prutezzione contra u puzzicheghju è l'attaccanti per tutti i prudutti Yandex UGC è aduprà sviluppi per filtrà u cuntenutu indesideratu in a Ricerca. U serviziu era chjamatu "Clean Web".

Novi compiti è aiutu da i pushers

À u principiu, solu l'automatizazione simplice hà travagliatu per noi: i servizii ci anu mandatu testi, è avemu currettu dizziunari di obscenità, dizziunari porno è espressioni regulari nantu à elli - l'analisti anu compilatu tuttu manualmente. Ma cù u tempu, u serviziu hè stata utilizata in un numeru crescente di prudutti Yandex, è avemu avutu à amparà à travaglià cù novi prublemi.

Spessu, invece di una rivista, l'utilizatori publicanu un inseme di lettere senza significatu, circannu di aumentà i so rializazioni, qualchì volta publicità a so cumpagnia in recensioni di l'impresa di u cuncurrente, è qualchì volta simpricimenti cunfundenu l'urganisazione è scrivenu in una rivista nantu à una tenda di animali: " Pesce cotto à la perfezione!" Forse un ghjornu l'intelligenza artificiale ampararà à capisce perfettamente u significatu di ogni testu, ma avà l'automatizazione pò copre peghju chè l'omu.

Hè diventatu chjaru chì ùn pudemu micca fà questu senza marcatu manualmente, è avemu aghjustatu una seconda tappa à u nostru circuitu - mandendu per l'ispezione manuale da una persona. Quelli testi publicati per i quali u classificatore ùn hà micca vistu prublemi sò stati inclusi quì. Pudete facilmente imaginate a scala di una tale attività, perchè ùn avemu micca solu cunfidendu l'assessori, ma ancu apprufittatu di a "saviezza di a folla", vale à dì, avemu vultatu à i tolokers per aiutu. Sò quelli chì ci aiutanu à identificà ciò chì a macchina hà mancatu, è cusì l'insignà.

Cache intelligente è hashing LSH

Un altru prublema chì avemu scontru quandu u travagliu cù i cumenti era u puzzicheghju, o più precisamente, u so voluminu è a velocità di diffusione. Quandu l'audienza di Yandex.Region hà cuminciatu à crescenu rapidamente, i spammers sò ghjunti. Amparanu à scaccià l'espressioni regulari cambiendu ligeramente u testu. Spam, sicuru, era sempre trovu è sguassatu, ma à a scala di Yandex, un missaghju inaccettabile publicatu ancu per 5 minuti puderia esse vistu da centinaie di persone.

Cumu apre i cumenti è micca affucà in spam

Di sicuru, questu ùn ci cunvene micca, è avemu fattu caching di testu intelligente basatu in LSH (hashing sensibile à a località). Funziona cusì: avemu nurmalizatu u testu, sguassate ligami da ellu è tagliatu in n-grammi (sequenze di n lettere). Dopu, i hashes di n-grammi sò stati calculati, è u vettore LSH di u documentu hè statu custruitu da elli. U puntu hè chì i testi simili, ancu s'elli eranu ligeramente cambiati, sò diventati vettori simili.

Sta suluzione hà permessu di riutilizà i verdicts di classificatori è tolokers per testi simili. Durante un attaccu di puzzicheghju, appena u primu missaghju hà passatu l'scansione è intrutu in a cache cù un verdict "spam", tutti i novi messagi simili, ancu quelli mudificati, anu ricivutu u listessu verdict è sò stati sguassati automaticamente. In seguitu, avemu amparatu à furmà è ricuperà automaticamente i classificatori di puzzicheghju, ma sta "cache intelligente" hè stata cun noi è sempre ci aiuta à spessu.

Bon classificatore di testu

Senza avè u tempu di piglià una pausa da a lotta di spam, avemu capitu chì u 95% di u nostru cuntenutu hè moderatu manualmente: i classificatori solu reagiscenu à e violazioni, è a maiò parte di i testi sò boni. Carichemu i pulitori chì in 95 casi da 100 dà a qualificazione "Tuttu hè OK". Aviu avutu à fà un travagliu inusual - facennu classificatori di bonu cuntenutu, furtunamenti abbastanza marcatu s'era accumulatu durante stu tempu.

U primu classificatore pareva cusì: lemmatizemu u testu (reduce e parolle à a so forma iniziale), scaccià tutte e parti ausiliarii di u discorsu è utilizate un "dizziunariu di boni lemmi" pre-preparatu. Sì tutte e parolle in u testu sò "boni", allura u testu tutale ùn cuntene alcuna violazione. Nant'à diversi servizii, stu approcciu hà datu immediatamente da 25 à 35% d'automatizazione di marcatura manuale. Di sicuru, questu approcciu ùn hè micca ideale: hè faciule cunghjuntà parechje parolle innocenti è ottene una dichjarazione assai offensiva, ma ci hà permessu di ghjunghje rapidamente à un bonu livellu d'automatizazione è ci hà datu u tempu di furmà mudelli più cumplessi.

E versioni prossime di boni classificatori di testu includenu digià mudelli lineari, arburi di decisione è e so cumminazzioni. Per marcà rudeness è insulti, per esempiu, pruvemu a rete neurale BERT. Hè impurtante per capisce u significatu di una parolla in u cuntestu è a cunnessione trà e parolle da diverse frasi, è BERT faci un bonu travagliu di questu. (A propositu, recentemente i culleghi di News dettu, cumu a tecnulugia hè aduprata per un compitu micca standard - a ricerca di l'errore in headers.) In u risultatu, era pussibule automatizà finu à u 90% di u flussu, secondu u serviziu.

Accuratezza, completezza è rapidità

Per sviluppà, avete bisognu di capiscenu chì benefici portanu certi classificatori automatichi, cambiamenti in elli, è se a qualità di cuntrolli manuali hè degradante. Per fà questu, usemu metrica di precisione è ricurdà.

A precisione hè a proporzione di verdicts curretti trà tutti i verdicts nantu à u cuntenutu cattivu. A più alta hè a precisione, u menu falsi pusitivi. Se ùn fate micca attente à a precisione, allora in teoria pudete eliminà tutti i puzzicheghji è l'obscenities, è cun elli a mità di i missaghji boni. Per d 'altra banda, s'è vo s'appoghjanu solu nantu à a precisione, allura a megliu tecnulugia serà quella chì ùn catturà nimu. Per quessa, ci hè ancu un indicatore di cumpletezza: a parte di u cuntenutu cativu identificatu trà u voluminu tutale di u cuntenutu male. Queste duie metriche si equilibranu.

Per misurà, campionemu tuttu u flussu in entrata per ogni serviziu è dà campioni di cuntenutu à i valutatori per una valutazione esperta è paraguni cù soluzioni di macchina.

Ma ci hè un altru indicatore impurtante.

Aghju scrittu sopra chì un missaghju inaccettabile pò esse vistu da centinaie di persone ancu in 5 minuti. Allora cuntemu quante volte avemu dimustratu à e persone un cuntenutu male prima di ammuccià. Questu hè impurtante perchè ùn hè micca abbastanza per travaglià efficacemente - avete ancu bisognu di travaglià rapidamente. È quandu avemu custruitu una difesa contr'à ghjuramentu, l'avemu sentitu à u massimu.

Antimatismu cù l'esempiu di i misgi è i cani

Una piccula digressione lirica. Qualchidunu puderia dì chì l'obscenità è l'insulti ùn sò micca periculosi cum'è ligami maliziusi, è micca cusì fastidiosi cum'è u puzzicheghju. Ma strivemu à mantene e cundizioni còmode per a cumunicazione per milioni di utilizatori, è a ghjente ùn piace micca di vultà in i posti induve sò insultati. Ùn hè per nunda chì a pruibizione di ghjuramentu è insulti hè scritta in e regule di parechje cumunità, cumpresu nantu à Habré. Ma avemu digressu.

I dizionari di ghjuramentu ùn ponu micca affruntà tutta a ricchezza di a lingua russa. Malgradu u fattu chì ci sò solu quattru radichi ghjuridichi principali, da elli pudete fà un innumerable numaru di parolle chì ùn pò micca esse chjapputu da i mutori regulari. Inoltre, pudete scrive una parte di una parolla in traslitterazione, rimpiazzà e lettere cù cumminazzioni simili, rearrange lettere, aghjunghje asterischi, etc. A volte, senza cuntestu, hè basicamente impussibile di determinà chì l'utilizatore significava una parola ghjurata. Rispetemu e regule di Habr, cusì dimustraremu questu micca cù esempi vivi, ma cù i misgi è i cani.

Cumu apre i cumenti è micca affucà in spam

"Legge", disse u gattu. Ma avemu capitu chì u ghjattu hà dettu una parolla diversa...

Avemu cuminciatu à pensà à l'algoritmi di "corrispondenza fuzzy" per u nostru dizziunariu è à una preprocessazione più intelligente: avemu furnitu traslitterazione, spazii incollati è puntuazione inseme, cercatu mudelli è scrivite espressioni regulari separati nantu à elli. Stu approcciu hà purtatu risultati, ma spessu riduce a precisione è ùn hà micca furnitu u cumpletu desideratu.

Allora avemu decisu di "pensà cum'è ghjuranti". Avemu cuminciatu à intruduce u rumore in i dati noi stessi: avemu riarrangiatu lettere, generatu typos, rimpiazzate lettere cù ortografia simili, etc. U marcatu iniziale per questu hè stata presa da l'applicazione di dizionari mat à grandi corpus di testi. Se pigliate una frase è torce in parechje manere, finiscinu cù parechje frasi. Questu modu pudete aumentà a mostra di furmazione decine di volte. Il ne restait plus qu'à former sur la piscine résultante un modèle plus ou moins intelligent qui tiendra compte du contexte.

Cumu apre i cumenti è micca affucà in spam

Hè troppu prestu per parlà di a decisione finale. Avemu sempre spirimintatu cù l'approcciu di stu prublema, ma pudemu digià vede chì una semplice reta simbolica di cunvoluzione di parechji strati significativamente supera i dizionari è i motori regulari: hè pussibule di aumentà a precisione è a ricurdà.

Di sicuru, avemu capitu chì ci saranu sempre manere di svià ancu l'automatizazione più avanzata, soprattuttu quandu a materia hè cusì periculosa: scrivite in modu chì una macchina stupida ùn capisce micca. Quì, cum'è in a lotta contr'à u puzzicheghju, u nostru scopu ùn hè micca di sradicà a pussibilità di scrive qualcosa di obscenu; u nostru compitu hè di assicurà chì u ghjocu ùn vale a pena a candela.

Apertura l'uppurtunità di sparte a vostra opinione, cumunicà è cummentarii ùn hè micca difficiule. Hè assai più difficiuli di ottene cundizioni sicuru, còmode è trattamentu rispettu di e persone. È senza questu ùn ci sarà micca sviluppu di alcuna cumunità.

Source: www.habr.com

Add a comment