Quandu u vostru travagliu hè di creà qualcosa bella, ùn avete micca da parlà troppu, perchè u risultatu hè davanti à l'ochji di tutti. Ma s'è vo sguassate inscriptions da e fences, nimu hà da nutà u vostru travagliu, sempre chì e fence parenu decentu o finu à chì sguassate qualcosa di sbagliatu.
Qualchese serviziu induve pudete lascià un cumentu, rivisione, mandà un missaghju o caricate ritratti prima o dopu face u prublema di spam, fraude è obscenity. Questu ùn pò esse evitata, ma deve esse trattatu.
Mi chjamu Mikhail, u travagliu nantu à a squadra Antispam, chì prutege l'utilizatori di servizii Yandex da tali prublemi. U nostru travagliu hè raramente nutatu (è questu hè una bona cosa !), cusì oghje vi ne dicu di più. Ampararete quandu a moderazione hè inutile è perchè a precisione ùn hè micca l'unicu indicatore di a so efficacità. Parleremu ancu di ghjurà cù l'esempiu di i misgi è i cani è perchè hè qualchì volta utile "pensà cum'è un ghjuramentu".
Sempre più servizii appariscenu in Yandex induve l'utilizatori publicanu u so cuntenutu. Pudete fà una quistione o scrive una risposta in Yandex.Q, discute e nutizie di u cantiere in Yandex.District, sparte e cundizioni di trafficu in conversazioni in Yandex.Maps. Ma quandu l'audienza di u serviziu cresce, diventa attrattiva per i scammers è i spammers. Venanu à cummentà i cumenti: offrenu soldi faciuli, publicità cure miraculi è prumettenu benefici suciali. A causa di i spammers, certi utilizatori perdenu soldi, mentri àutri perdenu u desideriu di passà u tempu nantu à un serviziu disgraziatu sopra à u puzzicheghju.
È questu ùn hè micca solu u prublema. Avemu sforzu micca solu per prutege l'utilizatori da i scammers, ma ancu per creà un ambiente còmode per a cumunicazione. Se a ghjente hè cunfruntatu cù ghjuramentu è insulti in i cumenti, sò prubabilmente lascià è ùn vultà mai. Questu significa chì avete ancu bisognu di pudè trattà cun questu.
Web pulita
Cum'è spessu a noi, i primi sviluppi sò nati in Ricerca, in a parte chì cumbatte u puzzicheghju in i risultati di ricerca. Circa deci anni fà, u compitu di filtrà u cuntenutu adultu per e ricerche di famiglia è per e dumande chì ùn anu micca bisognu di risposte da a categuria 18+ apparsu quì. Hè cusì chì apparsu i primi dizziunari di porn è ghjuramentu digitati manualmente, sò stati rimpiazzati da l'analista. U compitu principalu era di classificà e dumande in quelli induve hè accettatu per vede u cuntenutu adultu è induve ùn hè micca. Per questu compitu, a marcatura hè stata cullata, l'euristiche sò state custruite, è i mudelli sò furmatu. Hè cusì chì i primi sviluppi per filtrà u cuntenutu indesevule apparsu.
À u tempu, UGC (cuntenutu generatu da l'utilizatori) hà cuminciatu à apparisce in Yandex - missaghji chì sò scritti da l'utilizatori stessi, è Yandex solu publica. Per i motivi descritti sopra, parechji missaghji ùn pudianu esse publicati senza circà - era necessariu di moderazione. Allora decisu di creà un serviziu chì furnisce a prutezzione contra u puzzicheghju è l'attaccanti per tutti i prudutti Yandex UGC è aduprà sviluppi per filtrà u cuntenutu indesideratu in a Ricerca. U serviziu era chjamatu "Clean Web".
Novi compiti è aiutu da i pushers
À u principiu, solu l'automatizazione simplice hà travagliatu per noi: i servizii ci anu mandatu testi, è avemu currettu dizziunari di obscenità, dizziunari porno è espressioni regulari nantu à elli - l'analisti anu compilatu tuttu manualmente. Ma cù u tempu, u serviziu hè stata utilizata in un numeru crescente di prudutti Yandex, è avemu avutu à amparà à travaglià cù novi prublemi.
Spessu, invece di una rivista, l'utilizatori publicanu un inseme di lettere senza significatu, circannu di aumentà i so rializazioni, qualchì volta publicità a so cumpagnia in recensioni di l'impresa di u cuncurrente, è qualchì volta simpricimenti cunfundenu l'urganisazione è scrivenu in una rivista nantu à una tenda di animali: " Pesce cotto à la perfezione!" Forse un ghjornu l'intelligenza artificiale ampararà à capisce perfettamente u significatu di ogni testu, ma avà l'automatizazione pò copre peghju chè l'omu.
Hè diventatu chjaru chì ùn pudemu micca fà questu senza marcatu manualmente, è avemu aghjustatu una seconda tappa à u nostru circuitu - mandendu per l'ispezione manuale da una persona. Quelli testi publicati per i quali u classificatore ùn hà micca vistu prublemi sò stati inclusi quì. Pudete facilmente imaginate a scala di una tale attività, perchè ùn avemu micca solu cunfidendu l'assessori, ma ancu apprufittatu di a "saviezza di a folla", vale à dì, avemu vultatu à i tolokers per aiutu. Sò quelli chì ci aiutanu à identificà ciò chì a macchina hà mancatu, è cusì l'insignà.
Cache intelligente è hashing LSH
Un altru prublema chì avemu scontru quandu u travagliu cù i cumenti era u puzzicheghju, o più precisamente, u so voluminu è a velocità di diffusione. Quandu l'audienza di Yandex.Region hà cuminciatu à crescenu rapidamente, i spammers sò ghjunti. Amparanu à scaccià l'espressioni regulari cambiendu ligeramente u testu. Spam, sicuru, era sempre trovu è sguassatu, ma à a scala di Yandex, un missaghju inaccettabile publicatu ancu per 5 minuti puderia esse vistu da centinaie di persone.
Di sicuru, questu ùn ci cunvene micca, è avemu fattu caching di testu intelligente basatu in LSH (
Sta suluzione hà permessu di riutilizà i verdicts di classificatori è tolokers per testi simili. Durante un attaccu di puzzicheghju, appena u primu missaghju hà passatu l'scansione è intrutu in a cache cù un verdict "spam", tutti i novi messagi simili, ancu quelli mudificati, anu ricivutu u listessu verdict è sò stati sguassati automaticamente. In seguitu, avemu amparatu à furmà è ricuperà automaticamente i classificatori di puzzicheghju, ma sta "cache intelligente" hè stata cun noi è sempre ci aiuta à spessu.
Bon classificatore di testu
Senza avè u tempu di piglià una pausa da a lotta di spam, avemu capitu chì u 95% di u nostru cuntenutu hè moderatu manualmente: i classificatori solu reagiscenu à e violazioni, è a maiò parte di i testi sò boni. Carichemu i pulitori chì in 95 casi da 100 dà a qualificazione "Tuttu hè OK". Aviu avutu à fà un travagliu inusual - facennu classificatori di bonu cuntenutu, furtunamenti abbastanza marcatu s'era accumulatu durante stu tempu.
U primu classificatore pareva cusì: lemmatizemu u testu (reduce e parolle à a so forma iniziale), scaccià tutte e parti ausiliarii di u discorsu è utilizate un "dizziunariu di boni lemmi" pre-preparatu. Sì tutte e parolle in u testu sò "boni", allura u testu tutale ùn cuntene alcuna violazione. Nant'à diversi servizii, stu approcciu hà datu immediatamente da 25 à 35% d'automatizazione di marcatura manuale. Di sicuru, questu approcciu ùn hè micca ideale: hè faciule cunghjuntà parechje parolle innocenti è ottene una dichjarazione assai offensiva, ma ci hà permessu di ghjunghje rapidamente à un bonu livellu d'automatizazione è ci hà datu u tempu di furmà mudelli più cumplessi.
E versioni prossime di boni classificatori di testu includenu digià mudelli lineari, arburi di decisione è e so cumminazzioni. Per marcà rudeness è insulti, per esempiu, pruvemu a rete neurale BERT. Hè impurtante per capisce u significatu di una parolla in u cuntestu è a cunnessione trà e parolle da diverse frasi, è BERT faci un bonu travagliu di questu. (A propositu, recentemente i culleghi di News
Accuratezza, completezza è rapidità
Per sviluppà, avete bisognu di capiscenu chì benefici portanu certi classificatori automatichi, cambiamenti in elli, è se a qualità di cuntrolli manuali hè degradante. Per fà questu, usemu metrica di precisione è ricurdà.
A precisione hè a proporzione di verdicts curretti trà tutti i verdicts nantu à u cuntenutu cattivu. A più alta hè a precisione, u menu falsi pusitivi. Se ùn fate micca attente à a precisione, allora in teoria pudete eliminà tutti i puzzicheghji è l'obscenities, è cun elli a mità di i missaghji boni. Per d 'altra banda, s'è vo s'appoghjanu solu nantu à a precisione, allura a megliu tecnulugia serà quella chì ùn catturà nimu. Per quessa, ci hè ancu un indicatore di cumpletezza: a parte di u cuntenutu cativu identificatu trà u voluminu tutale di u cuntenutu male. Queste duie metriche si equilibranu.
Per misurà, campionemu tuttu u flussu in entrata per ogni serviziu è dà campioni di cuntenutu à i valutatori per una valutazione esperta è paraguni cù soluzioni di macchina.
Ma ci hè un altru indicatore impurtante.
Aghju scrittu sopra chì un missaghju inaccettabile pò esse vistu da centinaie di persone ancu in 5 minuti. Allora cuntemu quante volte avemu dimustratu à e persone un cuntenutu male prima di ammuccià. Questu hè impurtante perchè ùn hè micca abbastanza per travaglià efficacemente - avete ancu bisognu di travaglià rapidamente. È quandu avemu custruitu una difesa contr'à ghjuramentu, l'avemu sentitu à u massimu.
Antimatismu cù l'esempiu di i misgi è i cani
Una piccula digressione lirica. Qualchidunu puderia dì chì l'obscenità è l'insulti ùn sò micca periculosi cum'è ligami maliziusi, è micca cusì fastidiosi cum'è u puzzicheghju. Ma strivemu à mantene e cundizioni còmode per a cumunicazione per milioni di utilizatori, è a ghjente ùn piace micca di vultà in i posti induve sò insultati. Ùn hè per nunda chì a pruibizione di ghjuramentu è insulti hè scritta in e regule di parechje cumunità, cumpresu nantu à Habré. Ma avemu digressu.
I dizionari di ghjuramentu ùn ponu micca affruntà tutta a ricchezza di a lingua russa. Malgradu u fattu chì ci sò solu quattru radichi ghjuridichi principali, da elli pudete fà un innumerable numaru di parolle chì ùn pò micca esse chjapputu da i mutori regulari. Inoltre, pudete scrive una parte di una parolla in traslitterazione, rimpiazzà e lettere cù cumminazzioni simili, rearrange lettere, aghjunghje asterischi, etc. A volte, senza cuntestu, hè basicamente impussibile di determinà chì l'utilizatore significava una parola ghjurata. Rispetemu e regule di Habr, cusì dimustraremu questu micca cù esempi vivi, ma cù i misgi è i cani.
"Legge", disse u gattu. Ma avemu capitu chì u ghjattu hà dettu una parolla diversa...
Avemu cuminciatu à pensà à l'algoritmi di "corrispondenza fuzzy" per u nostru dizziunariu è à una preprocessazione più intelligente: avemu furnitu traslitterazione, spazii incollati è puntuazione inseme, cercatu mudelli è scrivite espressioni regulari separati nantu à elli. Stu approcciu hà purtatu risultati, ma spessu riduce a precisione è ùn hà micca furnitu u cumpletu desideratu.
Allora avemu decisu di "pensà cum'è ghjuranti". Avemu cuminciatu à intruduce u rumore in i dati noi stessi: avemu riarrangiatu lettere, generatu typos, rimpiazzate lettere cù ortografia simili, etc. U marcatu iniziale per questu hè stata presa da l'applicazione di dizionari mat à grandi corpus di testi. Se pigliate una frase è torce in parechje manere, finiscinu cù parechje frasi. Questu modu pudete aumentà a mostra di furmazione decine di volte. Il ne restait plus qu'à former sur la piscine résultante un modèle plus ou moins intelligent qui tiendra compte du contexte.
Hè troppu prestu per parlà di a decisione finale. Avemu sempre spirimintatu cù l'approcciu di stu prublema, ma pudemu digià vede chì una semplice reta simbolica di cunvoluzione di parechji strati significativamente supera i dizionari è i motori regulari: hè pussibule di aumentà a precisione è a ricurdà.
Di sicuru, avemu capitu chì ci saranu sempre manere di svià ancu l'automatizazione più avanzata, soprattuttu quandu a materia hè cusì periculosa: scrivite in modu chì una macchina stupida ùn capisce micca. Quì, cum'è in a lotta contr'à u puzzicheghju, u nostru scopu ùn hè micca di sradicà a pussibilità di scrive qualcosa di obscenu; u nostru compitu hè di assicurà chì u ghjocu ùn vale a pena a candela.
Apertura l'uppurtunità di sparte a vostra opinione, cumunicà è cummentarii ùn hè micca difficiule. Hè assai più difficiuli di ottene cundizioni sicuru, còmode è trattamentu rispettu di e persone. È senza questu ùn ci sarà micca sviluppu di alcuna cumunità.
Source: www.habr.com