Cumu moderatemu l'annunzii

Cumu moderatemu l'annunzii

Ogni serviziu chì l'utilizatori ponu creà u so propiu cuntenutu (UGC - U cuntenutu generatu da l'utilizatori) hè furzatu micca solu per risolve i prublemi di cummerciale, ma ancu per mette e cose in ordine in UGC. A moderazione di cuntenutu poviru o di bassa qualità pò infine riduce l'attrazione di u serviziu per l'utilizatori, ancu finisce u so funziunamentu.

Oghje vi cuntaremu nantu à a sinergia trà Yula è Odnoklassniki, chì ci aiuta à moderate efficacemente l'annunzii in Yula.

A sinergia in generale hè una cosa assai utile, è in u mondu mudernu, quandu i tecnulugii è i tendenzi cambianu assai rapidamente, pò turnà in un salvatore. Perchè perde risorse scarse è tempu à inventà qualcosa chì hè digià stata inventata è purtata in mente davanti à voi?

Pensemu a stessa cosa quandu eramu affruntati cù u compitu cumpletu di muderà u cuntenutu di l'utilizatori - ritratti, testu è ligami. I nostri utilizatori caricanu milioni di pezzi di cuntenutu à Yula ogni ghjornu, è senza trattamentu automaticu hè cumplettamente impussibile di moderà tutte queste dati manualmente.

Dunque, avemu usatu una piattaforma di moderazione pronta, chì à quellu tempu i nostri culleghi di Odnoklassniki avianu cumpletu à un statu di "quasi perfezione".

Perchè Odnoklassniki?

Ogni ghjornu, decine di milioni d'utilizatori venenu à a reta suciale è publicanu miliardi di pezzi di cuntenutu: da foto à video è testi. A piattaforma di moderazione Odnoklassniki aiuta à verificà volumi assai grande di dati è contru à spammers è bots.

A squadra di moderazione OK hà accumulatu assai sperienza, postu chì hà migliuratu u so strumentu per 12 anni. Hè impurtante chì ùn puderanu micca solu sparte e so suluzioni pronti, ma ancu persunalizà l'architettura di a so piattaforma per adattà à i nostri compiti specifichi.

Cumu moderatemu l'annunzii

Da avà, per brevità, chjameremu solu a piattaforma di moderazione OK "piattaforma".

Cumu tuttu funziona

U scambiu di dati trà Yula è Odnoklassniki hè stabilitu attraversu Apache Kafka.

Perchè avemu sceltu stu strumentu:

  • In Yula, tutti i publicità sò post-moderati, cusì inizialmente ùn era micca necessariu una risposta sincrona.
  • Se un paràgrafu cattivu succedi è Yula o Odnoklassniki ùn sò micca dispunibili, cumpresu per via di qualchi picchi di carica, allora i dati da Kafka ùn spariranu micca in ogni locu è ponu esse leghje dopu.
  • A piattaforma era digià integrata cù Kafka, cusì a maiò parte di i prublemi di sicurezza sò stati risolti.

Cumu moderatemu l'annunzii

Per ogni annunziu creatu o mudificatu da l'utilizatore in Yula, un JSON cù dati hè generatu, chì hè postu in Kafka per a moderazione successiva. Da Kafka, l'annunzii sò caricati in a piattaforma, induve sò adjudicati automaticamente o manualmente. L'annunzii cattivi sò bluccati cù una ragione, è quelli chì a piattaforma ùn trova micca violazioni sò marcati cum'è "boni". Allora tutte e decisioni sò rimandate à Yula è applicate in u serviziu.

In fine, per Yula, tuttu si riduce à l'azzioni simplici: mandate un annunziu à a piattaforma Odnoklassniki è torna una risoluzione "ok", o perchè micca "ok".

Trattamentu automaticu

Chì succede à l'annunziu dopu ch'ellu tocca a piattaforma? Ogni annunziu hè divisu in parechje entità:

  • Nome,
  • descrizzione,
  • ritratti,
  • categuria selezziunata da l'utilizatori è sottocategoria di l'annunziu,
  • prezzu

Cumu moderatemu l'annunzii

A piattaforma poi esegue clustering per ogni entità per truvà duplicati. Inoltre, u testu è e fotografie sò raggruppati secondu diversi schemi.

Prima di clustering, i testi sò nurmalizzati per sguassà caratteri speciali, lettere cambiate è altre basura. I dati ricevuti sò divisi in N-grammi, ognuna di e quali hè hashed. U risultatu hè parechje hashes unichi. A similitudine trà i testi hè determinata da A misura di Jaccard trà i dui gruppi risultanti. Se a similitudine hè più grande di u limitu, i testi sò fusionati in un cluster. Per accelerà a ricerca di clusters simili, MinHash è l'hashing sensibili à a Località sò usati.

Diverse opzioni per l'incollatura di l'imaghjini sò state inventate per e fotografie, da paragunà l'imaghjini di pHash à a ricerca di duplicati cù una rete neurale.

L'ultimu metudu hè u più "severu". Per furmà u mudellu, triplets d'imaghjini (N, A, P) sò stati scelti in quale N ùn hè micca simili à A, è P hè simili à A (hè un semi-duplicatu). Allora a reta neurale hà amparatu à fà A è P u più vicinu pussibule, è A è N quantu pussibule. Questu risultatu in menu falsi pusitivi cumparatu cù solu piglià embeddings da una rete pre-addestrata.

Quandu a rete neurale riceve l'imaghjini cum'è input, genera un vettore N (128) dimensionale per ognunu di elli è una dumanda hè fatta per valutà a vicinanza di l'imaghjini. In seguitu, un sogliu hè calculatu à quale l'imaghjini vicini sò cunsiderate duplicate.

U mudellu hè capaci di truvà abilmente i spammers chì fotografanu specificamente u stessu pruduttu da diverse anguli per svià u paragone pHash.

Cumu moderatemu l'annunziiCumu moderatemu l'annunzii
Un esempiu di foto spam incollate da una rete neurale cum'è duplicati.

In u stadiu finali, i publicità duplicate sò cercate simultaneamente da u testu è l'imaghjini.

Se dui o più publicità sò appiccicati in un cluster, u sistema principia u bluccatu automaticu, chì, utilizendu certi algoritmi, selezziunà quali duplicati per sguassà è quale lascià. Per esempiu, se dui utilizatori anu i stessi ritratti in un annunziu, u sistema bluccarà l'annunziu più recente.

Una volta creatu, tutti i cluster passanu per una seria di filtri automatichi. Ogni filtru assigna un puntuatu à u cluster: quantu hè prubabile chì cuntene a minaccia chì stu filtru identifica.

Per esempiu, u sistema analizà a descrizzione in un annunziu è selezziunate e categurie potenziali per questu. Allora piglia quellu cù a probabilità massima è paraguna cù a categuria specificata da l'autore di l'annunziu. Se ùn currispondenu micca, l'annunziu hè bluccatu per a categuria sbagliata. E postu chì simu amabili è onesti, dicemu direttamente à l'utilizatore chì categuria deve selezziunà per chì l'annunziu passa a moderazione.

Cumu moderatemu l'annunzii
Notificazione di u bloccu per a categuria incorrecta.

L'apprendimentu automaticu si sente cum'è in casa in a nostra piattaforma. Per esempiu, cù u so aiutu circhemu in i nomi è e descrizzioni di merchenzie pruibitu in a Federazione Russa. E mudelli di rete neurale meticulosamente "esaminanu" l'imaghjini per vede s'ellu cuntene URL, testi spam, numeri di telefunu, è a stessa infurmazione "proibita".

Per i casi induve si tratta di vende un pruduttu pruibitu disguised cum'è qualcosa legale, è ùn ci hè micca testu in u titulu o in a descrizzione, usemu l'etichettatura di l'imaghjini. Per ogni maghjina, si ponu aghjunghje sin'à 11 mila diverse tags chì descrizanu ciò chì hè in l'imaghjini.

Cumu moderatemu l'annunzii
Pruvanu di vende u narghilè disfrazendu cum'è un samovar.

Parallelamente à i filtri cumplessi, quelli simplici funzionanu ancu, risolve i prublemi evidenti ligati à u testu:

  • antimat;
  • rilevatore di URL è numeri di telefunu;
  • menzione di messageri instantani è altri cuntatti;
  • prezzu ridutta;
  • publicità in quale nunda hè in vendita, etc.

Oghje, ogni annunziu passa per una fine sita di più di 50 filtri automatichi chì cercanu di truvà qualcosa di male in l'annunziu.

Se nimu di i detectors hà travagliatu, allora una risposta hè mandata à Yula chì l'annunziu hè "più probabile" in ordine perfettu. Avemu aduprà sta risposta noi stessi, è l'utilizatori chì anu abbonatu à u venditore ricevenu una notificazione nantu à a dispunibilità di un novu pruduttu.

Cumu moderatemu l'annunzii
Notificazione chì u venditore hà un novu pruduttu.

In cunsiquenza, ogni annunziu hè "sopratu" cù metadati, alcuni di i quali sò generati quandu l'annunziu hè creatu (indirizzu IP di l'autore, user-agent, piattaforma, geolocation, etc.), è u restu hè u puntuatu emessu da ogni filtru. .

File d'annunziu

Quandu un annunziu tocca a piattaforma, u sistema u mette in una di e fila. Ogni fila hè creata aduprendu una formula matematica chì combina metadati di l'annunzii in una manera chì rileva qualsiasi mudelli cattivi.

Per esempiu, pudete creà una fila di annunzii in a categuria "Cell Phones" da l'utilizatori di Yula suppostamente da San Petruburgu, ma i so indirizzi IP sò da Mosca o altre cità.

Cumu moderatemu l'annunzii
Un esempiu di publicità pubblicati da un utilizatore in diverse cità.

O pudete formà file basate nantu à i punteggi chì a rete neurale assigna à l'annunzii, organizendu in ordine descendente.

Ogni fila, secondu a so propria formula, attribuisce un puntu finale à l'annunziu. Allora pudete prucede in diverse manere:

  • specificà u limitu à quale un annunziu riceverà un certu tipu di bloccu;
  • mandate tutti l'annunzii in a fila à i moderatori per a revisione manuale;
  • o cumminà l'opzioni previ: specificà u sogliu di bloccu automaticu è mandà à i moderatori quelli annunzii chì ùn anu micca righjuntu stu limitu.

Cumu moderatemu l'annunzii

Perchè sò necessarii sti file? Diciamu chì un utilizatore hà caricatu una foto di una arma di focu. A rete neurale assigna un puntu da 95 à 100 è determina cun 99 per centu di precisione chì ci hè un'arma in a stampa. Ma se u valore di puntuazione hè sottu à 95%, a precisione di u mudellu principia à diminuite (questu hè una caratteristica di mudelli di rete neurale).

In u risultatu, una fila hè furmata nantu à u mudellu di puntuazione, è quelli annunzii chì anu ricivutu trà 95 è 100 sò automaticamente bluccati cum'è "Prodotti pruibiti". L'annunzii cù un puntuatu sottu 95 sò mandati à i moderatori per u prucessu manuale.

Cumu moderatemu l'annunzii
Chocolate Beretta cù cartuccia. Solu per a moderazione manuale! 🙂

Moderation manuale

À u principiu di 2019, circa 94% di tutti i publicità in Yula sò moderate automaticamente.

Cumu moderatemu l'annunzii

Se a piattaforma ùn pò micca decide nantu à certi annunzii, li manda per a moderazione manuale. Odnoklassniki hà sviluppatu u so propiu strumentu: i travaglii per i moderatori mostranu immediatamente tutte l'infurmazioni necessarii per piglià una decisione rapida - l'annunziu hè adattatu o deve esse bluccatu, indicà u mutivu.

È cusì chì a qualità di serviziu ùn soffre micca durante a moderazione manuale, u travagliu di e persone hè constantemente monitoratu. Per esempiu, in u flussu di travagliu, u moderatore hè mostratu "trappule" - annunzii per quale ci sò digià suluzioni pronti. Se a decisione di u moderatore ùn coincide micca cù quella finita, u moderatore riceve un errore.

In media, un moderatore passa 10 seconde à verificà un annunziu. Inoltre, u numeru di errori ùn hè micca più di 0,5% di tutti l'annunzii verificati.

A moderazione di u populu

I culleghi di Odnoklassniki andonu ancu più luntanu è anu apprufittatu di "l'aiutu di l'audienza": anu scrittu una applicazione di ghjocu per a reta suciale in quale pudete marcà rapidamente una grande quantità di dati, mettendu in risaltu qualchì signu male - Moderatore Odnoklassniki (https://ok.ru/app/moderator). Un bonu modu per prufittà di l'aiutu di l'utilizatori OK chì cercanu di fà u cuntenutu più piacevule.

Cumu moderatemu l'annunzii
Un ghjocu in quale l'utilizatori tagghjanu e foto chì anu un numeru di telefunu.

Ogni fila di annunzii in a piattaforma pò esse ridiretta à u ghjocu Odnoklassniki Moderator. Tuttu ciò chì l'utilizatori di u ghjocu marcanu hè dopu mandatu à i moderatori interni per a verificazione. Stu schema permette di bluccà l'annunzii per i quali i filtri ùn sò micca stati creati, è simultaneamente creanu campioni di furmazione.

Conservazione di i risultati di moderazione

Salvemu tutte e decisioni prese durante a moderazione in modu chì ùn avemu micca riprocessà quelli annunzii nantu à quale avemu digià fattu una decisione.

Millioni di clusters sò creati ogni ghjornu basatu annantu à publicità. À u tempu, ogni cluster hè tichjatu "bonu" o "malu". Ogni annunziu novu o a so rivisione, entra in un cluster cù una marca, riceve automaticamente una risoluzione da u cluster stessu. Ci sò circa 20 mila tali risoluzioni automatiche per ghjornu.

Cumu moderatemu l'annunzii

Sì nisun annunziu novu arrivanu à u cluster, hè sguassatu da a memoria è u so hash è a suluzione sò scritti in Apache Cassandra.

Quandu a piattaforma riceve una nova publicità, prima prova di truvà un cluster simili trà quelli chì sò digià creati è pigliate una suluzione da ellu. Se ùn ci hè micca un tali cluster, a piattaforma va à Cassandra è guarda quì. L'avete trovu ? Grande, applica a suluzione à u cluster è u manda à Yula. Ci hè una media di 70 mila tali decisioni "ripetuti" ogni ghjornu - 8% di u tutale.

Per sintetizà

Avemu usatu a piattaforma di moderazione Odnoklassniki per dui anni è mezzo. Ci piace i risultati:

  • Moderemu automaticamente u 94% di tutti l'annunzii per ghjornu.
  • U costu di a moderazione di un annunziu hè stata ridutta da 2 rubles à 7 kopecks.
  • Grazie à l'uttellu ready-made, avemu scurdatu di i prublemi di gestisce i moderatori.
  • Avemu aumentatu u numeru di annunzii processati manualmente da 2,5 volte cù u listessu numeru di moderatori è budget. A qualità di a moderazione manuale hè ancu aumentata per via di u cuntrollu automatizatu, è fluttua intornu à 0,5% di l'errori.
  • Copremu rapidamente novi tipi di spam cù filtri.
  • Cunnetteremu rapidamente novi dipartimenti à a moderazione "Yula Verticals". Dapoi u 2017, Yula hà aghjustatu i Verticali Immubiliarii, Vacanze è Auto.

Source: www.habr.com

Add a comment