Com moderem els anuncis

Com moderem els anuncis

Cada servei els usuaris del qual poden crear el seu propi contingut (UGC - User-generated content) es veu obligat no només a resoldre problemes empresarials, sinó també a posar ordre en UGC. Una moderació de contingut deficient o de baixa qualitat pot, en definitiva, reduir l'atractiu del servei per als usuaris, fins i tot acabar amb el seu funcionament.

Avui us parlarem de la sinergia entre Yula i Odnoklassniki, que ens ajuda a moderar els anuncis de manera eficaç a Yula.

La sinergia en general és una cosa molt útil, i en el món modern, quan les tecnologies i les tendències canvien molt ràpidament, es pot convertir en un salvavides. Per què perdre els recursos escassos i el temps inventant alguna cosa que ja s'ha inventat i se t'ha portat a la ment?

Vam pensar el mateix quan ens vam trobar davant de la tasca completa de moderar el contingut dels usuaris: imatges, text i enllaços. Els nostres usuaris pugen milions de continguts a Yula cada dia, i sense un processament automàtic és completament impossible moderar totes aquestes dades manualment.

Per tant, vam utilitzar una plataforma de moderació ja feta, que en aquell moment els nostres col·legues d'Odnoklassniki havien completat fins a un estat de "gairebé la perfecció".

Per què Odnoklassniki?

Cada dia desenes de milions d'usuaris arriben a la xarxa social i publiquen milers de milions de continguts: des de fotos fins a vídeos i textos. La plataforma de moderació Odnoklassniki ajuda a comprovar volums molt grans de dades i a contrarestar els spammers i els robots.

L'equip de moderació d'OK ha acumulat molta experiència, ja que fa 12 anys que millora la seva eina. És important que no només puguin compartir les seves solucions ja fetes, sinó també personalitzar l'arquitectura de la seva plataforma per adaptar-se a les nostres tasques específiques.

Com moderem els anuncis

A partir d'ara, per a la brevetat, simplement anomenarem "plataforma" la plataforma de moderació OK.

Com funciona tot

S'estableix l'intercanvi de dades entre Yula i Odnoklassniki Apatxe Kafka.

Per què hem escollit aquesta eina:

  • A Yula, tots els anuncis estan postmoderats, de manera que inicialment no es requeria una resposta síncrona.
  • Si passa un paràgraf dolent i Yula o Odnoklassniki no estan disponibles, fins i tot a causa d'alguns pics de càrrega, les dades de Kafka no desapareixeran enlloc i es podran llegir més tard.
  • La plataforma ja estava integrada amb Kafka, de manera que es van resoldre la majoria dels problemes de seguretat.

Com moderem els anuncis

Per a cada anunci creat o modificat per l'usuari a Yula, es genera un JSON amb dades, que es col·loca a Kafka per a la seva posterior moderació. Des de Kafka, els anuncis es carreguen a la plataforma, on s'adjudiquen de manera automàtica o manual. Els anuncis dolents es bloquegen amb un motiu, i aquells en què la plataforma no troba infraccions es marquen com a "bons". Aleshores, totes les decisions es tornen a enviar a Yula i s'apliquen al servei.

Al final, per a Yula tot es redueix a accions simples: enviar un anunci a la plataforma Odnoklassniki i obtenir una resolució "d'acord", o per què no "d'acord".

Tractament automàtic

Què passa amb l'anunci després d'arribar a la plataforma? Cada anunci es divideix en diverses entitats:

  • Nom,
  • descripció,
  • fotografies,
  • categoria i subcategoria de l'anunci seleccionades per l'usuari,
  • preu

Com moderem els anuncis

A continuació, la plataforma realitza la agrupació per a cada entitat per trobar duplicats. A més, el text i les fotografies s'agrupen segons diferents esquemes.

Abans d'agrupar, els textos es normalitzen per eliminar caràcters especials, lletres canviades i altres escombraries. Les dades rebudes es divideixen en N grams, cadascun dels quals té un hash. El resultat són molts hash únics. La similitud entre textos ve determinada per La mesura de Jaccard entre els dos conjunts resultants. Si la similitud és més gran que el llindar, els textos es fusionen en un sol clúster. Per accelerar la cerca de clústers similars, s'utilitzen MinHash i hash sensible a la localitat.

S'han inventat diverses opcions per enganxar imatges per a fotografies, des de la comparació d'imatges de pHash fins a la recerca de duplicats mitjançant una xarxa neuronal.

L'últim mètode és el més "sever". Per entrenar el model, es van seleccionar triplets d'imatges (N, A, P) en què N no és semblant a A i P és semblant a A (és un semiduplicat). Aleshores, la xarxa neuronal va aprendre a fer A i P el més proper possible, i A i N el més lluny possible. Això resulta en menys falsos positius en comparació amb simplement prendre incrustacions d'una xarxa prèviament entrenada.

Quan la xarxa neuronal rep imatges com a entrada, genera un vector de dimensions N(128) per a cadascuna d'elles i es fa una sol·licitud per avaluar la proximitat de la imatge. A continuació, es calcula un llindar en què les imatges properes es consideren duplicades.

El model és capaç de trobar amb habilitat els spammers que fotografien específicament el mateix producte des de diferents angles per evitar la comparació de pHash.

Com moderem els anuncisCom moderem els anuncis
Un exemple de fotos de correu brossa enganxades per una xarxa neuronal com a duplicats.

En l'etapa final, els anuncis duplicats es cerquen simultàniament tant per text com per imatge.

Si dos o més anuncis estan enganxats en un clúster, el sistema inicia el bloqueig automàtic que, mitjançant determinats algorismes, selecciona quins duplicats es suprimeixen i quins deixar. Per exemple, si dos usuaris tenen les mateixes fotos en un anunci, el sistema bloquejarà l'anunci més recent.

Un cop creats, tots els clústers passen per una sèrie de filtres automàtics. Cada filtre assigna una puntuació al clúster: quina probabilitat és que contingui l'amenaça que identifica aquest filtre.

Per exemple, el sistema analitza la descripció d'un anunci i selecciona categories potencials per a aquest. A continuació, agafa el que té la màxima probabilitat i el compara amb la categoria especificada per l'autor de l'anunci. Si no coincideixen, l'anunci es bloqueja per a la categoria equivocada. I com que som amables i honestos, diem directament a l'usuari quina categoria ha de seleccionar perquè l'anunci passi la moderació.

Com moderem els anuncis
Notificació de bloqueig per categoria incorrecta.

L'aprenentatge automàtic se sent com a casa a la nostra plataforma. Per exemple, amb la seva ajuda cerquem noms i descripcions de béns prohibits a la Federació Russa. I els models de xarxes neuronals "examinen" meticulosament les imatges per veure si contenen URL, textos de correu brossa, números de telèfon i la mateixa informació "prohibida".

Per als casos en què intenten vendre un producte prohibit disfressat d'alguna cosa legal i no hi ha text ni al títol ni a la descripció, utilitzem l'etiquetatge d'imatge. Per a cada imatge, es poden afegir fins a 11 mil etiquetes diferents que descriuen el que hi ha a la imatge.

Com moderem els anuncis
Estan intentant vendre la cachimba disfressant-la de samovar.

Paral·lelament als filtres complexos, també funcionen els senzills, resolent problemes evidents relacionats amb el text:

  • antimat;
  • Detector d'URL i números de telèfon;
  • menció de missatgeria instantània i altres contactes;
  • preu reduït;
  • anuncis en què no es ven res, etc.

Avui dia, cada anunci passa per un tamís fi de més de 50 filtres automàtics que intenten trobar alguna cosa dolenta a l'anunci.

Si cap dels detectors va funcionar, s'envia una resposta a Yula que l'anunci està "molt probable" en perfecte ordre. Aquesta resposta la fem servir nosaltres mateixos i els usuaris que s'han subscrit al venedor reben una notificació sobre la disponibilitat d'un producte nou.

Com moderem els anuncis
Notificació que el venedor té un producte nou.

Com a resultat, cada anunci està “cobert” de metadades, algunes de les quals es generen quan es crea l'anunci (adreça IP de l'autor, user-agent, plataforma, geolocalització, etc.), i la resta és la puntuació emesa per cada filtre. .

Cues d'anuncis

Quan un anunci arriba a la plataforma, el sistema el posa a una de les cues. Cada cua es crea mitjançant una fórmula matemàtica que combina metadades de l'anunci de manera que detecta qualsevol patró dolent.

Per exemple, podeu crear una cua d'anuncis a la categoria "Telèfons mòbils" d'usuaris de Yula suposadament de Sant Petersburg, però les seves adreces IP són de Moscou o d'altres ciutats.

Com moderem els anuncis
Un exemple d'anuncis publicats per un usuari a diferents ciutats.

O podeu formar cues en funció de les puntuacions que la xarxa neuronal assigna als anuncis, ordenant-los en ordre descendent.

Cada cua, segons la seva pròpia fórmula, assigna una puntuació final a l'anunci. A continuació, podeu procedir de diferents maneres:

  • especificar el llindar en què un anunci rebrà un determinat tipus de bloqueig;
  • enviar tots els anuncis de la cua als moderadors per a una revisió manual;
  • o combinar les opcions anteriors: especificar el llindar de bloqueig automàtic i enviar als moderadors aquells anuncis que no hagin arribat a aquest llindar.

Com moderem els anuncis

Per què són necessàries aquestes cues? Suposem que un usuari ha penjat una foto d'una arma de foc. La xarxa neuronal li assigna una puntuació del 95 al 100 i determina amb un 99 per cent de precisió que hi ha una arma a la imatge. Però si el valor de la puntuació és inferior al 95%, la precisió del model comença a disminuir (aquesta és una característica dels models de xarxes neuronals).

Com a resultat, es forma una cua en funció del model de puntuació i els anuncis que han rebut entre 95 i 100 es bloquegen automàticament com a "Productes prohibits". Els anuncis amb una puntuació inferior a 95 s'envien als moderadors per processar-los manualment.

Com moderem els anuncis
Beretta de xocolata amb cartutxos. Només per a la moderació manual! 🙂

Moderació manual

A principis del 2019, aproximadament el 94% de tots els anuncis a Yula es modera automàticament.

Com moderem els anuncis

Si la plataforma no pot decidir sobre alguns anuncis, els envia per a la moderació manual. Odnoklassniki va desenvolupar la seva pròpia eina: les tasques per als moderadors mostren immediatament tota la informació necessària per prendre una decisió ràpida: l'anunci és adequat o s'ha de bloquejar, indicant el motiu.

I perquè la qualitat del servei no es ressenteixi durant la moderació manual, el treball de les persones està constantment controlat. Per exemple, al flux de tasques, al moderador se li mostra "trampes", anuncis per als quals ja hi ha solucions preparades. Si la decisió del moderador no coincideix amb l'acabada, el moderador rep un error.

De mitjana, un moderador passa 10 segons comprovant un anunci. A més, el nombre d'errors no supera el 0,5% de tots els anuncis verificats.

La moderació de la gent

Els companys d'Odnoklassniki van anar encara més enllà i van aprofitar l'"ajuda del públic": van escriure una aplicació de joc per a la xarxa social en la qual podeu marcar ràpidament una gran quantitat de dades, destacant algun mal senyal - Odnoklassniki Moderator (https://ok.ru/app/moderator). Una bona manera d'aprofitar l'ajuda dels usuaris d'OK que intenten que el contingut sigui més agradable.

Com moderem els anuncis
Un joc en què els usuaris etiqueten fotos que tenen un número de telèfon.

Qualsevol cua d'anuncis de la plataforma es pot redirigir al joc Odnoklassniki Moderator. Tot el que marquen els usuaris del joc s'envia a moderadors interns per a la verificació. Aquest esquema us permet bloquejar anuncis per als quals encara no s'han creat filtres i crear mostres d'entrenament simultàniament.

Emmagatzemar els resultats de la moderació

Guardem totes les decisions preses durant la moderació perquè no tornem a processar aquells anuncis sobre els quals ja hem pres una decisió.

Cada dia es creen milions de clústers basats en anuncis. Amb el pas del temps, cada clúster s'etiqueta com "bo" o "dolent". Cada anunci nou o la seva revisió, entrant en un clúster amb una marca, rep automàticament una resolució del propi clúster. Hi ha unes 20 mil resolucions automàtiques d'aquest tipus al dia.

Com moderem els anuncis

Si no arriben nous anuncis al clúster, s'elimina de la memòria i el seu hash i la solució s'escriuen a Apache Cassandra.

Quan la plataforma rep un nou anunci, primer intenta trobar un clúster similar entre els ja creats i prendre'n una solució. Si no hi ha aquest clúster, la plataforma va a Cassandra i hi mira. Ho has trobat? Genial, aplica la solució al clúster i l'envia a la Yula. Hi ha una mitjana de 70 mil decisions "repetides" cada dia, un 8% del total.

En resum

Fa dos anys i mig que utilitzem la plataforma de moderació Odnoklassniki. Ens agraden els resultats:

  • Moderem automàticament el 94% de tots els anuncis al dia.
  • El cost de moderar un anunci es va reduir de 2 rubles a 7 copecs.
  • Gràcies a l'eina ja feta, ens hem oblidat dels problemes de gestió dels moderadors.
  • Hem augmentat el nombre d'anuncis processats manualment en 2,5 vegades amb el mateix nombre de moderadors i pressupost. La qualitat de la moderació manual també ha augmentat a causa del control automatitzat, i oscil·la al voltant del 0,5% dels errors.
  • Cobrim ràpidament nous tipus de correu brossa amb filtres.
  • Connectem ràpidament nous departaments a la moderació "Yula Verticals". Des del 2017, Yula ha afegit els sectors Immobiliari, Vacants i Automòbil.

Font: www.habr.com

Afegeix comentari