Ako moderujeme reklamy

Ako moderujeme reklamy

Každá služba, ktorej používatelia môžu vytvárať vlastný obsah (UGC – User-generated content) je nútená nielen riešiť obchodné problémy, ale aj robiť poriadok v UGC. Nekvalitné alebo nekvalitné moderovanie obsahu môže v konečnom dôsledku znížiť atraktivitu služby pre používateľov, dokonca aj ukončiť jej prevádzku.

Dnes vám povieme o synergii medzi Yulou a Odnoklassniki, ktorá nám pomáha efektívne moderovať reklamy v Yule.

Synergia vo všeobecnosti je veľmi užitočná vec a v modernom svete, keď sa technológie a trendy veľmi rýchlo menia, sa môže zmeniť na životabudič. Prečo strácať vzácne zdroje a čas vymýšľaním niečoho, čo už bolo vynájdené a spomenuté pred vami?

To isté sme si mysleli, keď sme stáli pred plnou úlohou moderovať používateľský obsah – obrázky, text a odkazy. Naši používatelia nahrávajú do Yuly milióny kusov obsahu každý deň a bez automatického spracovania je úplne nemožné všetky tieto údaje manuálne moderovať.

Preto sme použili hotovú moderovaciu platformu, ktorú v tom čase naši kolegovia z Odnoklassniki dokončili do stavu „takmer dokonalosti“.

Prečo práve Odnoklassniki?

Každý deň prichádzajú na sociálnu sieť desiatky miliónov používateľov a zverejňujú miliardy kusov obsahu: od fotografií po videá a texty. Platforma na moderovanie Odnoklassniki pomáha kontrolovať veľmi veľké objemy údajov a pôsobiť proti spamerom a robotom.

Moderátorský tím OK nazbieral množstvo skúseností, keďže svoj nástroj zdokonaľuje už 12 rokov. Je dôležité, aby mohli nielen zdieľať svoje hotové riešenia, ale aj prispôsobiť architektúru svojej platformy tak, aby vyhovovala našim špecifickým úlohám.

Ako moderujeme reklamy

Odteraz, pre stručnosť, budeme platformu OK moderovania jednoducho nazývať „platforma“.

Ako to celé funguje

Výmena údajov medzi Yulou a Odnoklassniki je zriadená prostredníctvom Apache Kafka.

Prečo sme si vybrali tento nástroj:

  • V Yule sú všetky reklamy postmoderované, takže spočiatku nebola potrebná synchrónna odpoveď.
  • Ak sa stane zlý odsek a Yula alebo Odnoklassniki nie sú k dispozícii, a to aj z dôvodu určitého špičkového zaťaženia, údaje z Kafky nikam nezmiznú a možno ich prečítať neskôr.
  • Platforma už bola integrovaná s Kafkou, takže väčšina bezpečnostných problémov bola vyriešená.

Ako moderujeme reklamy

Pre každú reklamu vytvorenú alebo upravenú používateľom v Yule sa vygeneruje JSON s údajmi, ktorý sa umiestni do Kafky na následné moderovanie. Z Kafky sa oznamy načítajú do platformy, kde sa automaticky alebo manuálne vyhodnotia. Zlé reklamy sú zablokované s dôvodom a tie, v ktorých platforma nezistí porušenia, sú označené ako „dobré“. Potom sa všetky rozhodnutia posielajú späť do Yuly a uplatňujú sa v službe.

Nakoniec pre Yulu všetko spočíva v jednoduchých akciách: pošlite reklamu na platformu Odnoklassniki a získajte späť rozlíšenie „ok“, alebo prečo nie „ok“.

Automatické spracovanie

Čo sa stane s reklamou, keď sa dostane na platformu? Každá reklama je rozdelená do niekoľkých entít:

  • Názov,
  • popis,
  • fotky,
  • užívateľom zvolená kategória a podkategória inzerátu,
  • cena.

Ako moderujeme reklamy

Platforma potom vykoná klastrovanie pre každú entitu, aby našla duplikáty. Okrem toho sú text a fotografie zoskupené podľa rôznych schém.

Pred zoskupovaním sa texty normalizujú, aby sa odstránili špeciálne znaky, zmenené písmená a iný odpad. Prijaté dáta sú rozdelené do N-gramov, z ktorých každý je hašovaný. Výsledkom je veľa jedinečných hashov. Podobnosť medzi textami je určená Jaccardova miera medzi dvoma výslednými súbormi. Ak je podobnosť väčšia ako prahová hodnota, potom sa texty zlúčia do jedného zhluku. Na urýchlenie vyhľadávania podobných zhlukov sa používa MinHash a hašovanie citlivé na lokalitu.

Pre fotografie boli vynájdené rôzne možnosti lepenia obrázkov, od porovnávania obrázkov pHash až po vyhľadávanie duplikátov pomocou neurónovej siete.

Posledná metóda je „najzávažnejšia“. Na trénovanie modelu boli vybrané trojice obrázkov (N, A, P), v ktorých N nie je podobné A a P je podobné A (je poloduplikát). Potom sa neurónová sieť naučila robiť A a P čo najbližšie a A a N čo najďalej. Výsledkom je menej falošných poplachov v porovnaní s jednoduchým prevzatím vložení z vopred vyškolenej siete.

Keď neurónová sieť prijme obrázky ako vstup, vygeneruje N(128)-rozmerný vektor pre každý z nich a požiada sa o posúdenie blízkosti obrázka. Ďalej sa vypočíta prah, pri ktorom sa blízke snímky považujú za duplikáty.

Model dokáže šikovne nájsť spamerov, ktorí špecificky fotografujú ten istý produkt z rôznych uhlov, aby obišli porovnanie pHash.

Ako moderujeme reklamyAko moderujeme reklamy
Príklad spamových fotografií zlepených neurónovou sieťou ako duplikáty.

V záverečnej fáze sa duplicitné inzeráty vyhľadávajú súčasne podľa textu aj obrázka.

Ak sú v klastri zlepené dve alebo viac reklám, systém spustí automatické blokovanie, ktoré pomocou určitých algoritmov vyberie, ktoré duplikáty sa majú vymazať a ktoré ponechať. Ak majú napríklad dvaja používatelia v reklame rovnaké fotografie, systém zablokuje novšiu reklamu.

Po vytvorení všetky klastre prechádzajú sériou automatických filtrov. Každý filter priraďuje klastru skóre: aká je pravdepodobnosť, že obsahuje hrozbu, ktorú tento filter identifikuje.

Systém napríklad analyzuje popis v reklame a vyberie preň potenciálne kategórie. Potom vezme tú s maximálnou pravdepodobnosťou a porovná ju s kategóriou určenou autorom inzerátu. Ak sa nezhodujú, reklama je zablokovaná pre nesprávnu kategóriu. A keďže sme láskaví a čestní, používateľovi priamo povieme, ktorú kategóriu musí vybrať, aby reklama prešla moderovaním.

Ako moderujeme reklamy
Upozornenie na zablokovanie pre nesprávnu kategóriu.

Strojové učenie sa na našej platforme cíti ako doma. Napríklad s jeho pomocou hľadáme v názvoch a popisoch tovarov zakázaných v Ruskej federácii. A modely neurónových sietí starostlivo „skúmajú“ obrázky, aby zistili, či neobsahujú adresy URL, nevyžiadané texty, telefónne čísla a rovnaké „zakázané“ informácie.

V prípadoch, keď sa snažia predať zakázaný produkt maskovaný ako niečo legálne a v názve ani popise nie je žiadny text, používame označovanie obrázkov. Ku každému obrázku je možné pridať až 11 tisíc rôznych značiek, ktoré popisujú, čo je na obrázku.

Ako moderujeme reklamy
Vodnú fajku sa snažia predať maskovaním sa ako samovar.

Paralelne so zložitými filtrami fungujú aj jednoduché, ktoré riešia zjavné problémy súvisiace s textom:

  • antimat;
  • detektor URL a telefónnych čísel;
  • zmienky o instant messengeroch a iných kontaktoch;
  • znížená cena;
  • inzeráty, v ktorých sa nič nepredáva a pod.

Dnes každá reklama prechádza jemným sitom viac ako 50 automatických filtrov, ktoré sa snažia v reklame nájsť niečo zlé.

Ak žiadny z detektorov nefungoval, Yule sa odošle odpoveď, že reklama je „s najväčšou pravdepodobnosťou“ v úplnom poriadku. Túto odpoveď sami používame a používatelia, ktorí sa prihlásili k odberu predajcu, dostávajú upozornenie o dostupnosti nového produktu.

Ako moderujeme reklamy
Oznámenie, že predajca má nový tovar.

Výsledkom je, že každá reklama je „prerastená“ metadátami, z ktorých niektoré sa generujú pri vytváraní reklamy (adresa IP autora, používateľský agent, platforma, geolokácia atď.) a zvyšok je skóre vydané každým filtrom. .

Oznamovacie fronty

Keď sa reklama dostane na platformu, systém ju zaradí do jedného z radov. Každý rad je vytvorený pomocou matematického vzorca, ktorý kombinuje metadáta reklamy spôsobom, ktorý zisťuje akékoľvek zlé vzory.

Môžete napríklad vytvoriť rad reklám v kategórii „Mobilné telefóny“ od používateľov Yuly údajne z Petrohradu, ale ich adresy IP sú z Moskvy alebo iných miest.

Ako moderujeme reklamy
Príklad inzerátov uverejnených jedným používateľom v rôznych mestách.

Alebo môžete vytvoriť fronty na základe skóre, ktoré neurónová sieť priraďuje reklamám, a usporiadať ich v zostupnom poradí.

Každé poradie podľa vlastného vzorca priradí reklame konečné skóre. Potom môžete postupovať rôznymi spôsobmi:

  • určiť hranicu, pri ktorej reklama získa určitý typ blokovania;
  • poslať všetky reklamy v poradí moderátorom na manuálnu kontrolu;
  • alebo skombinujte predchádzajúce možnosti: zadajte prah automatického blokovania a posielajte moderátorom tie reklamy, ktoré tento prah nedosiahli.

Ako moderujeme reklamy

Prečo sú potrebné tieto fronty? Povedzme, že používateľ nahral fotografiu strelnej zbrane. Neurónová sieť mu pridelí skóre od 95 do 100 a s presnosťou 99 percent určí, že na obrázku je zbraň. Ale ak je hodnota skóre nižšia ako 95%, presnosť modelu sa začína znižovať (toto je vlastnosť modelov neurónových sietí).

Výsledkom je, že sa na základe modelu skóre vytvorí rad a tie reklamy, ktoré dostali medzi 95 a 100, sa automaticky zablokujú ako „zakázané produkty“. Reklamy so skóre pod 95 sa odosielajú moderátorom na manuálne spracovanie.

Ako moderujeme reklamy
Čokoládová Beretta s kazetami. Len na ručné moderovanie! 🙂

Manuálne moderovanie

Začiatkom roka 2019 je asi 94 % všetkých reklám v Yule moderovaných automaticky.

Ako moderujeme reklamy

Ak platforma nemôže rozhodnúť o niektorých reklamách, pošle ich na manuálne moderovanie. Odnoklassniki vyvinuli svoj vlastný nástroj: úlohy pre moderátorov okamžite zobrazujú všetky potrebné informácie na rýchle rozhodnutie - reklama je vhodná alebo by mala byť zablokovaná s uvedením dôvodu.

A aby pri manuálnom moderovaní neutrpela kvalita služieb, je práca ľudí neustále monitorovaná. Napríklad v streame úloh sa moderátorovi zobrazujú „pasce“ – reklamy, pre ktoré už existujú hotové riešenia. Ak sa rozhodnutie moderátora nezhoduje s hotovým, moderátor dostane chybu.

V priemere strávi moderátor 10 sekúnd kontrolou jednej reklamy. Okrem toho počet chýb nie je vyšší ako 0,5% všetkých overených reklám.

Umiernenosť ľudí

Kolegovia z Odnoklassniki zašli ešte ďalej a využili „pomoc publika“: napísali hernú aplikáciu pre sociálnu sieť, v ktorej môžete rýchlo označiť veľké množstvo údajov a zvýrazniť nejaké zlé znamenie - Moderátor Odnoklassniki (https://ok.ru/app/moderator). Dobrý spôsob, ako využiť pomoc používateľov OK, ktorí sa snažia spríjemniť obsah.

Ako moderujeme reklamy
Hra, v ktorej používatelia označujú fotografie, na ktorých je telefónne číslo.

Akýkoľvek rad reklám na platforme je možné presmerovať na hru Odnoklassniki Moderator. Všetko, čo používatelia hry označia, sa potom odošle interným moderátorom na kontrolu. Táto schéma vám umožňuje blokovať reklamy, pre ktoré ešte neboli vytvorené filtre, a súčasne vytvárať tréningové ukážky.

Ukladanie výsledkov moderovania

Všetky rozhodnutia prijaté počas moderovania si ukladáme, aby sme neskôr nespracovávali tie inzeráty, o ktorých sme sa už rozhodli.

Každý deň sa na základe reklám vytvárajú milióny zhlukov. Postupom času je každý klaster označený ako „dobrý“ alebo „zlý“. Každá nová reklama alebo jej revízia, zadaná do klastra so značkou, automaticky dostane rozlíšenie od samotného klastra. Takýchto automatických rozlíšení je denne okolo 20 tisíc.

Ako moderujeme reklamy

Ak do klastra nedostanú žiadne nové oznámenia, odstráni sa z pamäte a jeho hash a riešenie sa zapíšu do Apache Cassandra.

Keď platforma dostane novú reklamu, najprv sa pokúsi nájsť podobný zhluk medzi už vytvorenými a vziať si z neho riešenie. Ak taký zhluk neexistuje, plošina prejde ku Cassandre a pozrie sa tam. Našiel si to? Skvelé, aplikuje riešenie na klaster a odošle ho Yule. Každý deň je v priemere 70 tisíc takýchto „opakovaných“ rozhodnutí – 8 % z celkového počtu.

Sčítanie

Moderátorskú platformu Odnoklassniki používame už dva a pol roka. Páčia sa nám výsledky:

  • Automaticky moderujeme 94 % všetkých reklám denne.
  • Náklady na moderovanie jednej reklamy sa znížili z 2 rubľov na 7 kopejok.
  • Vďaka hotovému nástroju sme zabudli na problémy riadenia moderátorov.
  • Pri rovnakom počte moderátorov a rozpočte sme 2,5-násobne zvýšili počet ručne spracovaných inzerátov. Vďaka automatizovanému riadeniu sa zvýšila aj kvalita manuálneho moderovania a kolíše okolo 0,5 % chýb.
  • Nové typy spamu rýchlo pokrývame filtrami.
  • Nové oddelenia rýchlo pripájame k moderovaniu "Yula Verticals". Od roku 2017 Yula pridala vertikály Real Estate, Voľné pracovné miesta a Auto.

Zdroj: hab.com

Pridať komentár