Jak moderujeme reklamy

Jak moderujeme reklamy

Každá služba, jejíž uživatelé mohou vytvářet svůj vlastní obsah (UGC – User-generated content), je nucena nejen řešit obchodní problémy, ale také dělat v UGC pořádek. Špatné nebo nekvalitní moderování obsahu může v konečném důsledku snížit atraktivitu služby pro uživatele, dokonce i ukončit její provoz.

Dnes vám povíme o synergii mezi Yulou a Odnoklassniki, která nám pomáhá efektivně moderovat reklamy v Yule.

Synergie obecně je velmi užitečná věc a v moderním světě, kdy se velmi rychle mění technologie a trendy, se může proměnit v životabudič. Proč plýtvat vzácnými zdroji a časem vymýšlením něčeho, co již bylo vynalezeno a připomenuto před vámi?

Totéž jsme si mysleli, když jsme stáli před plným úkolem moderovat uživatelský obsah – obrázky, text a odkazy. Naši uživatelé nahrávají do Yuly miliony kusů obsahu každý den a bez automatického zpracování je zcela nemožné všechna tato data moderovat ručně.

Použili jsme proto hotovou platformu pro moderování, kterou do té doby naši kolegové z Odnoklassniki dotáhli do stavu „téměř dokonalosti“.

Proč Odnoklassniki?

Každý den na sociální síť přicházejí desítky milionů uživatelů a publikují miliardy obsahu: od fotografií po videa a texty. Platforma pro moderování Odnoklassniki pomáhá kontrolovat velmi velké objemy dat a působit proti spammerům a robotům.

Moderátorský tým OK nasbíral mnoho zkušeností, protože svůj nástroj zdokonaluje již 12 let. Je důležité, aby mohli nejen sdílet svá hotová řešení, ale také přizpůsobit architekturu své platformy tak, aby vyhovovala našim konkrétním úkolům.

Jak moderujeme reklamy

Od této chvíle budeme pro stručnost jednoduše nazývat platformu OK moderování „platforma“.

Jak to všechno funguje

Výměna dat mezi Yulou a Odnoklassniki je zavedena prostřednictvím Apache Kafka.

Proč jsme zvolili tento nástroj:

  • V Yule jsou všechny reklamy postmoderované, takže zpočátku nebyla vyžadována synchronní odpověď.
  • Pokud se stane špatný odstavec a Yula nebo Odnoklassniki nejsou k dispozici, a to i kvůli určitému špičkovému zatížení, data z Kafky nikam nezmizí a lze je číst později.
  • Platforma již byla integrována s Kafkou, takže většina bezpečnostních problémů byla vyřešena.

Jak moderujeme reklamy

Pro každou reklamu vytvořenou nebo upravenou uživatelem v Yule se vygeneruje JSON s daty, která se umístí do Kafky k následnému moderování. Z Kafky se hlášení načítají do platformy, kde se automaticky nebo ručně posuzují. Špatné reklamy jsou blokovány s důvodem a ty, u kterých platforma nenajde porušení, jsou označeny jako „dobré“. Poté jsou všechna rozhodnutí zaslána zpět do Yuly a aplikována ve službě.

Nakonec to pro Yulu spočívá v jednoduchých akcích: pošlete reklamu na platformu Odnoklassniki a získejte zpět řešení „ok“, nebo proč ne „ok“.

Automatické zpracování

Co se stane s reklamou poté, co se dostane na platformu? Každá reklama je rozdělena do několika entit:

  • název,
  • popis,
  • fotky,
  • uživatelsky zvolená kategorie a podkategorie inzerátu,
  • Cena.

Jak moderujeme reklamy

Platforma pak provede shlukování pro každou entitu, aby nalezla duplikáty. Text a fotografie jsou navíc seskupeny podle různých schémat.

Před shlukováním jsou texty normalizovány, aby se odstranily speciální znaky, změněná písmena a další odpadky. Přijatá data jsou rozdělena do N-gramů, z nichž každý je hashován. Výsledkem je mnoho jedinečných hashů. Podobnost mezi texty je určena Jaccardova míra mezi dvěma výslednými soubory. Pokud je podobnost větší než práh, pak se texty sloučí do jednoho shluku. Pro urychlení hledání podobných clusterů se používá MinHash a Locality-sensitive hash.

Pro fotografie byly vynalezeny různé možnosti lepení obrázků, od porovnávání obrázků pHash až po vyhledávání duplikátů pomocí neuronové sítě.

Poslední metoda je „nejzávažnější“. Pro trénování modelu byly vybrány trojice obrázků (N, A, P), ve kterých N není podobné A a P je podobné A (je semiduplikát). Pak se neuronová síť naučila dělat A a P co nejblíže a A a N co nejdále. To má za následek méně falešných poplachů ve srovnání s jednoduchým odebráním vložení z předem vyškolené sítě.

Když neuronová síť přijímá obrázky jako vstup, generuje N(128)-rozměrný vektor pro každý z nich a je vznesena žádost o posouzení blízkosti obrázku. Dále se vypočítá práh, při kterém jsou blízké snímky považovány za duplikáty.

Model je schopen obratně najít spammery, kteří specificky fotí stejný produkt z různých úhlů, aby obešli srovnání pHash.

Jak moderujeme reklamyJak moderujeme reklamy
Příklad spamových fotek slepených neuronovou sítí jako duplikáty.

V konečné fázi jsou duplicitní inzeráty prohledávány současně podle textu i obrázku.

Pokud jsou dvě nebo více reklam slepené v clusteru, systém spustí automatické blokování, které pomocí určitých algoritmů vybere, které duplikáty se mají smazat a které ponechat. Pokud mají například dva uživatelé v reklamě stejné fotografie, systém zablokuje novější reklamu.

Po vytvoření všechny clustery projdou řadou automatických filtrů. Každý filtr přiřadí shluku skóre: jaká je pravděpodobnost, že obsahuje hrozbu, kterou tento filtr identifikuje.

Systém například analyzuje popis v reklamě a vybere pro něj potenciální kategorie. Poté vezme tu s maximální pravděpodobností a porovná ji s kategorií zadanou autorem inzerátu. Pokud se neshodují, reklama je zablokována pro nesprávnou kategorii. A protože jsme laskaví a upřímní, přímo uživateli říkáme, jakou kategorii musí vybrat, aby reklama prošla moderováním.

Jak moderujeme reklamy
Upozornění na zablokování pro nesprávnou kategorii.

Strojové učení se na naší platformě cítí jako doma. Například s jeho pomocí vyhledáváme v názvech a popisech zboží zakázaného v Ruské federaci. A modely neuronových sítí pečlivě „zkoumají“ obrázky, aby zjistily, zda neobsahují adresy URL, spamové texty, telefonní čísla a stejné „zakázané“ informace.

V případech, kdy se snaží prodat zakázaný produkt maskovaný jako něco legálního a v názvu ani popisu není žádný text, používáme označování obrázků. Ke každému obrázku lze přidat až 11 tisíc různých značek, které popisují, co je na obrázku.

Jak moderujeme reklamy
Vodní dýmku se snaží prodat tím, že ji maskují jako samovar.

Paralelně se složitými filtry fungují i ​​jednoduché, které řeší zjevné problémy související s textem:

  • antirohož;
  • detektor URL a telefonních čísel;
  • zmínka o instant messengerech a jiných kontaktech;
  • snížená cena;
  • inzeráty, ve kterých není nic na prodej atd.

Dnes každá reklama prochází jemným sítem více než 50 automatických filtrů, které se snaží v reklamě najít něco špatného.

Pokud žádný z detektorů nefungoval, odešle se Yule odpověď, že reklama je „s největší pravděpodobností“ v naprostém pořádku. Tuto odpověď sami používáme a uživatelé, kteří se přihlásili k odběru prodejce, dostávají upozornění na dostupnost nového produktu.

Jak moderujeme reklamy
Oznámení, že prodejce má nový produkt.

V důsledku toho je každá reklama „zarostlá“ metadaty, z nichž některá jsou generována při jejím vytvoření (IP adresa autora, user-agent, platforma, geolokace atd.) a zbytek je skóre vydané každým filtrem. .

Fronty na oznámení

Když se reklama dostane na platformu, systém ji zařadí do jedné z front. Každá fronta je vytvořena pomocí matematického vzorce, který kombinuje metadata reklam způsobem, který detekuje jakékoli špatné vzory.

Můžete například vytvořit frontu reklam v kategorii „Mobilní telefony“ od uživatelů Yuly údajně z Petrohradu, ale jejich IP adresy jsou z Moskvy nebo jiných měst.

Jak moderujeme reklamy
Příklad inzerátů zveřejněných jedním uživatelem v různých městech.

Nebo můžete vytvořit fronty na základě skóre, které neuronová síť přiřadí reklamám, a seřadit je v sestupném pořadí.

Každá fronta podle vlastního vzorce přiřadí reklamě konečné skóre. Poté můžete postupovat různými způsoby:

  • určit práh, při kterém reklama obdrží určitý typ blokování;
  • odeslat všechny reklamy ve frontě moderátorům k ruční kontrole;
  • nebo zkombinujte předchozí možnosti: zadejte práh automatického blokování a pošlete moderátorům ty reklamy, které tohoto prahu nedosáhly.

Jak moderujeme reklamy

Proč jsou tyto fronty potřeba? Řekněme, že uživatel nahrál fotografii střelné zbraně. Neuronová síť mu přidělí skóre od 95 do 100 a s 99procentní přesností určí, že na obrázku je zbraň. Pokud je ale hodnota skóre pod 95 %, přesnost modelu se začíná snižovat (toto je vlastnost modelů neuronových sítí).

Výsledkem je, že se na základě modelu skóre vytvoří fronta a reklamy, které obdržely mezi 95 a 100, jsou automaticky blokovány jako „zakázané produkty“. Reklamy se skóre pod 95 jsou odesílány moderátorům k ručnímu zpracování.

Jak moderujeme reklamy
Čokoládová Beretta s kazetami. Pouze pro ruční moderování! 🙂

Manuální moderování

Na začátku roku 2019 je asi 94 % všech reklam v Yule moderováno automaticky.

Jak moderujeme reklamy

Pokud platforma nemůže rozhodnout o některých reklamách, odešle je k ručnímu moderování. Odnoklassniki vyvinuli svůj vlastní nástroj: úkoly pro moderátory okamžitě zobrazují všechny potřebné informace pro rychlé rozhodnutí - reklama je vhodná nebo by měla být zablokována s uvedením důvodu.

A aby při ručním moderování neutrpěla kvalita služeb, je práce lidí neustále monitorována. Například ve streamu úkolů se moderátorovi zobrazují „pasti“ – reklamy, pro které již existují hotová řešení. Pokud se rozhodnutí moderátora neshoduje s hotovým, dostane moderátor chybu.

Průměrně stráví moderátor 10 sekund kontrolou jedné reklamy. Počet chyb navíc nepřesahuje 0,5 % všech ověřených reklam.

Umírněnost lidí

Kolegové z Odnoklassniki šli ještě dále a využili „pomoci publika“: napsali herní aplikaci pro sociální síť, ve které můžete rychle označit velké množství dat a zvýraznit nějaké špatné znamení - Odnoklassniki Moderator (https://ok.ru/app/moderator). Dobrý způsob, jak využít pomoci uživatelů OK, kteří se snaží obsah zpříjemnit.

Jak moderujeme reklamy
Hra, ve které uživatelé označují fotografie, na kterých je telefonní číslo.

Jakákoli fronta reklam na platformě může být přesměrována na hru Odnoklassniki Moderator. Vše, co uživatelé hry označí, je poté odesláno interním moderátorům ke kontrole. Toto schéma umožňuje blokovat reklamy, pro které ještě nebyly vytvořeny filtry, a současně vytvářet tréninkové ukázky.

Ukládání výsledků moderování

Všechna rozhodnutí učiněná během moderování ukládáme, abychom znovu nezpracovávali ty reklamy, o kterých jsme se již rozhodli.

Každý den se na základě reklam vytvoří miliony shluků. Postupem času je každý shluk označen jako „dobrý“ nebo „špatný“. Každá nová reklama nebo její revize, která vstoupí do clusteru se značkou, automaticky obdrží rozlišení od samotného clusteru. Takových automatických rozlišení je denně asi 20 tisíc.

Jak moderujeme reklamy

Pokud do clusteru nedorazí žádná nová oznámení, je odstraněn z paměti a jeho hash a řešení jsou zapsány do Apache Cassandra.

Když platforma obdrží novou reklamu, nejprve se pokusí najít podobný shluk mezi již vytvořenými a vzít si z něj řešení. Pokud takový shluk neexistuje, plošina přejde ke Cassandře a podívá se tam. Našel jsi to? Skvělé, aplikuje řešení na cluster a odešle ho Yule. Každý den je v průměru 70 tisíc takových „opakovaných“ rozhodnutí – 8 % z celkového počtu.

Sčítání

Moderátorskou platformu Odnoklassniki používáme dva a půl roku. Líbí se nám výsledky:

  • Automaticky moderujeme 94 % všech reklam denně.
  • Náklady na moderování jedné reklamy byly sníženy ze 2 rublů na 7 kopejek.
  • Díky hotovému nástroji jsme zapomněli na problémy s řízením moderátorů.
  • Při stejném počtu moderátorů a rozpočtu jsme zvýšili počet ručně zpracovaných inzerátů 2,5krát. Kvalita ručního moderování se také zvýšila díky automatizovanému řízení a pohybuje se kolem 0,5 % chyb.
  • Nové typy spamu rychle pokryjeme filtry.
  • Rychle připojujeme nová oddělení k moderování "Yula Verticals". Od roku 2017 Yula přidala vertikály Real Estate, Volná místa a Auto.

Zdroj: www.habr.com

Přidat komentář