Hogyan moderáljuk a hirdetéseket

Hogyan moderáljuk a hirdetéseket

Minden olyan szolgáltatás, amelynek használói saját tartalmat hozhatnak létre (UGC - User-generated content), nem csak az üzleti problémák megoldására kényszerülnek, hanem az UGC-ben is rendet kell tenni. A rossz vagy rossz minőségű tartalommoderálás végső soron csökkentheti a szolgáltatás vonzerejét a felhasználók számára, akár megszüntetheti annak működését.

Ma a Yula és az Odnoklassniki közötti szinergiáról fogunk beszélni, amely segít hatékonyan moderálni a hirdetéseket Yulában.

A szinergia általában nagyon hasznos dolog, és a modern világban, amikor a technológiák és a trendek nagyon gyorsan változnak, életmentővé válhat. Miért vesztegessünk szűkös erőforrásokat és időt egy olyan dolog kitalálására, amit már kitaláltak és eszünkbe juttattak?

Ugyanezt gondoltuk, amikor a felhasználói tartalmak – képek, szövegek és linkek – moderálásának teljes feladatával szembesültünk. Felhasználóink ​​naponta több millió tartalmat töltenek fel Yula-ra, és automatikus feldolgozás nélkül teljességgel lehetetlen mindezen adatok manuális moderálása.

Ezért egy kész moderációs platformot használtunk, amelyet addigra Odnoklassniki kollégáink a „majdnem tökéletes” állapotba vittek.

Miért az Odnoklassniki?

Naponta több tízmillió felhasználó érkezik a közösségi hálózatra, és több milliárdnyi tartalmat tesz közzé: a fényképektől a videókig és szövegekig. Az Odnoklassniki moderációs platform segít a nagyon nagy mennyiségű adat ellenőrzésében, valamint a spammerek és a botok elleni küzdelemben.

Az OK moderátor csapata rengeteg tapasztalatot halmozott fel, hiszen 12 éve fejleszti eszközét. Fontos, hogy ne csak megoszthassák kész megoldásaikat, hanem platformjuk architektúráját is testre szabhassák az adott feladatunkhoz.

Hogyan moderáljuk a hirdetéseket

Mostantól a rövidség kedvéért egyszerűen „platformnak” fogjuk hívni az OK moderációs platformot.

Hogyan működik minden

A Yula és az Odnoklassniki közötti adatcsere keresztül történik Apache Kafka.

Miért ezt az eszközt választottuk:

  • Yulában minden hirdetés utólag moderált, így kezdetben nem volt szükség szinkron válaszra.
  • Ha rossz bekezdés történik, és a Yula vagy az Odnoklassniki nem érhető el, többek között néhány csúcsterhelés miatt, akkor a Kafka adatai nem tűnnek el sehol, és később olvashatók.
  • A platform már integrálva volt a Kafkával, így a legtöbb biztonsági probléma megoldódott.

Hogyan moderáljuk a hirdetéseket

A felhasználó által a Yula-ban létrehozott vagy módosított minden egyes hirdetéshez adatot tartalmazó JSON jön létre, amelyet a Kafkába helyeznek el későbbi moderálás céljából. A Kafkától a hirdetmények a platformra kerülnek, ahol automatikusan vagy manuálisan bírálják el azokat. A rossz hirdetéseket okkal blokkolják, és azokat, amelyekben a platform nem talál szabálysértést, „jónak” jelöli. Ezután minden döntést visszaküldenek Yulának, és alkalmazzák a szolgáltatásban.

Végül Yula számára minden egyszerű műveletekre vezethető vissza: küldjön egy hirdetést az Odnoklassniki platformra, és kapjon vissza egy „ok” vagy miért ne „ok” állásfoglalást.

Automatikus feldolgozás

Mi történik a hirdetéssel, miután megjelenik a platformon? Minden hirdetés több egységre van felosztva:

  • Név,
  • leírás,
  • fényképek,
  • a hirdetés felhasználó által kiválasztott kategóriája és alkategóriája,
  • árat.

Hogyan moderáljuk a hirdetéseket

A platform ezután fürtözést hajt végre az egyes entitások számára, hogy megtalálja a duplikációkat. Ezenkívül a szöveg és a fényképek különböző sémák szerint vannak csoportosítva.

A fürtözés előtt a szövegek normalizálásra kerülnek, hogy eltávolítsák a speciális karaktereket, a megváltozott betűket és az egyéb szemetet. A kapott adatokat N-grammokra osztják, amelyek mindegyike kivonatolt. Az eredmény sok egyedi hash. A szövegek közötti hasonlóságot az határozza meg Jaccard mértéke a két eredményhalmaz között. Ha a hasonlóság nagyobb, mint a küszöb, akkor a szövegek egy klaszterbe egyesülnek. A hasonló fürtök keresésének felgyorsítása érdekében a MinHash és a Locality-sensitive hashing használatos.

Különféle lehetőségeket találtak ki a fényképek ragasztására, a pHash-képek összehasonlításától kezdve a duplikátumok neurális hálózaton keresztüli kereséséig.

Az utolsó módszer a legsúlyosabb. A modell betanításához olyan képhármasokat (N, A, P) választottunk ki, amelyekben N nem hasonlít A-hoz, és P hasonló A-hoz (egy félig ismétlődés). Aztán a neurális hálózat megtanulta, hogy A-t és P-t a lehető legközelebb, A-t és N-t pedig a lehető legtávolabbra tegye. Ez kevesebb téves pozitív eredményt eredményez, mint az egyszerű beágyazás egy előre betanított hálózatból.

Amikor a neurális hálózat képeket kap bemenetként, mindegyikhez generál egy N(128)-dimenziós vektort, és kéri a kép közelségét. Ezután a rendszer kiszámítja azt a küszöbértéket, amelynél a közeli képek ismétlődőnek minősülnek.

A modell képes ügyesen megtalálni a kéretlen levelezőket, akik kifejezetten ugyanazt a terméket különböző szögekből fényképezik, hogy megkerüljék a pHash összehasonlítást.

Hogyan moderáljuk a hirdetéseketHogyan moderáljuk a hirdetéseket
Példa spamfotókra, amelyeket egy neurális hálózat duplikátumként ragasztott össze.

Az utolsó szakaszban a duplikált hirdetéseket egyszerre keresik szöveg és kép alapján.

Ha két vagy több hirdetés összeragad egy klaszterben, a rendszer elindítja az automatikus blokkolást, amely bizonyos algoritmusok segítségével kiválasztja, hogy melyik duplikációt törölje és melyiket hagyja el. Például, ha két felhasználónak ugyanaz a fényképe van egy hirdetésben, a rendszer blokkolja az újabb hirdetést.

A létrehozás után az összes fürt egy sor automatikus szűrőn megy keresztül. Minden szűrő egy pontszámot rendel a fürthöz: mekkora valószínűséggel tartalmazza a szűrő által azonosított fenyegetést.

Például a rendszer elemzi a hirdetés leírását, és kiválasztja a lehetséges kategóriákat. Ezután veszi a legnagyobb valószínűségűt, és összehasonlítja a hirdetés szerzője által megadott kategóriával. Ha nem egyeznek, akkor a hirdetés nem megfelelő kategóriában kerül letiltásra. És mivel kedvesek és őszinték vagyunk, közvetlenül megmondjuk a felhasználónak, hogy melyik kategóriát kell kiválasztania ahhoz, hogy a hirdetés átmenjen a moderáláson.

Hogyan moderáljuk a hirdetéseket
Értesítés a blokkolt helytelen kategória miatt.

A gépi tanulás otthonosan mozog platformunkon. Segítségével például az Orosz Föderációban tiltott áruk neveiben és leírásaiban keresünk. A neurális hálózati modellek pedig aprólékosan „megvizsgálják” a képeket, hátha tartalmaznak URL-eket, spamszövegeket, telefonszámokat és ugyanazokat a „tiltott” információkat.

Azokban az esetekben, amikor tiltott terméket próbálnak eladni valami legálisnak álcázva, és nincs szöveg sem a címben, sem a leírásban, képcímkézést alkalmazunk. Minden képhez akár 11 ezer különböző címke is hozzáadható, amelyek leírják, hogy mi van a képen.

Hogyan moderáljuk a hirdetéseket
Szamovárnak álcázva próbálják eladni a vízipipát.

Az összetett szűrőkkel párhuzamosan működnek az egyszerűek is, amelyek megoldják a szöveggel kapcsolatos nyilvánvaló problémákat:

  • antimat;
  • URL és telefonszám érzékelő;
  • azonnali üzenetküldők és egyéb kapcsolatok említése;
  • csökkentett ár;
  • hirdetések, amelyekben semmi eladó, stb.

Ma már minden hirdetés átmegy több mint 50 automatikus szűrő finom rostáján, amelyek megpróbálnak valami rosszat találni a hirdetésben.

Ha egyik detektor sem működött, akkor azt a választ küldik Yulának, hogy a hirdetés „valószínűleg” tökéletes rendben van. Ezt a választ mi magunk használjuk, és az eladóhoz feliratkozott felhasználók értesítést kapnak egy új termék elérhetőségéről.

Hogyan moderáljuk a hirdetéseket
Értesítés arról, hogy az eladó új termékkel rendelkezik.

Ennek eredményeként minden hirdetés „benőtt” metaadatokkal, amelyek egy része a hirdetés létrehozásakor keletkezik (a szerző IP-címe, felhasználói ügynöke, platformja, földrajzi helye stb.), a többi pedig az egyes szűrők által kiadott pontszám. .

Bejelentési sorok

Amikor egy hirdetés megjelenik a platformon, a rendszer behelyezi az egyik sorba. Minden sor egy matematikai képlet segítségével jön létre, amely kombinálja a hirdetések metaadatait oly módon, hogy észlelje a rossz mintákat.

Például létrehozhat egy sort a „Mobiltelefonok” kategóriába tartozó Yula-felhasználók hirdetéseiből, akik állítólag Szentpétervárról származnak, de az IP-címeik Moszkvából vagy más városokból származnak.

Hogyan moderáljuk a hirdetéseket
Példa egy felhasználó által különböző városokban feladott hirdetésekre.

Vagy sorokat alakíthat ki a neurális hálózat által a hirdetésekhez rendelt pontszámok alapján, és ezeket csökkenő sorrendbe rendezheti.

Minden sor a saját képlete szerint végső pontszámot rendel a hirdetéshez. Ezután többféleképpen folytathatja:

  • adja meg azt a küszöböt, amelynél a hirdetés bizonyos típusú blokkolást kap;
  • elküldi a sorban lévő összes hirdetést a moderátoroknak kézi ellenőrzésre;
  • vagy kombinálja az előző opciókat: adja meg az automatikus blokkolási küszöböt, és küldje el a moderátoroknak azokat a hirdetéseket, amelyek nem érték el ezt a küszöböt.

Hogyan moderáljuk a hirdetéseket

Miért van szükség ezekre a sorokra? Tegyük fel, hogy egy felhasználó feltöltött egy fényképet egy lőfegyverről. A neurális hálózat 95-től 100-ig terjedő pontszámot rendel hozzá, és 99 százalékos pontossággal megállapítja, hogy fegyver van a képen. De ha a pontszám 95% alatt van, a modell pontossága csökkenni kezd (ez a neurális hálózati modellek jellemzője).

Ennek eredményeként a pontszámmodell alapján sor jön létre, és a 95 és 100 között érkezett hirdetések automatikusan letiltásra kerülnek, mint „Tiltott termékek”. A 95 alatti pontszámú hirdetéseket kézi feldolgozásra a moderátoroknak küldjük el.

Hogyan moderáljuk a hirdetéseket
Csokoládé Beretta patronokkal. Csak kézi moderálásra! 🙂

Manuális moderálás

2019 elején az összes hirdetés 94%-a Yula-ban automatikusan moderált.

Hogyan moderáljuk a hirdetéseket

Ha a platform nem tud dönteni egyes hirdetésekről, kézi moderálásra küldi azokat. Az Odnoklassniki saját eszközt fejlesztett ki: a moderátorok feladatai azonnal megjelenítik az összes szükséges információt a gyors döntéshez - a hirdetés megfelelő vagy blokkolni kell, jelezve az okot.

És hogy a kézi moderálás során a szolgáltatás minősége ne romoljon, az emberek munkáját folyamatosan ellenőrzik. Például a feladatfolyamban a moderátornak „csapdák” jelennek meg – olyan hirdetések, amelyekre már vannak kész megoldások. Ha a moderátor döntése nem esik egybe a kész döntéssel, a moderátor hibaüzenetet kap.

Egy moderátor átlagosan 10 másodpercet tölt egy hirdetés ellenőrzésével. Ráadásul a hibák száma nem haladja meg az összes ellenőrzött hirdetés 0,5%-át.

Az emberek mértékletessége

Az Odnoklassniki kollégái még tovább mentek, és kihasználták a „közönség segítségét”: játékalkalmazást írtak a közösségi hálózathoz, amelyben gyorsan megjelölhet nagy mennyiségű adatot, kiemelve néhány rossz jelet - Odnoklassniki Moderátor (https://ok.ru/app/moderator). Jó módja annak, hogy kihasználja az OK felhasználók segítségét, akik megpróbálják élvezetesebbé tenni a tartalmat.

Hogyan moderáljuk a hirdetéseket
Egy játék, amelyben a felhasználók megjelölik azokat a fényképeket, amelyeken telefonszám van.

A platform bármely hirdetéssora átirányítható az Odnoklassniki Moderátor játékra. Minden, amit a játék felhasználói megjelölnek, elküldik a belső moderátoroknak ellenőrzésre. Ez a séma lehetővé teszi olyan hirdetések blokkolását, amelyekhez még nem hoztak létre szűrőket, és ezzel egyidejűleg képzési mintákat is létrehozhat.

Moderálási eredmények tárolása

A moderálás során hozott összes döntést elmentjük, hogy ne dolgozzuk fel újra azokat a hirdetéseket, amelyekről már döntöttünk.

Naponta több millió klaszter jön létre a hirdetések alapján. Idővel minden klaszter „jó” vagy „rossz” címkét kap. Minden új hirdetés vagy annak revíziója, amely jelzéssel ellátott klaszterbe kerül, automatikusan megkapja magától a klasztertől a felbontást. Naponta körülbelül 20 ezer ilyen automatikus felbontás van.

Hogyan moderáljuk a hirdetéseket

Ha nem érkezik új bejelentés a fürthöz, akkor a fürt törlődik a memóriából, és a hash és a megoldás az Apache Cassandra-ba kerül.

Amikor a platform új hirdetést kap, először megpróbál egy hasonló klasztert találni a már létrehozott klaszterek között, és megoldást venni belőle. Ha nincs ilyen klaszter, a platform Cassandra felé megy, és ott néz. Megtaláltad? Remek, alkalmazza a megoldást a fürtre, és elküldi Yulának. Naponta átlagosan 70 ezer ilyen „ismételt” döntés születik – ez az összes 8%-a.

Összefoglalva

Két és fél éve használjuk az Odnoklassniki moderációs platformot. Szeretjük az eredményeket:

  • Az összes hirdetés 94%-át automatikusan moderáljuk naponta.
  • Egy hirdetés moderálásának költsége 2 rubelről 7 kopekkára csökkent.
  • A kész eszköznek köszönhetően elfelejtettük a moderátorok kezelésével kapcsolatos problémákat.
  • A manuálisan feldolgozott hirdetések számát 2,5-szeresére növeltük, ugyanakkora számú moderátorral és költségkerettel. A kézi moderálás minősége is javult az automatizált vezérlésnek köszönhetően, és a hibák 0,5%-a körül ingadozik.
  • Az új típusú kéretlen leveleket gyorsan lefedjük szűrőkkel.
  • Gyorsan összekapcsoljuk az új részlegeket a moderálással "Yula Verticals". 2017 óta a Yula hozzáadta az ingatlan, az üresedés és az autó ágazatokat.

Forrás: will.com

Hozzászólás