Kako moderiramo oglase

Kako moderiramo oglase

Vsaka storitev, katere uporabniki lahko ustvarjajo lastne vsebine (UGC – User-generated content), je prisiljena ne le reševati poslovne težave, temveč tudi urejati stvari v UGC. Slabo ali nekakovostno moderiranje vsebin lahko nazadnje zmanjša privlačnost storitve za uporabnike, celo preneha njeno delovanje.

Danes vam bomo povedali o sinergiji med Yulo in Odnoklassniki, ki nam pomaga učinkovito moderirati oglase v Yuli.

Sinergija je nasploh zelo uporabna stvar, v sodobnem svetu, ko se tehnologije in trendi zelo hitro spreminjajo, pa se lahko spremeni v rešilno bilko. Zakaj bi zapravljali redke vire in čas za izumljanje nečesa, kar je bilo izumljeno že pred vami?

Enako smo pomislili, ko smo bili soočeni s celotno nalogo moderiranja uporabniške vsebine – slik, besedil in povezav. Naši uporabniki vsak dan naložijo milijone vsebin na Yulo in brez samodejne obdelave je popolnoma nemogoče ročno moderirati vse te podatke.

Zato smo uporabili že pripravljeno platformo za moderiranje, ki so jo do takrat naši kolegi iz Odnoklassnikov dokončali do »skoraj popolnosti«.

Zakaj Odnoklassniki?

Vsak dan na družbeno omrežje pride več deset milijonov uporabnikov, ki objavijo milijarde vsebin: od fotografij do videov in besedil. Platforma za moderiranje Odnoklassniki pomaga preveriti zelo velike količine podatkov in se zoperstaviti pošiljateljem neželene pošte in robotom.

Moderatorska ekipa OK si je nabrala veliko izkušenj, saj svoje orodje izboljšuje že 12 let. Pomembno je, da ne le delijo svoje že pripravljene rešitve, ampak tudi prilagodijo arhitekturo svoje platforme, da ustreza našim specifičnim nalogam.

Kako moderiramo oglase

Od zdaj naprej bomo platformo za moderiranje OK preprosto imenovali »platforma«.

Kako vse deluje

Izmenjava podatkov med Yulo in Odnoklassniki je vzpostavljena prek Apache Kafka.

Zakaj smo izbrali to orodje:

  • V Yuli so vsi oglasi postmoderirani, zato sprva sinhroni odziv ni bil potreben.
  • Če se zgodi slab odstavek in Yula ali Odnoklassniki nista na voljo, tudi zaradi nekaterih koničnih obremenitev, potem podatki iz Kafke ne bodo nikamor izginili in jih je mogoče prebrati pozneje.
  • Platforma je bila že integrirana s Kafko, tako da je bila večina varnostnih težav odpravljenih.

Kako moderiramo oglase

Za vsak oglas, ki ga ustvari ali spremeni uporabnik v Yuli, se ustvari JSON s podatki, ki se postavijo v Kafko za naknadno moderiranje. Iz Kafke se objave naložijo v platformo, kjer se samodejno ali ročno presojajo. Slabi oglasi so blokirani z razlogom, tisti, pri katerih platforma ne najde kršitev, pa so označeni kot »dobri«. Nato se vse odločitve pošljejo nazaj Yuli in uporabijo v storitvi.

Na koncu se za Yulo vse zmanjša na preprosta dejanja: pošljite oglas na platformo Odnoklassniki in dobite nazaj resolucijo »v redu« ali zakaj ne »v redu«.

Samodejna obdelava

Kaj se zgodi z oglasom, ko pride na platformo? Vsak oglas je razdeljen na več entitet:

  • Ime,
  • opis,
  • fotografije,
  • kategorijo in podkategorijo oglasa, ki jo izbere uporabnik,
  • cena.

Kako moderiramo oglase

Platforma nato izvede združevanje v gruče za vsako entiteto, da najde dvojnike. Poleg tega so besedilo in fotografije razvrščeni v skupine po različnih shemah.

Pred združevanjem v gruče se besedila normalizirajo, da se odstranijo posebni znaki, spremenjene črke in druge smeti. Prejeti podatki so razdeljeni na N-grame, od katerih je vsak zgoščen. Rezultat je veliko edinstvenih zgoščenih vrednosti. Podobnost med besedili ugotavlja Jaccardova mera med obema dobljenima nizoma. Če je podobnost večja od praga, se besedila združijo v eno skupino. Za pospešitev iskanja podobnih gruč se uporabljata MinHash in zgoščevanje, občutljivo na lokacijo.

Za fotografije so bile izumljene različne možnosti za lepljenje slik, od primerjave slik pHash do iskanja dvojnikov z uporabo nevronske mreže.

Zadnja metoda je najbolj "huda". Za usposabljanje modela so bili izbrani trojčki slik (N, A, P), pri katerih N ni podoben A, P pa je podoben A (je poldvojnik). Nato se je nevronska mreža naučila narediti A in P čim bližje, A in N pa čim dlje. Posledica tega je manj lažnih pozitivnih rezultatov v primerjavi s preprosto uporabo vdelav iz vnaprej usposobljenega omrežja.

Ko nevronska mreža prejme slike kot vhod, ustvari N(128)-dimenzionalni vektor za vsako od njih in poda se zahteva za oceno bližine slike. Nato se izračuna prag, pri katerem se bližnje slike štejejo za dvojnike.

Model lahko spretno najde pošiljatelje neželene pošte, ki posebej fotografirajo isti izdelek iz različnih zornih kotov, da bi zaobšli primerjavo pHash.

Kako moderiramo oglaseKako moderiramo oglase
Primer neželenih fotografij, ki jih je nevronska mreža zlepila skupaj kot dvojnike.

Na zadnji stopnji se podvojeni oglasi iščejo hkrati po besedilu in sliki.

Če sta dva ali več oglasov zlepljena v gruči, sistem sproži samodejno blokado, ki z določenimi algoritmi izbere, katere dvojnike naj izbriše in katere pusti. Na primer, če imata dva uporabnika v oglasu enake fotografije, bo sistem blokiral novejši oglas.

Ko so ustvarjene, gredo vse gruče skozi vrsto samodejnih filtrov. Vsak filter dodeli oceno gruči: kako verjetno je, da vsebuje grožnjo, ki jo prepozna ta filter.

Sistem na primer analizira opis v oglasu in zanj izbere potencialne kategorije. Nato vzame tisto z največjo verjetnostjo in jo primerja s kategorijo, ki jo določi avtor oglasa. Če se ne ujemata, je oglas blokiran za napačno kategorijo. In ker smo prijazni in pošteni, uporabniku neposredno povemo, katero kategorijo mora izbrati, da bo oglas prestal moderacijo.

Kako moderiramo oglase
Obvestilo o blokiranju zaradi nepravilne kategorije.

Strojno učenje se na naši platformi počuti kot doma. Na primer, z njegovo pomočjo iščemo imena in opise blaga, ki je v Ruski federaciji prepovedano. In modeli nevronskih mrež natančno "preiskujejo" slike, da ugotovijo, ali vsebujejo URL-je, vsiljena besedila, telefonske številke in iste "prepovedane" informacije.

Za primere, ko poskušajo prodati prepovedan izdelek, zamaskiran v nekaj legalnega, in ni besedila niti v naslovu niti v opisu, uporabljamo označevanje slik. Za vsako sliko je mogoče dodati do 11 tisoč različnih oznak, ki opisujejo, kaj je na sliki.

Kako moderiramo oglase
Nargilo skušajo prodati tako, da ga preoblečejo v samovar.

Vzporedno s kompleksnimi filtri delujejo tudi preprosti, ki rešujejo očitne težave, povezane z besedilom:

  • antimat;
  • detektor URL-jev in telefonskih številk;
  • omemba hitrih sporočil in drugih stikov;
  • znižana cena;
  • oglasi, v katerih ni nič naprodaj ipd.

Danes gre vsak oglas skozi fino sito več kot 50 samodejnih filtrov, ki skušajo v oglasu najti nekaj slabega.

Če nobeden od detektorjev ne deluje, se Yuli pošlje odgovor, da je oglas "najverjetneje" v popolnem redu. Ta odgovor uporabljamo sami, uporabniki, ki so naročeni na prodajalca, pa prejmejo obvestilo o dobavljivosti novega izdelka.

Kako moderiramo oglase
Obvestilo, da ima prodajalec nov izdelek.

Posledično je vsak oglas »preraščen« z metapodatki, od katerih se nekateri ustvarijo, ko je oglas ustvarjen (avtorjev IP naslov, uporabniški agent, platforma, geolokacija itd.), ostalo pa je ocena, ki jo izda posamezni filter. .

Čakalne vrste za objave

Ko oglas pride na platformo, ga sistem uvrsti v eno od čakalnih vrst. Vsaka čakalna vrsta je ustvarjena z uporabo matematične formule, ki združuje metapodatke oglasov na način, ki zazna morebitne slabe vzorce.

Ustvarite lahko na primer čakalno vrsto oglasov v kategoriji »Mobilni telefoni« od uporabnikov Yula, ki naj bi bili iz Sankt Peterburga, vendar so njihovi naslovi IP iz Moskve ali drugih mest.

Kako moderiramo oglase
Primer oglasov, ki jih je objavil en uporabnik v različnih mestih.

Lahko pa oblikujete čakalne vrste na podlagi rezultatov, ki jih nevronska mreža dodeli oglasom, in jih razporedite v padajočem vrstnem redu.

Vsaka čakalna vrsta po svoji formuli dodeli oglasu končno oceno. Nato lahko nadaljujete na različne načine:

  • določite prag, pri katerem bo oglas prejel določeno vrsto blokade;
  • pošlji vse oglase v čakalni vrsti moderatorjem v ročni pregled;
  • ali združite prejšnje možnosti: določite prag samodejnega blokiranja in pošljite moderatorjem tiste oglase, ki tega praga niso dosegli.

Kako moderiramo oglase

Zakaj so te čakalne vrste potrebne? Recimo, da je uporabnik naložil fotografijo strelnega orožja. Nevronska mreža mu dodeli oceno od 95 do 100 in z 99-odstotno natančnostjo ugotovi, da je na sliki orožje. Če pa je vrednost ocene pod 95 %, se natančnost modela začne zmanjševati (to je lastnost modelov nevronske mreže).

Posledično se oblikuje čakalna vrsta na podlagi modela rezultatov in tisti oglasi, ki so prejeli med 95 in 100, so samodejno blokirani kot »Prepovedani izdelki«. Oglasi z oceno pod 95 se pošljejo moderatorjem v ročno obdelavo.

Kako moderiramo oglase
Čokoladna Beretta s kartušami. Samo za ročno moderiranje! 🙂

Ročno moderiranje

V začetku leta 2019 je približno 94 % vseh oglasov v Yuli samodejno moderiranih.

Kako moderiramo oglase

Če se platforma ne more odločiti za nekatere oglase, jih pošlje v ročno moderiranje. Odnoklassniki so razvili svoje orodje: naloge za moderatorje takoj prikažejo vse potrebne informacije za hitro odločitev - oglas je primeren ali ga je treba blokirati, z navedbo razloga.

In da kakovost storitev med ročnim moderiranjem ne trpi, je delo ljudi nenehno nadzorovano. Na primer, v toku opravil se moderatorju prikažejo "pasti" - oglasi, za katere že obstajajo pripravljene rešitve. Če moderatorjeva odločitev ne sovpada s končano, se moderatorju prikaže napaka.

Moderator v povprečju porabi 10 sekund za preverjanje enega oglasa. Poleg tega število napak ne presega 0,5% vseh preverjenih oglasov.

Ljudska zmernost

Kolegi iz Odnoklassnikov so šli še dlje in izkoristili "pomoč občinstva": napisali so aplikacijo za igro za socialno omrežje, v kateri lahko hitro označite veliko količino podatkov in poudarite kakšen slab znak - Moderator Odnoklassniki (https://ok.ru/app/moderator). Dober način, da izkoristite pomoč uporabnikov OK, ki se trudijo narediti vsebino prijetnejšo.

Kako moderiramo oglase
Igra, v kateri uporabniki označijo fotografije, na katerih je telefonska številka.

Vsako čakalno vrsto oglasov na platformi je mogoče preusmeriti v igro Odnoklassniki Moderator. Vse, kar uporabniki igre označijo, se nato pošlje notranjim moderatorjem v pregled. Ta shema vam omogoča blokiranje oglasov, za katere filtri še niso bili ustvarjeni, in hkrati ustvarjanje vzorcev za usposabljanje.

Shranjevanje rezultatov moderiranja

Vse odločitve, sprejete med moderiranjem, shranimo, da ne bomo ponovno obdelali tistih oglasov, o katerih smo se že odločili.

Na podlagi oglasov se vsak dan ustvari na milijone grozdov. Sčasoma je vsak grozd označen kot "dober" ali "slab". Vsak nov oglas ali njegova revizija, ki vstopi v grozd z oznako, samodejno prejme resolucijo s strani samega grozda. Na dan je približno 20 tisoč takih samodejnih razrešitev.

Kako moderiramo oglase

Če v gručo ne prispe nobeno novo obvestilo, se ta odstrani iz pomnilnika, njen zgoščeni del in rešitev pa se zapišeta v Apache Cassandra.

Ko platforma prejme nov oglas, skuša med že ustvarjenimi najprej poiskati podoben grozd in iz njega povzeti rešitev. Če takega grozda ni, gre platforma do Cassandre in pogleda tja. Si našel? Odlično, uporabi rešitev za gručo in jo pošlje Yuli. Vsak dan je v povprečju 70 tisoč takih "ponovljenih" odločitev - 8 % vseh.

Če povzamemo:

Platformo za moderiranje Odnoklassniki uporabljamo že dve leti in pol. Všeč so nam rezultati:

  • Samodejno moderiramo 94 % vseh oglasov na dan.
  • Stroški moderiranja enega oglasa so se znižali z 2 rubljev na 7 kopeck.
  • Zahvaljujoč že pripravljenemu orodju smo pozabili na težave pri upravljanju moderatorjev.
  • Z enakim številom moderatorjev in proračunom smo povečali število ročno obdelanih oglasov za 2,5-krat. Tudi kakovost ročnega moderiranja se je povečala zaradi avtomatskega nadzora in niha okoli 0,5 % napak.
  • S filtri hitro prekrijemo nove vrste neželene pošte.
  • Nove oddelke hitro povežemo z moderacijo "Yula vertikale". Od leta 2017 je Yula dodala vertikale Nepremičnine, Prosta delovna mesta in Avto.

Vir: www.habr.com

Dodaj komentar