Kako moderiramo oglase

Kako moderiramo oglase

Svaki servis čiji korisnici mogu kreirati vlastiti sadržaj (UGC - User-generated content) primoran je ne samo rješavati poslovne probleme, već i dovesti stvari u red u UGC-u. Loša ili nekvalitetna moderacija sadržaja može u konačnici smanjiti privlačnost usluge za korisnike, pa čak i prekinuti njezin rad.

Danas ćemo vam reći o sinergiji između Yula i Odnoklassniki, koja nam pomaže učinkovito moderirati oglase u Yuli.

Sinergija je općenito vrlo korisna stvar, au modernom svijetu, kada se tehnologije i trendovi jako brzo mijenjaju, može se pretvoriti u spas. Zašto gubiti oskudne resurse i vrijeme na izmišljanje nečega što je već izmišljeno i osmišljeno prije vas?

Isto smo mislili i kada smo se suočili s punim zadatkom moderiranja korisničkog sadržaja – slika, teksta i poveznica. Naši korisnici svakodnevno postavljaju milijune sadržaja na Yulu, a bez automatske obrade potpuno je nemoguće sve te podatke ručno moderirati.

Stoga smo koristili gotovu platformu za moderiranje, koju su do tada naši kolege iz Odnoklassniki dovršili do stanja "gotovo savršenstva".

Zašto Odnoklassniki?

Svaki dan deseci milijuna korisnika dolaze na društvenu mrežu i objavljuju milijarde sadržaja: od fotografija do videa i tekstova. Platforma za moderiranje Odnoklassniki pomaže provjeriti vrlo velike količine podataka i suprotstaviti se pošiljateljima neželjene pošte i botovima.

Tim za moderiranje OK-a skupio je veliko iskustvo budući da već 12 godina unapređuje svoj alat. Važno je da ne samo da mogu podijeliti svoja gotova rješenja, već i prilagoditi arhitekturu svoje platforme kako bi odgovarala našim specifičnim zadacima.

Kako moderiramo oglase

Od sada ćemo, zbog kratkoće, OK platformu za moderiranje jednostavno zvati "platforma".

Kako sve funkcionira

Razmjena podataka između Yula i Odnoklassniki uspostavljena je putem Apache Kafka.

Zašto smo odabrali ovaj alat:

  • U Yuli su svi oglasi postmoderirani, tako da u početku nije bio potreban sinkroni odgovor.
  • Ako se dogodi loš paragraf i Yula ili Odnoklassniki su nedostupni, uključujući i zbog nekih vršnih opterećenja, tada podaci iz Kafke neće nigdje nestati i mogu se pročitati kasnije.
  • Platforma je već bila integrirana s Kafkom, tako da je većina sigurnosnih problema riješena.

Kako moderiramo oglase

Za svaki oglas koji kreira ili izmijeni korisnik u Yuli, generira se JSON s podacima koji se stavljaju u Kafku za kasniju moderaciju. Iz Kafke se najave učitavaju u platformu, gdje se prosuđuju automatski ili ručno. Loši oglasi blokirani su s razlogom, a oni u kojima platforma ne pronađe kršenja označavaju se kao "dobri". Zatim se sve odluke šalju natrag Yuli i primjenjuju u službi.

Na kraju, za Yulu se sve svodi na jednostavne radnje: poslati oglas na platformu Odnoklassniki i dobiti natrag rezoluciju "u redu", ili zašto ne "u redu".

Automatska obrada

Što se događa s oglasom nakon što stigne na platformu? Svaki oglas je podijeljen u nekoliko cjelina:

  • Ime,
  • opis,
  • fotografije,
  • kategoriju i potkategoriju oglasa koju je odabrao korisnik,
  • цена.

Kako moderiramo oglase

Platforma zatim izvodi grupiranje za svaki entitet kako bi pronašla duplikate. Štoviše, tekst i fotografije su grupirani prema različitim shemama.

Prije grupiranja tekstovi se normaliziraju kako bi se uklonili posebni znakovi, promijenjena slova i ostalo smeće. Primljeni podaci se dijele na N-grame, od kojih se svaki hashira. Rezultat je mnogo jedinstvenih hash oznaka. Sličnost među tekstovima određuje se prema Jaccardova mjera između dva rezultirajuća skupa. Ako je sličnost veća od praga, tada se tekstovi spajaju u jednu skupinu. Kako bi se ubrzala potraga za sličnim klasterima, koriste se MinHash i hashiranje osjetljivo na lokaciju.

Za fotografije su izmišljene različite mogućnosti lijepljenja slika, od usporedbe pHash slika do traženja duplikata pomoću neuronske mreže.

Posljednja metoda je najteža. Za obuku modela odabrane su trojke slika (N, A, P) u kojima N nije sličan A, a P je sličan A (je polu-duplikat). Zatim je neuronska mreža naučila učiniti A i P što bliže, a A i N što je moguće dalje. To rezultira s manje lažno pozitivnih rezultata u usporedbi s jednostavnim preuzimanjem ugrađivanja iz unaprijed obučene mreže.

Kada neuronska mreža primi slike kao ulaz, generira N(128)-dimenzionalni vektor za svaku od njih i postavlja se zahtjev za procjenu blizine slike. Zatim se izračunava prag pri kojem se bliske slike smatraju duplikatima.

Model je u stanju vješto pronaći spamere koji posebno fotografiraju isti proizvod iz različitih kutova kako bi zaobišli pHash usporedbu.

Kako moderiramo oglaseKako moderiramo oglase
Primjer spam fotografija koje je neuronska mreža zalijepila kao duplikate.

U završnoj fazi, dvostruki oglasi pretražuju se istovremeno i po tekstu i po slici.

Ako su dvije ili više reklama zalijepljene u klasteru, sustav pokreće automatsku blokadu, koja pomoću određenih algoritama odabire koje će duplikate obrisati, a koje ostaviti. Na primjer, ako dva korisnika imaju iste fotografije u oglasu, sustav će blokirati noviji oglas.

Nakon stvaranja, svi klasteri prolaze kroz niz automatskih filtara. Svaki filtar klasteru dodjeljuje ocjenu: koliko je vjerojatno da sadrži prijetnju koju ovaj filtar identificira.

Na primjer, sustav analizira opis u oglasu i odabire potencijalne kategorije za njega. Zatim uzima onaj s najvećom vjerojatnošću i uspoređuje ga s kategorijom koju je naveo autor oglasa. Ako se ne podudaraju, oglas se blokira za pogrešnu kategoriju. A budući da smo ljubazni i pošteni, izravno kažemo korisniku koju kategoriju treba odabrati kako bi oglas prošao moderaciju.

Kako moderiramo oglase
Obavijest o blokiranju zbog netočne kategorije.

Strojno učenje osjeća se kao kod kuće na našoj platformi. Na primjer, uz njegovu pomoć tražimo nazive i opise robe zabranjene u Ruskoj Federaciji. A modeli neuronskih mreža pomno "ispituju" slike kako bi vidjeli sadrže li URL-ove, spam tekstove, telefonske brojeve i iste "zabranjene" informacije.

Za slučajeve kada se pokušava prodati zabranjeni proizvod prerušen u nešto legalno, a nema teksta ni u naslovu ni u opisu, koristimo označavanje slika. Za svaku sliku moguće je dodati do 11 tisuća različitih oznaka koje opisuju što je na slici.

Kako moderiramo oglase
Nargilu pokušavaju prodati maskirajući je u samovar.

Paralelno sa složenim filtrima, rade i jednostavni, rješavajući očite probleme vezane uz tekst:

  • antimat;
  • detektor URL-ova i telefonskih brojeva;
  • spominjanje instant messengera i drugih kontakata;
  • smanjena cijena;
  • oglasi u kojima se ništa ne prodaje i sl.

Danas svaki oglas prolazi kroz fino sito više od 50 automatskih filtera koji pokušavaju pronaći nešto loše u oglasu.

Ako niti jedan detektor ne radi, tada se Yuli šalje odgovor da je oglas "najvjerojatnije" u savršenom redu. Sami koristimo ovaj odgovor, a korisnici koji su se pretplatili na prodavača dobivaju obavijest o dostupnosti novog proizvoda.

Kako moderiramo oglase
Obavijest da prodavač ima novi proizvod.

Kao rezultat toga, svaki oglas je “obrastao” metapodacima, od kojih se neki generiraju prilikom izrade oglasa (autorova IP adresa, korisnički agent, platforma, geolokacija, itd.), a ostatak je ocjena koju izdaje svaki filter .

Redovi za najave

Kada oglas stigne na platformu, sustav ga stavlja u jedan od redova čekanja. Svaki red čekanja izrađuje se pomoću matematičke formule koja kombinira metapodatke oglasa na način koji otkriva sve loše obrasce.

Na primjer, možete stvoriti red oglasa u kategoriji "Mobilni telefoni" od Yula korisnika koji su navodno iz St. Petersburga, ali njihove IP adrese su iz Moskve ili drugih gradova.

Kako moderiramo oglase
Primjer oglasa koje je jedan korisnik objavio u različitim gradovima.

Ili možete formirati redove na temelju rezultata koje neuronska mreža dodjeljuje oglasima, raspoređujući ih silaznim redoslijedom.

Svaki red čekanja, prema vlastitoj formuli, dodjeljuje konačnu ocjenu oglasu. Zatim možete nastaviti na različite načine:

  • odredite prag na kojem će oglas dobiti određenu vrstu blokiranja;
  • poslati sve oglase u redu moderatorima na ručni pregled;
  • ili kombinirajte prethodne opcije: odredite prag automatskog blokiranja i pošaljite moderatorima one oglase koji nisu dosegli taj prag.

Kako moderiramo oglase

Zašto su ti redovi potrebni? Recimo da je korisnik prenio fotografiju vatrenog oružja. Neuronska mreža joj dodjeljuje ocjenu od 95 do 100 i s 99 posto točnosti utvrđuje da je na slici oružje. Ali ako je vrijednost rezultata ispod 95%, točnost modela počinje se smanjivati ​​(to je značajka modela neuronske mreže).

Kao rezultat toga, formira se red na temelju bodovnog modela, a oni oglasi koji su dobili između 95 i 100 automatski se blokiraju kao "Zabranjeni proizvodi". Oglasi s ocjenom ispod 95 šalju se moderatorima na ručnu obradu.

Kako moderiramo oglase
Čokoladna Beretta sa patronama. Samo za ručno moderiranje! 🙂

Ručno moderiranje

Početkom 2019. oko 94% svih oglasa u Yuli se automatski moderira.

Kako moderiramo oglase

Ako se platforma ne može odlučiti za neke oglase, šalje ih na ručno moderiranje. Odnoklassniki su razvili vlastiti alat: zadaci za moderatore odmah prikazuju sve potrebne informacije za donošenje brze odluke - oglas je prikladan ili ga treba blokirati, navodeći razlog.

A kako kvaliteta usluge ne bi patila tijekom ručnog moderiranja, rad ljudi se stalno prati. Na primjer, u streamu zadataka moderatoru se prikazuju "zamke" — oglasi za koje već postoje gotova rješenja. Ako se odluka moderatora ne poklapa s dovršenom, moderator dobiva pogrešku.

U prosjeku, moderator provede 10 sekundi provjeravajući jedan oglas. Štoviše, broj pogrešaka nije veći od 0,5% svih provjerenih oglasa.

Narodna umjerenost

Kolege iz Odnoklassniki otišli su još dalje i iskoristili "pomoć publike": napisali su aplikaciju za igru ​​za društvenu mrežu u kojoj možete brzo označiti veliku količinu podataka, ističući neki loš znak - Odnoklassniki Moderator (https://ok.ru/app/moderator). Dobar način da iskoristite pomoć OK korisnika koji pokušavaju sadržaj učiniti ugodnijim.

Kako moderiramo oglase
Igra u kojoj korisnici označavaju fotografije na kojima je telefonski broj.

Bilo koji red oglasa na platformi može se preusmjeriti na igru ​​Odnoklassniki Moderator. Sve što korisnici igre označe šalje se internim moderatorima na provjeru. Ova shema omogućuje blokiranje oglasa za koje filtri još nisu izrađeni i istovremeno stvaranje uzoraka za obuku.

Pohranjivanje rezultata moderiranja

Sve odluke donesene tijekom moderiranja spremamo kako ne bismo ponovno obrađivali one oglase o kojima smo već donijeli odluku.

Milijuni klastera stvaraju se svaki dan na temelju reklama. Tijekom vremena, svaki klaster je označen kao "dobar" ili "loš". Svaki novi oglas ili njegova revizija, ulazeći u klaster s oznakom, automatski dobiva rezoluciju od samog klastera. Dnevno ima oko 20 tisuća takvih automatskih rješenja.

Kako moderiramo oglase

Ako u klaster ne stignu nove najave, on se uklanja iz memorije, a njegov hash i rješenje zapisuju se u Apache Cassandra.

Kada platforma dobije novu reklamu, prvo pokušava pronaći sličan klaster među već stvorenim i iz njega preuzeti rješenje. Ako nema takvog klastera, platforma ide do Cassandre i traži tamo. Jesi li ga našao? Odlično, primjenjuje rješenje na klaster i šalje ga Yuli. Svaki dan u prosjeku ima 70 tisuća takvih "ponovljenih" odluka - 8% od ukupnog broja.

Sažimanje

Platformu za moderiranje Odnoklassniki koristimo dvije i pol godine. Sviđaju nam se rezultati:

  • Automatski moderiramo 94% svih oglasa dnevno.
  • Trošak moderiranja jednog oglasa smanjen je s 2 rublje na 7 kopejki.
  • Zahvaljujući gotovom alatu zaboravili smo na probleme upravljanja moderatorima.
  • Povećali smo broj ručno obrađenih oglasa za 2,5 puta uz isti broj moderatora i proračun. Kvaliteta ručnog moderiranja također je porasla zbog automatizirane kontrole i kreće se oko 0,5% pogrešaka.
  • Nove vrste neželjene pošte brzo pokrivamo filtrima.
  • Nove odjele brzo povezujemo s moderiranjem "Yula vertikale". Od 2017. Yula je dodala vertikale Nekretnine, Slobodna radna mjesta i Auto.

Izvor: www.habr.com

Dodajte komentar