Kako moderiramo oglase

Kako moderiramo oglase

Svaki servis čiji korisnici mogu kreirati vlastiti sadržaj (UGC - User-generated content) prinuđen je ne samo da rješava poslovne probleme, već i da dovede stvari u red u UGC-u. Loša ili nekvalitetna moderacija sadržaja može u konačnici umanjiti atraktivnost usluge za korisnike, čak i prekinuti njen rad.

Danas ćemo vam reći o sinergiji između Yule i Odnoklassniki, koja nam pomaže da efikasno moderiramo oglase u Yula.

Sinergija je općenito vrlo korisna stvar, a u modernom svijetu, kada se tehnologije i trendovi vrlo brzo mijenjaju, može se pretvoriti u spas. Zašto trošiti oskudne resurse i vrijeme na izmišljanje nečega što je već izmišljeno i dovedeno na pamet prije vas?

Isto smo mislili kada smo bili suočeni sa punim zadatkom moderiranja korisničkog sadržaja - slika, teksta i linkova. Naši korisnici svakodnevno uploaduju milione sadržaja na Yulu, a bez automatske obrade potpuno je nemoguće ručno moderirati sve te podatke.

Stoga smo koristili gotovu platformu za moderiranje, koju su do tada naše kolege iz Odnoklassnika doveli do „skoro savršenstva“.

Zašto Odnoklassniki?

Svakog dana desetine miliona korisnika dolaze na društvenu mrežu i objavljuju milijarde sadržaja: od fotografija do videa i tekstova. Platforma za moderiranje Odnoklassniki pomaže u provjeravanju veoma velikih količina podataka i suzbijanju spamera i botova.

Tim OK moderatora je akumulirao mnogo iskustva, jer već 12 godina unapređuje svoj alat. Važno je da ne samo da mogu podijeliti svoja gotova rješenja, već i prilagoditi arhitekturu svoje platforme kako bi odgovarala našim specifičnim zadacima.

Kako moderiramo oglase

Od sada, radi sažetosti, platformu za moderiranje OK ćemo jednostavno zvati „platforma“.

Kako sve funkcioniše

Razmjena podataka između Yule i Odnoklassnika je uspostavljena putem Apache Kafka.

Zašto smo odabrali ovaj alat:

  • U Yuli su sve reklame postmoderirane, tako da u početku nije bio potreban sinhroni odgovor.
  • Ako se dogodi loš paragraf i Yula ili Odnoklassniki su nedostupni, uključujući i zbog nekih vršnih opterećenja, onda podaci iz Kafke neće nestati nigdje i mogu se pročitati kasnije.
  • Platforma je već bila integrisana sa Kafkom, tako da je većina bezbednosnih problema rešena.

Kako moderiramo oglase

Za svaki oglas kreiran ili izmijenjen od strane korisnika u Yuli, generira se JSON sa podacima, koji se stavlja u Kafka za naknadnu moderaciju. Iz Kafke, najave se učitavaju na platformu, gdje se prosuđuju automatski ili ručno. Loši oglasi se blokiraju s razlogom, a oni u kojima platforma ne pronađe prekršaje označavaju se kao "dobri". Zatim se sve odluke šalju nazad Yuli i primenjuju u službi.

Na kraju, za Yulu se sve svodi na jednostavne radnje: pošaljite oglas na platformu Odnoklassniki i vratite rezoluciju "ok", ili zašto ne "ok".

Automatska obrada

Šta se dešava sa reklamom nakon što dođe na platformu? Svaki oglas je podijeljen u nekoliko cjelina:

  • ime,
  • opis,
  • fotografije,
  • kategoriju i podkategoriju oglasa koju odabere korisnik,
  • cena.

Kako moderiramo oglase

Platforma zatim izvodi grupisanje za svaki entitet kako bi pronašla duplikate. Štaviše, tekst i fotografije su grupirani prema različitim šemama.

Prije grupiranja, tekstovi se normaliziraju kako bi se uklonili posebni znakovi, promijenjena slova i ostalo smeće. Primljeni podaci se dijele na N-grame, od kojih je svaki heširan. Rezultat je mnogo jedinstvenih hashova. Sličnost između tekstova određena je Jackcardova mjera između dva rezultujuća skupa. Ako je sličnost veća od praga, onda se tekstovi spajaju u jedan klaster. Da bi se ubrzala potraga za sličnim klasterima, koriste se MinHash i heširanje osjetljivo na lokaciju.

Različite opcije za lijepljenje slika su izmišljene za fotografije, od poređenja pHash slika do traženja duplikata pomoću neuronske mreže.

Posljednja metoda je najteža. Za treniranje modela odabrani su tripleti slika (N, A, P) u kojima N nije sličan A, a P je sličan A (je polu-duplikat). Tada je neuronska mreža naučila da A i P učini što bliže, a A i N što je moguće dalje. Ovo rezultira manjim brojem lažnih pozitivnih rezultata u poređenju sa jednostavnim uzimanjem ugradnje iz prethodno obučene mreže.

Kada neuronska mreža primi slike kao ulaz, generiše N(128)-dimenzionalni vektor za svaku od njih i postavlja se zahtjev za procjenu blizine slike. Zatim se izračunava prag na kojem se bliske slike smatraju duplikatima.

Model je u stanju da vešto pronađe spamere koji posebno fotografišu isti proizvod iz različitih uglova kako bi zaobišli pHash poređenje.

Kako moderiramo oglaseKako moderiramo oglase
Primjer spam fotografija koje je neuronska mreža zalijepila kao duplikate.

U završnoj fazi, duplikati oglasa se istovremeno pretražuju i po tekstu i po slici.

Ako se dvije ili više reklama zaglave u klasteru, sistem pokreće automatsko blokiranje, koje pomoću određenih algoritama bira koje će duplikate izbrisati, a koje ostaviti. Na primjer, ako dva korisnika imaju iste fotografije u oglasu, sistem će blokirati noviji oglas.

Jednom kreirani, svi klasteri prolaze kroz niz automatskih filtera. Svaki filter dodjeljuje ocjenu klasteru: koliko je vjerovatno da sadrži prijetnju koju ovaj filter identificira.

Na primjer, sistem analizira opis u oglasu i odabire potencijalne kategorije za njega. Zatim uzima onu sa maksimalnom vjerovatnoćom i upoređuje je sa kategorijom koju je odredio autor oglasa. Ako se ne podudaraju, oglas se blokira za pogrešnu kategoriju. A pošto smo ljubazni i pošteni, direktno kažemo korisniku koju kategoriju treba da odabere da bi oglas prošao moderaciju.

Kako moderiramo oglase
Obavijest o blokiranju za netačnu kategoriju.

Mašinsko učenje se osjeća kao kod kuće na našoj platformi. Na primjer, uz njegovu pomoć pretražujemo nazive i opise robe zabranjene u Ruskoj Federaciji. Modeli neuronskih mreža pomno „ispituju“ slike da vide da li sadrže URL-ove, neželjene tekstove, brojeve telefona i iste „zabranjene“ informacije.

Za slučajeve kada pokušavaju prodati zabranjeni proizvod prerušen u nešto legalno, a nema teksta ni u naslovu ni u opisu, koristimo označavanje slikama. Za svaku sliku može se dodati do 11 hiljada različitih oznaka koje opisuju šta se nalazi na slici.

Kako moderiramo oglase
Pokušavaju prodati nargilu prerušavajući je u samovar.

Paralelno sa složenim filterima rade i jednostavni, rješavajući očigledne probleme vezane za tekst:

  • antimat;
  • Detektor URL i telefonskih brojeva;
  • pominjanje instant messengera i drugih kontakata;
  • snižena cijena;
  • oglasi u kojima se ništa ne prodaje itd.

Danas svaki oglas prolazi kroz fino sito od više od 50 automatskih filtera koji pokušavaju pronaći nešto loše u oglasu.

Ako nijedan detektor nije radio, Yuli se šalje odgovor da je oglas "najvjerovatnije" u savršenom redu. Ovaj odgovor koristimo sami, a korisnici koji su se pretplatili na prodavača dobijaju obavijest o dostupnosti novog proizvoda.

Kako moderiramo oglase
Obavijest da prodavac ima novi proizvod.

Kao rezultat toga, svaki oglas je "obrastao" metapodacima, od kojih se neki generiraju prilikom kreiranja oglasa (autorska IP adresa, korisnički agent, platforma, geolokacija, itd.), a ostatak je rezultat koji izdaje svaki filter .

Redovi za najave

Kada oglas dođe na platformu, sistem ga stavlja u jedan od redova čekanja. Svaki red se kreira pomoću matematičke formule koja kombinuje metapodatke oglasa na način koji otkriva sve loše obrasce.

Na primjer, možete kreirati red oglasa u kategoriji „Mobilni telefoni“ od Yula korisnika koji su navodno iz Sankt Peterburga, ali njihove IP adrese su iz Moskve ili drugih gradova.

Kako moderiramo oglase
Primjer oglasa koje je objavio jedan korisnik u različitim gradovima.

Ili možete formirati redove na osnovu rezultata koje neuronska mreža dodeljuje oglasima, raspoređujući ih u opadajućem redosledu.

Svaki red, prema vlastitoj formuli, oglasu dodjeljuje konačni rezultat. Zatim možete nastaviti na različite načine:

  • navedite prag na kojem će oglas dobiti određenu vrstu blokiranja;
  • poslati sve oglase u redu moderatorima na ručni pregled;
  • ili kombinirajte prethodne opcije: odredite prag automatskog blokiranja i pošaljite moderatorima one oglase koji nisu dostigli ovaj prag.

Kako moderiramo oglase

Zašto su ti redovi potrebni? Recimo da je korisnik postavio fotografiju vatrenog oružja. Neuronska mreža mu dodjeljuje ocjenu od 95 do 100 i utvrđuje sa 99 posto preciznosti da se na slici nalazi oružje. Ali ako je vrijednost rezultata ispod 95%, tačnost modela počinje opadati (ovo je karakteristika modela neuronskih mreža).

Kao rezultat, formira se red na osnovu modela bodovanja, a oni oglasi koji su dobili između 95 i 100 automatski se blokiraju kao „Zabranjeni proizvodi“. Oglasi sa rezultatom ispod 95 šalju se moderatorima na ručnu obradu.

Kako moderiramo oglase
Čokoladna Beretta sa patronama. Samo za ručnu moderaciju! 🙂

Ručna moderacija

Početkom 2019. godine, oko 94% svih oglasa u Yuli se automatski moderira.

Kako moderiramo oglase

Ako se platforma ne može odlučiti za neke oglase, šalje ih na ručnu moderaciju. Odnoklassniki je razvio vlastiti alat: zadaci za moderatore odmah prikazuju sve potrebne informacije za donošenje brze odluke - oglas je prikladan ili bi ga trebao blokirati, navodeći razlog.

A kako kvalitet usluge ne bi pao tokom ručnog moderiranja, rad ljudi se stalno prati. Na primjer, u streamu zadataka, moderatoru se prikazuju "zamke" - oglasi za koje već postoje gotova rješenja. Ako se odluka moderatora ne poklopi sa završenom, moderatoru se daje greška.

U prosjeku, moderator potroši 10 sekundi na provjeru jednog oglasa. Štaviše, broj grešaka nije veći od 0,5% svih provjerenih oglasa.

Umjerenost ljudi

Kolege iz Odnoklassnika otišli su još dalje i iskoristili "pomoć publike": napisali su aplikaciju za igru ​​za društvenu mrežu u kojoj možete brzo označiti veliku količinu podataka, ističući neki loš znak - Odnoklassniki Moderator (https://ok.ru/app/moderator). Dobar način da iskoristite pomoć korisnika OK koji pokušavaju sadržaj učiniti ugodnijim.

Kako moderiramo oglase
Igra u kojoj korisnici označavaju fotografije koje imaju broj telefona.

Bilo koji red oglasa na platformi može se preusmjeriti na igru ​​Odnoklassniki Moderator. Sve što korisnici igre markiraju se zatim šalje internim moderatorima na provjeru. Ova shema vam omogućava da blokirate oglase za koje filteri još nisu kreirani i istovremeno kreirate uzorke za obuku.

Pohranjivanje rezultata moderiranja

Spremamo sve odluke donesene tokom moderiranja kako ne bismo ponovo obrađivali one oglase o kojima smo već donijeli odluku.

Svakodnevno se stvaraju milioni klastera na osnovu reklama. Vremenom, svaki klaster je označen kao "dobar" ili "loš". Svaki novi oglas ili njegova revizija, ulazak u klaster sa oznakom, automatski dobija rešenje od samog klastera. Takvih automatskih rezolucija ima oko 20 hiljada dnevno.

Kako moderiramo oglase

Ako u klaster ne stignu nove najave, on se uklanja iz memorije i njegov hash i rješenje se zapisuju u Apache Cassandra.

Kada platforma dobije novu reklamu, prvo pokušava pronaći sličan klaster među već kreiranim i iz njega uzeti rješenje. Ako takvog klastera nema, platforma ide do Cassandre i gleda tamo. Jesi li našao? Odlično, primjenjuje rješenje na klaster i šalje ga Yuli. Takvih „ponovljenih“ odluka u proseku ima 70 hiljada svakog dana – 8% od ukupnog broja.

Sumirati

Koristimo platformu za moderiranje Odnoklassniki dvije i po godine. Sviđaju nam se rezultati:

  • Automatski moderiramo 94% svih oglasa dnevno.
  • Trošak moderiranja jednog oglasa smanjen je sa 2 rublje na 7 kopejki.
  • Zahvaljujući gotovom alatu zaboravili smo na probleme upravljanja moderatorima.
  • Povećali smo broj ručno obrađenih oglasa za 2,5 puta uz isti broj moderatora i budžet. Kvaliteta ručnog moderiranja je također povećana zbog automatizirane kontrole i varira oko 0,5% grešaka.
  • Nove vrste neželjene pošte brzo pokrivamo filterima.
  • Brzo povezujemo nove odjele s moderacijom "Yula Verticals". Od 2017. Yula je dodala vertikale Nekretnine, Slobodna radna mjesta i Auto.

izvor: www.habr.com

Dodajte komentar