Kuidas me reklaame modereerime

Kuidas me reklaame modereerime

Iga teenus, mille kasutajad saavad ise sisu luua (UGC – User-generated content), on sunnitud mitte ainult äriprobleeme lahendama, vaid ka UGC-s asju korda seadma. Halb või madala kvaliteediga sisu modereerimine võib lõppkokkuvõttes vähendada teenuse atraktiivsust kasutajate jaoks ja isegi lõpetada selle toimimise.

Täna räägime teile Yula ja Odnoklassniki vahelisest sünergiast, mis aitab meil Yula reklaame tõhusalt modereerida.

Sünergia üldiselt on väga kasulik asi ja tänapäeva maailmas, kui tehnoloogiad ja trendid muutuvad väga kiiresti, võib sellest saada elupäästja. Miks raisata nappe ressursse ja aega, et leiutada midagi, mis on juba leiutatud ja enne sind meelde tulnud?

Mõtlesime sama, kui seisime silmitsi kasutaja sisu – piltide, teksti ja linkide – modereerimisega. Meie kasutajad laadivad Yulasse iga päev üles miljoneid sisu ja ilma automaatse töötlemiseta on täiesti võimatu kõiki neid andmeid käsitsi modereerida.

Seetõttu kasutasime valmis modereerimisplatvormi, mille meie kolleegid Odnoklassnikist olid selleks ajaks lõpetanud "peaaegu täiuslikkuseni".

Miks Odnoklassniki?

Iga päev tulevad sotsiaalvõrgustikku kümned miljonid kasutajad ja avaldavad miljardeid sisu tükke: fotodest videote ja tekstideni. Odnoklassniki modereerimisplatvorm aitab kontrollida väga suuri andmemahtusid ning võidelda rämpspostitajate ja robotite vastu.

OK modereerimismeeskonnal on kogunenud palju kogemusi, kuna ta on oma tööriista täiustanud 12 aastat. On oluline, et nad saaksid mitte ainult jagada oma valmislahendusi, vaid ka kohandada oma platvormi arhitektuuri vastavalt meie konkreetsetele ülesannetele.

Kuidas me reklaame modereerime

Edaspidi nimetame OK modereerimisplatvormi lühiduse huvides lihtsalt platvormiks.

Kuidas kõik toimib

Andmevahetus Yula ja Odnoklassniki vahel toimub läbi Apache Kafka.

Miks me selle tööriista valisime:

  • Yulas on kõik reklaamid järelmodereeritud, nii et esialgu polnud sünkroonset vastust vaja.
  • Kui juhtub halb lõik ja Yula või Odnoklassniki pole saadaval, sealhulgas mõne tippkoormuse tõttu, siis ei kao Kafka andmed kuhugi ja neid saab hiljem lugeda.
  • Platvorm oli juba Kafkaga integreeritud, nii et enamik turvaprobleeme lahendati.

Kuidas me reklaame modereerime

Iga Yula kasutaja loodud või muudetud reklaami jaoks luuakse andmetega JSON, mis paigutatakse edasiseks modereerimiseks Kafkasse. Kafkast laaditakse teadaanded platvormile, kus nende üle otsustatakse automaatselt või käsitsi. Halvad reklaamid blokeeritakse põhjusega ja need, mille puhul platvorm rikkumisi ei leia, märgitakse "heaks". Seejärel saadetakse kõik otsused Yulale tagasi ja rakendatakse teenuses.

Lõpuks taandub Yula jaoks kõik lihtsatele toimingutele: saatke reklaam Odnoklassniki platvormile ja saate tagasi resolutsiooni "ok" või miks mitte "ok".

Automaatne töötlemine

Mis juhtub reklaamiga pärast selle platvormile jõudmist? Iga reklaam on jagatud mitmeks üksuseks:

  • nimi,
  • kirjeldus,
  • fotod,
  • kasutaja valitud reklaami kategooria ja alamkategooria,
  • цена.

Kuidas me reklaame modereerime

Seejärel teostab platvorm iga olemi jaoks klastri, et leida duplikaadid. Lisaks on tekst ja fotod rühmitatud erinevate skeemide järgi.

Enne rühmitamist normaliseeritakse tekstid, et eemaldada erimärgid, muudetud tähed ja muu prügi. Vastuvõetud andmed jagatakse N-grammideks, millest igaüks on räsistatud. Tulemuseks on palju ainulaadseid räsi. Tekstide sarnasuse määrab Jaccardi mõõt kahe tulemuseks oleva komplekti vahel. Kui sarnasus on lävest suurem, liidetakse tekstid ühte klastrisse. Sarnaste klastrite otsimise kiirendamiseks kasutatakse MinHash ja Locality-sensitive hashing.

Fotode jaoks on leiutatud erinevaid võimalusi piltide liimimiseks alates pHashi piltide võrdlemisest kuni duplikaatide otsimiseni närvivõrgu abil.

Viimane meetod on kõige "raskem". Mudeli treenimiseks valiti piltide kolmikud (N, A, P), milles N ei ole sarnane A-ga ja P on sarnane A-ga (on pooldublikaat). Siis õppis närvivõrk tegema A ja P võimalikult lähedale ning A ja N nii kaugele kui võimalik. Selle tulemuseks on vähem valepositiivseid tulemusi võrreldes lihtsalt eelkoolitatud võrgust manuste võtmisega.

Kui närvivõrk saab sisendiks pilte, genereerib ta neist igaühe jaoks N(128)-mõõtmelise vektori ja esitatakse taotlus hinnata pildi lähedust. Järgmisena arvutatakse lävi, mille korral lähedasi pilte loetakse duplikaatideks.

Mudel suudab oskuslikult leida rämpsposti saatjaid, kes konkreetselt sama toodet erinevate nurkade alt pildistavad, et pHashi võrdlusest mööda minna.

Kuidas me reklaame modereerimeKuidas me reklaame modereerime
Näide rämpspostifotodest, mis on duplikaatidena närvivõrgu poolt kokku liimitud.

Viimases etapis otsitakse dubleerivaid kuulutusi samaaegselt nii teksti kui pildi järgi.

Kui kaks või enam kuulutust on klastris kokku jäänud, käivitab süsteem automaatse blokeerimise, mis teatud algoritme kasutades valib, millised duplikaadid kustutada ja millised jätta. Näiteks kui kahel kasutajal on reklaamis samad fotod, blokeerib süsteem uuema reklaami.

Pärast loomist läbivad kõik klastrid rea automaatseid filtreid. Iga filter määrab klastrile hinde: kui tõenäoline on, et see sisaldab ohtu, mille see filter tuvastab.

Näiteks analüüsib süsteem reklaamis olevat kirjeldust ja valib selle jaoks potentsiaalsed kategooriad. Seejärel võtab see suurima tõenäosusega ja võrdleb seda kuulutuse autori määratud kategooriaga. Kui need ei ühti, blokeeritakse reklaam vale kategooria jaoks. Ja kuna oleme lahked ja ausad, ütleme kasutajale otse, millise kategooria ta peab valima, et reklaam läbiks modereerimise.

Kuidas me reklaame modereerime
Vale kategooria blokeerimise teade.

Masinõpe tundub meie platvormil koduselt. Näiteks otsime tema abiga Vene Föderatsioonis keelatud kaupade nimetusi ja kirjeldusi. Ja närvivõrgu mudelid "uurivad" pilte hoolikalt, et näha, kas need sisaldavad URL-e, rämpsposti, telefoninumbreid ja sama "keelatud" teavet.

Juhtudeks, kui nad üritavad müüa keelatud toodet, mis on maskeeritud millekski legaalseks ja mille pealkirjas ega kirjelduses pole teksti, kasutame pildimärgistust. Igale pildile saab lisada kuni 11 tuhat erinevat silti, mis kirjeldavad pildil olevat.

Kuidas me reklaame modereerime
Nad üritavad vesipiipu maha müüa, maskeerides seda samovariks.

Paralleelselt keeruliste filtritega töötavad ka lihtsad, mis lahendavad tekstiga seotud ilmseid probleeme:

  • antimat;
  • URL-i ja telefoninumbri detektor;
  • kiirsõnumitoojate ja muude kontaktide mainimine;
  • vähendatud hind;
  • kuulutused, milles midagi ei müüda jne.

Tänapäeval läbib iga reklaam rohkem kui 50 automaatfiltrist peene sõela, mis üritab reklaamist midagi halba leida.

Kui ükski detektor ei töötanud, saadetakse Yulale vastus, et reklaam on "tõenäoliselt" täiesti korras. Kasutame seda vastust ise ning müüjaga liitunud kasutajad saavad teate uue toote saadavuse kohta.

Kuidas me reklaame modereerime
Teade, et müüjal on uus toode.

Selle tulemusena on iga reklaam "üle kasvanud" metaandmetega, millest osa genereeritakse reklaami loomisel (autori IP-aadress, kasutajaagent, platvorm, geolokatsioon jne) ning ülejäänu on iga filtri poolt väljastatud skoor. .

Kuulutusjärjekorrad

Kui reklaam platvormile jõuab, paneb süsteem selle ühte järjekorda. Iga järjekord luuakse matemaatilise valemi abil, mis kombineerib reklaami metaandmeid viisil, mis tuvastab kõik halvad mustrid.

Näiteks saate luua järjekorra "Mobiiltelefonid" kategooriasse väidetavalt Peterburist pärit Yula kasutajatelt, kuid nende IP-aadressid on Moskvast või teistest linnadest.

Kuidas me reklaame modereerime
Näide ühe kasutaja postitatud kuulutustest erinevates linnades.

Või saate moodustada järjekordi nende skooride põhjal, mille närvivõrk reklaamidele määrab, korraldades need kahanevas järjekorras.

Iga järjekord määrab oma valemi järgi kuulutusele lõpliku hinde. Seejärel saate jätkata erinevatel viisidel:

  • määrake lävi, mille korral reklaam saab teatud tüüpi blokeerimise;
  • saata kõik järjekorras olevad reklaamid moderaatoritele käsitsi ülevaatamiseks;
  • või kombineeri eelmised valikud: määra automaatse blokeerimise lävi ja saada moderaatoritele need reklaamid, mis pole seda läve saavutanud.

Kuidas me reklaame modereerime

Milleks neid järjekordi vaja on? Oletame, et kasutaja laadis üles tulirelva foto. Närvivõrk määrab sellele hindeks 95–100 ja teeb 99-protsendilise täpsusega kindlaks, et pildil on relv. Kuid kui skoori väärtus on alla 95%, hakkab mudeli täpsus vähenema (see on närvivõrgu mudelite omadus).

Selle tulemusel moodustub skoormudeli alusel järjekord ja need reklaamid, mis said 95–100, blokeeritakse automaatselt kui "Keelatud tooted". Reklaamid, mille hind on alla 95, saadetakse moderaatoritele käsitsi töötlemiseks.

Kuidas me reklaame modereerime
Šokolaad Beretta padruniga. Ainult käsitsi modereerimiseks! 🙂

Käsitsi modereerimine

2019. aasta alguses modereeritakse umbes 94% kõikidest Yula kuulutustest automaatselt.

Kuidas me reklaame modereerime

Kui platvorm ei saa mõne reklaami üle otsustada, saadab see need käsitsi modereerimiseks. Odnoklassniki töötas välja oma tööriista: moderaatorite ülesanded kuvavad kohe kogu vajaliku teabe kiire otsuse tegemiseks - reklaam sobib või tuleks blokeerida, näidates ära põhjuse.

Ja et teenuse kvaliteet käsitsi modereerimisel ei kannataks, jälgitakse pidevalt inimeste tööd. Näiteks ülesannete voos kuvatakse moderaatorile "lõksud" - reklaame, mille jaoks on juba valmis lahendused. Kui moderaatori otsus ei lange kokku valminud otsusega, antakse moderaatorile veateade.

Keskmiselt kulutab moderaator ühe reklaami kontrollimisele 10 sekundit. Veelgi enam, vigade arv ei ületa 0,5% kõigist kinnitatud reklaamidest.

Inimeste mõõdukus

Kolleegid Odnoklassnikist läksid veelgi kaugemale ja kasutasid ära "publiku abi": nad kirjutasid sotsiaalvõrgustiku jaoks mängurakenduse, milles saate kiiresti märkida suure hulga andmeid, tuues esile mõne halva märgi - Odnoklassniki moderaator (https://ok.ru/app/moderator). Hea võimalus kasutada ära OK kasutajate abi, kes üritavad sisu nauditavamaks muuta.

Kuidas me reklaame modereerime
Mäng, kus kasutajad märgivad fotosid, millel on telefoninumber.

Kõik platvormi reklaamide järjekorrad saab suunata mängu Odnoklassniki Moderator. Kõik, mida mängu kasutajad märgivad, saadetakse seejärel sisemoderaatoritele ülevaatamiseks. See skeem võimaldab blokeerida reklaame, mille jaoks pole veel filtreid loodud, ja samal ajal luua koolitusnäidiseid.

Modereerimistulemuste salvestamine

Salvestame kõik modereerimise käigus tehtud otsused, et me ei töötleks uuesti neid reklaame, mille kohta oleme juba otsuse teinud.

Iga päev luuakse reklaamide põhjal miljoneid klastreid. Aja jooksul on iga klastri silt "hea" või "halb". Iga uus reklaam või selle redaktsioon, mis siseneb klastrisse koos märgistusega, saab automaatselt klastrist endalt resolutsiooni. Selliseid automaatseid resolutsioone on päevas umbes 20 tuhat.

Kuidas me reklaame modereerime

Kui klastrisse uusi teateid ei saabu, eemaldatakse see mälust ning selle räsi ja lahendus kirjutatakse Apache Cassandrale.

Kui platvorm saab uue kuulutuse, proovib ta esmalt leida juba loodud klastri ja sealt lahenduse võtta. Kui sellist kobarat pole, läheb platvorm Cassandra juurde ja vaatab sinna. Kas sa leidsid selle? Suurepärane, rakendab lahenduse klastrile ja saadab selle Yulale. Selliseid “korduvaid” otsuseid tehakse iga päev keskmiselt 70 tuhat – 8% koguarvust.

Kokkuvõtteks

Oleme Odnoklassniki modereerimisplatvormi kasutanud kaks ja pool aastat. Meile meeldivad tulemused:

  • Modereerime automaatselt 94% kõigist reklaamidest päevas.
  • Ühe kuulutuse modereerimise maksumus langes 2 rublalt 7 kopikale.
  • Tänu valmis tööriistale unustasime moderaatorite haldamise probleemid.
  • Suurendasime sama arvu moderaatorite ja eelarvega käsitsi töödeldud reklaamide arvu 2,5 korda. Ka käsitsi modereerimise kvaliteet on tänu automatiseeritud juhtimisele tõusnud ja kõigub 0,5% vigadest.
  • Katame uut tüüpi rämpsposti kiiresti filtritega.
  • Ühendame uued osakonnad kiiresti modereerimisega "Yula Verticals". Alates 2017. aastast on Yula lisanud kinnisvara, vabade töökohtade ja autode vertikaalid.

Allikas: www.habr.com

Lisa kommentaar