Hoe ons advertensies modereer

Hoe ons advertensies modereer

Elke diens wie se gebruikers hul eie inhoud kan skep (UGC - User-generated content) word gedwing om nie net besigheidsprobleme op te los nie, maar ook om dinge in UGC in orde te bring. Swak of lae kwaliteit inhoudmoderering kan uiteindelik die aantreklikheid van die diens vir gebruikers verminder, tot en met die beëindiging van die werking daarvan.

Vandag sal ons jou vertel van die sinergie tussen Yula en Odnoklassniki, wat ons help om advertensies in Yula effektief te modereer.

Sinergie in die algemeen is 'n baie nuttige ding, en in die moderne wêreld, wanneer tegnologieë en neigings baie vinnig verander, kan dit 'n lewensredder word. Hoekom skaars hulpbronne en tyd mors om iets uit te vind wat reeds uitgevind is en voor jou in gedagte gebring is?

Ons het dieselfde gedink toe ons die volle taak gehad het om gebruikersinhoud te modereer – prente, teks en skakels. Ons gebruikers laai elke dag miljoene stukke inhoud op na Yula, en sonder outomatiese verwerking is dit heeltemal onmoontlik om al hierdie data met die hand te modereer.

Daarom het ons 'n klaargemaakte modereringsplatform gebruik wat ons kollegas van Odnoklassniki teen daardie tyd tot 'n toestand van "amper perfeksie" voltooi het.

Hoekom Odnoklassniki?

Elke dag kom tienmiljoene gebruikers na die sosiale netwerk en publiseer miljarde stukke inhoud: van foto's tot video's en tekste. Die Odnoklassniki modereringsplatform help om baie groot volumes data na te gaan en spammers en bots teë te werk.

Die OK-modereringspan het baie ervaring opgedoen, aangesien dit sy instrument al 12 jaar lank verbeter het. Dit is belangrik dat hulle nie net hul klaargemaakte oplossings kan deel nie, maar ook die argitektuur van hul platform kan aanpas om by ons spesifieke take te pas.

Hoe ons advertensies modereer

Van nou af, kortheidshalwe, sal ons die OK-modereringsplatform bloot "platform" noem.

Hoe dit alles werk

Data-uitruiling tussen Yula en Odnoklassniki word gevestig deur Apache Kafka.

Hoekom ons hierdie instrument gekies het:

  • In Yula word alle advertensies na-gemodereer, so aanvanklik was 'n sinchrone reaksie nie nodig nie.
  • As 'n slegte paragraaf gebeur en Yula of Odnoklassniki is nie beskikbaar nie, insluitend as gevolg van sommige piekladings, dan sal die data van Kafka nêrens verdwyn nie en kan dit later gelees word.
  • Die platform was reeds met Kafka geïntegreer, so die meeste sekuriteitskwessies is opgelos.

Hoe ons advertensies modereer

Vir elke advertensie wat deur die gebruiker in Yula geskep of gewysig word, word 'n JSON met data gegenereer, wat in Kafka geplaas word vir daaropvolgende moderering. Van Kafka af word aankondigings in die platform gelaai, waar dit outomaties of met die hand beoordeel word. Slegte advertensies word met 'n rede geblokkeer, en dié waarin die platform nie oortredings vind nie, word as "goed" gemerk. Dan word alle besluite na Yula teruggestuur en in die diens toegepas.

Op die ou end, vir Yula kom dit alles neer op eenvoudige aksies: stuur 'n advertensie na die Odnoklassniki-platform en kry 'n resolusie "ok" terug, of hoekom nie "ok" nie.

Outomatiese verwerking

Wat gebeur met die advertensie nadat dit die platform bereik het? Elke advertensie word in verskeie entiteite verdeel:

  • Naam,
  • beskrywing,
  • foto's,
  • gebruiker-geselekteerde kategorie en subkategorie van die advertensie,
  • prys.

Hoe ons advertensies modereer

Die platform voer dan groepering uit vir elke entiteit om duplikate te vind. Boonop word teks en foto's volgens verskillende skemas gegroepeer.

Voor groepering word tekste genormaliseer om spesiale karakters, veranderde letters en ander vullis te verwyder. Die data wat ontvang is, word in N-gramme verdeel, wat elkeen gehash is. Die resultaat is baie unieke hashes. Die ooreenkoms tussen tekste word bepaal deur Jaccard se maat tussen die twee resulterende stelle. As die ooreenkoms groter as die drempel is, word die tekste in een groep saamgevoeg. Om die soektog na soortgelyke clusters te bespoedig, word MinHash en Locality-sensitiewe hashing gebruik.

Verskeie opsies vir die plak van beelde is vir foto's uitgevind, van vergelyking van pHash-prente tot die soek van duplikate deur 'n neurale netwerk te gebruik.

Die laaste metode is die mees "ernstige". Om die model op te lei, is drieling beelde (N, A, P) gekies waarin N nie soortgelyk is aan A nie, en P soortgelyk is aan A ('n semi-duplikaat is). Toe het die neurale netwerk geleer om A en P so na as moontlik te maak, en A en N so ver as moontlik. Dit lei tot minder vals positiewe in vergelyking met die neem van eenvoudig inbeddings van 'n vooraf-opgeleide netwerk.

Wanneer die neurale netwerk beelde as invoer ontvang, genereer dit 'n N(128)-dimensionele vektor vir elkeen van hulle en 'n versoek word gerig om die nabyheid van die beeld te assesseer. Vervolgens word 'n drempel bereken waarby nabye beelde as duplikate beskou word.

Die model is in staat om spammers vaardig te vind wat dieselfde produk spesifiek vanuit verskillende hoeke fotografeer om die pHash-vergelyking te omseil.

Hoe ons advertensies modereerHoe ons advertensies modereer
'n Voorbeeld van strooiposfoto's wat deur 'n neurale netwerk as duplikate aanmekaar geplak is.

Op die finale stadium word duplikaatadvertensies gelyktydig deur beide teks en beeld deursoek.

As twee of meer advertensies saam in 'n groep vasgeplak word, begin die stelsel outomatiese blokkering, wat, met behulp van sekere algoritmes, kies watter duplikate om te verwyder en watter om te verlaat. Byvoorbeeld, as twee gebruikers dieselfde foto's in 'n advertensie het, sal die stelsel die meer onlangse advertensie blokkeer.

Sodra dit geskep is, gaan alle trosse deur 'n reeks outomatiese filters. Elke filter ken 'n telling aan die groep toe: hoe waarskynlik is dit om die bedreiging te bevat wat hierdie filter identifiseer.

Byvoorbeeld, die stelsel ontleed die beskrywing in 'n advertensie en kies potensiële kategorieë daarvoor. Dan neem dit die een met die maksimum waarskynlikheid en vergelyk dit met die kategorie wat deur die skrywer van die advertensie gespesifiseer is. As hulle nie ooreenstem nie, word die advertensie vir die verkeerde kategorie geblokkeer. En aangesien ons vriendelik en eerlik is, vertel ons direk vir die gebruiker watter kategorie hy moet kies sodat die advertensie moderering kan slaag.

Hoe ons advertensies modereer
Kennisgewing van blokkering vir verkeerde kategorie.

Masjienleer voel tuis in ons platform. Byvoorbeeld, met sy hulp soek ons ​​in die name en beskrywings van goedere wat in die Russiese Federasie verbode is. En neurale netwerkmodelle "ondersoek" die beelde noukeurig om te sien of dit URL's, strooipostekste, telefoonnommers en dieselfde "verbode" inligting bevat.

Vir gevalle waar hulle probeer om 'n verbode produk te verkoop wat as iets wettigs vermom is, en daar is geen teks in die titel of beskrywing nie, gebruik ons ​​beeldmerker. Vir elke prent kan tot 11 duisend verskillende merkers bygevoeg word wat beskryf wat in die prent is.

Hoe ons advertensies modereer
Hulle probeer die waterpyp verkoop deur dit as 'n samowar te vermom.

Parallel met komplekse filters werk eenvoudige filters ook en los ooglopende probleme op wat verband hou met teks:

  • antimat;
  • URL en telefoonnommer detector;
  • melding van kitsboodskappers en ander kontakte;
  • verminderde prys;
  • advertensies waarin niks te koop is nie, ens.

Vandag gaan elke advertensie deur 'n fyn sif van meer as 50 outomatiese filters wat iets sleg in die advertensie probeer vind.

As nie een van die verklikkers gewerk het nie, word 'n antwoord aan Yula gestuur dat die advertensie "heel waarskynlik" in perfekte volgorde is. Ons gebruik self hierdie antwoord, en gebruikers wat by die verkoper ingeteken het, ontvang 'n kennisgewing oor die beskikbaarheid van 'n nuwe produk.

Hoe ons advertensies modereer
Kennisgewing dat die verkoper 'n nuwe produk het.

Gevolglik word elke advertensie "oorgroei" met metadata, waarvan sommige gegenereer word wanneer die advertensie geskep word (outeur se IP-adres, gebruiker-agent, platform, geoligging, ens.), en die res is die telling wat deur elke filter uitgereik word. .

Aankondiging toue

Wanneer 'n advertensie die platform tref, plaas die stelsel dit in een van die toue. Elke tou word geskep met behulp van 'n wiskundige formule wat advertensie-metadata kombineer op 'n manier wat enige slegte patrone opspoor.

Byvoorbeeld, jy kan 'n tou advertensies in die "Selfone"-kategorie skep van Yula-gebruikers wat vermoedelik van St. Petersburg kom, maar hul IP-adresse is van Moskou of ander stede.

Hoe ons advertensies modereer
'n Voorbeeld van advertensies wat deur een gebruiker in verskillende stede geplaas is.

Of jy kan rye vorm op grond van die tellings wat die neurale netwerk aan advertensies toeken, en dit in dalende volgorde rangskik.

Elke tou ken volgens sy eie formule 'n finale telling aan die advertensie toe. Dan kan jy op verskillende maniere voortgaan:

  • spesifiseer die drempel waarteen 'n advertensie 'n sekere tipe blokkering sal ontvang;
  • stuur alle advertensies in die tou aan moderators vir handmatige hersiening;
  • of kombineer die vorige opsies: spesifiseer die outomatiese blokkeringsdrempel en stuur aan moderators daardie advertensies wat nie hierdie drempel bereik het nie.

Hoe ons advertensies modereer

Hoekom is hierdie toue nodig? Kom ons sê 'n gebruiker het 'n foto van 'n vuurwapen opgelaai. Die neurale netwerk ken dit 'n telling van 95 tot 100 toe en bepaal met 99 persent akkuraatheid dat daar 'n wapen in die prentjie is. Maar as die tellingwaarde onder 95% is, begin die akkuraatheid van die model afneem (dit is 'n kenmerk van neurale netwerkmodelle).

As gevolg hiervan word 'n tou gevorm op grond van die tellingmodel, en daardie advertensies wat tussen 95 en 100 ontvang word, word outomaties as "Verbode Produkte" geblokkeer. Advertensies met 'n telling onder 95 word aan moderators gestuur vir handmatige verwerking.

Hoe ons advertensies modereer
Sjokolade Beretta met patrone. Slegs vir handmatige moderering! 🙂

Handmatige moderering

Aan die begin van 2019 word ongeveer 94% van alle advertensies in Yula outomaties gemodereer.

Hoe ons advertensies modereer

As die platform nie oor sommige advertensies kan besluit nie, stuur dit dit vir handmatige moderering. Odnoklassniki het hul eie instrument ontwikkel: take vir moderators vertoon onmiddellik al die nodige inligting om 'n vinnige besluit te neem - die advertensie is geskik of moet geblokkeer word, wat die rede aandui.

En sodat die kwaliteit van diens nie ly tydens handmatige moderering nie, word mense se werk voortdurend gemonitor. Byvoorbeeld, in die taakstroom word die moderator "valletjies" gewys—advertensies waarvoor daar reeds klaargemaakte oplossings is. As die moderator se besluit nie saamval met die voltooide een nie, kry die moderator 'n fout.

Gemiddeld spandeer 'n moderator 10 sekondes om een ​​advertensie na te gaan. Boonop is die aantal foute nie meer as 0,5% van alle geverifieerde advertensies nie.

Mense se matigheid

Kollegas van Odnoklassniki het selfs verder gegaan en gebruik gemaak van die "hulp van die gehoor": hulle het 'n speletjie-toepassing vir die sosiale netwerk geskryf waarin u vinnig 'n groot hoeveelheid data kan merk, en 'n slegte teken beklemtoon - Odnoklassniki Moderator (https://ok.ru/app/moderator). 'n Goeie manier om voordeel te trek uit die hulp van OK-gebruikers wat probeer om die inhoud lekkerder te maak.

Hoe ons advertensies modereer
'n Speletjie waarin gebruikers foto's merk wat 'n telefoonnommer op het.

Enige tou advertensies op die platform kan na die Odnoklassniki Moderator-speletjie herlei word. Alles wat speletjiegebruikers merk, word dan na interne moderators gestuur vir verifikasie. Hierdie skema laat jou toe om advertensies te blokkeer waarvoor filters nog nie geskep is nie, en terselfdertyd opleidingsmonsters te skep.

Berg modereringsresultate

Ons stoor alle besluite wat tydens moderering geneem is sodat ons nie daardie advertensies waarop ons reeds 'n besluit geneem het, herverwerk nie.

Miljoene groepe word elke dag geskep op grond van advertensies. Met verloop van tyd word elke groepering as "goed" of "sleg" gemerk. Elke nuwe advertensie of die hersiening daarvan, wat 'n groep met 'n punt binnegaan, ontvang outomaties 'n resolusie van die groep self. Daar is ongeveer 20 duisend sulke outomatiese resolusies per dag.

Hoe ons advertensies modereer

As geen nuwe aankondigings by die groep aankom nie, word dit uit die geheue verwyder en die hash en oplossing daarvan word na Apache Cassandra geskryf.

Wanneer die platform 'n nuwe advertensie ontvang, probeer dit eers 'n soortgelyke groepie vind onder diegene wat reeds geskep is en 'n oplossing daaruit haal. As daar nie so 'n groep is nie, gaan die platform na Cassandra en kyk daar. Het jy dit gekry? Groot, pas die oplossing op die groep toe en stuur dit na Yula. Daar is gemiddeld 70 duisend sulke "herhaalde" besluite elke dag—8% van die totaal.

Opsomming

Ons gebruik al twee en 'n half jaar die Odnoklassniki modereringsplatform. Ons hou van die resultate:

  • Ons modereer outomaties 94% van alle advertensies per dag.
  • Die koste om een ​​advertensie te modereer is van 2 roebels tot 7 kopeke verminder.
  • Danksy die gereedgemaakte hulpmiddel het ons vergeet van die probleme met die bestuur van moderators.
  • Ons het die aantal handverwerkte advertensies met 2,5 keer verhoog met dieselfde aantal moderators en begroting. Die kwaliteit van handmatige moderering het ook toegeneem as gevolg van outomatiese beheer, en wissel rondom 0,5% van foute.
  • Ons dek vinnig nuwe soorte strooipos met filters.
  • Ons koppel vinnig nuwe departemente aan moderering "Yula Vertikale". Sedert 2017 het Yula die eiendoms-, vakatures en motorvertikale bygevoeg.

Bron: will.com

Voeg 'n opmerking