Nola moderatzen ditugun iragarkiak

Nola moderatzen ditugun iragarkiak

Erabiltzaileek bere edukia sor dezaketen zerbitzu bakoitza (UGC - Erabiltzaileek sortutako edukia) negozio-arazoak konpontzera ez ezik, gauzak ordenatzera ere behartuta daude UGCn. Eduki eskasak edo kalitate baxuko moderazioak azken finean zerbitzuaren erakargarritasuna murriztu dezake erabiltzaileentzat, nahiz eta bere funtzionamendua amaituz.

Gaur Yula eta Odnoklassnikiren arteko sinergiaren berri emango dizugu, Yulan iragarkiak modu eraginkorrean moderatzen laguntzen diguna.

Sinergia, oro har, oso gauza erabilgarria da, eta mundu modernoan, teknologiak eta joerak oso azkar aldatzen direnean, salbatzaile bihur daiteke. Zergatik alferrik galdu baliabide urriak eta denbora aurretik asmatutako eta burura ekarritako zerbait asmatzen?

Gauza bera pentsatu genuen erabiltzaileen edukia moderatzeko zeregin osoa aurrean geundenean: irudiak, testuak eta estekak. Gure erabiltzaileek milioika eduki kargatzen dituzte Yula-ra egunero, eta automatikoki prozesatu gabe guztiz ezinezkoa da datu horiek guztiak eskuz moderatzea.

Hori dela eta, prest egindako moderazio-plataforma bat erabili genuen, ordurako gure Odnoklassnikiko lankideek "ia perfekziora" osatu zutena.

Zergatik Odnoklassniki?

Egunero, dozenaka milioi erabiltzaile etortzen dira sare sozialera eta milaka milioi eduki argitaratzen dituzte: argazkietatik bideo eta testuetaraino. Odnoklassniki moderazio plataformak datu-bolumen oso handiak egiaztatzen eta spammer-en eta bot-en aurka egiten laguntzen du.

OK moderazio taldeak esperientzia handia pilatu du, 12 urte daramatzalako bere tresna hobetzen. Garrantzitsua da prest egindako irtenbideak partekatzeaz gain, plataformaren arkitektura pertsonalizatzea gure zeregin zehatzetara egokitzeko.

Nola moderatzen ditugun iragarkiak

Hemendik aurrera, laburtzeko, OK moderazio plataformari "plataforma" deituko diogu.

Dena nola funtzionatzen duen

Yula eta Odnoklassnikiren arteko datu-trukea ezartzen da Apache Kafka.

Zergatik aukeratu dugu tresna hau:

  • Yula-n, iragarki guztiak postmoderatuak dira, beraz, hasieran ez zen erantzun sinkronikoa behar izan.
  • Paragrafo txar bat gertatzen bada eta Yula edo Odnoklassniki erabilgarri ez badaude, karga gailur batzuengatik barne, orduan Kafkaren datuak ez dira inon desagertuko eta geroago irakurri ahal izango dira.
  • Plataforma jada Kafkarekin integratuta zegoen, beraz, segurtasun arazo gehienak konpondu ziren.

Nola moderatzen ditugun iragarkiak

Erabiltzaileak Yula-n sortutako edo aldatutako iragarki bakoitzeko, datuekin JSON bat sortzen da, eta Kafkan jartzen da gero moderatzeko. Kafkatik, iragarkiak plataforman kargatzen dira, eta bertan automatikoki edo eskuz adjudikatzen dira. Iragarki txarrak arrazoi batekin blokeatzen dira, eta plataformak urraketak aurkitzen ez dituenak "onak" gisa markatzen dira. Ondoren, erabaki guztiak Yulara bidaltzen dira eta zerbitzuan aplikatzen dira.

Azkenean, Yula-rentzat ekintza soiletan datza: bidali iragarki bat Odnoklassniki plataformara eta berreskuratu ebazpena "ok" edo zergatik ez "ok".

Prozesamendu automatikoa

Zer gertatzen da iragarkiarekin plataformara iritsi ondoren? Iragarki bakoitza hainbat entitatetan banatzen da:

  • Izena,
  • deskribapena,
  • argazkiak,
  • erabiltzaileak hautatutako kategoria eta iragarkiaren azpikategoria,
  • Π¦Π΅Π½Π°.

Nola moderatzen ditugun iragarkiak

Ondoren, plataformak clustering egiten du entitate bakoitzarentzat bikoiztuak aurkitzeko. Gainera, testuak eta argazkiak eskema ezberdinen arabera biltzen dira.

Multzokatu aurretik, testuak normalizatu egiten dira karaktere bereziak, aldatutako letrak eta bestelako zaborra kentzeko. Jasotako datuak N-gramotan banatzen dira, eta horietako bakoitza hash da. Emaitza hash berezi asko dira. Testuen arteko berdintasuna zehazten da Jaccard-en neurria sortzen diren bi multzoen artean. Antzekotasuna atalasea baino handiagoa bada, testuak multzo batean batzen dira. Antzeko klusterren bilaketa bizkortzeko, MinHash eta Locality-en araberako hashing erabiltzen dira.

Irudiak itsasteko hainbat aukera asmatu dira argazkietarako, pHash irudiak alderatuz hasi eta bikoiztuak sare neuronal baten bidez bilatzeraino.

Azken metodoa "larriena" da. Eredua entrenatzeko, irudien hirukoteak (N, A, P) aukeratu ziren, zeinetan N A-ren antzekoa ez den eta P A-ren antzekoa (erdi-bikoiztua da). Orduan, neurona-sareak A eta P ahalik eta hurbilen egiten ikasi zuen, eta A eta N ahal bezain urrun egiten. Horrek positibo faltsu gutxiago sortzen ditu aurrez prestatutako sare batetik txertaketak hartzearekin alderatuta.

Sare neuronalak sarrera gisa irudiak jasotzen dituenean, N(128) dimentsioko bektore bat sortzen du horietako bakoitzarentzat eta irudiaren hurbiltasuna ebaluatzeko eskaera egiten da. Ondoren, hurbileko irudiak bikoiztutzat hartzen diren atalase bat kalkulatzen da.

Eredua gai da produktu bera angelu ezberdinetatik bereziki argazkia egiten duten spammer-ak trebetasunez aurkitzeko, pHash alderaketa saihesteko.

Nola moderatzen ditugun iragarkiakNola moderatzen ditugun iragarkiak
Neurona-sare batek bikoiztu gisa itsatsitako spam argazkien adibidea.

Azken fasean, bikoiztutako iragarkiak testuaren eta irudiaren bidez aldi berean bilatzen dira.

Bi iragarki edo gehiago kluster batean itsatsita badaude, sistemak blokeo automatikoa hasten du, eta horrek, algoritmo batzuk erabiliz, bikoiztuak ezabatu eta zein utzi hautatzen ditu. Adibidez, bi erabiltzailek argazki berdinak badituzte iragarki batean, sistemak iragarki berriena blokeatuko du.

Sortu ondoren, kluster guztiak iragazki automatiko batzuen bidez pasatzen dira. Iragazki bakoitzak puntuazio bat esleitzen dio klusterri: zenbateraino den iragazki honek identifikatzen duen mehatxua edukitzea.

Adibidez, sistemak iragarki bateko deskribapena aztertzen du eta horretarako kategoria potentzialak hautatzen ditu. Ondoren, probabilitate handiena duena hartzen du eta iragarkiaren egileak zehaztutako kategoriarekin alderatzen du. Bat ez badatoz, iragarkia okerreko kategoriarako blokeatuta dago. Eta jatorrak eta zintzoak garenez, zuzenean esaten diogu erabiltzaileari zein kategoria hautatu behar duen iragarkiak moderazioa pasa dezan.

Nola moderatzen ditugun iragarkiak
Kategoria okerreko blokeoaren jakinarazpena.

Ikaskuntza automatikoa etxean bezala sentitzen da gure plataforman. Esate baterako, bere laguntzarekin Errusiar Federazioan debekatuta dauden ondasunen izenak eta deskribapenak bilatzen ditugu. Eta neurona-sare-ereduek arretaz "aztertzen" dituzte irudiak, URLak, spam testuak, telefono zenbakiak eta informazio "debekatuta" bera duten ikusteko.

Debekatutako produktu bat legezko zerbaitez mozorrotuta saltzen saiatzen diren kasuetarako, eta izenburuan edo deskribapenean testurik ez dagoenean, irudien etiketa erabiltzen dugu. Irudi bakoitzeko, irudian dagoena deskribatzen duten 11 mila etiketa ezberdin gehi daitezke gehienez.

Nola moderatzen ditugun iragarkiak
Hookah saltzen saiatzen ari dira, samovar gisa mozorrotuz.

Iragazki konplexuekin batera, sinpleek ere funtzionatzen dute, testuarekin zerikusia duten arazo nabariak ebazten:

  • antimat;
  • URL eta telefono-zenbakien detektagailua;
  • berehalako mezularien eta beste kontaktuen aipamena;
  • prezio murriztua;
  • ezer saltzen ez duten iragarkiak, etab.

Gaur egun, iragarki bakoitza iragarkian zerbait txarra aurkitzen saiatzen diren 50 iragazki automatiko baino gehiagoko bahe fin batetik pasatzen da.

Detektagailuetako batek ere ez badu funtzionatu, erantzun bat bidaliko zaio Yulari iragarkia "litekeena da" ordena ezin hobean dagoela. Erantzun hau guk geuk erabiltzen dugu, eta saltzailearekin harpidetuta dauden erabiltzaileek produktu berri baten erabilgarritasunari buruzko jakinarazpena jasotzen dute.

Nola moderatzen ditugun iragarkiak
Saltzaileak produktu berri bat duela jakinaraztea.

Ondorioz, iragarki bakoitza metadatuez β€œhaztuta” dago, eta horietako batzuk iragarkia sortzen denean sortzen dira (egilearen IP helbidea, erabiltzaile-agentea, plataforma, geokokapena, etab.), eta gainerakoa iragazki bakoitzak igorritako puntuazioa da. .

Iragarki ilarak

Iragarki bat plataformara iristen denean, sistemak ilaretako batean jartzen du. Ilara bakoitza iragarkien metadatuak konbinatzen dituen formula matematiko bat erabiliz sortzen da, eredu txarrak detektatzeko moduan.

Adibidez, "Sakelako telefonoak" kategorian iragarki-ilara bat sor dezakezu Yula erabiltzaile ustez San Petersburgokoak, baina haien IP helbideak Moskukoak edo beste hirietakoak dira.

Nola moderatzen ditugun iragarkiak
Erabiltzaile batek hiri ezberdinetan argitaratutako iragarkien adibidea.

Edo ilarak osa ditzakezu sare neuronalak iragarkiei esleitzen dizkien puntuazioetan oinarrituta, beheranzko ordenan antolatuz.

Ilara bakoitzak, bere formularen arabera, azken puntuazioa esleitzen dio iragarkiari. Ondoren, modu ezberdinetan jarraitu dezakezu:

  • zehaztu iragarki batek blokeo mota jakin bat jasoko duen atalasea;
  • bidali ilaran dauden iragarki guztiak moderatzaileei eskuz berrikusteko;
  • edo konbinatu aurreko aukerak: zehaztu blokeo automatikoaren atalasea eta bidali moderatzaileei atalase horretara iritsi ez diren iragarkiak.

Nola moderatzen ditugun iragarkiak

Zergatik behar dira ilara hauek? Demagun erabiltzaile batek su-arma baten argazkia kargatu duela. Sare neuronalak 95etik 100era arteko puntuazioa ematen dio eta ehuneko 99ko zehaztasunarekin zehazten du irudian arma bat dagoela. Baina puntuazio-balioa % 95etik beherakoa bada, ereduaren zehaztasuna murrizten hasten da (hori sare neuronalaren ereduen ezaugarria da).

Ondorioz, puntuazio-ereduaren arabera ilara bat eratzen da, eta 95 eta 100 artean jasotako iragarkiak automatikoki blokeatzen dira "Debekatutako Produktu" gisa. 95etik beherako puntuazioa duten iragarkiak moderatzaileei bidaltzen zaizkie eskuz prozesatzeko.

Nola moderatzen ditugun iragarkiak
Beretta txokolatea kartutxoekin. Eskuzko moderaziorako bakarrik! πŸ™‚

Eskuzko moderazioa

2019aren hasieran, Yula-ko iragarki guztien% 94 inguru automatikoki moderatzen dira.

Nola moderatzen ditugun iragarkiak

Plataformak ezin baditu iragarki batzuk erabaki, eskuz moderatzeko bidaltzen ditu. Odnoklassniki-k bere tresna garatu zuen: moderatzaileentzako zereginek berehala erakusten dute beharrezko informazio guztia erabaki azkar bat hartzeko - iragarkia egokia da edo blokeatu behar da, arrazoia adieraziz.

Eta eskuzko moderazioan zerbitzuaren kalitatea kaltetu ez dadin, pertsonen lana etengabe kontrolatzen da. Esaterako, ataza korrontean, moderatzaileari "tranpak" erakusten zaizkio, dagoeneko prest dauden irtenbideak dituzten iragarkiak. Moderatzailearen erabakia amaitutakoarekin bat ez badator, moderatzaileari errore bat emango zaio.

Batez beste, moderatzaile batek 10 segundo ematen ditu iragarki bat egiaztatzen. Gainera, akatsen kopurua egiaztatutako iragarki guztien % 0,5 baino ez da.

Jendearen moderazioa

Odnoklassniki-ko lankideek urrunago joan ziren eta "ikusleen laguntza" aprobetxatu zuten: sare sozialerako joko-aplikazio bat idatzi zuten eta bertan datu kopuru handi bat azkar markatu dezakezu, seinale txarren bat nabarmenduz - Odnoklassniki moderatzailea (https://ok.ru/app/moderator). Edukia atseginagoa egiten saiatzen ari diren OK erabiltzaileen laguntzaz baliatzeko modu ona.

Nola moderatzen ditugun iragarkiak
Erabiltzaileek telefono-zenbaki bat duten argazkiak etiketatzen dituen jokoa.

Plataformako edozein iragarki-ilara birbideratu daiteke Odnoklassniki Moderator jokora. Ondoren, jokoaren erabiltzaileek markatzen duten guztia barne moderatzaileei bidaltzen zaie egiaztatzeko. Eskema honek oraindik iragazkiak sortu ez diren iragarkiak blokeatzeko aukera ematen du, eta aldi berean prestakuntza-laginak sortzeko.

Moderazioaren emaitzak gordetzea

Moderazioan hartutako erabaki guztiak gordetzen ditugu, dagoeneko erabakia hartu dugun iragarki horiek berriro prozesatzeko.

Milioika kluster sortzen dira egunero iragarkietan oinarrituta. Denborarekin, kluster bakoitzari "ona" edo "txarra" etiketatzen zaio. Iragarki berri bakoitzak edo bere berrikuspen bakoitzak, marka batekin kluster batean sartuz, automatikoki kluster beraren ebazpen bat jasotzen du. Egunean 20 mila ebazpen automatiko daude.

Nola moderatzen ditugun iragarkiak

Klusterera iragarki berririk iristen ez bada, memoriatik kenduko da eta bere hash eta soluzioa Apache Cassandra-n idazten dira.

Plataformak iragarki berri bat jasotzen duenean, lehenik eta behin, lehendik sortutakoen artean antzeko kluster bat aurkitzen saiatzen da eta bertatik irtenbide bat hartzen. Horrelako klusterrik ez badago, plataforma Cassandrarengana doa eta hara begiratzen du. Aurkitu al duzu? Bikaina, konponbidea klusterari aplikatzen dio eta Yulari bidaltzen dio. Batez beste, 70 mila erabaki "errepikatu" hartzen dira egunero, guztizkoaren %8.

Laburbilduz

Bi urte eta erdi daramatzagu Odnoklassniki moderazio plataforma erabiltzen. Gustuko ditugu emaitzak:

  • Egunean automatikoki moderatzen dugu iragarki guztien % 94.
  • Iragarki bat moderatzearen kostua 2 errublotik 7 kopekera murriztu zen.
  • Prest egindako tresnari esker, moderatzaileak kudeatzeko arazoak ahaztu ditugu.
  • Eskuz prozesatutako iragarkien kopurua 2,5 aldiz handitu dugu moderatzaile eta aurrekontu berdinarekin. Eskuzko moderazioaren kalitatea ere handitu da kontrol automatizatuaren ondorioz, eta akatsen % 0,5 inguruan aldatzen da.
  • Azkar estaltzen ditugu spam mota berriak iragazkiekin.
  • Azkar lotzen ditugu sail berriak moderazioarekin "Yula bertikalak". 2017az geroztik, Yulak Higiezinen, Lanpostuak eta Autoen bertikalak gehitu ditu.

Iturria: www.habr.com

Gehitu iruzkin berria