Giunsa namo pag-moderate ang mga ad

Giunsa namo pag-moderate ang mga ad

Ang matag serbisyo kansang mga tiggamit makahimo sa ilang kaugalingon nga sulod (UGC - User-generated content) napugos dili lamang sa pagsulbad sa mga problema sa negosyo, apan usab sa pagbutang sa mga butang sa pagkahan-ay sa UGC. Ang dili maayo o ubos nga kalidad nga pag-moderate sa sulod sa katapusan makapakunhod sa kaanyag sa serbisyo alang sa mga tiggamit, bisan sa pagtapos sa operasyon niini.

Karon isulti namon kanimo ang bahin sa synergy tali sa Yula ug Odnoklassniki, nga makatabang kanamo nga epektibo nga ma-moderate ang mga ad sa Yula.

Ang synergy sa kinatibuk-an usa ka mapuslanon kaayo nga butang, ug sa modernong kalibutan, kung ang mga teknolohiya ug mga uso dali nga mausab, mahimo kini nga usa ka lifesaver. Ngano nga mag-usik sa nihit nga mga kapanguhaan ug oras sa pag-imbento sa usa ka butang nga naimbento na ug nahinumduman sa imong atubangan?

Naghunahuna kami sa parehas nga butang sa dihang nag-atubang kami sa bug-os nga tahas sa pag-moderate sa sulud sa tiggamit - mga litrato, teksto ug mga link. Ang among mga tiggamit nag-upload sa milyon-milyon nga mga piraso sa sulud sa Yula matag adlaw, ug kung wala ang awtomatiko nga pagproseso imposible nga ma-moderate ang tanan nga kini nga datos nga mano-mano.

Busa, gigamit namo ang usa ka andam nga gihimo nga plataporma sa pag-moderate, nga nianang panahona ang among mga kauban gikan sa Odnoklassniki nahuman na sa usa ka kahimtang sa "halos kahingpitan."

Ngano nga Odnoklassniki?

Kada adlaw, napulo ka milyon nga mga tiggamit ang moadto sa social network ug nagpatik sa binilyon nga mga piraso sa sulud: gikan sa mga litrato hangtod sa mga video ug mga teksto. Ang Odnoklassniki moderation nga plataporma makatabang sa pagsusi sa dako kaayong gidaghanon sa datos ug pagsumpo sa mga spammer ug bot.

Ang OK moderation team nakatigum og daghang kasinatian, tungod kay kini nagpauswag sa iyang himan sulod sa 12 ka tuig. Mahinungdanon nga dili lang nila mapaambit ang ilang mga andam nga solusyon, apan ipasibo usab ang arkitektura sa ilang plataporma nga mohaum sa among piho nga mga buluhaton.

Giunsa namo pag-moderate ang mga ad

Sugod karon, para sa mubu, tawgon lang nato ang OK moderation platform nga "platform."

Giunsa ang tanan molihok

Ang pagbinayloay sa datos tali sa Yula ug Odnoklassniki natukod pinaagi sa Apache Kafka.

Ngano nga gipili namo kini nga himan:

  • Sa Yula, ang tanan nga mga paanunsyo gi-post-moderate, mao nga sa sinugdan wala kinahanglana ang usa ka dungan nga tubag.
  • Kung ang usa ka dili maayo nga parapo mahitabo ug ang Yula o Odnoklassniki dili magamit, lakip na tungod sa pipila ka peak load, nan ang data gikan sa Kafka dili mawala bisan asa ug mahimong mabasa sa ulahi.
  • Ang plataporma gisagol na sa Kafka, mao nga kadaghanan sa mga isyu sa seguridad nasulbad.

Giunsa namo pag-moderate ang mga ad

Alang sa matag ad nga gihimo o giusab sa user sa Yula, usa ka JSON nga adunay data ang namugna, nga gibutang sa Kafka alang sa sunod nga pag-moderate. Gikan sa Kafka, ang mga anunsyo gikarga sa plataporma, diin kini awtomatiko o mano-mano nga gihukman. Ang dili maayo nga mga ad gibabagan sa usa ka hinungdan, ug kadtong diin ang plataporma wala makit-an nga mga paglapas gimarkahan nga "maayo." Dayon ang tanang desisyon ipadala balik kang Yula ug i-apply sa serbisyo.

Sa katapusan, alang kang Yula ang tanan moabut sa yano nga mga aksyon: magpadala usa ka ad sa platform sa Odnoklassniki ug ibalik ang usa ka resolusyon nga "ok", o nganong dili "ok".

Awtomatikong pagproseso

Unsa ang mahitabo sa ad pagkahuman naigo sa plataporma? Ang matag ad gibahin sa daghang mga entidad:

  • Ngalan,
  • paghulagway,
  • mga litrato,
  • kategorya ug subcategory sa ad nga gipili sa user,
  • presyo.

Giunsa namo pag-moderate ang mga ad

Ang plataporma dayon naghimo sa clustering alang sa matag entidad aron makit-an ang mga duplicate. Dugang pa, ang teksto ug mga litrato gihugpong sumala sa lainlaing mga laraw.

Sa wala pa ang clustering, ang mga teksto gi-normalize aron makuha ang mga espesyal nga karakter, giusab nga mga letra ug uban pang basura. Ang nadawat nga datos gibahin sa N-grams, ang matag usa niini gi-hash. Ang resulta mao ang daghang talagsaon nga mga hash. Ang kaamgiran tali sa mga teksto gitino pinaagi sa sukod ni Jaccard tali sa duha ka resulta nga mga set. Kung ang kaamgiran mas dako kay sa threshold, nan ang mga teksto gihiusa ngadto sa usa ka cluster. Aron mapadali ang pagpangita sa susamang mga pungpong, gigamit ang MinHash ug Locality-sensitive hashing.

Ang lainlaing mga kapilian alang sa pagpapilit sa mga imahe naimbento alang sa mga litrato, gikan sa pagtandi sa mga litrato sa pHash hangtod sa pagpangita sa mga duplicate gamit ang neural network.

Ang katapusan nga pamaagi mao ang labing "grabe". Aron mabansay ang modelo, gipili ang mga triplet sa mga imahe (N, A, P) diin ang N dili parehas sa A, ug ang P parehas sa A (usa ka semi-duplicate). Dayon ang neural network nakakat-on sa paghimo sa A ug P nga mas duol kutob sa mahimo, ug A ug N kutob sa mahimo. Kini moresulta sa mas diyutay nga sayop nga mga positibo kon itandi sa pagkuha lamang sa mga embeddings gikan sa usa ka pre-trained network.

Sa diha nga ang neural network makadawat og mga hulagway isip input, kini makamugna og N(128)-dimensional nga vector alang sa matag usa niini ug ang usa ka hangyo gihimo aron sa pagsusi sa kaduol sa hulagway. Sunod, kalkulado ang usa ka threshold diin ang mga suod nga imahe giisip nga mga duplicate.

Ang modelo makahimo sa hanas nga pagpangita sa mga spammer nga espesipikong nagkuha sa parehas nga produkto gikan sa lainlaing mga anggulo aron malaktawan ang pagtandi sa pHash.

Giunsa namo pag-moderate ang mga adGiunsa namo pag-moderate ang mga ad
Usa ka pananglitan sa mga litrato sa spam nga gipapilit sa usa ka neural network isip mga duplicate.

Sa kataposang yugto, ang mga duplicate nga advertisement dungan nga pangitaon pinaagi sa teksto ug hulagway.

Kung duha o daghan pa nga mga paanunsyo ang natapot sa usa ka kumpol, ang sistema magsugod sa awtomatikong pag-block, nga, gamit ang pipila nga mga algorithm, gipili kung unsang mga duplicate ang tangtangon ug kung diin biyaan. Pananglitan, kung ang duha ka tiggamit adunay parehas nga mga litrato sa usa ka ad, ang sistema mag-block sa labing bag-o nga ad.

Kung nahimo na, ang tanan nga mga cluster moagi sa usa ka serye sa mga awtomatikong pagsala. Ang matag filter naghatag og usa ka puntos sa cluster: unsa ka posibilidad nga kini naglangkob sa hulga nga kini nga filter nagpaila.

Pananglitan, ang sistema nag-analisar sa paghulagway sa usa ka ad ug nagpili sa mga potensyal nga kategorya alang niini. Unya gikuha ang usa nga adunay labing taas nga posibilidad ug itandi kini sa kategorya nga gitakda sa tagsulat sa ad. Kung dili sila magkatugma, ang ad gibabagan alang sa sayup nga kategorya. Ug tungod kay kami buotan ug matinud-anon, direkta namon nga gisultihan ang tiggamit kung unsang kategorya ang kinahanglan niyang pilion aron ang ad moagi sa kasarangan.

Giunsa namo pag-moderate ang mga ad
Pagpahibalo sa pag-block alang sa dili husto nga kategorya.

Ang pagkat-on sa makina gibati nga naa ra sa among plataporma. Pananglitan, uban sa tabang niini kita mangita sa mga ngalan ug mga paghulagway sa mga butang nga gidili sa Russian Federation. Ug ang mga modelo sa neural network makuti nga "nagsusi" sa mga imahe aron makita kung kini adunay mga URL, spam nga teksto, numero sa telepono, ug parehas nga "gidili" nga kasayuran.

Alang sa mga kaso diin sila naningkamot sa pagbaligya sa usa ka gidili nga produkto nga nagtakuban ingon nga usa ka butang nga legal, ug walay teksto sa bisan hain sa titulo o paghulagway, migamit kami sa pag-tag sa imahe. Alang sa matag imahe, hangtod sa 11 ka libo nga lainlaing mga tag ang mahimong idugang nga naghulagway kung unsa ang naa sa imahe.

Giunsa namo pag-moderate ang mga ad
Gisulayan nila nga ibaligya ang hookah pinaagi sa pagtakuban niini nga usa ka samovar.

Susama sa komplikadong mga pagsala, ang mga yano usab nagtrabaho, nga nagsulbad sa klaro nga mga problema nga may kalabutan sa teksto:

  • antimat;
  • URL ug numero sa telepono detector;
  • paghisgot sa mga instant messenger ug uban pang kontak;
  • pagkunhod sa presyo;
  • mga paanunsiyo diin wala’y gibaligya, ug uban pa.

Karon, ang matag ad moagi sa usa ka maayong sieve sa labaw pa sa 50 nga awtomatikong mga pagsala nga mosulay sa pagpangita sa usa ka butang nga dili maayo sa ad.

Kung walay bisan usa sa mga detector nga nagtrabaho, unya ang usa ka tubag gipadala ngadto kang Yula nga ang ad "lagmit" sa hingpit nga pagkahan-ay. Gigamit namon kini nga tubag sa among kaugalingon, ug ang mga tiggamit nga nag-subscribe sa magbabaligya nakadawat usa ka pahibalo bahin sa pagkaanaa sa usa ka bag-ong produkto.

Giunsa namo pag-moderate ang mga ad
Pagpahibalo nga ang magbabaligya adunay bag-ong produkto.

Ingon usa ka sangputanan, ang matag ad "napuno" sa metadata, ang pipila niini namugna sa dihang gihimo ang ad (IP address sa tagsulat, ahente sa gumagamit, plataporma, geolocation, ug uban pa), ug ang nahabilin mao ang marka nga gi-isyu sa matag filter. .

Mga pila sa pahibalo

Kung ang usa ka ad naigo sa plataporma, gibutang kini sa sistema sa usa sa mga pila. Ang matag pila gihimo gamit ang usa ka pormula sa matematika nga naghiusa sa metadata sa ad sa paagi nga makit-an ang bisan unsang dili maayo nga mga sumbanan.

Pananglitan, makahimo ka og pila sa mga ad sa kategoryang "Mga Cellphone" gikan sa mga tiggamit sa Yula nga gikan kuno sa St. Petersburg, apan ang ilang mga IP address gikan sa Moscow o ubang mga siyudad.

Giunsa namo pag-moderate ang mga ad
Usa ka pananglitan sa mga ad nga gi-post sa usa ka tiggamit sa lainlaing mga lungsod.

O mahimo ka nga maghimo mga pila base sa mga marka nga gi-assign sa neural network sa mga ad, nga naghan-ay niini sa pagkasunud nga pagkasunud.

Ang matag pila, sumala sa kaugalingon nga pormula, naghatag usa ka katapusan nga marka sa ad. Unya mahimo ka magpadayon sa lainlaing mga paagi:

  • ipiho ang threshold diin ang usa ka ad makadawat usa ka piho nga klase sa pag-block;
  • ipadala ang tanan nga mga ad sa pila sa mga moderator alang sa manual nga pagsusi;
  • o isagol ang nangaging mga kapilian: ipiho ang awtomatik nga pagbabag sa threshold ug ipadala ngadto sa mga moderator kadtong mga ad nga wala makaabot niini nga threshold.

Giunsa namo pag-moderate ang mga ad

Ngano nga gikinahanglan kini nga mga pila? Ingnon ta nga usa ka user ang nag-upload og litrato sa armas. Ang neural network naghatag niini og marka gikan sa 95 ngadto sa 100 ug nagtino sa 99 porsyento nga katukma nga adunay hinagiban sa hulagway. Apan kung ang kantidad sa marka ubos sa 95%, ang katukma sa modelo magsugod sa pagkunhod (kini usa ka bahin sa mga modelo sa neural network).

Ingon usa ka sangputanan, usa ka pila ang naporma base sa modelo sa marka, ug kadtong mga ad nga nakadawat tali sa 95 ug 100 awtomatiko nga gibabagan ingon "Gidili nga Mga Produkto". Ang mga ad nga adunay marka nga ubos sa 95 ipadala sa mga moderator alang sa manual nga pagproseso.

Giunsa namo pag-moderate ang mga ad
Chocolate Beretta nga adunay mga cartridge. Para lang sa manual moderation! πŸ™‚

Manual moderation

Sa sinugdanan sa 2019, mga 94% sa tanan nga mga ad sa Yula ang awtomatikong gi-moderate.

Giunsa namo pag-moderate ang mga ad

Kung ang plataporma dili makahukom sa pipila ka mga ad, kini nagpadala kanila alang sa manual moderation. Gihimo sa Odnoklassniki ang ilang kaugalingon nga himan: ang mga buluhaton alang sa mga moderator nagpakita dayon sa tanan nga kinahanglan nga kasayuran aron makahimo usa ka dali nga desisyon - ang ad angay o kinahanglan nga babagan, nga nagpakita sa hinungdan.

Ug aron ang kalidad sa serbisyo dili mag-antus sa panahon sa manual moderation, ang trabaho sa mga tawo kanunay nga gibantayan. Pananglitan, sa task stream, ang moderator gipakita nga "mga lit-ag" - mga ad nga adunay mga andam na nga solusyon. Kung ang desisyon sa moderator dili motakdo sa nahuman nga desisyon, ang moderator gihatagan og sayup.

Sa kasagaran, ang usa ka moderator mogugol ug 10 segundos sa pagsusi sa usa ka ad. Dugang pa, ang gidaghanon sa mga sayup dili molapas sa 0,5% sa tanan nga napamatud-an nga mga ad.

Ang pagkamakasaranganon sa mga tawo

Ang mga kauban gikan sa Odnoklassniki nagpadayon pa ug gipahimuslan ang "tabang sa mamiminaw": nagsulat sila usa ka aplikasyon sa dula alang sa social network diin dali nimo mamarkahan ang daghang mga datos, nga nagpasiugda sa dili maayo nga timaan - Odnoklassniki Moderator (https://ok.ru/app/moderator). Usa ka maayong paagi aron mapahimuslan ang tabang sa mga tiggamit sa OK nga naningkamot sa paghimo sa sulud nga labi ka makalingaw.

Giunsa namo pag-moderate ang mga ad
Usa ka dula diin ang mga tiggamit nag-tag sa mga litrato nga adunay numero sa telepono.

Ang bisan unsang pila sa mga ad sa plataporma mahimong ma-redirect sa dula nga Odnoklassniki Moderator. Ang tanan nga gimarkahan sa mga tiggamit sa dula ipadala dayon sa mga internal nga moderator alang sa pag-verify. Kini nga laraw nagtugot kanimo sa pag-block sa mga ad diin ang mga pagsala wala pa nahimo, ug dungan nga paghimo og mga sampol sa pagbansay.

Pagtipig sa mga resulta sa kasarangan

Among gitipigan ang tanang mga desisyon nga gihimo sa panahon sa kasarangang paagi aron dili namo maproseso pag-usab kadtong mga ad diin kami nakahimo na og desisyon.

Minilyon nga mga cluster ang gihimo kada adlaw base sa mga advertisement. Sa paglabay sa panahon, ang matag cluster gimarkahan nga "maayo" o "dili maayo." Ang matag bag-ong ad o ang rebisyon niini, nga mosulod sa usa ka cluster nga adunay marka, awtomatikong makadawat og resolusyon gikan sa cluster mismo. Adunay mga 20 ka libo nga ingon nga awtomatiko nga mga resolusyon matag adlaw.

Giunsa namo pag-moderate ang mga ad

Kung walay mga bag-ong pahibalo nga moabut sa cluster, kini tangtangon sa memorya ug ang hash ug solusyon niini gisulat sa Apache Cassandra.

Kung ang plataporma nakadawat usa ka bag-ong ad, kini una nga pagsulay sa pagpangita sa usa ka parehas nga kumpol sa mga nahimo na ug pagkuha usa ka solusyon gikan niini. Kung walay ingon nga cluster, ang plataporma moadto sa Cassandra ug motan-aw didto. Nakaplagan ba nimo kini? Maayo, gipadapat ang solusyon sa cluster ug gipadala kini sa Yula. Adunay aberids nga 70 ka libo nga "gibalikbalik" nga mga desisyon matag adlaw-8% sa kinatibuk-an.

Sa pag-summarize

Gigamit namo ang Odnoklassniki moderation platform sulod sa duha ug tunga ka tuig. Ganahan mi sa mga resulta:

  • Awtomatiko namon nga gi-moderate ang 94% sa tanan nga mga ad kada adlaw.
  • Ang gasto sa pagmoderate sa usa ka ad gikunhoran gikan sa 2 ruble ngadto sa 7 kopecks.
  • Salamat sa andam nga himan, nakalimot kami sa mga problema sa pagdumala sa mga moderator.
  • Gidugangan namo ang gidaghanon sa mga mano-mano nga giproseso nga mga ad sa 2,5 ka beses nga adunay parehas nga gidaghanon sa mga moderator ug badyet. Ang kalidad sa manual moderation misaka usab tungod sa automated control, ug nag-usab-usab sa palibot sa 0,5% sa mga sayop.
  • Dali namong gitabonan ang bag-ong mga matang sa spam gamit ang mga filter.
  • Dali namon nga gikonektar ang mga bag-ong departamento sa kasarangan "Yula Verticals". Sukad sa 2017, gidugang ni Yula ang Real Estate, Vacancies ug Auto verticals.

Source: www.habr.com

Idugang sa usa ka comment