Kif nimmoderaw ir-reklami

Kif nimmoderaw ir-reklami

Kull servizz li l-utenti tiegħu jistgħu joħolqu l-kontenut tagħhom stess (UGC - Kontenut iġġenerat mill-utenti) huwa sfurzat mhux biss biex isolvi problemi tan-negozju, iżda wkoll biex ipoġġi l-affarijiet f'UGC. Il-moderazzjoni tal-kontenut fqira jew ta 'kwalità baxxa tista' fl-aħħar mill-aħħar tnaqqas l-attrazzjoni tas-servizz għall-utenti, anke twaqqaf l-operat tiegħu.

Illum se ngħidulek dwar is-sinerġija bejn Yula u Odnoklassniki, li tgħinna nimmoderaw ir-reklami b'mod effettiv f'Yula.

Is-sinerġija b'mod ġenerali hija ħaġa utli ħafna, u fid-dinja moderna, meta t-teknoloġiji u t-tendenzi jinbidlu malajr ħafna, jistgħu jinbidlu f'salvataġġ. Għaliex taħli riżorsi skarsi u ħin tivvinta xi ħaġa li diġà ġiet ivvintata u miġjuba f'moħħok quddiemek?

Ħsibna l-istess ħaġa meta konna ffaċċjati bil-kompitu sħiħ tal-moderazzjoni tal-kontenut tal-utent - stampi, test u links. L-utenti tagħna jtellgħu miljuni ta 'biċċiet ta' kontenut fuq Yula kuljum, u mingħajr ipproċessar awtomatiku huwa kompletament impossibbli li timmodera din id-dejta kollha manwalment.

Għalhekk, użajna pjattaforma ta 'moderazzjoni lesta, li sa dak iż-żmien il-kollegi tagħna minn Odnoklassniki kienu lestew għal stat ta' "kważi perfezzjoni."

Għaliex Odnoklassniki?

Kuljum, għexieren ta’ miljuni ta’ utenti jidħlu fin-netwerk soċjali u jippubblikaw biljuni ta’ biċċiet ta’ kontenut: minn ritratti għal vidjows u testi. Il-pjattaforma ta 'moderazzjoni Odnoklassniki tgħin biex tiċċekkja volumi kbar ħafna ta' dejta u tikkontrobatti l-ispammers u l-bots.

It-tim tal-moderazzjoni OK akkumula ħafna esperjenza, peress li ilu jtejjeb l-għodda tiegħu għal 12-il sena. Huwa importanti li jkunu jistgħu mhux biss jaqsmu s-soluzzjonijiet lesti tagħhom, iżda wkoll jippersonalizzaw l-arkitettura tal-pjattaforma tagħhom biex taqbel mal-kompiti speċifiċi tagħna.

Kif nimmoderaw ir-reklami

Minn issa 'l quddiem, għall-qosor, aħna sempliċiment nsejħu l-pjattaforma ta' moderazzjoni OK "pjattaforma."

Kif jaħdem kollox

L-iskambju tad-dejta bejn Yula u Odnoklassniki huwa stabbilit permezz Apache Kafka.

Għaliex għażilna din l-għodda:

  • F'Yula, ir-reklami kollha huma post-moderati, għalhekk inizjalment ma kienx meħtieġ rispons sinkroniku.
  • Jekk jiġri paragrafu ħażin u Yula jew Odnoklassniki mhumiex disponibbli, inkluż minħabba xi tagħbijiet tal-ogħla livell, allura d-dejta minn Kafka ma tisparixxi mkien u tista 'tinqara aktar tard.
  • Il-pjattaforma kienet diġà integrata ma 'Kafka, għalhekk il-biċċa l-kbira tal-kwistjonijiet ta' sigurtà ġew solvuti.

Kif nimmoderaw ir-reklami

Għal kull reklam maħluq jew modifikat mill-utent f'Yula, jiġi ġġenerat JSON bid-dejta, li titqiegħed f'Kafka għall-moderazzjoni sussegwenti. Minn Kafka, l-avviżi huma mgħobbija fil-pjattaforma, fejn jiġu aġġudikati awtomatikament jew manwalment. Reklami ħżiena huma mblukkati b'raġuni, u dawk li fihom il-pjattaforma ma ssibx ksur huma mmarkati bħala "tajbin." Imbagħad id-deċiżjonijiet kollha jintbagħtu lura lil Yula u jiġu applikati fis-servizz.

Fl-aħħar, għal Yula kollox niżel għal azzjonijiet sempliċi: ibgħat reklam lill-pjattaforma Odnoklassniki u terġa 'lura riżoluzzjoni "ok", jew għaliex le "ok".

Ipproċessar awtomatiku

X'jiġri mir-reklam wara li tolqot il-pjattaforma? Kull reklam huwa maqsum f'diversi entitajiet:

  • Isem,
  • deskrizzjoni,
  • ritratti,
  • kategorija u sottokategorija tar-reklam magħżula mill-utent,
  • il-prezz.

Kif nimmoderaw ir-reklami

Il-pjattaforma mbagħad twettaq clustering għal kull entità biex issib duplikati. Barra minn hekk, it-test u r-ritratti huma miġbura skont skemi differenti.

Qabel il-grupp, it-testi huma normalizzati biex jitneħħew karattri speċjali, ittri mibdula u żibel ieħor. Id-dejta riċevuta hija maqsuma f'N-grammi, li kull waħda minnhom hija hashed. Ir-riżultat huwa ħafna hashes uniċi. Ix-xebh bejn it-testi huwa determinat minn Miżura ta' Jaccard bejn iż-żewġ settijiet li jirriżultaw. Jekk ix-xebh huwa akbar mil-limitu, allura t-testi jingħaqdu f'grupp wieħed. Biex titħaffef it-tfittxija għal clusters simili, jintużaw MinHash u hashing sensittiv għall-lokalità.

Diversi għażliet għall-inkullar ta 'l-immaġini ġew ivvintati għar-ritratti, minn tqabbil ta' stampi pHash għal tiftix għal duplikati bl-użu ta 'netwerk newrali.

L-aħħar metodu huwa l-aktar "sever". Biex tħarreġ il-mudell, intgħażlu triplets ta 'immaġini (N, A, P) li fihom N mhuwiex simili għal A, u P huwa simili għal A (huwa semi-duplikat). Imbagħad in-netwerk newrali tgħallem jagħmel A u P qrib kemm jista 'jkun, u A u N kemm jista' jkun. Dan jirriżulta f'inqas pożittivi foloz meta mqabbel ma 'sempliċement it-teħid ta' inkorporazzjonijiet minn netwerk imħarreġ minn qabel.

Meta n-netwerk newrali jirċievi immaġini bħala input, jiġġenera vettur N(128)-dimensjonali għal kull wieħed minnhom u ssir talba biex tiġi vvalutata l-prossimità tal-immaġni. Sussegwentement, jiġi kkalkulat limitu li fih immaġini mill-qrib jitqiesu duplikati.

Il-mudell huwa kapaċi jsib b'ħila l-ispammers li speċifikament jirritrattaw l-istess prodott minn angoli differenti sabiex tevita l-paragun pHash.

Kif nimmoderaw ir-reklamiKif nimmoderaw ir-reklami
Eżempju ta' ritratti tal-ispam inkollati flimkien minn netwerk newrali bħala duplikati.

Fl-aħħar stadju, reklami duplikati huma mfittxija simultanjament kemm bit-test kif ukoll bl-immaġni.

Jekk żewġ reklami jew aktar huma mwaħħla flimkien f'grupp, is-sistema tibda l-imblukkar awtomatiku, li, bl-użu ta 'ċerti algoritmi, tagħżel liema duplikati tħassar u liema tħalli. Pereżempju, jekk żewġ utenti jkollhom l-istess ritratti f'reklam, is-sistema timblokka r-reklam l-aktar riċenti.

Ladarba maħluqa, ir-raggruppamenti kollha jgħaddu minn serje ta 'filtri awtomatiċi. Kull filtru jassenja punteġġ lill-cluster: kemm hu probabbli li fih it-theddida li dan il-filtru jidentifika.

Pereżempju, is-sistema tanalizza d-deskrizzjoni f'reklam u tagħżel kategoriji potenzjali għaliha. Imbagħad tieħu dik bil-probabbiltà massima u tqabbelha mal-kategorija speċifikata mill-awtur tar-reklam. Jekk ma jaqblux, ir-reklam jiġi mblukkat għall-kategorija ħażina. U peress li aħna ġentili u onesti, aħna ngħidu direttament lill-utent liema kategorija għandu jagħżel sabiex ir-reklam jgħaddi mill-moderazzjoni.

Kif nimmoderaw ir-reklami
Notifika ta' imblukkar għal kategorija mhux korretta.

It-tagħlim bil-magni jħoss id-dar fil-pjattaforma tagħna. Pereżempju, bl-għajnuna tagħha aħna nfittxu fl-ismijiet u d-deskrizzjonijiet ta 'oġġetti pprojbiti fil-Federazzjoni Russa. U mudelli tan-netwerk newrali "jeżaminaw" bir-reqqa l-immaġini biex jaraw jekk fihomx URLs, testi tal-ispam, numri tat-telefon, u l-istess informazzjoni "projbita".

Għal każijiet fejn qed jippruvaw ibigħu prodott ipprojbit moħbi bħala xi ħaġa legali, u m'hemm l-ebda test la fit-titlu jew fid-deskrizzjoni, nużaw it-tikkettar tal-immaġni. Għal kull immaġini, jistgħu jiżdiedu sa 11-il elf tag differenti li jiddeskrivu dak li hemm fl-immaġni.

Kif nimmoderaw ir-reklami
Huma qed jippruvaw ibigħu l-hookah billi jaħbiha bħala samovar.

B'mod parallel ma 'filtri kumplessi, dawk sempliċi jaħdmu wkoll, isolvu problemi ovvji relatati mat-test:

  • antimat;
  • Rilevatur ta' URL u numru tat-telefon;
  • aċċenn ta' messaġġiera instantanja u kuntatti oħra;
  • prezz imnaqqas;
  • reklami li fihom xejn mhu għall-bejgħ, eċċ.

Illum, kull reklam jgħaddi minn għarbiel fin ta 'aktar minn 50 filtru awtomatiku li jippruvaw isibu xi ħaġa ħażina fir-reklam.

Jekk l-ebda wieħed mill-ditekters ma ħadem, allura tweġiba tintbagħat lil Yula li r-reklam huwa "aktar probabbli" f'ordni perfetta. Aħna nużaw din it-tweġiba aħna stess, u l-utenti li abbonaw mal-bejjiegħ jirċievu notifika dwar id-disponibbiltà ta 'prodott ġdid.

Kif nimmoderaw ir-reklami
Notifika li l-bejjiegħ għandu prodott ġdid.

B'riżultat ta' dan, kull reklam huwa "mibgħut żżejjed" b'metadejta, li xi wħud minnhom hija ġġenerata meta tinħoloq ir-reklam (indirizz IP tal-awtur, utent-aġent, pjattaforma, ġeolokalizzazzjoni, eċċ.), u l-bqija huwa l-punteġġ maħruġ minn kull filtru. .

Kjuwijiet ta' tħabbir

Meta reklam jolqot il-pjattaforma, is-sistema tpoġġiha f'wieħed mill-kjuwijiet. Kull kju jinħoloq bl-użu ta’ formula matematika li tgħaqqad il-metadejta tar-reklami b’mod li tiskopri kwalunkwe xejriet ħżiena.

Pereżempju, tista 'toħloq kju ta' reklami fil-kategorija "Cell Phones" minn utenti Yula allegatament minn San Pietruburgu, iżda l-indirizzi IP tagħhom huma minn Moska jew bliet oħra.

Kif nimmoderaw ir-reklami
Eżempju ta' reklami mibgħuta minn utent wieħed fi bliet differenti.

Jew tista' tifforma kjuwijiet ibbażati fuq il-punteġġi li n-netwerk newrali jassenja għar-reklami, billi tirranġahom f'ordni dixxendenti.

Kull kju, skont il-formula tiegħu stess, jassenja punteġġ finali lir-reklam. Imbagħad tista 'tipproċedi b'modi differenti:

  • speċifika l-limitu li fih reklam se jirċievi ċertu tip ta’ imblukkar;
  • ibgħat ir-reklami kollha fil-kju lill-moderaturi għal reviżjoni manwali;
  • jew għaqqad l-għażliet preċedenti: speċifika l-limitu tal-imblukkar awtomatiku u ibgħat lill-moderaturi dawk ir-reklami li ma laħqux dan il-limitu.

Kif nimmoderaw ir-reklami

Għaliex huma meħtieġa dawn il-kjuwijiet? Ejja ngħidu li utent tella' ritratt ta' arma tan-nar. In-netwerk newrali jassenjah punteġġ minn 95 għal 100 u jiddetermina b'eżattezza ta '99 fil-mija li hemm arma fl-istampa. Imma jekk il-valur tal-punteġġ huwa taħt il-95%, l-eżattezza tal-mudell tibda tonqos (din hija karatteristika tal-mudelli tan-netwerk newrali).

Bħala riżultat, huwa ffurmat kju abbażi tal-mudell tal-punteġġ, u dawk ir-reklami li rċevew bejn 95 u 100 huma awtomatikament imblukkati bħala "Prodotti Projbiti". Reklami b'punteġġ taħt 95 jintbagħtu lill-moderaturi għall-ipproċessar manwali.

Kif nimmoderaw ir-reklami
Ċikkulata Beretta bl-iskrataċ. Biss għall-moderazzjoni manwali! 🙂

Moderazzjoni manwali

Fil-bidu tal-2019, madwar 94% tar-reklami kollha f'Yula huma moderati awtomatikament.

Kif nimmoderaw ir-reklami

Jekk il-pjattaforma ma tistax tiddeċiedi dwar xi reklami, tibgħathom għall-moderazzjoni manwali. Odnoklassniki żviluppaw l-għodda tagħhom stess: il-kompiti għall-moderaturi immedjatament juru l-informazzjoni kollha meħtieġa biex tieħu deċiżjoni malajr - ir-reklam huwa adattat jew għandu jiġi mblukkat, u jindika r-raġuni.

U sabiex il-kwalità tas-servizz ma tbatix waqt il-moderazzjoni manwali, ix-xogħol tan-nies jiġi mmonitorjat kontinwament. Pereżempju, fil-fluss tal-kompiti, il-moderatur jintwera "nases"—reklami li għalihom diġà hemm soluzzjonijiet lesti. Jekk id-deċiżjoni tal-moderatur ma tikkoinċidix ma' dik lesta, il-moderatur jingħata żball.

Bħala medja, moderatur iqatta' 10 sekondi jiċċekkja reklam wieħed. Barra minn hekk, in-numru ta 'żbalji mhuwiex aktar minn 0,5% tar-reklami kollha verifikati.

Il-moderazzjoni tan-nies

Il-kollegi minn Odnoklassniki marru saħansitra aktar u ħadu vantaġġ mill-"għajnuna tal-udjenza": kitbu applikazzjoni tal-logħob għan-netwerk soċjali li fiha tista 'malajr timmarka ammont kbir ta' dejta, u tenfasizza xi sinjal ħażin - Moderatur Odnoklassniki (https://ok.ru/app/moderator). Mod tajjeb biex tieħu vantaġġ mill-għajnuna ta 'utenti OK li qed jippruvaw jagħmlu l-kontenut aktar pjaċevoli.

Kif nimmoderaw ir-reklami
Logħba li fiha l-utenti jimmarkaw ritratti li għandhom numru tat-telefon fuqhom.

Kwalunkwe kju ta 'reklami fil-pjattaforma jista' jiġi ridirett lejn il-logħba Moderatur Odnoklassniki. Dak kollu li jimmarkaw l-utenti tal-logħob imbagħad jintbagħat lill-moderaturi interni għal reviżjoni. Din l-iskema tippermettilek timblokka reklami li għalihom għadhom ma nħolqux filtri, u fl-istess ħin toħloq kampjuni ta 'taħriġ.

Il-ħażna tar-riżultati tal-moderazzjoni

Insalvaw id-deċiżjonijiet kollha li ttieħdu waqt il-moderazzjoni sabiex ma nipproċessawx mill-ġdid dawk ir-reklami li diġà ħadna deċiżjoni dwarhom.

Miljuni ta 'clusters huma maħluqa kuljum ibbażati fuq reklami. Maż-żmien, kull cluster jiġi mmarkat bħala "tajjeb" jew "ħażin". Kull reklam ġdid jew reviżjoni tagħha, li tidħol f'raggruppament b'marka, awtomatikament tirċievi riżoluzzjoni mill-cluster innifsu. Hemm madwar 20 elf riżoluzzjonijiet awtomatiċi bħal dawn kuljum.

Kif nimmoderaw ir-reklami

Jekk ma jaslu ebda avviżi ġodda lill-cluster, dan jitneħħa mill-memorja u l-hash u s-soluzzjoni tiegħu jinkitbu lil Apache Cassandra.

Meta l-pjattaforma tirċievi reklam ġdid, l-ewwel tipprova ssib cluster simili fost dawk diġà maħluqa u tieħu soluzzjoni minnu. Jekk ma jkunx hemm tali cluster, il-pjattaforma tmur għand Cassandra u tħares hemm. Sibtha? Kbir, japplika s-soluzzjoni għall-cluster u jibgħatha lil Yula. Hemm medja ta '70 elf deċiżjonijiet "repetuti" bħal dawn kuljum—8% tat-total.

Bħala sinteżi

Ilna nużaw il-pjattaforma ta' moderazzjoni Odnoklassniki għal sentejn u nofs. Ir-riżultati nħobbu:

  • Aħna awtomatikament nimmoderaw 94% tar-reklami kollha kuljum.
  • L-ispiża tal-moderazzjoni ta 'reklam wieħed tnaqqset minn 2 rubles għal 7 kopecks.
  • Grazzi għall-għodda lesta, insew dwar il-problemi tal-ġestjoni tal-moderaturi.
  • Żidna n-numru ta’ reklami pproċessati manwalment b’2,5 darbiet bl-istess numru ta’ moderaturi u baġit. Il-kwalità tal-moderazzjoni manwali żdiedet ukoll minħabba kontroll awtomatizzat, u tvarja madwar 0,5% tal-iżbalji.
  • Aħna malajr inkopru tipi ġodda ta 'spam b'filtri.
  • Aħna malajr jgħaqqdu dipartimenti ġodda mal-moderazzjoni "Yula Vertikali". Mill-2017, Yula żiedet il-vertikali tal-Proprjetà Immobbli, Vakanti u Auto.

Sors: www.habr.com

Żid kumment