Kiel ni moderigas reklamojn

Kiel ni moderigas reklamojn

Ĉiu servo, kies uzantoj povas krei sian propran enhavon (UGC - Uzant-generita enhavo) estas devigita ne nur solvi komercajn problemojn, sed ankaŭ ordigi aferojn en UGC. Malbona aŭ malaltkvalita enhava moderigo povas finfine redukti la allogecon de la servo por uzantoj, eĉ ĉesante ĝian funkciadon.

Hodiaŭ ni rakontos al vi pri la sinergio inter Yula kaj Odnoklassniki, kiu helpas nin efike moderigi reklamojn en Yula.

Sinergio ĝenerale estas tre utila afero, kaj en la moderna mondo, kiam teknologioj kaj tendencoj tre rapide ŝanĝiĝas, ĝi povas iĝi vivsavanto. Kial malŝpari malabundajn rimedojn kaj tempon inventante ion, kio jam estis elpensita kaj memorigita antaŭ vi?

Ni pensis same, kiam ni alfrontis la plenan taskon moderigi uzantenhavon - bildojn, tekston kaj ligilojn. Niaj uzantoj alŝutas milionojn da enhavoj al Yula ĉiutage, kaj sen aŭtomata prilaborado estas tute neeble moderigi ĉiujn ĉi datumojn permane.

Tial ni uzis pretan moderecan platformon, kiun tiam niaj kolegoj de Odnoklassniki kompletigis al stato de "preskaŭ perfekteco".

Kial Odnoklassniki?

Ĉiutage, dekoj da milionoj da uzantoj venas al la socia reto kaj publikigas miliardojn da enhavo: de fotoj ĝis filmetoj kaj tekstoj. La Odnoklassniki moderiga platformo helpas kontroli tre grandajn volumojn da datumoj kaj kontraŭstari spamistojn kaj robotojn.

La OK-moderiga teamo akumulis multan sperton, ĉar ĝi plibonigas sian ilon dum 12 jaroj. Gravas, ke ili povus ne nur kunhavigi siajn pretajn solvojn, sed ankaŭ personecigi la arkitekturon de sia platformo laŭ niaj specifaj taskoj.

Kiel ni moderigas reklamojn

De nun, por koncizeco, ni simple nomos la OK-moderan platformon "platformo".

Kiel ĉio funkcias

Interŝanĝo de datumoj inter Yula kaj Odnoklassniki estas establita tra Apache Kafka.

Kial ni elektis ĉi tiun ilon:

  • En Yula, ĉiuj reklamoj estas postmoderigitaj, do komence sinkrona respondo ne estis postulata.
  • Se malbona alineo okazas kaj Yula aŭ Odnoklassniki estas neatingeblaj, inkluzive pro iuj pintaj ŝarĝoj, tiam la datumoj de Kafka ne malaperos ie ajn kaj povas esti legitaj poste.
  • La platformo jam estis integrita kun Kafka, do plej multaj sekurecaj problemoj estis solvitaj.

Kiel ni moderigas reklamojn

Por ĉiu anonco kreita aŭ modifita de la uzanto en Yula, JSON kun datumoj estas generita, kiu estas metita en Kafka por posta moderigo. De Kafka, anoncoj estas ŝarĝitaj en la platformon, kie ili estas adjudikitaj aŭtomate aŭ permane. Malbonaj reklamoj estas blokitaj kun kialo, kaj tiuj, en kiuj la platformo ne trovas malobservojn, estas markitaj kiel "bonaj". Tiam ĉiuj decidoj estas resenditaj al Yula kaj aplikataj en la servo.

Fine, por Yula ĉio estas simplaj agoj: sendu anoncon al la platformo Odnoklassniki kaj rericevu rezolucion "bone", aŭ kial ne "bone".

Aŭtomata prilaborado

Kio okazas al la reklamo post kiam ĝi trafas la platformon? Ĉiu anonco estas dividita en plurajn entojn:

  • Nomo,
  • Priskribo,
  • fotoj,
  • uzant-elektita kategorio kaj subkategorio de la anonco,
  • prezo

Kiel ni moderigas reklamojn

La platformo tiam elfaras clustering por ĉiu unuo por trovi duplikatojn. Krome, tekstoj kaj fotoj estas amasigitaj laŭ malsamaj skemoj.

Antaŭ amasiĝo, tekstoj estas normaligitaj por forigi specialajn signojn, ŝanĝitajn literojn kaj aliajn rubaĵojn. La ricevitaj datumoj estas dividitaj en N-gramojn, ĉiu el kiuj estas haŝita. La rezulto estas multaj unikaj haŝoj. La simileco inter tekstoj estas determinita de La mezuro de Jaccard inter la du rezultantaj aroj. Se la simileco estas pli granda ol la sojlo, tiam la tekstoj estas kunfanditaj en unu areton. Por akceli la serĉon de similaj aretoj, MinHash kaj Lok-sentema hashing estas uzata.

Diversaj opcioj por gluado de bildoj estis inventitaj por fotoj, de komparado de pHash-bildoj ĝis serĉado de duplikatoj uzante neŭralan reton.

La lasta metodo estas la plej "severa". Por trejni la modelon, triopoj de bildoj (N, A, P) estis elektitaj en kiuj N ne estas simila al A, kaj P estas simila al A (estas duonduplikato). Tiam la neŭrala reto lernis fari A kaj P kiel eble plej proksime, kaj A kaj N laŭeble. Ĉi tio rezultigas malpli da falsaj pozitivoj kompare al simple preni enkonstruaĵojn de antaŭtrejnita reto.

Kiam la neŭrala reto ricevas bildojn kiel enigaĵo, ĝi generas N(128)-dimensian vektoron por ĉiu el ili kaj peto estas farita por taksi la proksimecon de la bildo. Poste oni kalkulas sojlon, ĉe kiu proksimaj bildoj estas konsiderataj duplikatoj.

La modelo kapablas lerte trovi spamistojn, kiuj specife fotas la saman produkton de malsamaj anguloj por preteriri la komparon de pHash.

Kiel ni moderigas reklamojnKiel ni moderigas reklamojn
Ekzemplo de spamfotoj kungluitaj de neŭrala reto kiel duplikatoj.

En la fina etapo, duobligitaj reklamoj estas serĉataj samtempe per teksto kaj bildo.

Se du aŭ pli da reklamoj estas kunmetitaj en areto, la sistemo komencas aŭtomatan blokadon, kiu, uzante iujn algoritmojn, elektas kiujn duplikatojn forigi kaj kiujn forlasi. Ekzemple, se du uzantoj havas la samajn fotojn en anonco, la sistemo blokos la pli freŝan anoncon.

Fojo kreitaj, ĉiuj aretoj trairas serion de aŭtomataj filtriloj. Ĉiu filtrilo asignas poentaron al la areto: kiom verŝajne ĝi enhavas la minacon, kiun ĉi tiu filtrilo identigas.

Ekzemple, la sistemo analizas la priskribon en reklamo kaj elektas eblajn kategoriojn por ĝi. Tiam ĝi prenas tiun kun la maksimuma probableco kaj komparas ĝin kun la kategorio specifita de la aŭtoro de la anonco. Se ili ne kongruas, la anonco estas blokita por la malĝusta kategorio. Kaj ĉar ni estas afablaj kaj honestaj, ni rekte diras al la uzanto kiun kategorion li devas elekti por ke la anonco trapasu moderecon.

Kiel ni moderigas reklamojn
Sciigo pri blokado por malĝusta kategorio.

Maŝina lernado sentiĝas ĝuste hejme en nia platformo. Ekzemple, kun ĝia helpo ni serĉas en la nomoj kaj priskriboj de varoj malpermesitaj en la Rusa Federacio. Kaj modeloj de neŭralaj retoj zorge "ekzamenas" la bildojn por vidi ĉu ili enhavas URL-ojn, spam-tekstojn, telefonnumerojn kaj la samajn "malpermesitajn" informojn.

Por kazoj kie ili provas vendi malpermesitan produkton alivestita kiel io laŭleĝa, kaj ne estas teksto aŭ en la titolo aŭ priskribo, ni uzas bildajn etikedojn. Por ĉiu bildo, ĝis 11 mil malsamaj etikedoj povas esti aldonitaj, kiuj priskribas kio estas en la bildo.

Kiel ni moderigas reklamojn
Ili provas vendi la nargileon alivestinte ĝin kiel samovaro.

Paralele kun kompleksaj filtriloj funkcias ankaŭ simplaj, solvante evidentajn problemojn rilatajn al teksto:

  • antimat;
  • URL- kaj telefonnumera detektilo;
  • mencio de tujmesaĝiloj kaj aliaj kontaktoj;
  • reduktita prezo;
  • reklamoj en kiuj nenio estas vendata, ktp.

Hodiaŭ ĉiu reklamo trapasas bonan kribrilon de pli ol 50 aŭtomataj filtriloj, kiuj provas trovi ion malbonan en la anonco.

Se neniu el la detektiloj funkciis, tiam respondo estas sendita al Yula, ke la anonco estas "plej verŝajne" en perfekta ordo. Ni mem uzas ĉi tiun respondon, kaj uzantoj, kiuj abonis la vendiston, ricevas sciigon pri la havebleco de nova produkto.

Kiel ni moderigas reklamojn
Sciigo, ke la vendisto havas novan produkton.

Kiel rezulto, ĉiu reklamo estas "superkreskita" kun metadatenoj, kelkaj el kiuj estas generitaj kiam la anonco estas kreita (IP-adreso de aŭtoro, uzanto-agento, platformo, geolokigo, ktp.), kaj la resto estas la poentaro eldonita de ĉiu filtrilo. .

Anoncvicoj

Kiam reklamo trafas la platformon, la sistemo metas ĝin en unu el la atendovicoj. Ĉiu atendovico estas kreita per matematika formulo, kiu kombinas anoncajn metadatenojn en maniero kiel kiu detektas iujn malbonajn ŝablonojn.

Ekzemple, vi povas krei vicon da reklamoj en la kategorio "Poŝtelefonoj" de uzantoj de Yula supozeble el Sankt-Peterburgo, sed iliaj IP-adresoj estas de Moskvo aŭ aliaj urboj.

Kiel ni moderigas reklamojn
Ekzemplo de reklamoj afiŝitaj de unu uzanto en malsamaj urboj.

Aŭ vi povas formi vostojn surbaze de la poentoj, kiujn la neŭrala reto asignas al reklamoj, aranĝante ilin en malkreskanta ordo.

Ĉiu vico, laŭ sia propra formulo, asignas finan poentaron al la anonco. Tiam vi povas procedi en malsamaj manieroj:

  • specifi la sojlon ĉe kiu anonco ricevos certan tipon de blokado;
  • sendu ĉiujn reklamojn en la atendovico al moderigaĵoj por mana revizio;
  • aŭ kombini la antaŭajn opciojn: specifu la aŭtomatan sojlon de blokado kaj sendu al moderigantoj tiujn reklamojn, kiuj ne atingis ĉi tiun sojlon.

Kiel ni moderigas reklamojn

Kial ĉi tiuj vicoj estas bezonataj? Ni diru, ke uzanto alŝutis foton de pafilo. La neŭrala reto atribuas al ĝi poentaron de 95 ĝis 100 kaj determinas kun 99-procenta precizeco, ke estas armilo en la bildo. Sed se la poentarvaloro estas sub 95%, la precizeco de la modelo komencas malpliiĝi (ĉi tio estas trajto de neŭralaj retaj modeloj).

Kiel rezulto, vico estas formita surbaze de la poentarmodelo, kaj tiuj anoncoj kiuj ricevis inter 95 kaj 100 estas aŭtomate blokitaj kiel "Malpermesitaj Produktoj". Reklamoj kun poentaro sub 95 estas senditaj al moderigaĵoj por mana prilaborado.

Kiel ni moderigas reklamojn
Ĉokolado Beretta kun kartoĉoj. Nur por mana moderigo! 🙂

Mana moderigo

Komence de 2019, ĉirkaŭ 94% de ĉiuj reklamoj en Yula estas moderigitaj aŭtomate.

Kiel ni moderigas reklamojn

Se la platformo ne povas decidi pri iuj reklamoj, ĝi sendas ilin por mana moderigo. Odnoklassniki evoluigis sian propran ilon: taskoj por moderigaĵoj tuj montras ĉiujn necesajn informojn por preni rapidan decidon - la reklamo taŭgas aŭ devus esti blokita, indikante la kialon.

Kaj por ke la kvalito de servo ne suferu dum mana moderigo, la laboro de homoj estas konstante kontrolata. Ekzemple, en la taskofluo, la moderigaĵo estas montrita "kaptiloj" - reklamoj por kiuj ekzistas jam pretaj solvoj. Se la decido de la moderanto ne koincidas kun la finita, la moderanto ricevas eraron.

Averaĝe, moderanto pasigas 10 sekundojn kontrolante unu reklamon. Krome, la nombro da eraroj ne estas pli ol 0,5% de ĉiuj kontrolitaj reklamoj.

Modereco de homoj

Kolegoj de Odnoklassniki iris eĉ plu kaj profitis de la "helpo de la spektantaro": ili skribis ludaplikaĵon por la socia reto, en kiu vi povas rapide marki grandan kvanton da datumoj, reliefigante iun malbonan signon - Odnoklassniki Moderator (https://ok.ru/app/moderator). Bona maniero por utiligi la helpon de OK-uzantoj, kiuj provas fari la enhavon pli ĝuebla.

Kiel ni moderigas reklamojn
Ludo en kiu uzantoj etikedas fotojn, kiuj havas telefonnumeron sur ili.

Ajna vico da reklamoj en la platformo povas esti redirektita al la ludo Odnoklassniki Moderator. Ĉio, kion markas uzantoj de la ludo, tiam estas sendita al internaj moderigaĵoj por revizio. Ĉi tiu skemo permesas bloki reklamojn por kiuj filtriloj ankoraŭ ne estis kreitaj, kaj samtempe krei trejnajn specimenojn.

Stokado de moderecaj rezultoj

Ni konservas ĉiujn decidojn faritajn dum modereco, por ke ni ne retraktu tiujn reklamojn pri kiuj ni jam faris decidon.

Milionoj da aretoj estas kreitaj ĉiutage surbaze de reklamoj. Kun la tempo, ĉiu areto estas etikedita "bona" ​​aŭ "malbona". Ĉiu nova anonco aŭ ĝia revizio, enirante areton kun marko, aŭtomate ricevas rezolucion de la areto mem. Estas ĉirkaŭ 20 mil tiaj aŭtomataj rezolucioj ĉiutage.

Kiel ni moderigas reklamojn

Se neniuj novaj anoncoj alvenas al la areto, ĝi estas forigita de memoro kaj ĝia hash kaj solvo estas skribitaj al Apache Cassandra.

Kiam la platformo ricevas novan reklamon, ĝi unue provas trovi similan areton inter tiuj jam kreitaj kaj preni solvon de ĝi. Se ne ekzistas tia areto, la platformo iras al Kasandra kaj rigardas tie. Ĉu vi trovis ĝin? Bonege, aplikas la solvon al la areto kaj sendas ĝin al Yula. Averaĝe estas 70 mil tiaj "ripetaj" decidoj ĉiutage—8% de la tuta.

Resumi

Ni uzas la Odnoklassniki-moderan platformon dum du jaroj kaj duono. Ni ŝatas la rezultojn:

  • Ni aŭtomate moderigas 94% de ĉiuj reklamoj ĉiutage.
  • La kosto de moderigo de unu reklamo reduktiĝis de 2 rubloj al 7 kopekoj.
  • Danke al la preta ilo, ni forgesis pri la problemoj de administrado de moderigantoj.
  • Ni pliigis la nombron da mane prilaboritaj reklamoj je 2,5 fojojn kun la sama nombro da moderigaĵoj kaj buĝeto. La kvalito de mana moderigo ankaŭ pliiĝis pro aŭtomata kontrolo, kaj fluktuas ĉirkaŭ 0,5% de eraroj.
  • Ni rapide kovras novajn specojn de spamado per filtriloj.
  • Ni rapide ligas novajn fakojn al modereco "Yula Vertikaloj". Ekde 2017, Yula aldonis la Vertikaĵojn pri Nemoveblaĵoj, Vakantaĵoj kaj Aŭtomobiloj.

fonto: www.habr.com

Aldoni komenton