Paano namin pinangangasiwaan ang mga ad

Paano namin pinangangasiwaan ang mga ad

Ang bawat serbisyo na ang mga user ay maaaring gumawa ng sarili nilang content (UGC - User-generated content) ay napipilitang hindi lamang lutasin ang mga problema sa negosyo, kundi pati na rin ayusin ang mga bagay sa UGC. Ang mahina o mababang kalidad na pag-moderate ng nilalaman ay maaaring bawasan ang pagiging kaakit-akit ng serbisyo para sa mga user, kahit na tapusin ang operasyon nito.

Ngayon sasabihin namin sa iyo ang tungkol sa synergy sa pagitan ng Yula at Odnoklassniki, na tumutulong sa amin na epektibong i-moderate ang mga ad sa Yula.

Ang Synergy sa pangkalahatan ay isang napaka-kapaki-pakinabang na bagay, at sa modernong mundo, kapag ang mga teknolohiya at uso ay mabilis na nagbabago, maaari itong maging isang lifesaver. Bakit mag-aaksaya ng mga kakaunting mapagkukunan at oras sa pag-imbento ng isang bagay na naimbento na at naisip bago mo?

Pareho kaming naisip noong nahaharap kami sa buong gawain ng pagmo-moderate ng nilalaman ng user - mga larawan, teksto at mga link. Ang aming mga user ay nag-a-upload ng milyun-milyong piraso ng nilalaman sa Yula araw-araw, at nang walang awtomatikong pagpoproseso ay ganap na imposibleng i-moderate ang lahat ng data na ito nang manu-mano.

Samakatuwid, gumamit kami ng isang handa na platform ng pag-moderate, na sa oras na iyon ang aming mga kasamahan mula sa Odnoklassniki ay nakumpleto na sa isang estado ng "halos perpekto."

Bakit Odnoklassniki?

Araw-araw, sampu-sampung milyong user ang pumupunta sa social network at nag-publish ng bilyun-bilyong piraso ng nilalaman: mula sa mga larawan hanggang sa mga video at teksto. Tumutulong ang Odnoklassniki moderation platform na suriin ang napakalaking dami ng data at kontrahin ang mga spammer at bot.

Ang koponan ng OK moderation ay nakaipon ng maraming karanasan, dahil pinahusay nito ang tool nito sa loob ng 12 taon. Mahalaga na hindi lamang nila maibabahagi ang kanilang mga handa na solusyon, ngunit i-customize din ang arkitektura ng kanilang platform upang umangkop sa aming mga partikular na gawain.

Paano namin pinangangasiwaan ang mga ad

Mula ngayon, para sa maikli, tatawagin na lang natin ang OK moderation platform na β€œplatform.”

Paano gumagana ang lahat

Ang pagpapalitan ng data sa pagitan ng Yula at Odnoklassniki ay itinatag sa pamamagitan ng Apache Kafka.

Bakit namin pinili ang tool na ito:

  • Sa Yula, ang lahat ng mga advertisement ay post-moderated, kaya sa simula ay hindi kinakailangan ang isang kasabay na tugon.
  • Kung ang isang masamang talata ay nangyari at ang Yula o Odnoklassniki ay hindi magagamit, kabilang ang dahil sa ilang mga peak load, kung gayon ang data mula sa Kafka ay hindi mawawala kahit saan at maaaring basahin sa ibang pagkakataon.
  • Ang platform ay isinama na sa Kafka, kaya karamihan sa mga isyu sa seguridad ay nalutas.

Paano namin pinangangasiwaan ang mga ad

Para sa bawat ad na ginawa o binago ng user sa Yula, isang JSON na may data ang nabuo, na inilalagay sa Kafka para sa kasunod na pag-moderate. Mula sa Kafka, nilo-load ang mga anunsyo sa platform, kung saan awtomatiko o manu-manong hinahatulan ang mga ito. Ang mga masamang ad ay na-block na may dahilan, at ang mga kung saan ang platform ay hindi nakakahanap ng mga paglabag ay minarkahan bilang "mabuti." Pagkatapos ang lahat ng mga desisyon ay ibabalik kay Yula at inilapat sa serbisyo.

Sa huli, para kay Yula ang lahat ay nauuwi sa mga simpleng aksyon: magpadala ng ad sa platform ng Odnoklassniki at ibalik ang isang resolusyon na "ok", o bakit hindi "ok".

Awtomatikong pagproseso

Ano ang mangyayari sa ad pagkatapos nitong maabot ang platform? Ang bawat ad ay nahahati sa ilang entity:

  • Pangalan,
  • paglalarawan,
  • mga larawan,
  • kategorya at subcategory ng ad na pinili ng user,
  • Ρ†Π΅Π½Π°.

Paano namin pinangangasiwaan ang mga ad

Ang platform ay nagsasagawa ng clustering para sa bawat entity upang makahanap ng mga duplicate. Bukod dito, ang teksto at mga larawan ay pinagsama-sama ayon sa iba't ibang mga scheme.

Bago ang clustering, ang mga teksto ay normalize upang alisin ang mga espesyal na character, binagong mga titik at iba pang basura. Ang natanggap na data ay nahahati sa N-grams, na ang bawat isa ay na-hash. Ang resulta ay maraming natatanging hash. Ang pagkakatulad sa pagitan ng mga teksto ay tinutukoy ng sukat ni Jaccard sa pagitan ng dalawang resultang set. Kung ang pagkakatulad ay mas malaki kaysa sa threshold, ang mga teksto ay pinagsama sa isang kumpol. Upang mapabilis ang paghahanap para sa mga katulad na cluster, ginagamit ang MinHash at Locality-sensitive na hashing.

Naimbento ang iba't ibang opsyon para sa pagdikit ng mga larawan para sa mga litrato, mula sa paghahambing ng mga larawan ng pHash hanggang sa paghahanap ng mga duplicate gamit ang neural network.

Ang huling paraan ay ang pinaka "malubha". Upang sanayin ang modelo, ang mga triplet ng mga imahe (N, A, P) ay pinili kung saan ang N ay hindi katulad ng A, at ang P ay katulad ng A (ay isang semi-duplicate). Pagkatapos ay natutunan ng neural network na gawin ang A at P nang mas malapit hangga't maaari, at A at N hangga't maaari. Nagreresulta ito sa mas kaunting mga maling positibo kumpara sa simpleng pagkuha ng mga pag-embed mula sa isang pre-trained na network.

Kapag ang neural network ay nakatanggap ng mga imahe bilang input, ito ay bumubuo ng isang N(128)-dimensional na vector para sa bawat isa sa kanila at isang kahilingan ay ginawa upang masuri ang kalapitan ng larawan. Susunod, kinakalkula ang isang threshold kung saan ang mga malapit na larawan ay itinuturing na mga duplicate.

Ang modelo ay mahusay na makahanap ng mga spammer na partikular na kumukuha ng parehong produkto mula sa iba't ibang mga anggulo upang ma-bypass ang paghahambing ng pHash.

Paano namin pinangangasiwaan ang mga adPaano namin pinangangasiwaan ang mga ad
Isang halimbawa ng mga spam na larawan na pinagsama-sama ng isang neural network bilang mga duplicate.

Sa huling yugto, ang mga duplicate na advertisement ay sabay na hinanap ng parehong teksto at larawan.

Kung dalawa o higit pang mga ad ang magkakadikit sa isang kumpol, magsisimula ang system ng awtomatikong pagharang, na, gamit ang ilang partikular na algorithm, pipili kung aling mga duplicate ang tatanggalin at kung alin ang iiwan. Halimbawa, kung ang dalawang user ay may parehong larawan sa isang ad, iba-block ng system ang mas kamakailang ad.

Kapag nagawa na, dumaan ang lahat ng cluster sa isang serye ng mga awtomatikong filter. Ang bawat filter ay nagtatalaga ng marka sa cluster: gaano kalamang na naglalaman ito ng banta na kinikilala ng filter na ito.

Halimbawa, sinusuri ng system ang paglalarawan sa isang ad at pumipili ng mga potensyal na kategorya para dito. Pagkatapos ay aabutin ang may pinakamataas na posibilidad at ihahambing ito sa kategoryang tinukoy ng may-akda ng ad. Kung hindi sila tumugma, ang ad ay naharang para sa maling kategorya. At dahil kami ay mabait at tapat, direkta naming sinasabi sa user kung aling kategorya ang kailangan niyang piliin para makapasa ang ad sa moderation.

Paano namin pinangangasiwaan ang mga ad
Abiso ng pagharang para sa maling kategorya.

Ang pag-aaral ng makina ay parang nasa tahanan sa aming platform. Halimbawa, sa tulong nito hinahanap namin ang mga pangalan at paglalarawan ng mga kalakal na ipinagbabawal sa Russian Federation. At ang mga modelo ng neural network ay masusing "sinusuri" ang mga larawan upang makita kung naglalaman ang mga ito ng mga URL, spam text, numero ng telepono, at parehong "ipinagbabawal" na impormasyon.

Para sa mga kaso kung saan sinusubukan nilang magbenta ng ipinagbabawal na produkto na nakatago bilang isang bagay na legal, at walang text sa pamagat o paglalarawan, gumagamit kami ng pag-tag ng larawan. Para sa bawat larawan, maaaring magdagdag ng hanggang 11 libong magkakaibang tag na naglalarawan kung ano ang nasa larawan.

Paano namin pinangangasiwaan ang mga ad
Sinusubukan nilang ibenta ang hookah sa pamamagitan ng pagkukunwari nito bilang isang samovar.

Kasabay ng mga kumplikadong filter, gumagana din ang mga simple, paglutas ng mga halatang problema na nauugnay sa teksto:

  • antimat;
  • Detektor ng URL at numero ng telepono;
  • pagbanggit ng mga instant messenger at iba pang mga contact;
  • pinababang presyo;
  • mga patalastas kung saan walang ipinagbibili, atbp.

Ngayon, ang bawat ad ay dumadaan sa isang mahusay na salaan ng higit sa 50 awtomatikong mga filter na sumusubok na makahanap ng isang bagay na hindi maganda sa ad.

Kung wala sa mga detector ang gumana, may ipapadalang tugon kay Yula na ang ad ay "malamang" sa perpektong pagkakasunud-sunod. Kami mismo ang gumagamit ng sagot na ito, at ang mga user na nag-subscribe sa nagbebenta ay makakatanggap ng notification tungkol sa pagkakaroon ng bagong produkto.

Paano namin pinangangasiwaan ang mga ad
Abiso na may bagong produkto ang nagbebenta.

Bilang resulta, ang bawat ad ay "tinutubuan" ng metadata, ang ilan sa mga ito ay nabuo kapag ang ad ay ginawa (IP address ng may-akda, user-agent, platform, geolocation, atbp.), at ang natitira ay ang markang ibinibigay ng bawat filter. .

Mga pila ng anunsyo

Kapag tumama ang isang ad sa platform, inilalagay ito ng system sa isa sa mga pila. Ginagawa ang bawat queue gamit ang isang mathematical formula na pinagsasama-sama ang metadata ng ad sa isang paraan na nakakakita ng anumang masamang pattern.

Halimbawa, maaari kang lumikha ng isang pila ng mga ad sa kategoryang "Mga Cell Phone" mula sa mga gumagamit ng Yula na sinasabing mula sa St. Petersburg, ngunit ang kanilang mga IP address ay mula sa Moscow o iba pang mga lungsod.

Paano namin pinangangasiwaan ang mga ad
Isang halimbawa ng mga advertisement na nai-post ng isang user sa iba't ibang lungsod.

O maaari kang bumuo ng mga pila batay sa mga marka na itinalaga ng neural network sa mga ad, na inaayos ang mga ito sa pababang pagkakasunud-sunod.

Ang bawat pila, ayon sa sarili nitong formula, ay nagtatalaga ng panghuling marka sa ad. Pagkatapos ay maaari kang magpatuloy sa iba't ibang paraan:

  • tukuyin ang threshold kung saan makakatanggap ang isang ad ng isang partikular na uri ng pagharang;
  • ipadala ang lahat ng mga ad sa pila sa mga moderator para sa manu-manong pagsusuri;
  • o pagsamahin ang mga nakaraang opsyon: tukuyin ang awtomatikong pag-block ng threshold at ipadala sa mga moderator ang mga ad na hindi umabot sa threshold na ito.

Paano namin pinangangasiwaan ang mga ad

Bakit kailangan ang mga pila na ito? Sabihin nating nag-upload ang isang user ng larawan ng isang baril. Itinalaga ito ng neural network ng marka mula 95 hanggang 100 at tinutukoy nang may 99 porsiyentong katumpakan na mayroong armas sa larawan. Ngunit kung ang halaga ng marka ay mas mababa sa 95%, ang katumpakan ng modelo ay nagsisimulang bumaba (ito ay isang tampok ng mga modelo ng neural network).

Bilang resulta, ang isang queue ay nabuo batay sa modelo ng marka, at ang mga ad na iyon na natanggap sa pagitan ng 95 at 100 ay awtomatikong na-block bilang "Mga Ipinagbabawal na Produkto." Ang mga ad na may markang mas mababa sa 95 ay ipinapadala sa mga moderator para sa manu-manong pagproseso.

Paano namin pinangangasiwaan ang mga ad
Chocolate Beretta na may mga cartridge. Para lamang sa manual moderation! πŸ™‚

Manu-manong moderation

Sa simula ng 2019, humigit-kumulang 94% ng lahat ng advertisement sa Yula ay awtomatikong na-moderate.

Paano namin pinangangasiwaan ang mga ad

Kung hindi makapagpasya ang platform sa ilang ad, ipinapadala nito ang mga ito para sa manu-manong pag-moderate. Ang Odnoklassniki ay bumuo ng kanilang sariling tool: ang mga gawain para sa mga moderator ay agad na nagpapakita ng lahat ng kinakailangang impormasyon upang makagawa ng isang mabilis na desisyon - ang ad ay angkop o dapat na i-block, na nagpapahiwatig ng dahilan.

At upang ang kalidad ng serbisyo ay hindi magdusa sa panahon ng manu-manong pag-moderate, ang gawain ng mga tao ay patuloy na sinusubaybayan. Halimbawa, sa stream ng gawain, ipinapakita ang moderator ng "mga bitag"β€”mga ad kung saan mayroon nang mga handa nang solusyon. Kung ang desisyon ng moderator ay hindi tumutugma sa natapos na desisyon, ang moderator ay bibigyan ng isang error.

Sa karaniwan, ang isang moderator ay gumugugol ng 10 segundo sa pagsuri sa isang ad. Bukod dito, ang bilang ng mga error ay hindi hihigit sa 0,5% ng lahat ng na-verify na ad.

Pagmo-moderate ng mga tao

Ang mga kasamahan mula sa Odnoklassniki ay lumayo pa at sinamantala ang "tulong ng madla": nagsulat sila ng isang application ng laro para sa social network kung saan maaari mong mabilis na markahan ang isang malaking halaga ng data, na nagha-highlight ng ilang masamang palatandaan - Odnoklassniki Moderator (https://ok.ru/app/moderator). Isang mahusay na paraan upang samantalahin ang tulong ng mga gumagamit ng OK na sinusubukang gawing mas kasiya-siya ang nilalaman.

Paano namin pinangangasiwaan ang mga ad
Isang laro kung saan itina-tag ng mga user ang mga larawang may numero ng telepono sa kanila.

Anumang pila ng mga ad sa platform ay maaaring i-redirect sa laro ng Odnoklassniki Moderator. Ang lahat ng minarkahan ng mga user ng laro ay ipapadala sa mga internal na moderator para sa pag-verify. Binibigyang-daan ka ng scheme na ito na i-block ang mga ad kung saan hindi pa nagagawa ang mga filter, at sabay-sabay na lumikha ng mga sample ng pagsasanay.

Pag-iimbak ng mga resulta ng pag-moderate

Isini-save namin ang lahat ng desisyong ginawa sa panahon ng pagmo-moderate upang hindi namin muling iproseso ang mga ad na iyon kung saan nakagawa na kami ng desisyon.

Milyun-milyong mga kumpol ang nilikha araw-araw batay sa mga ad. Sa paglipas ng panahon, ang bawat cluster ay may label na "mabuti" o "masama." Ang bawat bagong ad o ang rebisyon nito, na pumapasok sa isang cluster na may marka, ay awtomatikong nakakatanggap ng isang resolusyon mula sa cluster mismo. Mayroong humigit-kumulang 20 libong tulad ng mga awtomatikong resolusyon bawat araw.

Paano namin pinangangasiwaan ang mga ad

Kung walang dumating na mga bagong anunsyo sa cluster, aalisin ito sa memorya at isusulat ang hash at solusyon nito sa Apache Cassandra.

Kapag nakatanggap ang platform ng bagong ad, susubukan muna nitong maghanap ng katulad na kumpol sa mga nagawa na at kumuha ng solusyon mula rito. Kung walang ganoong kumpol, ang plataporma ay papunta kay Cassandra at doon tumitingin. Nahanap mo na ba? Mahusay, inilalapat ang solusyon sa kumpol at ipinapadala ito kay Yula. Mayroong average na 70 libong ganoong "paulit-ulit" na desisyon araw-arawβ€”8% ng kabuuan.

Lagom

Ginagamit namin ang Odnoklassniki moderation platform sa loob ng dalawa at kalahating taon. Gusto namin ang mga resulta:

  • Awtomatiko kaming nagmo-moderate ng 94% ng lahat ng mga ad bawat araw.
  • Ang halaga ng pagmo-moderate ng isang ad ay nabawasan mula 2 rubles hanggang 7 kopecks.
  • Salamat sa handa na tool, nakalimutan namin ang tungkol sa mga problema sa pamamahala ng mga moderator.
  • Dinagdagan namin ang bilang ng mga manu-manong naprosesong ad nang 2,5 beses na may parehong bilang ng mga moderator at badyet. Ang kalidad ng manu-manong pag-moderate ay tumaas din dahil sa automated na kontrol, at nagbabago sa humigit-kumulang 0,5% ng mga error.
  • Mabilis naming sinasaklaw ang mga bagong uri ng spam na may mga filter.
  • Mabilis naming ikinonekta ang mga bagong departamento sa moderation "Yula Verticals". Mula noong 2017, idinagdag ni Yula ang mga vertical na Real Estate, Bakante at Auto.

Pinagmulan: www.habr.com

Magdagdag ng komento