Kumaha urang sedeng iklan

Kumaha urang sedeng iklan

Unggal jasa anu pamakéna bisa nyieun eusi sorangan (UGC - pamaké-generate eusi) kapaksa henteu ngan pikeun ngajawab masalah bisnis, tapi ogé pikeun nempatkeun hal dina urutan di UGC. Moderasi eusi anu goréng atanapi kualitas rendah pamustunganana tiasa ngirangan daya tarik jasa pikeun pangguna, bahkan ngeureunkeun operasina.

Dinten ieu kami bakal nyarioskeun ka anjeun ngeunaan sinergi antara Yula sareng Odnoklassniki, anu ngabantosan urang sacara efektif ngamoderasi iklan dina Yula.

Sinergi sacara umum mangrupikeun hal anu mangpaat, sareng di dunya modéren, nalika téknologi sareng tren robih gancang pisan, éta tiasa janten penyelamat. Naha miceunan sumber daya anu langka sareng waktos nyiptakeun hiji hal anu parantos diciptakeun sareng diémutan sateuacan anjeun?

Urang mikir hal anu sarua lamun urang keur Nyanghareupan tugas pinuh ku moderating eusi pamaké - gambar, téks na Tumbu. Pamaké kami unggah jutaan potongan eusi ka Yula unggal dinten, sareng tanpa pamrosésan otomatis mustahil pikeun ngamoderasi sadaya data ieu sacara manual.

Ku alatan éta, kami nganggo platform moderasi anu siap-siap, anu ku waktos éta kolega urang ti Odnoklassniki parantos réngsé dina kaayaan "ampir kasampurnaan."

Naha Odnoklassniki?

Saban poé, puluhan juta pamaké datang ka jaringan sosial sarta nyebarkeun milyaran potongan eusi: ti poto ka video na téks. Platform moderasi Odnoklassniki ngabantosan mariksa volume data anu ageung sareng ngalawan spammers sareng bot.

Tim moderasi OK parantos ngumpulkeun seueur pangalaman, sabab parantos ningkatkeun alatna salami 12 taun. Penting yén aranjeunna henteu ngan ukur tiasa ngabagikeun solusi anu siap-siap, tapi ogé ngarobih arsitéktur platformna pikeun nyocogkeun kana tugas khusus urang.

Kumaha urang sedeng iklan

Ti ayeuna, kanggo singgetan, urang ngan saukur bakal nyauran platform moderasi OK "platform".

Kumaha eta sadayana jalan

Bursa data antara Yula na Odnoklassniki diadegkeun ngaliwatan Apache Kafka.

Naha urang milih alat ieu:

  • Dina Yula, sadaya pariwara dimoderasi, janten mimitina réspon anu sinkron henteu diperyogikeun.
  • Upami aya paragraf anu goréng sareng Yula atanapi Odnoklassniki henteu sayogi, kalebet kusabab sababaraha beban puncak, maka data ti Kafka moal ngaleungit dimana waé sareng tiasa dibaca engké.
  • Platformna parantos terpadu sareng Kafka, janten seueur masalah kaamanan parantos direngsekeun.

Kumaha urang sedeng iklan

Pikeun unggal iklan anu didamel atanapi dirobih ku pangguna dina Yula, JSON sareng data dibangkitkeun, anu disimpen dina Kafka pikeun moderasi salajengna. Ti Kafka, pengumuman dimuat kana platform, dimana aranjeunna diadili sacara otomatis atanapi sacara manual. Iklan goréng diblokir kalayan alesan, sareng anu platformna henteu mendakan pelanggaran ditandaan salaku "saé". Teras sadaya kaputusan dikirim deui ka Yula sareng diterapkeun dina jasa.

Tungtungna, pikeun Yula éta sadayana turun kana tindakan saderhana: ngirim iklan ka platform Odnoklassniki sareng kéngingkeun résolusi "ok", atanapi naha henteu "ok".

Ngolah otomatis

Naon anu kajantenan kana iklan saatos éta pencét platform? Unggal iklan dibagi kana sababaraha éntitas:

  • ngaran,
  • katerangan,
  • poto,
  • kategori sareng subkategori iklan anu dipilih ku pangguna,
  • hargana

Kumaha urang sedeng iklan

Platform teras ngalaksanakeun clustering pikeun unggal éntitas pikeun milarian duplikat. Sumawona, téks sareng poto dikelompokkeun dumasar kana skéma anu béda.

Sateuacan klaster, téks dinormalisasi pikeun ngahapus karakter khusus, hurup anu dirobih sareng sampah sanésna. Data anu ditampi dibagi kana N-gram, anu masing-masing hashed. Hasilna seueur hashes unik. Kasaruaan antara téks ditangtukeun ku ukuran Jaccard urang antara dua set anu dihasilkeun. Upami kamiripan langkung ageung tibatan ambang, teras téks-téks dihijikeun kana hiji klaster. Pikeun nyepetkeun milarian klaster anu sami, MinHash sareng hashing sénsitip Lokalitas dianggo.

Rupa-rupa pilihan pikeun gluing gambar parantos diciptakeun pikeun poto, ti ngabandingkeun gambar pHash dugi ka milarian duplikat nganggo jaringan saraf.

Metodeu anu terakhir nyaéta anu paling "parah". Pikeun ngalatih modél, triplets gambar (N, A, P) dipilih dimana N henteu mirip sareng A, sareng P sami sareng A (nyaéta semi-duplikat). Lajeng jaringan saraf diajar nyieun A jeung P sacaket mungkin, sarta A jeung N sajauh mungkin. Ieu nyababkeun pangsaeutikna positip palsu dibandingkeun ngan ukur nyandak émbeddings tina jaringan anu tos dilatih.

Nalika jaringan neural nampi gambar salaku input, éta ngahasilkeun N (128) -vektor diménsi pikeun tiap sahijina sarta pamundut dijieun pikeun assess deukeutna gambar. Salajengna, a bangbarung diitung di mana gambar nutup dianggap duplikat.

Modél ieu tiasa sacara terampil mendakan spammers anu khusus motret produk anu sami tina sudut anu béda pikeun ngaliwat perbandingan pHash.

Kumaha urang sedeng iklanKumaha urang sedeng iklan
Hiji conto poto spam glued babarengan ku jaringan saraf salaku duplikat.

Dina tahap ahir, iklan duplikat ditéang sakaligus ku téks sareng gambar.

Lamun dua atawa leuwih advertisements nu nyangkut babarengan dina klaster, sistem dimimitian otomatis blocking, nu, ngagunakeun algoritma tangtu, milih duplikat mana nu dihapus jeung nu ninggalkeun. Salaku conto, upami dua pangguna gaduh poto anu sami dina iklan, sistem bakal meungpeuk iklan anu langkung énggal.

Sakali dijieun, sadaya klaster ngaliwatan runtuyan saringan otomatis. Unggal saringan nangtukeun skor ka klaster: sabaraha kamungkinan eta ngandung anceman nu filter ieu ngaidentipikasi.

Salaku conto, sistem nganalisa déskripsi dina iklan sareng milih kategori poténsial pikeun éta. Lajeng nyokot hiji kalawan probabiliti maksimum sarta ngabandingkeun éta kalayan kategori dieusian ku panulis iklan. Upami aranjeunna henteu cocog, iklanna diblokir pikeun kategori anu salah. Sareng saprak kami bageur sareng jujur, kami langsung nyarioskeun ka pangguna kategori mana anu kedah anjeunna pilih supados iklanna lulus moderasi.

Kumaha urang sedeng iklan
Bewara meungpeuk pikeun kategori salah.

Pembelajaran mesin karasaeun di bumi dina platform kami. Salaku conto, kalayan bantosan na urang milarian nami sareng déskripsi barang anu dilarang di Féderasi Rusia. Sareng model jaringan saraf sacara saksama "nalungtik" gambar pikeun ningali naha éta ngandung URL, téks spam, nomer telepon, sareng inpormasi "dilarang" anu sami.

Pikeun kasus dimana aranjeunna nyobian ngajual produk anu dilarang nyamar salaku hal anu sah, sareng henteu aya téks dina judul atanapi pedaran, kami nganggo tag gambar. Pikeun unggal gambar, nepi ka 11 sarébu tag béda bisa ditambahkeun anu ngajelaskeun naon dina gambar.

Kumaha urang sedeng iklan
Aranjeunna nyobian ngajual hookah ku nyamar salaku samovar.

Paralel sareng saringan kompleks, saringan anu saderhana ogé tiasa dianggo, ngarengsekeun masalah anu jelas anu aya hubunganana sareng téks:

  • antimat;
  • URL sareng nomer telepon detektor;
  • nyebatkeun utusan instan sareng kontak anu sanés;
  • ngurangan harga;
  • iklan anu teu aya anu dijual, jsb.

Kiwari, unggal iklan ngaliwatan ayakan rupa leuwih ti 50 saringan otomatis nu nyoba manggihan hal goréng dina iklan.

Upami teu aya detéktor anu damel, teras réspon dikirim ka Yula yén iklanna "paling dipikaresep" dina urutan anu sampurna. Kami nganggo jawaban ieu nyalira, sareng pangguna anu ngalanggan seller nampi béwara ngeunaan kasadiaan produk anyar.

Kumaha urang sedeng iklan
Bewara yen seller boga produk anyar.

Hasilna, unggal iklan téh "overgrown" kalawan metadata, sababaraha nu dihasilkeun nalika iklan dijieun (alamat IP pangarang, pamaké-agén, platform, geolocation, jsb), sarta sésana mangrupa skor dikaluarkeun ku unggal filter. .

Antrian pengumuman

Nalika iklan pencét platform, sistem nempatkeun éta dina salah sahiji antrian. Unggal antrian dijieun maké rumus matematik nu ngagabungkeun metadata ad dina cara nu ngadeteksi sagala pola goréng.

Contona, Anjeun bisa nyieun antrian iklan dina kategori "Telepon sélulér" ti pamaké Yula konon ti St. Petersburg, tapi alamat IP maranéhanana ti Moscow atawa kota lianna.

Kumaha urang sedeng iklan
Conto iklan anu dipasang ku hiji pangguna di kota anu béda.

Atanapi anjeun tiasa ngabentuk antrian dumasar kana skor anu ditugaskeun ku jaringan saraf kana iklan, nyusun aranjeunna dina urutan anu turun.

Unggal antrian, nurutkeun rumus sorangan, nangtukeun skor ahir pikeun iklan. Teras anjeun tiasa neraskeun ku sababaraha cara:

  • nangtukeun bangbarung di mana hiji iklan bakal nampa tipe tangtu blocking;
  • kirimkeun sakabeh Iklan dina antrian ka moderator pikeun review manual;
  • atawa ngagabungkeun pilihan saméméhna: nangtukeun bangbarung blocking otomatis tur ngirim ka moderator Iklan nu teu ngahontal bangbarung ieu.

Kumaha urang sedeng iklan

Naha antrian ieu diperlukeun? Sebutkeun hiji pamaké unggah poto senjata api. Jaringan neural napelkeun éta skor ti 95 nepi ka 100 sarta nangtukeun kalawan 99 akurasi persen nu aya pakarang dina gambar. Tapi lamun nilai skor handap 95%, akurasi model mimiti turun (ieu fitur model jaringan neural).

Hasilna, antrian kabentuk dumasar kana model skor, sarta maranéhanana Iklan nu narima antara 95 jeung 100 otomatis diblokir salaku "Produk Dilarang". Iklan kalayan skor handap 95 dikirim ka moderator pikeun ngolah manual.

Kumaha urang sedeng iklan
Coklat Beretta kalawan cartridges. Ngan pikeun moderation manual! 🙂

Moderasi manual

Dina awal taun 2019, sakitar 94% tina sadaya iklan di Yula sacara otomatis dimoderasi.

Kumaha urang sedeng iklan

Upami platformna henteu tiasa mutuskeun sababaraha iklan, éta ngirimkeunana pikeun moderasi manual. Odnoklassniki ngembangkeun alat sorangan: tugas pikeun moderator geuwat nembongkeun sagala informasi diperlukeun pikeun nyieun kaputusan gancang - iklan cocog atawa kudu diblokir, nunjukkeun alesan.

Sareng supados kualitas palayanan henteu sangsara salami moderasi manual, padamelan masarakat terus diawaskeun. Contona, dina aliran tugas, moderator ditémbongkeun "bubu" -ads nu geus aya solusi siap-dijieun. Lamun kaputusan moderator henteu saluyu jeung putusan réngsé, moderator dibéré kasalahan.

Rata-rata, moderator nyéépkeun 10 detik pikeun mariksa hiji iklan. Sumawona, jumlah kasalahan henteu langkung ti 0,5% tina sadaya iklan anu diverifikasi.

Moderasi jalma

Kolega ti Odnoklassniki langkung jauh sareng ngamangpaatkeun "pitulung panongton": aranjeunna nyerat aplikasi kaulinan pikeun jaringan sosial dimana anjeun tiasa gancang nyirian data anu ageung, nyorot sababaraha tanda anu goréng - Moderator Odnoklassniki (https://ok.ru/app/moderator). Cara anu saé pikeun ngamangpaatkeun bantosan pangguna OK anu nyobian ngajantenkeun kontén langkung pikaresepeun.

Kumaha urang sedeng iklan
Kaulinan dimana pamaké méré tag poto nu boga nomer telepon.

Sakur antrian iklan dina platform tiasa dialihkeun ka kaulinan Moderator Odnoklassniki. Sadayana anu ditandaan ku pangguna kaulinan teras dikirim ka moderator internal pikeun verifikasi. Skéma ieu ngamungkinkeun anjeun pikeun meungpeuk iklan anu saringan henteu acan didamel, sareng sakaligus nyiptakeun conto latihan.

Nyimpen hasil moderation

Urang nyimpen sagala kaputusan dijieun salila moderation ambéh urang teu ulang ngolah eta Iklan nu urang geus nyieun kaputusan.

Jutaan klaster didamel unggal dinten dumasar kana iklan. Kana waktu, unggal klaster dilabélan "alus" atawa "goréng". Unggal iklan anyar atawa révisi na, ngasupkeun klaster kalawan tanda, otomatis narima resolusi ti klaster sorangan. Aya kira-kira 20 rébu résolusi otomatis sapertos per dinten.

Kumaha urang sedeng iklan

Upami teu aya pengumuman énggal anu sumping ka kluster, éta dihapus tina mémori sareng hash sareng solusina diserat ka Apache Cassandra.

Nalika platformna nampi iklan énggal, éta mimitina nyobian milarian klaster anu sami diantara anu parantos didamel sareng nyandak solusi ti éta. Upami teu aya kluster sapertos kitu, platformna angkat ka Cassandra sareng katingali aya. Naha anjeun mendakanana? Hébat, nerapkeun solusi pikeun kluster sareng dikirim ka Yula. Rata-rata aya 70 rébu kaputusan "diulang" unggal dinten-8% tina total.

summing up

Kami parantos nganggo platform moderasi Odnoklassniki salami dua satengah taun. Kami resep hasilna:

  • Urang otomatis moderate 94% sadaya iklan per poé.
  • Biaya moderating hiji iklan diréduksi tina 2 rubles ka 7 kopecks.
  • Hatur nuhun kana alat siap-dijieun, urang poho ngeunaan masalah ngatur moderator.
  • Kami ningkatkeun jumlah iklan anu diolah sacara manual ku 2,5 kali kalayan jumlah moderator sareng anggaran anu sami. Kualitas moderation manual ogé geus ngaronjat alatan kontrol otomatis, sarta fluctuates sabudeureun 0,5% kasalahan.
  • Urang gancang nutupan tipe anyar spam kalawan saringan.
  • Urang gancang nyambungkeun departemén anyar pikeun moderation "Yula vertikal". Kusabab 2017, Yula parantos nambihan Real Estate, Vacancies sareng Auto verticals.

sumber: www.habr.com

Tambahkeun komentar