Carane kita moderat iklan

Carane kita moderat iklan

Saben layanan sing pangguna bisa nggawe konten dhewe (UGC - Konten sing digawe pangguna) dipeksa ora mung kanggo ngatasi masalah bisnis, nanging uga supaya bisa diatur ing UGC. Moderasi konten sing ora apik utawa berkualitas rendah bisa nyuda daya tarik layanan kasebut kanggo pangguna, malah mungkasi operasi.

Dina iki kita bakal pitutur marang kowe bab sinergi antarane Yula lan Odnoklassniki, kang mbantu kita èfèktif Moderate iklan ing Yula.

Sinergi ing umum minangka bab sing migunani banget, lan ing donya modern, nalika teknologi lan tren diganti kanthi cepet, bisa dadi penyelamat. Napa mbuwang sumber daya lan wektu sing langka kanggo nggawe barang sing wis diciptakake lan dielingake sadurunge sampeyan?

Kita mikir bab sing padha nalika ngadhepi tugas lengkap kanggo ngowahi isi pangguna - gambar, teks lan pranala. Pangguna kita ngunggah mayuta-yuta potongan konten menyang Yula saben dina, lan tanpa proses otomatis, ora bisa moderat kabeh data iki kanthi manual.

Mula, kita nggunakake platform moderasi sing wis siap, sing nalika iku kanca-kanca saka Odnoklassniki wis rampung dadi "meh sampurna."

Kenapa Odnoklassniki?

Saben dina, puluhan yuta pangguna teka ing jaringan sosial lan nerbitake milyaran potongan konten: saka foto nganti video lan teks. Platform moderasi Odnoklassniki mbantu mriksa volume data sing akeh banget lan nglawan spammer lan bot.

Tim moderasi OK wis nglumpukake akeh pengalaman, amarga wis nambah alat sajrone 12 taun. Penting yen dheweke ora mung bisa nuduhake solusi sing wis siap, nanging uga ngatur arsitektur platform sing cocog karo tugas tartamtu.

Carane kita moderat iklan

Wiwit saiki, kanggo ringkesan, kita mung bakal nelpon platform moderasi OK "platform."

Carane kabeh bisa

Exchange data antarane Yula lan Odnoklassniki ditetepake liwat Apache Kafka.

Napa kita milih alat iki:

  • Ing Yula, kabeh pariwara wis dimoderasi, mula mulane tanggapan sing sinkron ora dibutuhake.
  • Yen ana paragraf sing ala lan Yula utawa Odnoklassniki ora kasedhiya, kalebu amarga sawetara beban puncak, mula data saka Kafka ora bakal ilang ing endi wae lan bisa diwaca mengko.
  • Platform kasebut wis terintegrasi karo Kafka, mula umume masalah keamanan wis dirampungake.

Carane kita moderat iklan

Kanggo saben iklan sing digawe utawa diowahi dening pangguna ing Yula, JSON karo data digawe, sing diselehake ing Kafka kanggo moderasi sabanjure. Saka Kafka, woro-woro dimuat menyang platform, ing ngendi diadili kanthi otomatis utawa manual. Iklan ala diblokir kanthi alesan, lan sing platform ora nemu pelanggaran ditandhani minangka "apik." Banjur kabeh keputusan dikirim maneh menyang Yula lan ditrapake ing layanan kasebut.

Pungkasane, kanggo Yula, kabeh tumindak prasaja: ngirim iklan menyang platform Odnoklassniki lan entuk resolusi "ok", utawa kenapa ora "ok".

Pangolahan otomatis

Apa sing kedadeyan ing iklan sawise tekan platform? Saben iklan dipΓ©rang dadi sawetara entitas:

  • jeneng,
  • katrangan,
  • foto,
  • kategori lan subkategori iklan sing dipilih pangguna,
  • Ρ†Π΅Π½Π°.

Carane kita moderat iklan

Platform kasebut banjur nindakake clustering kanggo saben entitas kanggo nemokake duplikat. Kajaba iku, teks lan foto dikelompokake miturut skema sing beda-beda.

Sadurunge kluster, teks dinormalisasi kanggo mbusak karakter khusus, huruf sing diganti lan sampah liyane. Data sing ditampa dipΓ©rang dadi N-gram, sing saben-saben di-hash. Asil akeh hash unik. Persamaan antarane teks ditemtokake dening ukuran Jaccard antarane rong set asil. Yen podho luwih gedhe tinimbang ambang, teks kasebut digabung dadi siji klompok. Kanggo nyepetake panelusuran kluster sing padha, MinHash lan hashing sensitif Locality digunakake.

Macem-macem pilihan kanggo gluing gambar wis diciptakake kanggo foto, saka mbandhingake gambar pHash kanggo nggoleki duplikat nggunakake jaringan saraf.

Cara pungkasan sing paling "parah". Kanggo nglatih model kasebut, triplet gambar (N, A, P) dipilih sing N ora padha karo A, lan P padha karo A (minangka semi-duplikat). Banjur jaringan saraf sinau kanggo nggawe A lan P sabisa, lan A lan N sabisa. Iki nyebabake positip palsu luwih sithik dibandhingake mung njupuk semat saka jaringan sing wis dilatih.

Nalika jaringan syaraf nampa gambar minangka input, ngasilake N (128) -vektor dimensi kanggo saben wong lan panjalukan digawe kanggo netepke jarak saka gambar. Sabanjure, ambang diwilang ing ngendi gambar cedhak dianggep duplikat.

Model kasebut bisa kanthi trampil nemokake spammer sing khusus motret produk sing padha saka sudut sing beda supaya bisa ngliwati perbandingan pHash.

Carane kita moderat iklanCarane kita moderat iklan
Conto foto spam sing digabungake dening jaringan syaraf minangka duplikat.

Ing tahap pungkasan, iklan duplikat digoleki bebarengan kanthi teks lan gambar.

Yen loro utawa luwih pariwara macet bebarengan ing kluster, sistem bakal miwiti pamblokiran otomatis, sing, nggunakake algoritma tartamtu, milih duplikat sing bakal dibusak lan sing bakal ditinggal. Contone, yen pangguna loro duwe foto sing padha ing iklan, sistem bakal mblokir iklan sing luwih anyar.

Sawise digawe, kabeh kluster ngliwati saringan otomatis. Saben Filter menehi skor kanggo kluster: carane kamungkinan iku ngandhut ancaman sing Filter iki ngenali.

Contone, sistem nganalisa deskripsi ing iklan lan milih kategori potensial kanggo iklan kasebut. Banjur njupuk siji kanthi kemungkinan maksimal lan mbandhingake karo kategori sing ditemtokake dening penulis iklan. Yen padha ora cocog, iklan diblokir kanggo kategori salah. Lan amarga kita apikan lan jujur, kita langsung ngandhani pangguna kategori apa sing kudu dipilih supaya iklan bisa ngliwati moderat.

Carane kita moderat iklan
Notifikasi pamblokiran kanggo kategori sing salah.

Machine learning krasa ing omah ing platform kita. Contone, kanthi bantuan, kita nelusuri jeneng lan deskripsi barang sing dilarang ing Federasi Rusia. Lan model jaringan saraf kanthi teliti "nliti" gambar kasebut kanggo ndeleng manawa ngemot URL, teks spam, nomer telpon, lan informasi "dilarang" sing padha.

Kanggo kasus ngendi padha nyoba kanggo ngedol produk dilarang nyamar minangka soko legal, lan ora ana teks ing salah siji judhul utawa gambaran, kita nggunakake tag gambar. Kanggo saben gambar, nganti 11 ewu tag beda bisa ditambahake sing nggambarake apa sing ana ing gambar kasebut.

Carane kita moderat iklan
Dheweke nyoba ngedol hookah kanthi nyamar dadi samovar.

Sejajar karo saringan kompleks, sing prasaja uga bisa, ngrampungake masalah sing ana gandhengane karo teks:

  • antimat;
  • URL lan detektor nomer telpon;
  • nyebutake utusan cepet lan kontak liyane;
  • rega suda;
  • pariwara sing ora ana sing didol, lsp.

Dina iki, saben iklan ngliwati sieve nggoleki luwih saka 50 saringan otomatis sing nyoba nemokake sing ala ing iklan kasebut.

Yen ora ana detektor sing makarya, banjur wangsulan dikirim menyang Yula yen iklan kasebut "paling mungkin" kanthi urutan sing sampurna. Kita nggunakake jawaban iki dhewe, lan pangguna sing wis langganan bakul nampa kabar babagan kasedhiyan produk anyar.

Carane kita moderat iklan
Kabar yen bakul duwe produk anyar.

AkibatΓ©, saben iklan wis "overgrown" karo metadata, sawetara sing digawe nalika iklan digawe (alamat IP penulis, pangguna-agen, platform, geolocation, etc.), lan liyane minangka skor sing ditanggepi dening saben filter. .

Antrian pengumuman

Nalika iklan tekan platform, sistem sijine ing salah siji antrian. Saben antrian digawe nggunakake rumus matematika sing nggabungake metadata iklan kanthi cara sing ndeteksi pola sing ala.

Contone, sampeyan bisa nggawe antrian iklan ing kategori "Telpon Sel" saka pangguna Yula sing mesthine saka St. Petersburg, nanging alamat IP saka Moskow utawa kutha liyane.

Carane kita moderat iklan
Conto pariwara sing dikirim dening siji pangguna ing macem-macem kutha.

Utawa sampeyan bisa nggawe antrian adhedhasar skor sing ditugasake dening jaringan saraf kanggo iklan, ngatur kanthi urutan mudhun.

Saben antrian, miturut rumus dhewe, menehi skor pungkasan kanggo iklan kasebut. Banjur sampeyan bisa nerusake kanthi macem-macem cara:

  • nemtokake ambang ing ngendi iklan bakal nampa jinis pamblokiran tartamtu;
  • ngirim kabeh iklan ing antrian kanggo moderator kanggo review manual;
  • utawa gabungke opsi sadurunge: nemtokake ambang pamblokiran otomatis lan ngirim menyang moderator iklan sing durung tekan ambang iki.

Carane kita moderat iklan

Napa antrian iki dibutuhake? Contone, pangguna ngunggah foto senjata api. Jaringan saraf menehi skor saka 95 nganti 100 lan nemtokake kanthi akurasi 99 persen yen ana senjata ing gambar kasebut. Nanging yen nilai skor ngisor 95%, akurasi model wiwit suda (iki minangka fitur saka model jaringan saraf).

AkibatΓ©, antrian dibentuk adhedhasar model skor, lan iklan sing ditampa antarane 95 lan 100 kanthi otomatis diblokir minangka "Produk sing Dilarang". Iklan kanthi skor ngisor 95 dikirim menyang moderator kanggo proses manual.

Carane kita moderat iklan
Coklat Beretta karo cartridges. Mung kanggo moderasi manual! πŸ™‚

Moderasi manual

Ing wiwitan taun 2019, udakara 94% kabeh pariwara ing Yula dimoderasi kanthi otomatis.

Carane kita moderat iklan

Yen platform ora bisa mutusake sawetara iklan, bakal dikirim kanggo moderasi manual. Odnoklassniki ngembangake alat dhewe: tugas kanggo moderator langsung nampilake kabeh informasi sing dibutuhake kanggo nggawe keputusan kanthi cepet - iklan kasebut cocog utawa kudu diblokir, nuduhake alasane.

Lan supaya kualitas layanan ora nandhang sangsara sajrone moderasi manual, karya wong terus dipantau. Contone, ing aliran tugas, moderator ditampilake "jebakan" -iklan sing wis ana solusi sing wis siap. Yen kaputusan moderator ora cocog karo sing wis rampung, moderator diwenehi kesalahan.

Rata-rata, moderator nglampahi 10 detik kanggo mriksa siji iklan. Kajaba iku, jumlah kesalahan ora luwih saka 0,5% saka kabeh iklan sing wis diverifikasi.

Moderasi wong

Kolega saka Odnoklassniki luwih maju lan njupuk kauntungan saka "bantuan para pamirsa": dheweke nulis aplikasi game kanggo jaringan sosial sing bisa menehi tandha kanthi cepet akeh data, nyorot sawetara tandha ala - Moderator Odnoklassniki (https://ok.ru/app/moderator). Cara sing apik kanggo njupuk kauntungan saka bantuan pangguna OK sing nyoba nggawe konten luwih nyenengake.

Carane kita moderat iklan
Game sing pangguna menehi tag foto sing duwe nomer telpon.

Sembarang antrian iklan ing platform bisa dialihake menyang game Moderator Odnoklassniki. Kabeh sing ditandhani pangguna game banjur dikirim menyang moderator internal kanggo verifikasi. Skema iki ngidini sampeyan mblokir iklan sing saringan durung digawe, lan nggawe conto latihan bebarengan.

Nyimpen asil moderasi

Kita nyimpen kabeh keputusan sing digawe sajrone moderat supaya ora ngolah maneh iklan sing wis digawe keputusan.

Jutaan kluster digawe saben dina adhedhasar iklan. Sajrone wektu, saben kluster diwenehi label "apik" utawa "ala." Saben iklan anyar utawa revisi, ngetik kluster kanthi tandha, kanthi otomatis nampa resolusi saka kluster kasebut. Ana kira-kira 20 ewu resolusi otomatis saben dina.

Carane kita moderat iklan

Yen ora ana woro-woro anyar sing teka ing kluster, bakal dibusak saka memori lan hash lan solusi ditulis menyang Apache Cassandra.

Nalika platform nampa iklan anyar, pisanan nyoba nemokake klompok sing padha ing antarane sing wis digawe lan njupuk solusi saka iku. Yen ora ana kluster kasebut, platform kasebut menyang Cassandra lan katon ing kana. Apa sampeyan nemokake? Apik, aplikasi solusi kanggo kluster lan dikirim menyang Yula. Rata-rata ana 70 ewu keputusan "baleni" saben dina-8% saka total.

Kanggo ngringkes

Kita wis nggunakake platform moderasi Odnoklassniki sajrone rong setengah taun. Kita seneng asil:

  • Kita kanthi otomatis moderat 94% kabeh iklan saben dina.
  • Biaya moderat siji iklan dikurangi saka 2 rubel dadi 7 kopecks.
  • Thanks kanggo alat sing wis siap, kita lali babagan masalah ngatur moderator.
  • Kita nambah jumlah iklan sing diproses kanthi manual kanthi 2,5 kaping kanthi jumlah moderator lan anggaran sing padha. Kualitas moderasi manual uga tambah amarga kontrol otomatis, lan fluktuasi sekitar 0,5% kesalahan.
  • Kita cepet nutupi jinis spam anyar kanthi saringan.
  • Kita cepet nyambung departemen anyar kanggo moderat "Yula Vertikal". Wiwit 2017, Yula nambahake vertikal Real Estate, Lowongan lan Auto.

Source: www.habr.com

Add a comment