Kumaha cara muka koméntar sareng henteu kalelep dina spam

Kumaha cara muka koméntar sareng henteu kalelep dina spam

Nalika tugas anjeun nyiptakeun hal anu éndah, anjeun henteu kedah nyarios seueur teuing ngeunaan éta, sabab hasilna sateuacan panon sadayana. Tapi upami anjeun mupus prasasti tina pager, moal aya anu bakal perhatikeun padamelan anjeun salami pagerna katingali santun atanapi dugi ka anjeun ngahapus anu salah.

Sagala jasa mana anjeun bisa ninggalkeun comment hiji, review, ngirim pesen atawa unggah gambar sooner atanapi engké nyanghareupan masalah spam, panipuan jeung obscenity. Ieu teu bisa dihindari, tapi kudu diurus.

Nami abdi Mikhail, abdi damel di tim Antispam, anu ngajagi pangguna jasa Yandex tina masalah sapertos kitu. Karya urang jarang diperhatoskeun (sareng éta mangrupikeun hal anu saé!), janten dinten ayeuna kuring bakal nyarios langkung seueur ngeunaan éta. Anjeun bakal diajar nalika moderasi henteu aya gunana sareng naha akurasi sanés ngan ukur indikator efektivitasna. Urang ogé bakal ngobrol ngeunaan sumpah ngagunakeun conto ucing jeung anjing jeung naha éta kadang mangpaat pikeun "pikir kawas swearer".

Langkung seueur jasa anu muncul dina Yandex dimana pangguna nyebarkeun eusina. Anjeun tiasa naroskeun patarosan atanapi nyerat jawaban dina Yandex.Q, ngabahas warta halaman di Yandex.District, ngabagi kaayaan lalu lintas dina paguneman dina Yandex.Maps. Tapi nalika panongton jasa urang tumuwuh, janten pikaresepeun pikeun scammers na spammers. Aranjeunna datangna sarta eusian kaluar komentar: aranjeunna nawiskeun duit gampang, Ngaiklan cures mujijat jeung janji kauntungan sosial. Kusabab spammers, sababaraha pamaké leungit duit, sedengkeun nu sejenna leungit kahayang méakkeun waktu dina layanan unkempt overgrown kalawan spam.

Sareng ieu sanés ngan ukur masalah. Urang narékahan teu ngan ngajaga pamaké ti scammers, tapi ogé pikeun nyieun atmosfir nyaman pikeun komunikasi. Lamun jalma anu confronted kalawan swearing sarta hinaan dina komentar, aranjeunna dipikaresep ninggalkeun sarta moal balik. Ieu ngandung harti yén anjeun ogé kudu bisa nungkulan ieu.

Web bersih

Salaku mindeng kasus kalawan kami, kamajuan munggaran dilahirkeun di Search, dina bagian nu gelut spam dina hasil teangan. Sakitar sapuluh taun ka pengker, tugas nyaring eusi dewasa pikeun milarian kulawarga sareng patarosan anu henteu meryogikeun jawaban tina kategori 18+ muncul di dinya. Ieu kumaha mimitina kamus diketik sacara manual ngeunaan porno sareng sumpah, aranjeunna dieusi deui ku analis. Tugas utama nya éta pikeun mengklasifikasikan requests kana pamadegan mana éta bisa ditarima mun némbongkeun eusi sawawa tur dimana éta henteu. Pikeun tugas ieu, markup dikumpulkeun, heuristik diwangun, sareng model dilatih. Ieu kumaha kamajuan munggaran pikeun nyaring eusi anu teu dihoyongkeun muncul.

Kana waktu, UGC (eusi dihasilkeun pamaké) mimiti muncul dina Yandex - pesen nu ditulis ku pamaké sorangan, sarta Yandex ngan publishes. Pikeun alesan anu dijelaskeun di luhur, seueur pesen anu henteu tiasa dipedar tanpa ningali - diperyogikeun moderasi. Teras aranjeunna mutuskeun pikeun nyiptakeun jasa anu bakal masihan panyalindungan ngalawan spam sareng panyerang pikeun sadaya produk Yandex UGC sareng nganggo kamajuan pikeun nyaring eusi anu teu dipikahoyong dina Search. Palayanan éta disebut "Web Bersih".

tugas anyar jeung pitulung ti pushers

Mimitina, ngan ukur otomatisasi saderhana pikeun kami: jasa ngirim téks ka kami, sareng kami ngajalankeun kamus porno, kamus porno sareng ekspresi biasa - analis nyusun sadayana sacara manual. Tapi kana waktosna, jasa éta dianggo dina paningkatan jumlah produk Yandex, sareng urang kedah diajar damel sareng masalah énggal.

Seringna, tinimbang ulasan, pangguna nyebarkeun sakumpulan hurup anu teu aya gunana, nyobian ningkatkeun prestasina, sakapeung aranjeunna ngiklankeun perusahaanna dina ulasan perusahaan pesaing, sareng sakapeung aranjeunna ngan ukur ngabingungkeun organisasi sareng nyerat dina ulasan ngeunaan toko piaraan: " Lauk asak sampurna!” Panginten someday kecerdasan jieunan bakal diajar sampurna nangkep harti téks naon, tapi ayeuna automation kadang copes leuwih goreng ti manusa.

Janten jelas yén kami henteu tiasa ngalakukeun ieu tanpa nyirian manual, sareng kami nambihan tahap kadua ka sirkuit kami-ngirimkeun pikeun pamariksaan manual ku hiji jalma. Téks anu diterbitkeun pikeun anu classifier henteu ningali masalah anu kalebet di dinya. Anjeun tiasa kalayan gampang ngabayangkeun skala tugas sapertos kitu, ku kituna urang henteu ngan ukur ngandelkeun penilai, tapi ogé ngamangpaatkeun "hikmah balaréa", nyaéta, urang tos ka tolokers pikeun pitulung. Aranjeunna mangrupikeun anu ngabantosan urang ngaidentipikasi naon anu lasut ku mesin, sareng ku kituna ngajarkeunana.

Caching pinter sareng hashing LSH

Masalah séjén anu kami hadapi nalika damel sareng koméntar nyaéta spam, atanapi langkung tepatna, volume sareng laju sumebarna. Nalika panongton Yandex.Region mimiti tumuwuh gancang, spammers sumping ka dinya. Aranjeunna diajar jalan jalan éksprési biasa ku rada ngarobah téks. Spam, tangtosna, masih kapanggih jeung dihapus, tapi dina skala Yandex pesen unacceptable dipasang malah keur 5 menit bisa ditempo ku ratusan jalma.

Kumaha cara muka koméntar sareng henteu kalelep dina spam

Tangtosna, ieu henteu cocog sareng kami, sareng kami ngadamel cache téks pinter dumasar kana LSH (hashing sénsitip lokalitas). Gawéna sapertos kieu: urang normalisasi téks, ngaleungitkeun tautan ti dinya sareng motong kana n-gram (runtuyan n hurup). Salajengna, hashes tina n-gram diitung, sareng véktor LSH tina dokumen éta diwangun ti aranjeunna. Intina nyaéta téks anu sami, sanaos rada robih, janten véktor anu sami.

Leyuran ieu ngamungkinkeun ngagunakeun deui vonis of classifiers na tolokers pikeun téks sarupa. Dina mangsa serangan spam, pas pesen kahiji lulus scan sarta diasupkeun kana cache kalayan vonis "spam", sadaya pesen anyar sarupa, sanajan dirobah, narima vonis sarua jeung dihapus otomatis. Engké, urang diajar kumaha carana ngalatih sarta otomatis ngalatih deui classifiers spam, tapi "cache pinter" ieu tetep mibanda kami sarta masih mindeng mantuan kami kaluar.

Klasifikasi téks anu saé

Tanpa gaduh waktos istirahat tina pajoang spam, kami sadar yén 95% eusi kami dimoderasi sacara manual: klasifikasi ngan ukur ngaréaksikeun pelanggaran, sareng seueur téks anu saé. Kami ngamuat tukang bersih anu dina 95 kasus tina 100 masihan rating "Sadayana OK". Kuring kungsi ngalakukeun hiji pakasaban mahiwal - nyieun classifiers tina eusi alus, untungna cukup markup geus akumulasi salila ieu.

Klasifikasi kahiji katingali sapertos kieu: urang lemmatize téks (ngurangan kecap kana bentuk awalna), miceun sadaya bagian bantu ucapan sareng nganggo "kamus lemma anu saé" anu tos disiapkeun. Upami sadaya kecap dina téks "saé", maka sadayana téks henteu ngandung palanggaran. Dina jasa béda, pendekatan ieu langsung masihan ti 25 nepi ka 35% automation markup manual. Tangtosna, pendekatan ieu henteu idéal: éta gampang pikeun ngagabungkeun sababaraha kecap polos sareng nampi pernyataan anu karasa pisan, tapi ngamungkinkeun urang gancang ngahontal tingkat otomatisasi anu hadé sareng masihan urang waktos pikeun ngalatih modél anu langkung rumit.

Versi salajengna tina classifiers téks alus geus kaasup model linier, tangkal kaputusan, sarta kombinasi maranéhanana. Pikeun tanda rudeness jeung hinaan, contona, urang coba jaringan saraf BERT. Kadé nangkep harti kecap dina konteks jeung sambungan antara kecap tina kalimat béda, sarta BERT ngalakukeun pakasaban alus ieu. (Ku jalan kitu, nembe kolega ti News bébéja, Kumaha téhnologi dipaké pikeun tugas non-standar - manggihan kasalahan dina headers.) Hasilna, ieu mungkin pikeun ngajadikeun otomatis nepi ka 90% tina aliran, gumantung kana jasa.

Akurasi, completeness jeung speed

Pikeun ngembangkeun, anjeun kedah ngartos naon kauntungan anu digolongkeun ku klasifikasi otomatis, parobahanana, sareng naha kualitas cek manual ngahinakeun. Jang ngalampahkeun ieu, kami nganggo métrik precision sareng ngelingan.

Akurasi mangrupikeun proporsi putusan anu leres diantara sadaya putusan ngeunaan eusi anu goréng. Nu leuwih luhur akurasi, nu kirang positif palsu. Upami anjeun henteu nengetan katepatan, teras dina téori anjeun tiasa ngahapus sadaya spam sareng kalucuan, sareng sareng aranjeunna satengah tina pesen anu saé. Di sisi anu sanés, upami anjeun ngan ukur ngandelkeun katepatan, maka téknologi anu pangsaéna bakal janten anu henteu nyekel saha waé. Ku alatan éta, aya ogé hiji indikator completeness: pangsa eusi goréng dicirikeun diantara volume total eusi goréng. Dua metrics ieu saimbang silih kaluar.

Pikeun ngukur, urang sampel sakabéh aliran asup pikeun tiap jasa tur masihan sampel eusi ka assessors pikeun evaluasi ahli sarta ngabandingkeun kalayan solusi mesin.

Tapi aya indikator penting séjén.

Kuring nyerat di luhur yén pesen anu teu katampi tiasa ditingali ku ratusan jalma bahkan dina 5 menit. Janten urang ngitung sabaraha kali urang nunjukkeun eusi goréng ka jalma sateuacan urang nyumputkeunana. Ieu penting sabab teu cukup pikeun digawé éfisién - anjeun ogé kudu digawé gancang. Sareng nalika urang ngawangun pertahanan ngalawan sumpah, urang ngarasa pinuh.

Antimatism ngagunakeun conto ucing jeung anjing

A digression liris leutik. Sababaraha bisa disebutkeun yen obscenity sarta hinaan henteu sakumaha bahaya sakumaha Tumbu jahat, sarta teu jadi bangor sakumaha spam. Tapi urang narékahan pikeun ngajaga kaayaan nyaman pikeun komunikasi pikeun jutaan pamaké, sarta jalma teu resep balik ka tempat dimana aranjeunna dihina. Henteu kanggo nanaon yén larangan sumpah sareng hinaan diéja dina aturan seueur komunitas, kalebet dina Habré. Tapi urang digress.

Kamus sumpah teu tiasa ngaraosan sadaya kabeungharan basa Rusia. Najan kanyataan yén aya ngan opat akar sumpah palapa, ti aranjeunna anjeun bisa nyieun sababaraha countless kecap nu teu bisa bray ku mesin biasa. Salaku tambahan, anjeun tiasa nyerat bagian tina kecap dina transliterasi, ngagentos hurup sareng kombinasi anu sami, nyusun ulang hurup, nambihan tanda bintang, jsb. Kadang-kadang, tanpa kontéks, dasarna teu mungkin pikeun nangtukeun yén pangguna hartosna kecap sumpah. Kami hormat aturan Habr, janten kami bakal nunjukkeun ieu sanés ku conto langsung, tapi ku ucing sareng anjing.

Kumaha cara muka koméntar sareng henteu kalelep dina spam

"Hukum," ceuk ucing. Tapi urang ngarti yén ucing nyarios kecap anu béda ...

Urang mimitian mikir ngeunaan "fuzzy cocog" algoritma keur kamus urang jeung ngeunaan preprocessing smarter: kami nyadiakeun transliterasi, spasi glued jeung tanda baca babarengan, pilari pola sarta nulis éksprési biasa misah on aranjeunna. Pendekatan ieu nyababkeun hasil, tapi sering ngirangan akurasi sareng henteu nyayogikeun kasampurnaan anu dipikahoyong.

Teras we mutuskeun pikeun "pikir kawas swearers". Urang mimiti ngawanohkeun noise kana data sorangan: urang nyusun ulang hurup, dihasilkeun typo, ngaganti hurup ku ejaan sarupa, jeung saterusna. Markup awal pikeun ieu dicandak ku nerapkeun kamus mat kana korpora téks anu ageung. Lamun nyokot hiji kalimah jeung pulas eta dina sababaraha cara, anjeun mungkas nepi ka loba kalimat. Ku cara ieu Anjeun bisa ningkatkeun sampel latihan puluhan kali. Sadaya anu tetep nyaéta ngalatih dina kolam renang anu dihasilkeun sababaraha modél anu langkung atanapi kirang pinter anu tumut kana kontéksna.

Kumaha cara muka koméntar sareng henteu kalelep dina spam

Ieu teuing mimiti ngobrol ngeunaan kaputusan final. Kami masih ékspérimén sareng pendekatan kana masalah ieu, tapi urang parantos tiasa ningali yén jaringan konvolusionér simbolis saderhana tina sababaraha lapisan sacara signifikan ngaleuwihan kamus sareng mesin biasa: dimungkinkeun pikeun ningkatkeun akurasi sareng ngelingan.

Tangtosna, urang ngartos yén bakal salawasna aya cara pikeun ngaliwat bahkan automation anu paling canggih, khususna nalika masalahna bahaya pisan: nyerat dina cara anu teu ngartos mesin bodo. Di dieu, sakumaha dina merangan spam, tujuan urang teu ngabasmi kamungkinan pisan nulis hal jorang; tugas urang pikeun mastikeun yén kaulinan teu patut lilin.

Ngabuka kasempetan pikeun ngabagi pendapat anjeun, komunikasi sareng koméntar henteu sesah. Leuwih hese pikeun ngahontal kaayaan aman, nyaman jeung perlakuan hormat jalma. Sareng tanpa ieu moal aya pangwangunan komunitas mana waé.

sumber: www.habr.com

Tambahkeun komentar