Ki jan yo louvri kòmantè epi yo pa jwenn nwaye nan spam

Ki jan yo louvri kòmantè epi yo pa jwenn nwaye nan spam

Lè travay ou se kreye yon bagay bèl, ou pa bezwen pale twòp sou li, paske rezilta a se devan je tout moun. Men, si ou efase enskripsyon nan kloti, pèsonn pa pral remake travay ou osi lontan ke kloti yo gade desan oswa jiskaske ou efase yon bagay ki mal.

Nenpòt sèvis kote ou ka kite yon kòmantè, revize, voye yon mesaj oswa telechaje foto pi bonè oswa pita fè fas a pwoblèm nan nan spam, fwod ak obscenity. Sa a pa ka evite, men li dwe fè fas ak.

Non mwen se Mikhail, mwen travay nan ekip Antispam, ki pwoteje itilizatè yo nan sèvis Yandex kont pwoblèm sa yo. Travay nou an raman remake (e sa se yon bon bagay!), Se konsa, jodi a mwen pral di ou plis sou li. Ou pral aprann lè modération se initil ak poukisa presizyon se pa endikatè a sèlman nan efikasite li yo. Nou pral pale tou sou sèman lè l sèvi avèk egzanp chat ak chen ak poukisa li pafwa itil pou "panse tankou yon sèman."

Plis ak plis sèvis yo parèt nan Yandex kote itilizatè yo pibliye kontni yo. Ou ka poze yon kesyon oswa ekri yon repons nan Yandex.Q, diskite sou nouvèl lakou nan Yandex.District, pataje kondisyon trafik nan konvèsasyon sou Yandex.Maps. Men, lè odyans sèvis la ap grandi, li vin atire SCAMMERS ak spammers. Yo vini epi ranpli kòmantè: yo ofri lajan fasil, fè reklam gerizon mirak ak pwomèt benefis sosyal. Akòz spame, kèk itilizatè pèdi lajan, pandan ke lòt moun pèdi dezi a pase tan nan yon sèvis dezole ki anvayi ak spam.

Lè sa a se pa pwoblèm nan sèlman. Nou fè efò non sèlman pou pwoteje itilizatè yo kont SCAMMERS, men tou pou kreye yon atmosfè konfòtab pou kominikasyon. Si moun yo konfwonte ak sèmante ak joure nan kòmantè yo, yo gen anpil chans pou yo kite epi yo pa janm retounen. Sa vle di ke ou bezwen tou pou kapab fè fas ak sa.

Netwaye Web

Menm jan ak nou souvan, premye devlopman yo te fèt nan Search, nan pati ki batay spam nan rezilta rechèch la. Anviwon dizan de sa, travay la pou filtre kontni adilt pou rechèch fanmi yo ak pou demann ki pa t bezwen repons nan kategori 18+ te parèt la. Sa a se ki jan premye diksyonè yo manyèlman tape nan pònografi ak sèman parèt, yo te ranpli pa analis yo. Travay prensipal la se te klase demann nan sa yo kote li akseptab pou montre kontni adilt ak kote li pa. Pou travay sa a, maketing yo te kolekte, euristik yo te bati, ak modèl yo te fòme. Sa a se ki jan premye devlopman yo pou filtraj kontni vle parèt.

Apre yon sèten tan, UGC (kontni itilizatè a) te kòmanse parèt nan Yandex - mesaj ki ekri pa itilizatè tèt yo, epi Yandex sèlman pibliye. Pou rezon ki dekri pi wo a, anpil mesaj pa t 'kapab pibliye san gade - modération te obligatwa. Lè sa a, yo deside kreye yon sèvis ki ta bay pwoteksyon kont spam ak atakè pou tout pwodwi Yandex UGC epi sèvi ak devlopman yo filtre kontni vle nan Search. Sèvis la te rele "Web Netwaye".

Nouvo travay ak èd nan men moun ki pouse yo

Okòmansman, se sèlman automatisation senp ki te travay pou nou: sèvis yo te voye tèks nou, epi nou te kouri diksyonè obscenity, diksyonè pònografi ak ekspresyon regilye sou yo - analis yo konpile tout bagay manyèlman. Men, apre yon sèten tan, sèvis la te itilize nan yon nimewo ogmante nan pwodwi Yandex, epi nou te gen pou aprann travay ak nouvo pwoblèm.

Souvan, olye pou yo yon revizyon, itilizatè yo pibliye yon seri lèt san sans, ap eseye ogmante reyalizasyon yo, pafwa yo fè piblisite konpayi yo nan revizyon konpayi yon konkiran, epi pafwa yo tou senpleman konfonn òganizasyon yo epi ekri nan yon revizyon sou yon magazen bèt kay: " Pwason byen kwit!” Petèt yon jou entèlijans atifisyèl pral aprann parfe konprann siyifikasyon an nan nenpòt tèks, men kounye a automatisation pafwa fè fas pi mal pase moun.

Li te vin klè ke nou pa t 'kapab fè sa san yo pa make manyèl, epi nou te ajoute yon dezyèm etap nan sikwi nou an-voye li pou enspeksyon manyèl pa yon moun. Tèks ki te pibliye pou klasifikasyon an pa t wè okenn pwoblèm yo te enkli ladan li. Ou ka fasilman imajine echèl yon travay konsa, kidonk nou pa sèlman konte sou evalyatè yo, men tou, nou te pwofite "sajès foul moun yo", se sa ki, nou te tounen vin jwenn tolokers yo pou èd. Se yo menm ki ede nou idantifye sa machin nan rate, epi kidonk anseye li.

Cache entelijan ak hachaj LSH

Yon lòt pwoblèm nou te rankontre lè w ap travay ak kòmantè se spam, oswa plis jisteman, volim li yo ak vitès gaye. Lè odyans Yandex.Region la te kòmanse grandi rapidman, spame yo te vin la. Yo te aprann kontoune ekspresyon regilye yo lè yo chanje tèks la yon ti kras. Spam, nan kou, te toujou jwenn ak efase, men sou echèl la nan Yandex, yon mesaj inakseptab afiche menm pou 5 minit te kapab wè pa dè santèn de moun.

Ki jan yo louvri kòmantè epi yo pa jwenn nwaye nan spam

Natirèlman, sa a pa t 'koresponn ak nou, epi nou te fè kachèt tèks entelijan ki baze sou LSH (lokalite-sansib hashing). Li travay tankou sa a: nou nòmalize tèks la, retire lyen nan li epi koupe li an n-gram (sekans nan n lèt). Apre sa, hashes yo nan n-gram yo te kalkile, ak vektè LSH dokiman an te bati nan yo. Pwen an se ke tèks ki sanble, menm si yo te yon ti kras chanje, tounen vektè menm jan an.

Solisyon sa a te fè li posib pou reitilize vèdik klasifikatè yo ak tolokers pou tèks menm jan an. Pandan yon atak spam, le pli vit ke premye mesaj la te pase eskanè a epi li te antre nan kachèt la ak yon vèdik "spam", tout nouvo mesaj ki sanble, menm sa yo modifye, te resevwa menm vèdik la epi yo te efase otomatikman. Apre sa, nou te aprann kijan pou antrene ak otomatikman antrene klasifikasyon spam, men "kachè entelijan" sa a te rete avèk nou epi li toujou souvan ede nou soti.

Bon klasifikasyon tèks

San yo pa gen tan pran yon ti repo nan batay spam, nou reyalize ke 95% nan kontni nou an se modere manyèlman: klasifikasyon sèlman reyaji a vyolasyon, ak pi fò nan tèks yo bon. Nou chaje pwodui netwayaj ki nan 95 ka sou 100 bay evalyasyon "Tout se OK". Mwen te oblije fè yon travay etranj - fè klasifikasyon nan kontni bon, erezman ase maketing te akimile pandan tan sa a.

Premye klasifikasyon an te sanble ak sa a: nou lematize tèks la (diminye mo yo nan fòm inisyal yo), jete tout pati oksilyè nan diskou epi sèvi ak yon "diksyonè bon lem" ki te prepare davans. Si tout mo ki nan tèks la "bon", lè sa a tout tèks la pa gen okenn vyolasyon. Sou diferan sèvis, apwòch sa a imedyatman te bay soti nan 25 a 35% automatisation nan maketing manyèl. Natirèlman, apwòch sa a pa ideyal: li fasil pou konbine plizyè mo inosan epi jwenn yon deklarasyon trè ofansif, men li pèmèt nou byen vit rive nan yon bon nivo automatisation e li ban nou tan pou nou antrene modèl ki pi konplèks.

Pwochen vèsyon yo nan klasifikasyon bon tèks deja enkli modèl lineyè, pyebwa desizyon, ak konbinezon yo. Pou make malonnèt ak joure, pa egzanp, nou eseye rezo neral BERT la. Li enpòtan pou konprann siyifikasyon yon mo nan yon kontèks ak koneksyon ki genyen ant mo ki soti nan fraz diferan, ak BERT fè yon bon travay nan sa a. (Bon wout la, dènyèman kòlèg Nouvèl yo te di, Ki jan teknoloji yo itilize pou yon travay ki pa estanda - chèche erè nan headers.) Kòm yon rezilta, li te posib otomatize jiska 90% nan koule a, tou depann de sèvis la.

Presizyon, konplè ak vitès

Pou devlope, ou bezwen konprann ki benefis sèten klasifikasyon otomatik yo pote, chanjman nan yo, epi si bon jan kalite a nan chèk manyèl ap degrade. Pou fè sa, nou itilize mezi presizyon ak rapèl.

Presizyon se pwopòsyon de vèdik kòrèk nan mitan tout vèdik sou move kontni. Pi wo presizyon an, mwens fo pozitif. Si ou pa peye atansyon sou presizyon, Lè sa a, nan teyori ou ka efase tout spam ak obscenities, ak ansanm ak yo mwatye nan mesaj yo bon. Nan lòt men an, si ou konte sèlman sou presizyon, Lè sa a, pi bon teknoloji a pral youn nan ki pa trape nenpòt moun ditou. Se poutèt sa, gen tou yon endikatè nan konplè: pataje nan idantifye move kontni nan mitan volim nan total nan kontni move. De paramèt sa yo balanse youn ak lòt.

Pou mezire, nou echantiyon tout kouran k ap rantre pou chak sèvis epi bay evalyatè echantiyon kontni pou evalyasyon ekspè ak konparezon ak solisyon machin.

Men, gen yon lòt endikatè enpòtan.

Mwen te ekri pi wo a ke yon mesaj inakseptab ka wè pa dè santèn de moun menm nan 5 minit. Se konsa, nou konte konbyen fwa nou te montre moun move kontni anvan nou kache li. Sa a enpòtan paske li pa ase pou travay avèk efikasite - ou bezwen tou travay byen vit. Epi lè nou te bati yon defans kont sèman, nou te santi li nan pi plis.

Antimatism lè l sèvi avèk egzanp chat ak chen

Yon ti digression lirik. Gen moun ki ka di ke obscenity ak joure yo pa osi danjere ke lyen move, epi yo pa tankou anmèdan kòm spam. Men, nou fè efò pou kenbe kondisyon konfòtab pou kominikasyon pou dè milyon de itilizatè, epi moun pa renmen retounen nan kote yo joure yo. Se pa pou anyen ke entèdiksyon an sou sèman ak joure se eple nan règ yo nan anpil kominote, ki gen ladan sou Habré. Men, nou digress.

Diksyonè sèman pa ka fè fas ak tout richès nan lang Ris la. Malgre lefèt ke gen sèlman kat rasin sèman prensipal yo, nan men yo ou ka fè moute yon kantite inonbrabl nan mo ki pa ka kenbe pa nenpòt motè regilye. Anplis de sa, ou ka ekri yon pati nan yon mo nan transliterasyon, ranplase lèt ak konbinezon menm jan an, ordonne lèt, ajoute asterisk, elatriye. Pafwa, san kontèks, li se fondamantalman enposib detèmine ke itilizatè a vle di yon mo sèmante. Nou respekte règ Habr yo, kidonk nou pral demontre sa pa ak egzanp vivan, men ak chat ak chen.

Ki jan yo louvri kòmantè epi yo pa jwenn nwaye nan spam

"Lalwa," te di chat la. Men nou konprann chat la te di yon lòt mo...

Nou te kòmanse reflechi sou algorithm "matching flou" pou diksyonè nou an ak sou pwosesis pi entelijan: nou te bay transliterasyon, espas kole ak ponktiyasyon ansanm, nou chèche modèl epi ekri ekspresyon regilye separe sou yo. Apwòch sa a te pote rezilta, men souvan redwi presizyon epi li pa bay konplè a vle.

Apre sa, nou te deside “panse tankou moun k ap fè sèman”. Nou te kòmanse entwodui bri nan done yo tèt nou: nou rearanje lèt, pwodwi erè tip, ranplase lèt ak òtograf ki sanble, ak sou sa. Inisyal maketing pou sa a te pran lè w aplike diksyonè mat nan gwo kòpora tèks yo. Si ou pran yon fraz epi tòde li nan plizyè fason, ou fini ak anpil fraz. Nan fason sa a ou ka ogmante echantiyon fòmasyon an plizyè dizèn fwa. Tout sa ki te rete se te antrene sou pisin nan ki kapab lakòz kèk modèl plis oswa mwens entelijan ki te pran an kont kontèks la.

Ki jan yo louvri kòmantè epi yo pa jwenn nwaye nan spam

Li twò bonè pou nou pale sou desizyon final la. Nou toujou ap fè eksperyans ak apwòch nan pwoblèm sa a, men nou ka deja wè ke yon senp rezo senbolik konvolisyon plizyè kouch siyifikativman depase diksyonè ak motè regilye: li posib ogmante tou de presizyon ak rapèl.

Natirèlman, nou konprann ke pral toujou gen fason yo kontoune menm automatisation ki pi avanse, espesyalman lè pwoblèm nan tèlman danjere: ekri nan yon fason ke yon machin estipid pa pral konprann. Isit la, tankou nan batay kont spam, objektif nou se pa elimine posiblite pou ekri yon bagay obsèn; travay nou se asire w ke jwèt la pa vo chandèl la.

Ouvri opòtinite pou pataje opinyon w, kominike ak kòmantè pa difisil. Li pi difisil pou reyalize kondisyon ki an sekirite, konfòtab ak tretman respè pou moun. E san sa pap gen devlopman okenn kominote.

Sous: www.habr.com

Add nouvo kòmantè