Giunsa ang pag-abli sa mga komento ug dili malumos sa spam

Giunsa ang pag-abli sa mga komento ug dili malumos sa spam

Kung ang imong trabaho mao ang paghimo og usa ka butang nga matahum, dili ka kinahanglan nga maghisgot bahin niini, tungod kay ang sangputanan naa sa atubangan sa tanan. Apan kung imong papason ang mga inskripsiyon gikan sa mga koral, walay makamatikod sa imong trabaho basta ang mga koral tan-awon nga desente o hangtud nga imong mapapas ang usa ka butang nga sayup.

Ang bisan unsang serbisyo diin mahimo ka magbilin usa ka komento, pagrepaso, pagpadala usa ka mensahe o pag-upload sa mga litrato sa madugay o madali nag-atubang sa problema sa spam, pagpanglimbong ug pagkamalaw-ay. Dili kini malikayan, apan kini kinahanglan nga atubangon.

Ang akong ngalan mao si Mikhail, nagtrabaho ko sa grupo sa Antispam, nga nanalipod sa mga tiggamit sa serbisyo sa Yandex gikan sa maong mga problema. Ang among trabaho panagsa ra mamatikdan (ug kana usa ka maayo nga butang!), busa karon isulti ko kanimo ang dugang bahin niini. Mahibal-an nimo kung wala’y kapuslanan ang pagkamakasaranganon ug kung ngano nga ang katukma dili lamang ang timailhan sa pagkaepektibo niini. Maghisgot usab kami bahin sa pagpamalikas gamit ang panig-ingnan sa mga iring ug iro ug ngano nga usahay mapuslanon ang "paghunahuna sama sa usa ka manumpa."

Nagkadaghan ang mga serbisyo nga nagpakita sa Yandex diin gipatik sa mga tiggamit ang ilang sulud. Mahimo kang mangutana o magsulat og tubag sa Yandex.Q, hisguti ang balita sa nataran sa Yandex.District, ipaambit ang mga kondisyon sa trapiko sa mga panag-istoryahanay sa Yandex.Maps. Apan kung ang mamiminaw sa serbisyo motubo, kini mahimong madanihon sa mga scammers ug spammers. Moanhi sila ug pun-on ang mga komentaryo: nagtanyag sila og dali nga salapi, nag-anunsyo sa mga milagro nga tambal ug nagsaad sa sosyal nga mga benepisyo. Tungod sa mga spammer, ang ubang mga tiggamit nawad-an og kwarta, samtang ang uban nawad-an sa tinguha sa paggahin og panahon sa usa ka dili maayo nga serbisyo nga napuno sa spam.

Ug dili lang kini ang problema. Kami naningkamot dili lamang sa pagpanalipod sa mga tiggamit gikan sa mga scammers, apan usab sa paghimo sa usa ka komportable nga atmospera alang sa komunikasyon. Kung ang mga tawo mag-atubang sa pagpamalikas ug pag-insulto sa mga komento, lagmit sila mobiya ug dili na mobalik. Nagpasabot kini nga kinahanglan nimo usab nga makasagubang niini.

Limpyo nga Web

Sama sa kasagaran nga nahitabo kanamo, ang unang mga kalamboan natawo sa Pagpangita, sa bahin nga nakig-away sa spam sa mga resulta sa pagpangita. Mga napulo ka tuig ang milabay, ang tahas sa pagsala sa hamtong nga sulud alang sa pagpangita sa pamilya ug alang sa mga pangutana nga wala magkinahanglan mga tubag gikan sa kategorya nga 18+ nagpakita didto. Ingon niini ang pagpakita sa una nga mano-mano nga gi-type nga mga diksyonaryo sa pornograpiya ug pagpanumpa, kini gipuno sa mga analista. Ang nag-unang tahas mao ang pagklasipikar sa mga hangyo ngadto sa kung diin kini madawat nga ipakita ang hamtong nga sulud ug kung diin kini dili. Alang niini nga buluhaton, gikolekta ang markup, gitukod ang heuristics, ug gibansay ang mga modelo. Ingon niini kung giunsa ang una nga mga pag-uswag alang sa pagsala sa dili gusto nga sulud nagpakita.

Sa paglabay sa panahon, ang UGC (user generated content) nagsugod sa pagpakita sa Yandex - mga mensahe nga gisulat sa mga tiggamit mismo, ug ang Yandex lamang ang nagpatik. Alang sa mga rason nga gihulagway sa ibabaw, daghang mga mensahe ang dili mamantala nga walay pagtan-aw - gikinahanglan ang kasarangan. Dayon nakahukom sila sa paghimo og serbisyo nga maghatag og proteksyon batok sa spam ug mga tig-atake sa tanang produkto sa Yandex UGC ug gamiton ang mga kalamboan aron masala ang dili gusto nga sulod sa Search. Ang serbisyo gitawag nga "Clean Web".

Bag-ong mga buluhaton ug tabang gikan sa mga pusher

Sa sinugdan, yano ra nga automation ang nagtrabaho alang kanamo: ang mga serbisyo nagpadala kanamo mga teksto, ug gipadagan namon ang mga malaw-ay nga diksyonaryo, mga diksyonaryo sa pornograpiya ug mga regular nga ekspresyon sa kanila - gikolekta sa mga analista ang tanan nga mano-mano. Apan sa paglabay sa panahon, ang serbisyo gigamit sa nagkadaghan nga mga produkto sa Yandex, ug kinahanglan namon nga magkat-on sa pagtrabaho sa mga bag-ong problema.

Kasagaran, imbis nga usa ka pagrepaso, ang mga tiggamit nagpatik sa usa ka wala’y kahulogan nga hugpong sa mga sulat, naningkamot nga madugangan ang ilang mga nahimo, usahay gi-anunsyo nila ang ilang kompanya sa mga pagsusi sa kompanya sa usa ka kakompetensya, ug usahay gilibog nila ang mga organisasyon ug nagsulat sa usa ka pagrepaso bahin sa usa ka tindahan sa binuhi: " Perpektong luto nga isda!” Tingali sa umaabot ang artificial intelligence makakat-on sa hingpit nga pagsabot sa kahulogan sa bisan unsang teksto, apan karon ang automation usahay mas grabe pa kay sa mga tawo.

Naklaro nga dili namo mahimo kini nga walay manwal nga pagmarka, ug among gidugangan ang ikaduhang yugto sa among sirkitoβ€”gipadala kini alang sa manual nga pagsusi sa usa ka tawo. Kadtong gipatik nga mga teksto diin ang classifier wala makakita sa bisan unsang mga problema gilakip didto. Dali nimong mahanduraw ang gidak-on sa ingon nga buluhaton, mao nga wala lang kami nagsalig sa mga tig-assess, apan gipahimuslan usab ang "kaalam sa kadaghanan," nga mao, midangop kami sa mga toloker alang sa tabang. Sila ang nagtabang kanamo nga mahibal-an kung unsa ang wala sa makina, ug sa ingon itudlo kini.

Smart caching ug LSH hashing

Ang laing problema nga among nasugatan sa dihang nagtrabaho uban sa mga komento mao ang spam, o mas tukma, ang gidaghanon ug katulin sa pagkaylap niini. Sa diha nga ang Yandex.Region mamiminaw misugod sa pagtubo sa paspas, spammers miabut didto. Nakakat-on sila sa paglaktaw sa regular nga mga ekspresyon pinaagi sa pag-ilis gamay sa teksto. Ang Spam, siyempre, nakit-an gihapon ug gitangtang, apan sa sukod sa Yandex, usa ka dili madawat nga mensahe nga gi-post bisan sa 5 nga mga minuto makita sa gatusan ka mga tawo.

Giunsa ang pag-abli sa mga komento ug dili malumos sa spam

Siyempre, dili kini angay kanamo, ug naghimo kami og smart text caching base sa LSH (hashing nga sensitibo sa lokalidad). Kini molihok sama niini: among gi-normalize ang teksto, gikuha ang mga link gikan niini ug giputol kini sa n-grams (mga han-ay sa n mga letra). Sunod, ang mga hash sa n-grams gikalkulo, ug ang LSH vector sa dokumento gitukod gikan kanila. Ang punto mao nga ang parehas nga mga teksto, bisan kung kini gamay nga nabag-o, nahimo nga parehas nga mga vector.

Kini nga solusyon nagpaposible sa paggamit pag-usab sa mga hukom sa mga tigklasipikar ug mga toloker para sa susamang mga teksto. Atol sa pag-atake sa spam, sa diha nga ang unang mensahe miagi sa pag-scan ug misulod sa cache nga adunay usa ka "spam" nga hukom, ang tanan nga bag-ong susama nga mga mensahe, bisan ang mga giusab, nakadawat sa samang hukom ug awtomatikong natangtang. Sa ulahi, nahibal-an namon kung giunsa ang pagbansay ug awtomatiko nga pagbansay sa mga klasipikasyon sa spam, apan kini nga "smart cache" nagpabilin kanamo ug kanunay nga nagtabang kanamo.

Maayong text classifier

Kung wala’y oras sa pagpahulay gikan sa pagpakig-away sa spam, nahibal-an namon nga ang 95% sa among sulud gi-moderate nga mano-mano: ang mga klasipikasyon nag-react lang sa mga paglapas, ug kadaghanan sa mga teksto maayo. Nag-load kami sa mga tiglimpyo nga sa 95 nga mga kaso sa 100 naghatag sa rating nga "OK ang tanan". Kinahanglan nakong buhaton ang usa ka dili kasagaran nga trabaho - paghimo og mga classifier nga adunay maayo nga sulud, maayo na lang nga igo nga markup ang natipon sa niining panahona.

Ang una nga classifier ingon niini: atong lemmatize ang teksto (pakunhuran ang mga pulong ngadto sa ilang inisyal nga porma), ilabay ang tanang auxiliary nga bahin sa sinultihan ug gamiton ang giandam nang daan nga "diksyonaryo sa maayong lemmas". Kung ang tanan nga mga pulong sa teksto "maayo", nan ang tibuuk nga teksto wala’y bisan unsang mga paglapas. Sa lainlaing mga serbisyo, kini nga pamaagi naghatag dayon gikan sa 25 hangtod 35% nga automation sa manual markup. Siyempre, kini nga pamaagi dili sulundon: dali nga maghiusa sa daghang mga inosenteng pulong ug makakuha usa ka makapasakit nga pahayag, apan gitugotan kami nga dali nga makaabut sa usa ka maayo nga lebel sa automation ug gihatagan kami oras sa pagbansay sa labi ka komplikado nga mga modelo.

Ang sunod nga mga bersyon sa maayo nga mga classifier sa teksto naglakip na sa mga linear nga modelo, mga punoan sa desisyon, ug ang ilang mga kombinasyon. Aron markahan ang kabastusan ug mga insulto, pananglitan, among gisulayan ang BERT neural network. Importante nga masabtan ang kahulogan sa usa ka pulong sa konteksto ug ang koneksyon tali sa mga pulong gikan sa lain-laing mga sentence, ug ang BERT maayo nga trabaho niini. (By the way, bag-o lang mga kauban sa News giingnan, kung giunsa ang teknolohiya gigamit alang sa usa ka dili standard nga buluhaton - pagpangita sa mga sayup sa mga ulohan.) Ingon usa ka sangputanan, posible nga mag-automate hangtod sa 90% sa dagan, depende sa serbisyo.

Ang katukma, pagkakompleto ug katulin

Aron mapalambo, kinahanglan nimong masabtan kung unsa ang mga benepisyo nga gidala sa pipila nga mga awtomatikong klasipikasyon, mga pagbag-o sa kanila, ug kung ang kalidad sa mga manual nga pagsusi makadaot ba. Aron mahimo kini, gigamit namon ang mga sukatan sa katukma ug paghinumdom.

Ang katukma mao ang proporsyon sa husto nga mga hukom taliwala sa tanan nga mga hukom bahin sa dili maayo nga sulud. Kung mas taas ang katukma, mas gamay ang mga sayup nga positibo. Kung dili nimo hatagan ug pagtagad ang katukma, nan sa teorya mahimo nimong papason ang tanan nga spam ug malaw-ay nga mga butang, ug kauban nila ang katunga sa maayong mga mensahe. Sa laing bahin, kung magsalig ka lamang sa katukma, nan ang labing kaayo nga teknolohiya mao ang usa nga dili makadakop bisan kinsa. Busa, adunay usa usab ka timailhan sa pagkakompleto: ang bahin sa giila nga dili maayo nga sulud taliwala sa kinatibuk-ang gidaghanon sa dili maayo nga sulud. Kining duha ka metrics nagbalanse sa usag usa.

Aron masukod, gisampol namo ang tibuok umaabot nga sapa alang sa matag serbisyo ug naghatag ug mga sampol sa sulod ngadto sa mga tig-assess alang sa ekspertong pagtimbang-timbang ug pagtandi sa mga solusyon sa makina.

Apan adunay laing importante nga timailhan.

Gisulat ko sa ibabaw nga ang usa ka dili madawat nga mensahe makita sa gatusan ka mga tawo bisan sa 5 minuto. Mao nga giihap namon kung pila ka beses namon gipakita sa mga tawo ang dili maayo nga sulud sa wala pa namon kini gitago. Importante kini tungod kay dili igo ang pagtrabaho nga episyente - kinahanglan ka usab nga molihok dayon. Ug sa dihang nagtukod mi og depensa batok sa pagpamalikas, gibati namo kini sa hingpit.

Antimatism gamit ang ehemplo sa mga iring ug iro

Usa ka gamay nga lyrical digression. Ang uban tingali moingon nga ang malaw-ay ug insulto dili sama ka delikado sa malisyosong mga link, ug dili sama ka makalagot sa spam. Apan naningkamot kami sa pagpadayon sa komportable nga mga kondisyon alang sa komunikasyon alang sa milyon-milyon nga mga tiggamit, ug ang mga tawo dili gusto nga mobalik sa mga lugar diin sila giinsulto. Dili alang sa bisan unsa nga ang pagdili sa pagpamalikas ug mga insulto gipahayag sa mga lagda sa daghang mga komunidad, lakip ang HabrΓ©. Apan mitalikod kami.

Ang pagpanumpa nga mga diksyonaryo dili makasagubang sa tanang bahandi sa pinulongang Ruso. Bisan pa sa kamatuoran nga adunay upat lamang ka nag-unang mga panumpa, gikan kanila makahimo ka sa usa ka dili maihap nga gidaghanon sa mga pulong nga dili madakpan sa bisan unsa nga regular nga makina. Dugang pa, mahimo nimong isulat ang bahin sa usa ka pulong sa transliterasyon, ilisan ang mga letra nga adunay parehas nga mga kombinasyon, paghan-ay pag-usab sa mga letra, pagdugang mga asterisk, ug uban pa. Usahay, kung wala ang konteksto, imposible nga mahibal-an nga ang tiggamit nagpasabut nga usa ka panumpa nga pulong. Gitahod namo ang mga lagda ni Habr, mao nga among ipakita kini dili sa buhi nga mga ehemplo, apan sa mga iring ug iro.

Giunsa ang pag-abli sa mga komento ug dili malumos sa spam

β€œBalaod,” miingon ang iring. Apan nasabtan namo nga lahi nga pulong ang gisulti sa iring...

Nagsugod kami sa paghunahuna mahitungod sa "fuzzy matching" nga mga algorithm para sa among diksyonaryo ug mahitungod sa mas maalamon nga preprocessing: naghatag kami og transliteration, gipapilit nga mga luna ug mga punctuation nga magkauban, nangita og mga pattern ug nagsulat og bulag nga regular nga mga ekspresyon niini. Kini nga pamaagi nagdala og mga resulta, apan kanunay nga pagkunhod sa katukma ug wala maghatag sa gitinguha nga pagkakompleto.

Dayon mihukom kami nga β€œmaghunahuna sama sa mga tigpamalikas.” Nagsugod kami sa pagpaila sa kasaba sa datos sa among kaugalingon: among gihikay pag-usab ang mga letra, nakamugna og mga typo, giilisan ang mga letra sa parehas nga mga spelling, ug uban pa. Ang inisyal nga markup alang niini gikuha pinaagi sa paggamit sa mga diksyonaryo sa banig sa dagkong corpora sa mga teksto. Kung kuhaon nimo ang usa ka sentence ug i-twist kini sa daghang mga paagi, mahuman nimo ang daghang mga sentence. Niining paagiha mahimo nimong madugangan ang sample sa pagbansay napulo ka beses. Ang nahibilin mao ang pagbansay sa resulta nga pool sa pipila ka mas daghan o dili kaayo maalamon nga modelo nga naghunahuna sa konteksto.

Giunsa ang pag-abli sa mga komento ug dili malumos sa spam

Sayo pa kaayo ang paghisgot bahin sa kataposang desisyon. Nag-eksperimento pa kami sa mga pamaagi sa kini nga problema, apan nakita na namon nga ang usa ka yano nga simbolikong convolutional network sa daghang mga lut-od nga labi ka maayo sa mga diksyonaryo ug regular nga makina: posible nga madugangan ang katukma ug paghinumdom.

Siyempre, nakasabut kami nga adunay kanunay nga mga paagi aron malaktawan bisan ang labing abante nga automation, labi na kung peligro kaayo ang butang: pagsulat sa paagi nga dili masabtan sa usa ka buang nga makina. Dinhi, sama sa pagpakig-away batok sa spam, ang among tumong dili ang pagwagtang sa posibilidad sa pagsulat sa usa ka butang nga malaw-ay; ang among tahas mao ang pagsiguro nga ang dula dili takus sa kandila.

Ang pag-abli sa oportunidad sa pagpaambit sa imong opinyon, pagpakigsulti ug pagkomento dili lisud. Mas lisud ang pagkab-ot sa luwas, komportable nga mga kahimtang ug matinahuron nga pagtratar sa mga tawo. Ug kung wala kini wala’y pag-uswag sa bisan unsang komunidad.

Source: www.habr.com

Idugang sa usa ka comment