Yadda ake buɗe tsokaci kuma kada a nutsar da su cikin spam

Yadda ake buɗe tsokaci kuma kada a nutsar da su cikin spam

Lokacin da aikinku shine ƙirƙirar wani abu mai kyau, ba lallai ne ku yi magana da yawa game da shi ba, saboda sakamakon yana gaban idanun kowa. Amma idan kun goge rubuce-rubucen daga shinge, ba wanda zai lura da aikinku muddin shingen ya yi kyau ko har sai kun goge wani abu mara kyau.

Duk wani sabis ɗin da zaku iya barin sharhi, bita, aika sako ko loda hotuna ba dade ko ba jima yana fuskantar matsalar banza, zamba da batsa. Ba za a iya guje wa wannan ba, amma dole ne a magance shi.

Sunana Mikhail, Ina aiki a kan ƙungiyar Antispam, wanda ke kare masu amfani da ayyukan Yandex daga irin waɗannan matsalolin. Ba a lura da aikinmu ba (kuma wannan abu ne mai kyau!), Don haka a yau zan ba ku ƙarin bayani game da shi. Za ku koyi lokacin da daidaitawa ba shi da amfani kuma me yasa daidaito ba shine kawai mai nuna tasirin sa ba. Za mu kuma yi magana game da zagi ta yin amfani da misalin kuliyoyi da karnuka da kuma dalilin da ya sa wani lokaci yana da amfani a “tunanin kamar mai rantsuwa.”

Ƙarin ayyuka suna bayyana a cikin Yandex inda masu amfani ke buga abubuwan su. Kuna iya yin tambaya ko rubuta amsa a cikin Yandex.Q, tattauna labaran yadi a yankin Yandex.District, raba yanayin zirga-zirga a cikin tattaunawa akan Yandex.Maps. Amma lokacin da masu sauraron sabis suka girma, ya zama mai ban sha'awa ga masu zamba da masu zamba. Suna zuwa suna cika sharhi: suna ba da kuɗi mai sauƙi, tallata magungunan mu'ujiza da kuma yin alkawarin fa'idodin zamantakewa. Saboda masu ba da labari, wasu masu amfani sun rasa kuɗi, yayin da wasu suka rasa sha'awar yin amfani da lokaci a kan sabis ɗin da ba shi da kyau wanda ya cika da spam.

Kuma ba wannan ba ne kawai matsalar. Muna ƙoƙari ba kawai don kare masu amfani daga masu zamba ba, har ma don ƙirƙirar yanayi mai dadi don sadarwa. Idan mutane sun fuskanci zagi da zagi a cikin comments, za su iya barin kuma ba za su dawo ba. Wannan yana nufin cewa ku ma kuna buƙatar samun damar magance wannan.

Tsaftace Yanar Gizo

Kamar yadda sau da yawa yakan faru tare da mu, an haifi abubuwan farko a cikin Bincike, a cikin ɓangaren da ke yaki da spam a cikin sakamakon bincike. Kimanin shekaru goma da suka gabata, aikin tace abun ciki na manya don binciken dangi da kuma tambayoyin da basu buƙatar amsoshi daga rukunin 18+ ya bayyana a wurin. Wannan shine yadda ƙamus na batsa da zagi na farko da aka buga da hannu suka bayyana, manazarta sun cika su. Babban aikin shine rarraba buƙatun zuwa waɗanda aka yarda don nuna abun ciki na manya da kuma inda babu. Don wannan aikin, an tattara maƙasudi, an gina ma'auni, kuma an horar da samfura. Wannan shine yadda farkon abubuwan haɓakawa don tace abubuwan da ba'a so suka bayyana.

Bayan lokaci, UGC (abun da aka samar da mai amfani) ya fara bayyana a cikin Yandex - saƙonnin da aka rubuta ta masu amfani da kansu, kuma Yandex kawai ke bugawa. Saboda dalilan da aka bayyana a sama, ba za a iya buga saƙonni da yawa ba tare da dubawa ba - ana buƙatar daidaitawa. Sannan sun yanke shawarar ƙirƙirar sabis ɗin da zai ba da kariya ga spam da maharan ga duk samfuran Yandex UGC da amfani da ci gaba don tace abubuwan da ba'a so a cikin Bincike. An kira sabis ɗin "Clean Web".

Sabbin ayyuka da taimako daga masu turawa

Da farko, kawai sauƙin aiki da kai yayi mana aiki: sabis ɗin sun aiko mana da matani, kuma muna gudanar da ƙamus na batsa, ƙamus na batsa da maganganu na yau da kullun akan su - manazarta sun tattara komai da hannu. Amma bayan lokaci, an yi amfani da sabis ɗin a cikin ƙara yawan samfuran Yandex, kuma dole ne mu koyi yin aiki tare da sababbin matsaloli.

Sau da yawa, maimakon bita, masu amfani suna buga wasiƙun da ba su da ma'ana, suna ƙoƙarin haɓaka nasarorin da suka samu, wani lokacin suna tallata kamfaninsu a cikin bita na kamfanin masu fafatawa, wani lokacin kuma kawai suna rikitar da ƙungiyoyi suna rubuta a cikin bita game da kantin sayar da dabbobi: “ Cikakken dafaffen kifi!” Wataƙila wata rana hankali na wucin gadi zai koyi daidai fahimtar ma'anar kowane rubutu, amma yanzu sarrafa kansa wani lokaci yana fuskantar muni fiye da mutane.

Ya bayyana a sarari cewa ba za mu iya yin hakan ba tare da alamar hannu ba, kuma mun ƙara mataki na biyu zuwa da’irar mu—aike da shi don bincikar da hannu ta mutum. Waɗannan rubutun da aka buga waɗanda mai rarraba bai ga wata matsala ba an haɗa su a wurin. Kuna iya tunanin girman irin wannan aikin a sauƙaƙe, don haka ba kawai dogara ga masu tantancewa ba, amma kuma mun yi amfani da "hikimar taron jama'a," wato, mun juya ga masu ba da shawara don taimako. Su ne suke taimaka mana gano abin da injin ya ɓace, kuma ta haka ne suke koyar da ita.

Smart caching da LSH hashing

Wata matsalar da muka ci karo da ita lokacin aiki tare da sharhi shine spam, ko kuma daidai, ƙarar sa da saurin yadawa. Lokacin da masu sauraron Yandex.Region suka fara girma da sauri, masu ba da labari sun zo wurin. Sun koyi ƙetare furci na yau da kullun ta hanyar ɗan canza rubutu. Spam, ba shakka, har yanzu an samo shi kuma an share shi, amma a kan sikelin Yandex, saƙon da ba a yarda da shi ba wanda aka buga ko da minti 5 yana iya ganin daruruwan mutane.

Yadda ake buɗe tsokaci kuma kada a nutsar da su cikin spam

Tabbas, wannan bai dace da mu ba, kuma mun yi caching na rubutu mai wayo bisa LSH (hashing mai hankali). Yana aiki kamar haka: mun daidaita rubutun, mun cire hanyoyin haɗin kai daga ciki kuma muka yanke shi zuwa n-grams (jerin n haruffa). Bayan haka, an ƙididdige hashes na n-grams, kuma an gina vector na LSH daga gare su. Abin nufi shi ne, irin nassosin, ko da an canza su kaɗan, an juya su zuwa nau'i-nau'i iri ɗaya.

Wannan maganin ya ba da damar sake amfani da hukunce-hukuncen masu rarrabawa da masu ba da labari don rubutu iri ɗaya. A lokacin harin spam, da zarar sakon farko ya wuce binciken kuma ya shigar da cache tare da hukuncin "spam", duk sabbin saƙonni iri ɗaya, har ma waɗanda aka gyara, sun sami hukunci iri ɗaya kuma an share su ta atomatik. Daga baya, mun koyi yadda ake horarwa da kuma sake horar da masu rarraba spam ta atomatik, amma wannan “smart cache” ya kasance tare da mu kuma har yanzu yana taimaka mana.

Kyakkyawan mai rarraba rubutu

Ba tare da samun lokaci don yin hutu daga faɗakar da spam ba, mun gane cewa 95% na abubuwan da ke cikin mu ana daidaita su da hannu: masu rarrabawa kawai suna amsawa ne ga keta, kuma yawancin rubutun suna da kyau. Muna loda masu tsaftacewa waɗanda a cikin lokuta 95 daga cikin 100 suna ba da ƙimar "Komai yana da kyau". Dole ne in yi wani aikin da ba a saba ba - yin ƙira na abun ciki mai kyau, an yi sa'a isassun alamomi sun taru a wannan lokacin.

Na farko mai rarrabawa yayi kama da haka: muna rage rubutun (rage kalmomin zuwa farkon su), jefar da duk wasu sassa na magana kuma muyi amfani da "kamus na kyawawan lemmas" da aka riga aka shirya. Idan duk kalmomin da ke cikin rubutun suna "mai kyau", to, duk rubutun ba ya ƙunshi wani cin zarafi. A kan ayyuka daban-daban, wannan hanyar ta ba da kai tsaye daga kashi 25 zuwa 35% ta atomatik na alamar aikin hannu. Tabbas, wannan hanyar ba ta dace ba: yana da sauƙi don haɗa kalmomi da yawa marasa laifi kuma samun sanarwa mai banƙyama, amma ya ba mu damar hanzarta isa matakin sarrafa kansa da sauri kuma ya ba mu lokaci don horar da ƙarin hadaddun samfura.

Siffofin na gaba na masu rarraba rubutu masu kyau sun riga sun haɗa da ƙirar layi, bishiyar yanke shawara, da haɗuwarsu. Don alamar rashin kunya da zagi, alal misali, muna gwada hanyar sadarwar BERT. Yana da mahimmanci a fahimci ma'anar kalma a cikin mahallin da kuma alaƙa tsakanin kalmomi daga jimloli daban-daban, kuma BERT yayi kyakkyawan aiki akan wannan. (Af, kwanan nan abokan aiki daga News gaya, Yadda ake amfani da fasaha don aikin da ba daidai ba - neman kurakurai a cikin masu kai.) A sakamakon haka, yana yiwuwa a yi aiki da kai har zuwa 90% na kwarara, dangane da sabis.

Daidaito, cikawa da sauri

Don haɓakawa, kuna buƙatar fahimtar menene fa'idodin wasu masu rarrabawa ta atomatik ke kawowa, canje-canje a cikin su, da ko ingancin cak ɗin hannu yana ƙasƙantar da kai. Don yin wannan, muna amfani da madaidaicin ma'auni da tunawa.

Daidaito shine rabon ingantattun hukunce-hukunce tsakanin duk hukunce-hukunce game da abun ciki mara kyau. Mafi girman daidaito, ƙarancin tabbataccen ƙarya. Idan ba ku kula da daidaito ba, to, a cikin ka'idar za ku iya share duk spam da batsa, kuma tare da su rabin saƙo mai kyau. A gefe guda, idan kun dogara kawai akan daidaito, to, fasaha mafi kyau za ta kasance wadda ba ta kama kowa ba. Sabili da haka, akwai kuma alamar cikar: rabon abubuwan da aka gano mara kyau a cikin jimlar ƙarar abun ciki mara kyau. Waɗannan ma'auni guda biyu suna daidaita juna.

Don aunawa, muna gwada duk rafi mai shigowa don kowane sabis kuma muna ba da samfuran abun ciki ga masu tantancewa don kimanta ƙwararru da kwatanta tare da mafita na inji.

Amma akwai wata alama mai mahimmanci.

Na rubuta a sama cewa saƙon da ba a yarda da shi ba zai iya gani da daruruwan mutane ko da a cikin minti 5. Don haka muna ƙidaya sau nawa muka nuna wa mutane munanan abun ciki kafin mu ɓoye. Wannan yana da mahimmanci saboda bai isa ya yi aiki da kyau ba - kuna buƙatar yin aiki da sauri. Kuma a lokacin da muka gina kariya daga zagi, mun ji sosai.

Antimatism ta amfani da misalin kuliyoyi da karnuka

Karamar digression lyrical. Wasu za su iya cewa batsa da zagi ba su da haɗari kamar mahaɗar ƙeta, kuma ba mai ban haushi ba kamar spam. Amma muna ƙoƙarin kiyaye yanayi mai daɗi don sadarwa ga miliyoyin masu amfani, kuma mutane ba sa son komawa wuraren da aka zagi su. Ba don komai ba ne aka bayyana dokar hana zagi da zagi a cikin dokokin al'ummomi da yawa, ciki har da kan Habré. Amma mun digress.

Kamus na rantsuwa ba za su iya jimre wa duk wadatar harshen Rashanci ba. Duk da cewa akwai manyan tushen rantsuwa guda huɗu kawai, daga cikinsu zaku iya ƙirƙirar kalmomi marasa ƙima waɗanda kowane injuna na yau da kullun ba zai iya kama su ba. Bugu da kari, za ka iya rubuta wani sashe na kalma a cikin fassarar, maye gurbin haruffa da irin wannan haduwa, sake tsara haruffa, ƙara asterisks, da dai sauransu. Wani lokaci, ba tare da mahallin, yana da wuya a gane cewa mai amfani yana nufin kalmar rantsuwa. Muna mutunta dokokin Habr, don haka za mu nuna wannan ba tare da misalai masu rai ba, amma tare da kuliyoyi da karnuka.

Yadda ake buɗe tsokaci kuma kada a nutsar da su cikin spam

"Law," in ji cat. Amma mun fahimci cewa cat ya faɗi wata kalma ta daban ...

Mun fara tunani game da algorithms "matching matching" algorithms don ƙamus ɗinmu da kuma game da tsarawa mafi wayo: mun samar da fassarar rubutu, wurare masu manne da rubutu tare, nemo alamu kuma muka rubuta daban-daban maganganu na yau da kullun akan su. Wannan tsarin ya kawo sakamako, amma sau da yawa ya rage daidaito kuma bai samar da cikar da ake so ba.

Sai muka yanke shawara mu “yi tunani kamar masu zagi.” Mun fara gabatar da hayaniya a cikin bayanan da kanmu: mun sake tsara haruffa, ƙirƙirar rubutattun rubutu, musanya haruffa da haruffa iri ɗaya, da sauransu. An ɗauki alamar farko ta wannan ta hanyar amfani da ƙamus na kamus zuwa manyan rubutun. Idan ka ɗauki jumla ɗaya ka karkatar da ita ta hanyoyi da yawa, za ka ƙare da jimloli da yawa. Ta wannan hanyar za ku iya ƙara samfurin horo sau goma. Duk abin da ya rage shi ne horar da kan tafkin da aka samu wasu samfura ko žasa da suka yi la'akari da mahallin.

Yadda ake buɗe tsokaci kuma kada a nutsar da su cikin spam

Ya yi wuri a yi magana game da shawarar ƙarshe. Har yanzu muna gwaji tare da hanyoyin magance wannan matsala, amma mun riga mun ga cewa hanyar sadarwa mai sauƙi ta jujjuyawar juzu'i da yawa ta fi ƙarfin ƙamus da injuna na yau da kullun: yana yiwuwa a ƙara daidaito da tunawa.

Tabbas, mun fahimci cewa koyaushe za a sami hanyoyin ƙetare ko da na'ura mai haɓakawa, musamman lokacin da al'amarin ya kasance mai haɗari: rubuta ta hanyar da injin wawa ba zai fahimta ba. Anan, kamar yadda yake a cikin yaƙi da spam, manufarmu ba shine mu kawar da yiwuwar rubuta wani abu na batsa ba; aikinmu shine tabbatar da cewa wasan bai cancanci kyandir ba.

Bude damar raba ra'ayin ku, sadarwa da sharhi ba shi da wahala. Yana da matukar wahala a sami yanayi mai aminci, jin daɗi da kulawa da mutunta mutane. Kuma idan babu wannan ba za a sami ci gaban kowace al'umma ba.

source: www.habr.com

Add a comment