Jinsi ya kufungua maoni na sio kuzama kwenye barua taka

Jinsi ya kufungua maoni na sio kuzama kwenye barua taka

Wakati kazi yako ni kuunda kitu kizuri, huna kuzungumza sana juu yake, kwa sababu matokeo ni mbele ya macho ya kila mtu. Lakini ikiwa utafuta maandishi kutoka kwa uzio, hakuna mtu atakayeona kazi yako mradi tu ua unaonekana kuwa mzuri au mpaka ufute kitu kibaya.

Huduma yoyote ambapo unaweza kuacha maoni, kukagua, kutuma ujumbe au kupakia picha mapema au baadaye inakabiliwa na tatizo la barua taka, ulaghai na uchafu. Hili haliwezi kuepukika, lakini lazima lishughulikiwe.

Jina langu ni Mikhail, ninafanya kazi kwenye timu ya Antispam, ambayo inalinda watumiaji wa huduma za Yandex kutokana na matatizo hayo. Kazi yetu haionekani mara chache (na hiyo ni jambo zuri!), Kwa hivyo leo nitakuambia zaidi juu yake. Utajifunza wakati kiasi hakina maana na kwa nini usahihi sio kiashiria pekee cha ufanisi wake. Pia tutazungumza juu ya kuapa kwa kutumia mfano wa paka na mbwa na kwa nini wakati mwingine ni muhimu "kufikiria kama mtu anayeapa."

Huduma zaidi na zaidi zinaonekana katika Yandex ambapo watumiaji huchapisha maudhui yao. Unaweza kuuliza swali au kuandika jibu katika Yandex.Q, jadili habari za uwanja katika Yandex.Wilaya, shiriki hali ya trafiki katika mazungumzo kwenye Yandex.Maps. Lakini hadhira ya huduma inapoongezeka, inakuwa ya kuvutia kwa walaghai na watumaji taka. Wanakuja na kujaza maoni: wanatoa pesa rahisi, kutangaza tiba za miujiza na kuahidi faida za kijamii. Kwa sababu ya watumaji taka, watumiaji wengine hupoteza pesa, wakati wengine hupoteza hamu ya kutumia wakati kwenye huduma mbaya iliyojaa barua taka.

Na hii sio shida pekee. Tunajitahidi sio tu kulinda watumiaji dhidi ya walaghai, lakini pia kuunda mazingira ya kufurahisha kwa mawasiliano. Ikiwa watu wanakabiliwa na kuapa na matusi katika maoni, kuna uwezekano wa kuondoka na kamwe kurudi. Hii ina maana kwamba unahitaji pia kuwa na uwezo wa kukabiliana na hili.

Wavuti Safi

Kama kawaida kwetu, maendeleo ya kwanza yalizaliwa katika Utafutaji, katika sehemu inayopambana na barua taka katika matokeo ya utafutaji. Takriban miaka kumi iliyopita, kazi ya kuchuja maudhui ya watu wazima kwa ajili ya utafutaji wa familia na maswali ambayo hayakuhitaji majibu kutoka kwa kategoria ya 18+ ilionekana hapo. Hivi ndivyo kamusi za kwanza zilizochapwa kwa mikono za ponografia na kuapishwa zilionekana, zilijazwa tena na wachambuzi. Kazi kuu ilikuwa kuainisha maombi katika yale ambapo inakubalika kuonyesha maudhui ya watu wazima na ambapo sivyo. Kwa kazi hii, markup ilikusanywa, heuristics ilijengwa, na mifano ilifunzwa. Hivi ndivyo maendeleo ya kwanza ya kuchuja maudhui yasiyotakikana yalivyoonekana.

Baada ya muda, UGC (maudhui yanayotokana na mtumiaji) ilianza kuonekana katika Yandex - ujumbe ambao umeandikwa na watumiaji wenyewe, na Yandex inachapisha tu. Kwa sababu zilizoelezwa hapo juu, ujumbe mwingi haukuweza kuchapishwa bila kuangalia - udhibiti ulihitajika. Kisha wakaamua kuunda huduma ambayo ingetoa ulinzi dhidi ya barua taka na wavamizi kwa bidhaa zote za Yandex UGC na kutumia maendeleo kuchuja maudhui yasiyotakikana katika Utafutaji. Huduma hiyo iliitwa "Mtandao Safi".

Kazi mpya na usaidizi kutoka kwa wasukuma

Mwanzoni, otomatiki rahisi tu ndio iliyotufanyia kazi: huduma zilitutumia maandishi, na tukaendesha kamusi za uchafu, kamusi za ponografia na misemo ya kawaida juu yao - wachambuzi walikusanya kila kitu kwa mikono. Lakini baada ya muda, huduma ilitumiwa katika kuongezeka kwa idadi ya bidhaa za Yandex, na tulipaswa kujifunza kufanya kazi na matatizo mapya.

Mara nyingi, badala ya hakiki, watumiaji huchapisha seti isiyo na maana ya barua, wakijaribu kuongeza mafanikio yao, wakati mwingine wanatangaza kampuni yao katika hakiki za kampuni ya mshindani, na wakati mwingine wanachanganya tu mashirika na kuandika katika hakiki juu ya duka la wanyama: " Samaki aliyepikwa kikamilifu!” Labda siku moja akili ya bandia itajifunza kufahamu kikamilifu maana ya maandishi yoyote, lakini sasa otomatiki wakati mwingine hupambana vibaya zaidi kuliko wanadamu.

Ilionekana wazi kwamba hatuwezi kufanya hivyo bila kuashiria kwa mwongozo, na tukaongeza hatua ya pili kwenye mzunguko wetu-kuituma kwa ukaguzi wa mwongozo na mtu. Maandishi hayo yaliyochapishwa ambayo mainishaji hakuona matatizo yoyote yalijumuishwa hapo. Unaweza kufikiria kwa urahisi ukubwa wa kazi kama hiyo, kwa hivyo hatukutegemea tu watathmini, lakini pia tulichukua fursa ya "hekima ya umati," ambayo ni, tuligeukia kwa wachunguzi kwa msaada. Ndio wanaotusaidia kutambua kile mashine ilikosa, na kwa hivyo kuifundisha.

Uakibishaji mahiri na hashing ya LSH

Tatizo lingine tulilokumbana nalo wakati wa kufanya kazi na maoni lilikuwa barua taka, au kwa usahihi zaidi, kiasi chake na kasi ya kuenea. Wakati watazamaji wa Yandex.Region walianza kukua kwa kasi, spammers walikuja huko. Walijifunza kukwepa misemo ya kawaida kwa kubadilisha maandishi kidogo. Spam, bila shaka, bado ilipatikana na kufutwa, lakini kwa kiwango cha Yandex, ujumbe usiokubalika uliotumwa hata kwa dakika 5 unaweza kuonekana na mamia ya watu.

Jinsi ya kufungua maoni na sio kuzama kwenye barua taka

Kwa kweli, hii haikutufaa, na tulifanya uakibishaji wa maandishi mahiri kulingana na LSH (hashing inayogusa eneo) Inafanya kazi kama hii: tulirekebisha maandishi, tukaondoa viungo kutoka kwayo na kuikata n-gramu (mlolongo wa herufi n). Ifuatayo, heshi za n-gramu zilihesabiwa, na vector ya LSH ya hati ilijengwa kutoka kwao. Jambo ni kwamba maandiko sawa, hata kama yalibadilishwa kidogo, yaligeuka kuwa vectors sawa.

Suluhisho hili lilifanya iwezekane kutumia tena hukumu za waainishaji na waainishi kwa maandishi sawa. Wakati wa shambulio la barua taka, mara tu ujumbe wa kwanza ulipopitisha skanisho na kuingia kwenye kashe na uamuzi wa "spam", ujumbe wote mpya sawa, hata uliorekebishwa, ulipokea uamuzi sawa na ulifutwa moja kwa moja. Baadaye, tulijifunza jinsi ya kuwafunza na kuwafunza upya kiotomatiki waainishaji taka, lakini "hifadhi mahiri" hii ilibaki nasi na bado hutusaidia mara nyingi.

Kiainishi kizuri cha maandishi

Bila kuwa na muda wa kupumzika kutokana na kupigana na barua taka, tuligundua kuwa 95% ya maudhui yetu yanadhibitiwa kwa mikono: waainishaji huguswa tu na ukiukaji, na maandishi mengi ni mazuri. Tunapakia wasafishaji ambao katika kesi 95 kati ya 100 hutoa ukadiriaji "Kila kitu ni sawa". Ilinibidi kufanya kazi isiyo ya kawaida - kutengeneza waainishaji wa yaliyomo, kwa bahati nzuri markup ya kutosha ilikuwa imekusanya wakati huu.

Kiainishi cha kwanza kilionekana kama hii: tunapunguza maandishi (kupunguza maneno kwa fomu yao ya awali), kutupa sehemu zote za hotuba na kutumia "kamusi ya lemmas nzuri" iliyoandaliwa tayari. Ikiwa maneno yote katika maandishi ni "nzuri", basi maandishi yote hayana ukiukwaji wowote. Juu ya huduma tofauti, mbinu hii mara moja ilitoa kutoka kwa 25 hadi 35% automatisering ya markup mwongozo. Bila shaka, mbinu hii haifai: ni rahisi kuchanganya maneno kadhaa yasiyo na hatia na kupata taarifa ya kukera sana, lakini ilituruhusu kufikia haraka kiwango kizuri cha automatisering na ilitupa muda wa kufundisha mifano ngumu zaidi.

Matoleo yanayofuata ya viainishaji vyema vya maandishi tayari yalijumuisha miundo ya mstari, miti ya maamuzi na michanganyiko yake. Ili kuashiria ufidhuli na matusi, kwa mfano, tunajaribu mtandao wa neva wa BERT. Ni muhimu kufahamu maana ya neno katika muktadha na uhusiano kati ya maneno kutoka kwa sentensi tofauti, na BERT hufanya kazi nzuri ya hii. (Kwa njia, wenzake hivi karibuni kutoka Habari aliiambia, jinsi teknolojia inatumiwa kwa kazi isiyo ya kawaida - kutafuta makosa katika vichwa vya habari.) Matokeo yake, iliwezekana automatiska hadi 90% ya mtiririko, kulingana na huduma.

Usahihi, ukamilifu na kasi

Ili kukuza, unahitaji kuelewa ni faida gani huleta baadhi ya waainishaji otomatiki, mabadiliko ndani yao, na ikiwa ubora wa ukaguzi wa mikono unashusha hadhi. Ili kufanya hivyo, tunatumia vipimo vya usahihi na kukumbuka.

Usahihi ni uwiano wa hukumu sahihi kati ya hukumu zote kuhusu maudhui mabaya. juu ya usahihi, wachache chanya chanya. Ikiwa hutazingatia usahihi, basi kwa nadharia unaweza kufuta barua taka zote na uchafu, na pamoja nao nusu ya ujumbe mzuri. Kwa upande mwingine, ikiwa unategemea tu usahihi, basi teknolojia bora itakuwa moja ambayo haipati mtu yeyote kabisa. Kwa hiyo, pia kuna kiashiria cha ukamilifu: sehemu ya maudhui mabaya yaliyotambuliwa kati ya jumla ya kiasi cha maudhui mabaya. Vipimo hivi viwili vinasawazisha kila kimoja.

Ili kupima, tunatoa sampuli za mtiririko mzima unaoingia kwa kila huduma na kutoa sampuli za maudhui kwa wakadiriaji kwa tathmini ya kitaalamu na kulinganisha na suluhu za mashine.

Lakini kuna kiashiria kingine muhimu.

Niliandika hapo juu kwamba ujumbe usiokubalika unaweza kuonekana na mamia ya watu hata kwa dakika 5. Kwa hivyo tunahesabu ni mara ngapi tuliwaonyesha watu maudhui mabaya kabla ya kuyaficha. Hii ni muhimu kwa sababu haitoshi kufanya kazi kwa ufanisi - unahitaji pia kufanya kazi haraka. Na tulipojenga ulinzi dhidi ya kuapishwa, tulihisi kwa ukamilifu.

Antimatism kwa kutumia mfano wa paka na mbwa

Kicheko kidogo cha sauti. Wengine wanaweza kusema kuwa uchafu na matusi sio hatari kama viungo hasidi, na sio kuudhi kama barua taka. Lakini tunajitahidi kudumisha hali nzuri za mawasiliano kwa mamilioni ya watumiaji, na watu hawapendi kurudi mahali ambapo wanatukanwa. Sio bure kwamba marufuku ya kuapishwa na matusi yameandikwa katika sheria za jumuiya nyingi, ikiwa ni pamoja na Habre. Lakini tunaacha.

Kamusi za kuapa haziwezi kukabiliana na utajiri wote wa lugha ya Kirusi. Licha ya ukweli kwamba kuna mizizi minne kuu ya kiapo, kutoka kwao unaweza kufanya idadi isiyo na idadi ya maneno ambayo haiwezi kukamatwa na injini yoyote ya kawaida. Kwa kuongeza, unaweza kuandika sehemu ya neno katika unukuzi, kubadilisha herufi na mchanganyiko sawa, kupanga upya herufi, kuongeza nyota, nk. Wakati mwingine, bila muktadha, kimsingi haiwezekani kuamua kwamba mtumiaji alimaanisha neno la kuapa. Tunaheshimu sheria za Habr, kwa hivyo tutaonyesha hii sio kwa mifano hai, lakini na paka na mbwa.

Jinsi ya kufungua maoni na sio kuzama kwenye barua taka

"Sheria," paka alisema. Lakini tunaelewa kuwa paka alisema neno tofauti ...

Tulianza kufikiria algoriti za "ulinganifu usioeleweka" za kamusi yetu na kuhusu uchakataji nadhifu zaidi: tulitoa unukuzi, nafasi zilizobandishwa na uakifishaji pamoja, tukatafuta ruwaza na tukaandika maneno tofauti ya kawaida juu yake. Njia hii ilileta matokeo, lakini mara nyingi ilipunguza usahihi na haikutoa ukamilifu uliotaka.

Kisha tukaamua "kufikiri kama watu wanaoapa." Tulianza kuanzisha kelele katika data sisi wenyewe: tulipanga upya barua, typos zinazozalishwa, badala ya herufi na tahajia zinazofanana, na kadhalika. Alama ya awali ya hii ilichukuliwa kwa kutumia kamusi za mat kwa kundi kubwa la maandishi. Ukichukua sentensi moja na kuipindisha kwa njia kadhaa, unaishia na sentensi nyingi. Kwa njia hii unaweza kuongeza sampuli ya mafunzo makumi ya nyakati. Kilichosalia ni kutoa mafunzo kwenye bwawa linalotokana na mtindo mzuri zaidi au mdogo ambao ulizingatia muktadha.

Jinsi ya kufungua maoni na sio kuzama kwenye barua taka

Ni mapema sana kuzungumza juu ya uamuzi wa mwisho. Bado tunajaribu mbinu za shida hii, lakini tunaweza kuona kuwa mtandao rahisi wa kielelezo wa tabaka kadhaa huzidi kwa kiasi kikubwa kamusi na injini za kawaida: inawezekana kuongeza usahihi na kukumbuka.

Bila shaka, tunaelewa kuwa daima kutakuwa na njia za kupitisha hata automatisering ya juu zaidi, hasa wakati jambo hilo ni hatari sana: kuandika kwa namna ambayo mashine ya kijinga haitaelewa. Hapa, kama katika vita dhidi ya barua taka, lengo letu sio kuondoa uwezekano wa kuandika kitu chafu; kazi yetu ni kuhakikisha kuwa mchezo haufai mshumaa.

Kufungua fursa ya kushiriki maoni yako, kuwasiliana na kutoa maoni sio ngumu. Ni vigumu zaidi kufikia hali salama, starehe na matibabu ya heshima ya watu. Na bila hii hakutakuwa na maendeleo ya jamii yoyote.

Chanzo: mapenzi.com

Kuongeza maoni