Ahoana ny fomba hanokafana fanehoan-kevitra ary tsy ho rendrika amin'ny spam

Ahoana ny fomba hanokafana fanehoan-kevitra ary tsy ho rendrika amin'ny spam

Rehefa mamorona zavatra tsara tarehy ny asanao dia tsy mila miresaka be loatra momba izany ianao, satria eo imason'ny rehetra ny vokatra. Fa raha mamafa soratra amin'ny fefy ianao, dia tsy hisy hahatsikaritra ny asanao raha toa ka mendrika ny fefy na mandra-pamafanao zavatra tsy mety.

Ny serivisy rehetra ahafahanao mametraka fanehoan-kevitra, mamerina, mandefa hafatra na mampakatra sary na ho ela na ho haingana dia miatrika ny olan'ny spam, hosoka ary vetaveta. Tsy azo ialana izany fa tsy maintsy karakaraina.

Mikhail no anarako, miasa ao amin'ny ekipa Antispam aho, izay miaro ny mpampiasa ny serivisy Yandex amin'ny olana toy izany. Zara raha tsikaritra ny asantsika (ary tsara izany!), koa anio aho dia hilaza aminao bebe kokoa momba izany. Hianatra ianao rehefa tsy misy ilàna azy ny fahamaotinana ary nahoana no tsy ny fahitsiana ihany no famantarana ny fahombiazany. Hiresaka momba ny fitenenan-dratsy amin’ny fampiasana ny ohatry ny saka sy alika koa isika ary nahoana no ilaina indraindray ny “mihevitra toy ny mpianiana”.

Mitombo hatrany ny serivisy miseho ao amin'ny Yandex izay ahafahan'ny mpampiasa mamoaka ny atiny. Azonao atao ny mametraka fanontaniana na manoratra valiny ao amin'ny Yandex.Q, mifanakalo hevitra momba ny vaovao an-tokotany ao amin'ny Yandex.District, mizara ny toetry ny fifamoivoizana amin'ny resaka ao amin'ny Yandex.Maps. Saingy rehefa mitombo ny mpihaino ny serivisy dia lasa manintona ny mpisoloky sy ny spammers. Tonga izy ireo ary mameno fanehoan-kevitra: manolotra vola mora, manao dokam-barotra fanasitranana mahagaga ary mampanantena tombontsoa ara-tsosialy. Noho ny spammers, ny mpampiasa sasany dia very vola, fa ny hafa kosa very ny faniriana handany fotoana amin'ny serivisy tsy milamina izay feno spam.

Ary tsy io ihany no olana. Miezaka izahay tsy hiaro ny mpampiasa amin'ny mpisoloky, fa koa hamorona rivo-piainana mampiadana ho an'ny fifandraisana. Raha sendra miteny ratsy sy manevateva ny olona ao amin'ny fanehoan-kevitra dia mety hiala izy ireo ary tsy hiverina intsony. Midika izany fa mila mahay miatrika izany koa ianao.

Tranonkala madio

Toy ny mahazatra antsika, ny fivoarana voalohany dia teraka tao amin'ny Fikarohana, amin'ny ampahany miady amin'ny spam amin'ny valin'ny fikarohana. Teo amin'ny folo taona lasa izay, niseho tao ny asa fanivanana votoaty ho an'ny olon-dehibe ho an'ny fikarohana fianakaviana sy ny fanontaniana tsy mila valiny avy amin'ny sokajy 18+. Toy izany no nipoiran'ireo rakibolana voalohany nosoratana tamin'ny tanana misy sary vetaveta sy fitenenan-dratsy, nofenoin'ny mpandinika. Ny tena asa dia ny fanasokajiana ny fangatahana ho amin'ireo izay azo ekena ny fanehoana votoaty ho an'ny olon-dehibe sy ny toerana tsy misy. Ho an'ity asa ity dia nangonina ny marika, natsangana ny heuristika, ary nampiofanina ny modely. Toy izany no nisehoan'ny fivoarana voalohany amin'ny sivana votoaty tsy ilaina.

Rehefa nandeha ny fotoana dia nanomboka niseho tao amin'ny Yandex ny UGC (votoaty novokarin'ny mpampiasa) - hafatra izay nosoratan'ny mpampiasa ny tenany, ary Yandex ihany no mamoaka. Noho ireo antony voalaza etsy ambony dia maro ny hafatra tsy azo navoaka raha tsy mijery - ilaina ny fandrindrana. Avy eo izy ireo dia nanapa-kevitra ny hamorona tolotra hanome fiarovana amin'ny spam sy ny mpanafika ho an'ny vokatra Yandex UGC rehetra ary hampiasa ny fivoarana hanivana votoaty tsy ilaina ao amin'ny Fikarohana. Ny serivisy dia nantsoina hoe "Clean Web".

Asa vaovao sy fanampiana avy amin'ny pushers

Tamin'ny voalohany, automatique tsotra ihany no niasa ho anay: nandefasana lahatsoratra ho anay ny serivisy, ary nandefa rakibolana mamoafady, rakibolana pôrnôgrafia ary fanehoan-kevitra mahazatra momba azy ireo izahay - nanangona ny zava-drehetra tamin'ny tanana ny mpandinika. Saingy rehefa nandeha ny fotoana, ny serivisy dia nampiasaina tamin'ny vokatra Yandex mihamitombo, ary tsy maintsy nianatra niasa tamin'ny olana vaovao izahay.

Matetika, fa tsy famerenana, ny mpampiasa dia mamoaka andian-taratasy tsy misy dikany, miezaka mampitombo ny zava-bitany, indraindray manao dokam-barotra amin'ny orinasan'ny mpifaninana izy ireo, ary indraindray mampisafotofoto fotsiny ny fikambanana ary manoratra amin'ny famerenana momba ny fivarotana biby fiompy: " Trondro masaka tsara!” Angamba indray andro any ny faharanitan-tsaina artifisialy dia hianatra hahatakatra tsara ny dikan'ny lahatsoratra rehetra, fa ankehitriny ny automatique indraindray dia miatrika ratsy kokoa noho ny olombelona.

Nanjary nazava fa tsy afaka manao izany izahay raha tsy misy marika amin’ny tanana, ary nanampy dingana faharoa tamin’ny fizaran-tanynay izahay — nandefa azy hojeren’ny olona iray. Ireo lahatsoratra navoaka izay tsy nahitana olana ny mpanasokajy dia nampidirina tao. Azonao an-tsaina mora foana ny halehiben'ny asa toy izany, ka tsy niantehitra tamin'ny mpandinika fotsiny izahay, fa nanararaotra ny "fahendren'ny vahoaka", izany hoe nitodika tany amin'ny tolokers izahay mba hahazoana fanampiana. Izy ireo no manampy antsika hamantatra ny zavatra tsy hitan'ilay milina, ka mampianatra izany.

Smart caching sy LSH hashing

Olana iray hafa sendra anay rehefa niasa tamin'ny fanehoan-kevitra ny spam, na ny marimarina kokoa, ny habeny sy ny hafainganan'ny fiparitany. Rehefa nanomboka nitombo haingana ny mpihaino Yandex.Region dia tonga tao ny spammers. Nianatra nandika teny tsy tapaka izy ireo tamin'ny fanovana kely ny lahatsoratra. Ny spam, mazava ho azy, dia mbola hita sy voafafa, fa amin'ny haavon'ny Yandex, hafatra tsy azo ekena navoaka na dia nandritra ny 5 minitra aza dia afaka hitan'ny olona an-jatony.

Ahoana ny fomba hanokafana fanehoan-kevitra ary tsy ho rendrika amin'ny spam

Mazava ho azy fa tsy nety taminay izany, ary nanao caching lahatsoratra marani-tsaina izahay mifototra amin'ny LSH (hashing saro-pady eo an-toerana). Toy izao no fiasany: nataontsika ara-dalàna ny lahatsoratra, nesorinay ny rohy teo aminy ary notapatapahanay ho n-gram (fitsipika n litera). Avy eo dia nokajiana ny hash n-grams, ary avy amin'izy ireo no nanamboarana ny vector LSH an'ny antontan-taratasy. Ny zava-misy dia ny lahatsoratra mitovitovy, na dia niova kely aza, dia nivadika ho vectors mitovy.

Io vahaolana io dia nahafahana nampiasa indray ny didim-pitsaran'ny mpanasokajy sy mpizara ho an'ny lahatsoratra mitovy. Nandritra ny fanafihana spam, raha vao nandalo ny scan ny hafatra voalohany ary niditra tao amin'ny cache miaraka amin'ny didim-pitsarana "spam", ireo hafatra vaovao mitovy amin'izany, eny fa na dia ireo novaina aza, dia nahazo didim-pitsarana mitovy ary voafafa ho azy. Taty aoriana dia nianatra nanofana sy namerina ho azy ireo mpanasokajy spam izahay, saingy nijanona tao aminay ity “cache marani-tsaina” ity ary mbola manampy anay foana.

Fanasokajiana lahatsoratra tsara

Raha tsy manam-potoana hialana sasatra amin'ny ady amin'ny spam, dia tsapanay fa ny 95% amin'ny atiny dia fehezina amin'ny tanana: ny mpanasokajy ihany no mamaly ny fanitsakitsahana, ary ny ankamaroan'ny lahatsoratra dia tsara. Mametraka mpanadio izahay izay amin'ny tranga 95 amin'ny 100 dia manome naoty hoe "Tsy misy dikany ny zava-drehetra". Tsy maintsy nanao asa tsy mahazatra aho - nanao fanasokajiana votoaty tsara, soa ihany fa nisy marika voaangona nandritra io fotoana io.

Toy izao ny fanasokajiana voalohany: ahenanay ny lahatsoratra (ahena ny teny ho amin'ny endriny voalohany), ario ny ampahany rehetra amin'ny kabary ary ampiasao ny "rakibolana lemma tsara" efa voaomana mialoha. Raha "tsara" ny teny rehetra ao amin'ny lahatsoratra, dia tsy misy fandikana ny lahatsoratra manontolo. Amin'ny serivisy samihafa, ity fomba fiasa ity dia nanome avy hatrany ny 25 ka hatramin'ny 35% amin'ny marika manual. Mazava ho azy fa tsy mety io fomba fiasa io: mora ny manambatra teny tsy manan-tsiny maromaro ary mahazo fanambarana tena manafintohina, saingy namela anay hahatratra haingana ny haavon'ny automation izany ary nanome anay fotoana hampiofanana modely sarotra kokoa.

Ny dikan-teny manaraka amin'ny fanasokajiana lahatsoratra tsara dia efa nahitana modely tsipika, hazo fanapahan-kevitra ary fitambaran'izy ireo. Mba hanamarihana ny tsy fahalalam-pomba sy ny fanevatevana, ohatra, dia manandrana ny tambajotra neural BERT izahay. Zava-dehibe ny mahatakatra ny dikan'ny teny iray amin'ny teny manodidina sy ny fifandraisan'ny teny avy amin'ny fehezanteny samihafa, ary ny BERT dia manao asa tsara amin'izany. (Raha ny marina, vao haingana ireo mpiara-miasa amin'ny News nilaza, ny fomba fampiasana ny teknolojia amin'ny asa tsy manara-penitra - fitadiavana lesoka ao amin'ny lohapejy.) Vokatr'izany dia azo natao ny nanao automatique hatramin'ny 90% ny fikorianan'ny rivotra, arakaraka ny serivisy.

Fahamarinana, fahafenoana ary hafainganam-pandeha

Mba hampandrosoana dia mila mahatakatra ny tombontsoa entin'ny mpanasokajy mandeha ho azy sasany ianao, ny fiovan'izy ireo, ary raha manambany ny kalitaon'ny fanamarinana manual. Mba hanaovana izany, dia mampiasa metrika precision sy fahatsiarovana.

Ny fahitsiana dia ny ampahan'ny didim-pitsarana marina amin'ireo didim-pitsarana rehetra momba ny votoaty ratsy. Arakaraka ny avo kokoa ny marina, dia vitsy ny valiny diso. Raha tsy miraharaha ny marina ianao, dia amin'ny teoria dia azonao atao ny mamafa ny spam sy ny fahavetavetana rehetra, ary miaraka amin'izy ireo ny antsasaky ny hafatra tsara. Amin'ny lafiny iray, raha tsy miantehitra afa-tsy amin'ny fahamendrehana ianao, dia ny teknolojia tsara indrindra no tsy mahasarika olona mihitsy. Noho izany, misy ihany koa ny famantarana ny fahafenoana: ny ampahany amin'ny votoaty ratsy fantatra amin'ny fitambaran'ny votoaty ratsy. Ireo metrika roa ireo dia mifandanja.

Mba handrefesana, dia maka santionany ny renirano miditra manontolo ho an'ny serivisy tsirairay izahay ary manome santionany votoaty ho an'ny mpandinika ho an'ny fanombanana manam-pahaizana sy fampitahana amin'ny vahaolana amin'ny milina.

Misy famantarana lehibe iray hafa anefa.

Nosoratako teo ambony fa misy hafatra tsy azo ekena ho hitan'ny olona an-jatony na dia ao anatin'ny 5 minitra aza. Ka isainay hoe impiry izahay no nampiseho votoaty ratsy tamin'ny olona talohan'ny nanafenanay izany. Zava-dehibe izany satria tsy ampy ny miasa amim-pahombiazana - mila miasa haingana koa ianao. Ary rehefa nanangana fiarovana amin'ny fitenenan-dratsy izahay dia nahatsapa izany tanteraka.

Antimatisma mampiasa ohatra ny saka sy alika

Digression tononkira kely. Mety hilaza ny sasany fa tsy mampidi-doza toy ny rohy maloto ny fahavetavetana sy ny fanevatevana, ary tsy mahasosotra toy ny spam. Saingy miezaka izahay mba hitazonana ny toe-javatra mampiadana amin'ny fifandraisana ho an'ny mpampiasa an-tapitrisany, ary tsy tian'ny olona ny miverina any amin'ny toerana misy azy ireo ompa. Tsy inona fa ny fandrarana ny fitenenan-dratsy sy ny fanaratsiana dia voasoritra ao amin'ny fitsipiky ny vondrom-piarahamonina maro, anisan'izany ny Habré. Fa mivily izahay.

Ny diksionera mianiana dia tsy afaka miatrika ny harena rehetra amin'ny teny Rosiana. Na dia eo aza ny zava-misy fa tsy misy afa-tsy efatra fototra fianianana, avy amin'izy ireo dia afaka mamorona teny tsy tambo isaina izay tsy ho azon'ny milina mahazatra. Ankoatra izany, azonao atao ny manoratra ampahany amin'ny teny iray amin'ny fandikana litera, manolo ny litera miaraka amin'ny fitambarana mitovy, mandamina ny litera, manampy asterisk, sns. Indraindray, raha tsy misy contexte, dia tsy azo atao ny mamaritra hoe teny ratsy no tian'ny mpampiasa holazaina. Manaja ny fitsipik'i Habr izahay, ka tsy amin'ny ohatra mivantana no hanehoanay izany, fa amin'ny saka sy alika.

Ahoana ny fomba hanokafana fanehoan-kevitra ary tsy ho rendrika amin'ny spam

“Lalàna”, hoy ilay saka. Fa azontsika fa teny hafa no nolazain'ilay saka...

Nanomboka nieritreritra momba ny algorithm "mampifanaraka tsy misy dikany" ho an'ny rakibolanay izahay sy momba ny fanodinkodinana marani-tsaina kokoa: nanome dika soratra, toerana apetaka ary mari-piatoana miaraka, mitady lamina ary nanoratra fomba fiteny mahazatra misaraka amin'izy ireo. Nitondra vokatra io fomba fiasa io, saingy matetika nampihena ny fahamendrehana ary tsy nanome ny fahafenoana irina.

Nanapa-kevitra ny “hihevitra toy ny mpianiana” izahay avy eo. Nanomboka nampiditra tabataba tao anatin'ny angon-drakitra izahay: namerina nandamina litera, namorona typo, nosoloina litera mitovy tsipelina, sy ny sisa. Ny mari-pamantarana voalohany amin'izany dia nalaina tamin'ny fampiasana rakibolana mat amin'ny vondron-tsoratra lehibe. Raha maka fehezanteny iray ianao ary manodikodina azy amin'ny fomba maro, dia hiafara amin'ny fehezanteny maro ianao. Amin'izany fomba izany dia azonao ampitomboina im-polo ny santionany fanofanana. Ny hany sisa tavela dia ny fanofanana amin'ny dobo vokatr'izany ny modely marani-tsaina kokoa na latsaka kely izay nandinika ny teny manodidina.

Ahoana ny fomba hanokafana fanehoan-kevitra ary tsy ho rendrika amin'ny spam

Mbola aloha loatra ny miresaka momba ny fanapahan-kevitra farany. Mbola manao fanandramana amin'ny fomba hamahana ity olana ity isika, saingy efa hitantsika fa ny tambajotra convolutional an'ohatra tsotra misy sosona maromaro dia mihoatra lavitra noho ny diksionera sy ny maotera mahazatra: azo atao ny mampitombo ny marina sy ny mitadidy.

Mazava ho azy fa takatsika fa hisy foana ny fomba handosirana na dia ny automatique mandroso indrindra aza, indrindra rehefa tena mampidi-doza ny raharaha: manorata amin'ny fomba izay tsy azon'ny milina adala. Eto, toy ny amin'ny ady amin'ny spam, ny tanjonay dia tsy ny hanafoana ny tena fahafahana manoratra zavatra vetaveta, ny andraikitray dia ny hahazoana antoka fa tsy mendrika ny labozia ny lalao.

Ny fanokafana ny fahafahana mizara ny hevitrao, mifandray ary maneho hevitra dia tsy sarotra. Sarotra kokoa ny manatratra ny fepetra azo antoka sy mahazo aina ary ny fanajana ny olona. Ary raha tsy misy izany dia tsy hisy fampandrosoana ny fiaraha-monina.

Source: www.habr.com

Add a comment