Mar a dh'fhosglas tu beachdan agus nach tèid do bhàthadh ann an spam

Mar a dh'fhosglas tu beachdan agus nach tèid do bhàthadh ann an spam

Nuair a tha an obair agad rudeigin brèagha a chruthachadh, cha leig thu leas cus bruidhinn mu dheidhinn, oir tha an toradh ro shùilean a h-uile duine. Ach ma sguabas tu às na sgrìobhaidhean bho fheansaichean, cha mhothaich duine do chuid obrach fhad ‘s a tha na feansaichean a’ coimhead math no gus an cuir thu às do rudeigin ceàrr.

Bidh seirbheis sam bith far am faod thu beachd fhàgail, lèirmheas, teachdaireachd a chuir no dealbhan a luchdachadh suas nas luaithe no nas fhaide air adhart mu choinneimh duilgheadas spama, foill agus drabastachd. Chan urrainnear seo a sheachnadh, ach feumar dèiligeadh ris.

Is e m ’ainm Mikhail, tha mi ag obair air an sgioba Antispam, a tha a’ dìon luchd-cleachdaidh seirbheisean Yandex bho leithid de dhuilgheadasan. Is ann ainneamh a thathas a’ mothachadh don obair againn (agus ’s e rud math a tha sin!), agus mar sin an-diugh innsidh mi barrachd dhut mu dheidhinn. Ionnsaichidh tu nuair a tha modarrachadh gun fheum agus carson nach e cruinneas an aon chomharra air a èifeachdas. Bruidhnidh sinn cuideachd mu mhionnachadh a’ cleachdadh eisimpleir cait is coin agus carson a tha e feumail uaireannan “smaoineachadh mar mhionnadair.”

Tha barrachd is barrachd sheirbheisean a’ nochdadh ann an Yandex far am foillsich luchd-cleachdaidh an susbaint aca. Faodaidh tu ceist fhaighneachd no freagairt a sgrìobhadh ann an Yandex.Q, bruidhinn mu naidheachdan gàrraidh ann an Yandex.District, roinn suidheachaidhean trafaic ann an còmhraidhean air Yandex.Maps. Ach nuair a dh’ fhàsas luchd-èisteachd na seirbheis, bidh e tarraingeach do sgamadairean agus spammers. Bidh iad a 'tighinn agus a' lìonadh bheachdan: bidh iad a 'tabhann airgead furasta, a' sanasachd leigheasan mìorbhaileach agus a 'gealltainn buannachdan sòisealta. Air sgàth spammers, bidh cuid de luchd-cleachdaidh a 'call airgead, agus cuid eile a' call a 'mhiann ùine a chaitheamh air seirbheis neo-ghlan a tha air a dhol thairis le spam.

Agus chan e seo an aon duilgheadas. Bidh sinn a’ strì chan ann a-mhàin gus luchd-cleachdaidh a dhìon bho sgamadairean, ach cuideachd gus faireachdainn comhfhurtail a chruthachadh airson conaltradh. Ma tha daoine an aghaidh mionnachadh agus masladh anns na beachdan, tha coltas ann gum falbh iad agus nach till iad gu bràth. Tha seo a’ ciallachadh gum feum thu cuideachd a bhith comasach air dèiligeadh ri seo.

Lìon glan

Mar a thachras gu tric leinn, rugadh a 'chiad leasachaidhean ann an Rannsachadh, anns a' phàirt a tha a 'strì ri spam ann an toraidhean rannsachaidh. O chionn timcheall air deich bliadhna, nochd an obair a bhith a’ sìoladh susbaint inbheach airson rannsachaidhean teaghlaich agus airson ceistean nach robh feumach air freagairtean bhon roinn 18+ an sin. Seo mar a nochd a’ chiad fhaclairean de porn agus mionnachadh le làimh, chaidh an ath-lìonadh le sgrùdairean. B’ e am prìomh obair iarrtasan a sheòrsachadh a-steach don fheadhainn far a bheil e iomchaidh susbaint inbheach a nochdadh agus far nach eil. Airson na h-obrach seo, chaidh comharrachadh a chruinneachadh, chaidh heuristics a thogail, agus chaidh modalan a thrèanadh. Seo mar a nochd a’ chiad leasachaidhean airson a bhith a’ sìoladh susbaint nach eileas ag iarraidh.

Thar ùine, thòisich UGC (susbaint air a ghineadh leis an neach-cleachdaidh) a’ nochdadh ann an Yandex - teachdaireachdan a tha air an sgrìobhadh le luchd-cleachdaidh fhèin, agus chan eil ach Yandex a’ foillseachadh. Airson na h-adhbharan a chaidh a mhìneachadh gu h-àrd, cha b 'urrainnear mòran teachdaireachdan fhoillseachadh gun a bhith a' coimhead - bha feum air modhan. An uairsin chuir iad romhpa seirbheis a chruthachadh a bheireadh dìon an aghaidh spama agus luchd-ionnsaigh airson a h-uile toradh Yandex UGC agus leasachaidhean a chleachdadh gus susbaint nach eileas ag iarraidh ann an Search a shìoladh. B’ e “Clean Web” an t-ainm a bh’ air an t-seirbheis.

Gnìomhan ùra agus cuideachadh bho luchd-putadh

An toiseach, cha robh ach fèin-ghluasad sìmplidh ag obair dhuinn: chuir na seirbheisean teacsaichean thugainn, agus ruith sinn faclairean drabasta, faclairean porn agus abairtean cunbhalach orra - chuir luchd-anailis a h-uile càil ri chèile le làimh. Ach thar ùine, chaidh an t-seirbheis a chleachdadh ann an àireamh a tha a 'sìor fhàs de stuthan Yandex, agus bha againn ri ionnsachadh a bhith ag obair le duilgheadasan ùra.

Gu math tric, an àite ath-bhreithneachaidh, bidh luchd-cleachdaidh a 'foillseachadh seata litrichean gun bhrìgh, a' feuchainn ris na choilean iad a mheudachadh, uaireannan bidh iad a 'sanasachd a' chompanaidh aca ann an lèirmheasan air companaidh farpaiseach, agus uaireannan bidh iad dìreach a 'cur dragh air buidhnean agus a' sgrìobhadh lèirmheas mu stòr peataichean: " Iasg air a bruich gu foirfe! ” Is dòcha aon latha ionnsaichidh inntleachd fuadain tuigse cheart a thoirt air brìgh teacsa sam bith, ach a-nis bidh fèin-ghluasad uaireannan a’ dèiligeadh nas miosa na daoine.

Dh'fhàs e soilleir nach b 'urrainn dhuinn seo a dhèanamh gun a bhith a' comharrachadh le làimh, agus chuir sinn dàrna ìre ris a 'chuairt againn - ga chuir airson sgrùdadh làimhe le neach. Bha na teacsaichean foillsichte sin far nach robh an seòrsaiche a’ faicinn duilgheadas sam bith air an toirt a-steach an sin. Faodaidh tu gu furasta smaoineachadh air meud a leithid de dh ’obair, agus mar sin chan e a-mhàin gu robh sinn an urra ri luchd-measaidh, ach ghabh sinn brath cuideachd air“ gliocas an t-sluaigh, ”is e sin, thionndaidh sinn chun luchd-coimhid airson cuideachadh. Is iadsan an fheadhainn a chuidicheas sinn ag aithneachadh na bha an inneal ag ionndrainn, agus mar sin ga theagasg.

Smart caching agus LSH hashing

B’ e duilgheadas eile a thachair dhuinn nuair a bha sinn ag obair le beachdan spama, no nas mionaidiche, meud agus astar sgaoileadh. Nuair a thòisich luchd-èisteachd Yandex.Region a 'fàs gu luath, thàinig spammers ann. Dh’ ionnsaich iad a dhol seachad air abairtean cunbhalach le bhith ag atharrachadh an teacsa beagan. Bha spam, gu dearbh, fhathast air a lorg agus air a dhubhadh às, ach air sgèile Yandex, bha na ceudan de dhaoine a 'faicinn teachdaireachd neo-iomchaidh a chaidh a phostadh eadhon airson 5 mionaidean.

Mar a dh'fhosglas tu beachdan agus nach tèid do bhàthadh ann an spam

Gu dearbh, cha robh seo freagarrach dhuinn, agus rinn sinn tasgadh teacsa snasail stèidhichte air LSH (hashing a tha mothachail air sgìre). Bidh e ag obair mar seo: rinn sinn gnàthachadh air an teacsa, thug sinn air falbh ceanglaichean bhuaithe agus gheàrr sinn e ann an n-graman (sreathan de n litrichean). An uairsin, chaidh hashes n-gram a thomhas, agus chaidh vectar LSH den sgrìobhainn a thogail bhuapa. Is e a’ phuing gu bheil teacsaichean coltach ris, eadhon ged a bhiodh iad air an atharrachadh beagan, air an tionndadh gu bhith nan vectaran co-chosmhail.

Rinn am fuasgladh seo e comasach ath-chleachdadh a dhèanamh air co-dhùnaidhean luchd-seòrsachaidh agus luchd-luachaidh airson teacsaichean coltach ris. Rè ionnsaigh spam, cho luath ‘s a chaidh a’ chiad teachdaireachd seachad air an scan agus a chaidh a-steach don tasgadan le co-dhùnadh “spam”, fhuair a h-uile teachdaireachd ùr den aon seòrsa, eadhon feadhainn atharraichte, an aon cho-dhùnadh agus chaidh an toirt às gu fèin-ghluasadach. Nas fhaide air adhart, dh’ ionnsaich sinn mar a nì sinn trèanadh agus ath-thrèanadh gu fèin-ghluasadach air luchd-seòrsachaidh spama, ach dh’ fhuirich an “tasg cliste” seo còmhla rinn agus bidh e fhathast gar cuideachadh.

Seòrsaiche teacsa math

Às aonais ùine a bhith a 'gabhail fois bho bhith a' sabaid spama, thuig sinn gu bheil 95% den t-susbaint againn air a mhodaladh le làimh: chan eil luchd-seòrsachaidh a 'dèiligeadh ach ri brisidhean, agus tha a' mhòr-chuid de na teacsaichean math. Bidh sinn a’ luchdachadh luchd-glanaidh a bheir ann an 95 cùis a-mach à 100 an rangachadh “Tha a h-uile dad ceart gu leòr”. B’ fheudar dhomh obair neo-àbhaisteach a dhèanamh - a’ dèanamh seòrsachadh de shusbaint math, gu fortanach bha comharrachadh gu leòr air cruinneachadh aig an àm seo.

Bha a’ chiad seòrsaiche a’ coimhead mar seo: bidh sinn a’ lemmatize an teacsa (lughdaich sinn na faclan chun chruth tùsail aca), tilg a-mach a h-uile pàirt taiceil den òraid agus cleachdaidh sinn “dictionary of good lemmas” a chaidh ullachadh ro-làimh. Ma tha a h-uile facal san teacsa “math”, chan eil brisidhean sam bith anns an teacsa gu lèir. Air diofar sheirbheisean, thug an dòigh-obrach seo sa bhad bho 25 gu 35% fèin-ghluasad de chomharradh làimhe. Gu dearbh, chan eil an dòigh-obrach seo air leth freagarrach: tha e furasta grunn fhaclan neo-chiontach a chur còmhla agus aithris fìor oilbheumach fhaighinn, ach leig e leinn ìre mhath de fèin-ghluasad a ruighinn gu sgiobalta agus thug e ùine dhuinn modalan nas iom-fhillte a thrèanadh.

Bha na h-ath dhreachan de luchd-seòrsachaidh teacsa math mar-thà a’ toirt a-steach modalan sreathach, craobhan co-dhùnaidh, agus an cothlamadh. Gus mì-mhisneachd agus masladh a chomharrachadh, mar eisimpleir, bidh sinn a’ feuchainn lìonra neural BERT. Tha e cudromach tuigse fhaighinn air brìgh facail ann an co-theacsa agus an ceangal eadar faclan bho sheantansan eadar-dhealaichte, agus tha BERT a’ dèanamh obair mhath le seo. (Co-dhiù, o chionn ghoirid co-obraichean bho Naidheachdan dh ’innis, mar a tha teicneòlas air a chleachdadh airson gnìomh neo-àbhaisteach - a 'lorg mhearachdan ann an cinn.) Mar thoradh air an sin, bha e comasach suas ri 90% den t-sruth a dhèanamh fèin-ghluasadach, a rèir an t-seirbheis.

Cruinneas, iomlanachd agus luaths

Gus leasachadh, feumaidh tu tuigsinn dè na buannachdan a bheir cuid de luchd-seòrsachaidh fèin-ghluasadach, atharrachaidhean annta, agus a bheil càileachd sgrùdaidhean làimhe a ’dol sìos. Gus seo a dhèanamh, bidh sinn a’ cleachdadh slatan-tomhais mionaideachd agus cuimhneachaidh.

Is e cruinneas a’ chuibhreann de bhreitheanas ceart am measg a h-uile breithneachadh mu dhroch shusbaint. Mar as àirde an cruinneas, is ann as lugha de nithean ceàrr. Mura toir thu aire do mhearachd, an uairsin ann an teòiridh faodaidh tu a h-uile spam agus drabasta a dhubhadh às, agus còmhla riutha leth de na teachdaireachdan math. Air an làimh eile, ma tha thu an urra ri cruinneas a-mhàin, is e an teicneòlas as fheàrr an tè nach glac duine idir. Mar sin, tha comharradh iomlanachd ann cuideachd: an roinn de dhroch shusbaint comharraichte am measg an àireamh iomlan de dhroch shusbaint. Bidh an dà mheatair seo a’ cothromachadh a chèile.

Gus tomhas, bidh sinn a’ samplachadh an t-sruth a tha a’ tighinn a-steach gu lèir airson gach seirbheis agus a’ toirt sampallan susbaint do mheasadairean airson measadh eòlach agus coimeas ri fuasglaidhean inneil.

Ach tha comharradh cudromach eile ann.

Sgrìobh mi gu h-àrd gum faic na ceudan de dhaoine teachdaireachd neo-iomchaidh eadhon ann an 5 mionaidean. Mar sin bidh sinn a’ cunntadh cia mheud uair a sheall sinn droch shusbaint do dhaoine mus do chuir sinn am falach e. Tha seo cudromach oir chan eil e gu leòr airson obrachadh gu h-èifeachdach - feumaidh tu cuideachd a bhith ag obair gu luath. Agus nuair a thog sinn dìon an aghaidh mionnachadh, mhothaich sinn e chun na h-ìre as àirde.

Antimatism a 'cleachdadh eisimpleir cait is coin

Cuairt bheag liriceach. Dh’fhaodadh cuid a ràdh nach eil drabastachd agus masladh cho cunnartach ri ceanglaichean droch-rùnach, agus nach eil iad cho neònach ri spam. Ach bidh sinn a 'feuchainn ri suidheachaidhean cofhurtail a chumail airson conaltradh dha na milleanan de luchd-cleachdaidh, agus cha toil le daoine tilleadh gu àiteachan far a bheil iad air an sàrachadh. Chan ann airson dad a tha an casg air mionnachadh agus masladh air a mhìneachadh ann an riaghailtean mòran choimhearsnachdan, Habré nam measg. Ach tha sinn a 'sgaradh.

Chan urrainn dha faclairean mionnachaidh dèiligeadh ris a h-uile beairteas sa chànan Ruiseanach. A dh'aindeoin 's nach eil ann ach ceithir prìomh fhreumhan mionnachaidh, bhuapa faodaidh tu àireamh gun àireamh de dh'fhaclan a chruthachadh nach gabh a ghlacadh le einnseanan àbhaisteach. A bharrachd air an sin, faodaidh tu pàirt de dh'fhacal a sgrìobhadh ann an eadar-theangachadh, cuir an àite litrichean le measgachadh coltach ris, ath-rèiteachadh litrichean, cuir rionnagan ris, msaa. Tha sinn a 'toirt urram do riaghailtean Habr, agus mar sin seallaidh sinn seo chan ann le eisimpleirean beò, ach le cait is coin.

Mar a dh'fhosglas tu beachdan agus nach tèid do bhàthadh ann an spam

" Lagh," ars' an cat. Ach tha sinn a’ tuigsinn gun tuirt an cat facal eile...

Thòisich sinn a’ smaoineachadh air algoirmean “fuzzy match” airson ar faclair agus mu dheidhinn ro-ghiollachd nas buige: thug sinn seachad eadar-theangachadh, cheangail sinn beàrnan agus puingeachadh còmhla, choimhead sinn airson pàtrain agus sgrìobh sinn abairtean cunbhalach fa leth orra. Thug an dòigh-obrach seo toraidhean, ach gu tric lughdaich iad cruinneas agus cha tug e seachad an iomlanachd a bhathas ag iarraidh.

An uairsin chuir sinn romhainn “smaoineachadh mar mhionnadairean.” Thòisich sinn air fuaim a thoirt a-steach don dàta sinn fhìn: chuir sinn ath-eagrachadh air litrichean, chruthaich sinn typos, chuir sinn litrichean coltach ri litreachadh an àite, agus mar sin air adhart. Chaidh a’ chiad chomharra airson seo a dhèanamh le bhith a’ cleachdadh fhaclairean mata air corpora mòra de theacsaichean. Ma ghabhas tu aon seantans agus gun toinne thu e ann an grunn dhòighean, bidh mòran sheantansan agad. San dòigh seo faodaidh tu an sampall trèanaidh àrdachadh deichean thursan. Cha robh air fhàgail ach a bhith a’ trèanadh air an amar a thàinig às a sin cuid de mhodail snasail a thug aire don cho-theacsa.

Mar a dh'fhosglas tu beachdan agus nach tèid do bhàthadh ann an spam

Tha e ro thràth airson bruidhinn mun cho-dhùnadh deireannach. Tha sinn fhathast a 'feuchainn a-mach dòighean-obrach airson an duilgheadas seo, ach chì sinn mar-thà gu bheil lìonra samhlachail iom-fhillte de ghrunn shreathan gu mòr nas fheàrr na faclairean agus einnseanan àbhaisteach: tha e comasach àrdachadh an dà chuid mionaideachd agus cuimhne.

Gu dearbh, tha sinn a 'tuigsinn gum bi dòighean ann an-còmhnaidh a dhol seachad air eadhon an fèin-ghluasad as adhartaiche, gu sònraichte nuair a tha a' chùis cho cunnartach: sgrìobh ann an dòigh nach tuig inneal gòrach. An seo, mar anns an t-sabaid an aghaidh spama, chan e ar n-amas cuir às don chomas a bhith a’ sgrìobhadh rudeigin drabasta; is e ar n-obair dèanamh cinnteach nach fhiach an geama an coinnlear.

Chan eil e doirbh an cothrom do bheachd a cho-roinn, conaltradh agus beachd a thoirt seachad. Tha e tòrr nas duilghe suidheachaidhean sàbhailte, comhfhurtail agus làimhseachadh spèis a thoirt do dhaoine. Agus às aonais seo cha bhi leasachadh air coimhearsnachd sam bith.

Source: www.habr.com

Cuir beachd ann