Meriv çawa şîroveyan vedike û di spam de xeniqîne

Meriv çawa şîroveyan vedike û di spam de xeniqîne

Dema ku karê we afirandina tiştekî bedew e, hûn ne hewce ne ku zêde li ser wê biaxivin, ji ber ku encam li ber çavên her kesî ye. Lê heke hûn nivîsên ji têlan paqij bikin, heya ku têl xweş xuya dikin an jî heya ku hûn tiştek xelet jê nekin, kes guh nade karê we.

Her karûbarek ku hûn dikarin şîroveyek bihêlin, binirxînin, peyamek bişînin an wêneyan dakêşin zû an dereng bi pirsgirêka spam, xapandin û bêaqiliyê re rû bi rû dimîne. Ji vê yekê nayê dûrxistin, lê divê were çareser kirin.

Navê min Mikhail e, ez li ser tîmê Antispam dixebitim, ku bikarhênerên karûbarên Yandex ji pirsgirêkên weha diparêze. Karê me kêm kêm tê dîtin (û ev tiştek baş e!), Ji ber vê yekê îro ez ê ji we re bêtir li ser wê bibêjim. Hûn ê fêr bibin kengê nermbûn bêkêr e û çima rastbûn ne tenê nîşana bandora wê ye. Em ê li ser sondxwarinê jî bi mînaka pisîk û kûçikan bipeyivin û çima carinan kêrhatî ye ku "wek sondxwaran bifikirin".

Zêdetir û bêtir karûbar di Yandex de xuya dibin ku bikarhêner naveroka xwe diweşînin. Hûn dikarin li Yandex.Q pirsek bipirsin an bersivek binivîsin, li Yandex.District nûçeyên hewşê nîqaş bikin, di danûstandinên li ser Yandex.Maps de şert û mercên trafîkê parve bikin. Lê gava ku temaşevanên karûbarê mezin dibin, ew ji xapînok û spammeran re balkêş dibe. Ew têne û şîroveyan tijî dikin: ew dravê hêsan pêşkêş dikin, reklamên dermanên mûcîze dikin û soz didin berjewendîyên civakî. Ji ber spammeran, hin bikarhêner drav winda dikin, hinên din jî xwestina derbaskirina wextê li ser karûbarek bêkêmasî ya ku bi spam zêde bûye winda dikin.

Û ev ne tenê pirsgirêk e. Em ne tenê hewl didin ku bikarhêneran ji xapînok biparêzin, lê di heman demê de ji bo ragihandinê atmosferek rehet jî biafirînin. Heger mirov di şîroveyan de bi çêr û heqaretan re rû bi rû bimîne, îhtîmal e ku ew derkevin û venegerin. Ev tê wê wateyê ku hûn jî hewce ne ku hûn bi vê yekê re mijûl bibin.

Tevna Paqij

Wekî ku pir caran bi me re tê, pêşkeftinên yekem di Lêgerînê de çêbûn, di beşa ku di encamên lêgerînê de spama şer dike. Nêzîkî deh sal berê, peywira fîlterkirina naveroka mezinan ji bo lêgerînên malbatê û ji bo pirsên ku bersivên ji kategoriya 18+ ne hewce ne li wir xuya bû. Bi vî rengî yekem ferhengên porno û sondxwarinê yên bi destan hatine nivîsandin xuya bûn, ew ji hêla analîstan ve hatin tije kirin. Karê sereke ew bû ku daxwazan li yên ku tê qebûl kirin ku naveroka mezinan nîşan bidin û li ku derê ne ew e dabeş bikin. Ji bo vê peywirê, nîşankirin hate berhev kirin, heuristics hatin çêkirin, û model hatin perwerde kirin. Bi vî rengî yekem pêşkeftinên ji bo fîlterkirina naveroka nedilxwaz xuya bûn.

Bi demê re, UGC (naveroka ku bikarhêner çêkirî) di Yandex de dest pê kir - peyamên ku ji hêla bikarhêneran ve têne nivîsandin, û Yandex tenê diweşîne. Ji ber sedemên ku li jor hatine destnîşan kirin, gelek peyam bêyî lênêrînê nedihatin weşandin - moderatorî hewce bû. Dûv re wan biryar da ku karûbarek biafirînin ku dê ji bo hemî hilberên Yandex UGC parastina li dijî spam û êrîşkaran peyda bike û pêşveçûnan bikar bîne da ku naveroka nedilxwaz di Lêgerînê de fîltre bike. Xizmetê bi navê "Webna Paqij" bû.

Karên nû û arîkariya ji pushkeran

Di destpêkê de, tenê otomasyona hêsan ji me re xebitî: karûbaran ji me re nivîs şandin, û me li ser wan ferhengokên bêaqil, ferhengên porno û vegotinên birêkûpêk derxistin - analîstan her tişt bi destan berhev kirin. Lê bi demê re, karûbar di hejmareke zêde ya hilberên Yandex de hate bikar anîn, û neçar ma ku em fêr bibin ku bi pirsgirêkên nû re bixebitin.

Bi gelemperî, li şûna vekolînek, bikarhêner komek nameyên bêwate diweşînin, hewl didin ku destkeftiyên xwe zêde bikin, carinan ew pargîdaniya xwe di nirxandinên pargîdaniyek hevrik de reklam dikin, û carinan ew bi tenê rêxistinan tevlihev dikin û di nirxandinek li ser firotgehek heywanan de dinivîsin: Masiyê bêkêmasî pijandî!” Dibe ku rojek îstîxbarata çêkirî fêr bibe ku wateya her nivîsê bi rengek bêkêmasî bigire, lê naha otomatî carinan ji mirovan xirabtir dike.

Eşkere bû ku em nekarin vê yekê bêyî nîşankirina destan bikin, û me qonaxek duyemîn li dora xwe zêde kir - şandina wê ji bo kontrolkirina destan ji hêla kesek ve. Ew metnên hatine weşandin ku ji bo tesnîfkerê tu pirsgirêk nedîtine, tê de cih girtin. Hûn dikarin bi hêsanî pîvana karekî weha xeyal bikin, ji ber vê yekê me ne tenê pişta xwe da nirxandinvanan, lê di heman demê de ji "aqilmendiya girseyê" jî sûd wergirt, ango me ji bo alîkariyê serî li tolokeran da. Ew in yên ku ji me re dibin alîkar ku em bizanin ka makîneyê çi ji dest daye, û bi vî rengî wê hîn bike.

Caching Smart û hashkirina LSH

Pirsgirêkek din a ku me dema ku bi şîroveyan re dixebitî rastî spam bû, an jî rasttir, qebar û leza belavbûna wê. Dema ku temaşevanên Yandex.Region bi lez dest pê kir, spammer hatin wir. Ew fêr bûn ku bi hûrgulî guheztina nivîsê dev ji bêjeyên birêkûpêk berdin. Spam, bê guman, hîn jî hate dîtin û jêbirin, lê li ser pîvana Yandex, peyamek nayê pejirandin ku 5 hûrdem jî hatî şandin dikare ji hêla bi sedan kesan ve were dîtin.

Meriv çawa şîroveyan vedike û di spam de xeniqîne

Bê guman, ev ne li gorî me bû, û me li ser bingeha LSH (hashing-hesas herêmî). Ew bi vî rengî dixebite: me nivîsê normalîze kir, lînkên jê derxistin û ew di nav n-graman de (rêzikên n tîpan) qut kirin. Dûv re, haşên n-gram hatin hesibandin, û vektora LSH ya belgeyê ji wan hate çêkirin. Mesele ew e ku metnên hevşib, her çend hindik bihatana guhertin jî, veguherîbûn vektorên mîna hev.

Vê çareseriyê mimkun kir ku ji nû ve biryarên dabeşker û tolokkeran ji bo metnên wekhev bikar bînin. Di dema êrîşek spam de, gava ku peyama yekem ji şopandinê derbas bû û bi biryarek "spam" ket hundurê cache, hemî peyamên mîna hev ên nû, hetta yên hatine guhertin jî, heman biryar wergirtin û bixweber hatin jêbirin. Dûv re, em fêr bûn ka meriv çawa çawa dabeşkerên spam-ê perwerde dikin û bixweber ji nû ve perwerde dikin, lê ev "cache-a jîr" bi me re ma û hîn jî pir caran ji me re dibe alîkar.

Tesnîfkera nivîsê ya baş

Bêyî ku em wextê xwe ji şerkirina spam-ê veqetînin, me fêhm kir ku 95% ji naveroka me bi destan tê rêve kirin: dabeşker tenê li hember binpêkirinan bertek nîşan didin, û piraniya nivîsan baş in. Em paqijkeran bar dikin ku di 95 bûyeran de ji 100-an nirxa "Her tişt baş e" didin. Diviya bû ku ez karekî neasayî bikim - çêkirina dabeşkerên naverokek baş, bextewar ku di vê demê de nîşanek têra xwe berhev kiribû.

Tesnîfkera yekem bi vî rengî xuya dikir: em nivîsê lemmatîze dikin (peyvan di forma wan a destpêkê de kêm dikin), hemî beşên alîkar ên axaftinê derdixin û "ferhenga lemmayên baş" ji berê ve hatî amade kirin bikar tînin. Heke hemî peyvên di nivîsê de "baş" bin, wê hingê di tevahiya nivîsê de ti binpêkirin tune. Li ser karûbarên cihêreng, vê nêzîkatiyê tavilê ji 25 heya 35% otomatîkiya nîşankirina destan da. Bê guman, ev nêzîkatî ne îdeal e: hêsan e ku meriv çend peyvên bêguneh berhev bike û gotinek pir êrîşkar bistîne, lê ew hişt ku em zû bigihîjin astek baş a xweseriyê û dem da me ku em modelên tevlihevtir perwerde bikin.

Guhertoyên paşîn ên dabeşkerên nivîsê yên baş jixwe modelên xêz, darên biryarê, û berhevokên wan vedihewînin. Mînakî, ji bo nîşankirina bêrêzî û heqaretan, em tora neuralî ya BERT diceribînin. Girîng e ku meriv wateya peyvekê di çarçovê de û pêwendiya di navbera peyvên ji hevokên cihêreng de bigire, û BERT vê yekê karekî baş dike. (Bi awayê, vê dawiyê hevkarên Nûçeyê vegotin, Çawa teknolojî ji bo karekî ne-standard tê bikaranîn - lêgerîna çewtiyên di sernivîsan de.) Wekî encamek, mimkun bû ku heya 90% ji herikînê bixweber bike, li gorî karûbarê.

Rastbûn, temambûn û bilez

Ji bo pêşkeftinê, hûn hewce ne ku fêm bikin ka çi feydeyên hin dabeşkerên otomatîkî tîne, di wan de guhertin, û gelo qalîteya kontrolên destan xera dibe. Ji bo vê yekê, em metrîkên rastbûn û bîranînê bikar tînin.

Rastbûn rêjeya biryarên rast e di nav hemî biryarên derbarê naveroka xirab de. Rastbûn çiqasî zêde be, pozîtîfên derewîn jî hindiktir in. Ger hûn guh nedin rastbûnê, wê hingê di teorîyê de hûn dikarin hemî spam û bêbextiyan, û bi wan re nîvê peyamên baş jêbirin. Ji hêla din ve, heke hûn tenê xwe bi rastbûnê ve girêbidin, wê hingê teknolojiya çêtirîn dê ew be ku kesek bi tevahî negire. Ji ber vê yekê, nîşanek bêkêmasî jî heye: para naveroka xirab a naskirî di nav tevheviya naveroka xirab de. Van her du metrîkan hevûdu hevseng dikin.

Ji bo pîvandinê, em ji bo her karûbarek tevahî çemê hatinê nimûne dikin û ji bo nirxandina pispor û berhevdana bi çareseriyên makîneyê re nimûneyên naverokê didin nirxandinvanan.

Lê nîşanek din a girîng heye.

Min li jor nivîsand ku peyamek ku nayê qebûlkirin di 5 deqîqeyan de jî ji hêla sedan kesan ve tê dîtin. Ji ber vê yekê em dihejmêrin ka çend caran me naverokek xirab nîşanî mirovan daye berî ku em wê veşêrin. Ev girîng e ji ber ku ne bes e ku meriv bi bandor bixebite - hûn jî hewce ne ku zû bixebitin. Û dema ku me li dijî sondxwarinê parastinek çêkir, me ew bi tevahî hîs kir.

Antîmatîzm mînaka pisîk û kûçikan bikar tîne

Devereke biçûk a lîrîk. Dibe ku hin kes bibêjin ku bêedebî û heqaret ne bi qasî girêdanên xerab xeternak in û ne wekî spam aciz in. Lê em hewl didin ku ji bo bi mîlyonan bikarhêner şert û mercên rehet ji bo ragihandinê biparêzin, û mirov hez nakin vegerin cihên ku lê heqaret li wan tê kirin. Ne bêbext e ku qedexekirina sondxwarin û heqaretan di qaîdeyên gelek civatan de, di nav de li ser Habré, hatiye nivîsandin. Lê em dûr dikevin.

Ferhengên sondxwarinê nikarin bi hemû dewlemendiya zimanê rûsî rabin. Tevî vê rastiyê ku tenê çar rehên sondxwarinê yên sereke hene, ji wan hûn dikarin hejmareke bêhejmar peyvan çêbikin ku ji hêla motorên birêkûpêk ve nayên girtin. Digel vê yekê, hûn dikarin beşek peyvê bi veguheztinê binivîsin, tîpan bi hevbendiyên mîna hev biguhezînin, tîpan ji nû ve rêz bikin, stêrk lê zêde bikin û hwd. Carinan, bêyî çarçowe, di bingeh de ne gengaz e ku meriv diyar bike ku bikarhêner mebesta peyva sond e. Em rêzê ji rêzikên Habr digirin, ji ber vê yekê em ê vê yekê ne bi mînakên zindî, lê bi pisîk û kûçikan nîşan bidin.

Meriv çawa şîroveyan vedike û di spam de xeniqîne

Pisîkê got: "Qanûn". Lê em fêm dikin ku pisîkê gotinek din gotiye…

Me dest pê kir ku li ser algorîtmayên "lihevhatina fuzzy" ji bo ferhenga xwe û li ser pêş-pêvajoya biaqiltir bifikirin: me veguheztin peyda kir, mekan û xalbend bi hev ve zeliqand, li qaliban geriya û li ser wan biwêjên birêkûpêk ên cihê nivîsandin. Vê nêzîkatiyê encam derxist, lê pir caran rastbûn kêm kir û tambûna xwestî peyda nekir.

Paşê me biryar da ku "wek sondxwaran bifikirin." Me bi xwe dest bi danasîna dengan li daneyan kir: me tîpan ji nû ve rêz kirin, xeletiyên tîpan çêkirin, tîpan bi rastnivîsên mîna hev veguherandin û hwd. Nîşana destpêkê ya ji bo vê yekê bi sepandina ferhengên mat li korporên mezin ên nivîsan hate girtin. Ger hûn hevokekê bigirin û bi çend awayan bizivirînin, hûn bi gelek hevokan diqedin. Bi vî rengî hûn dikarin nimûneya perwerdehiyê bi dehan carî zêde bikin. Tiştê ku mabû ev bû ku li ser hewza encamê hin modelek kêm-zêde aqilmend perwerde bikin ku çarçoveyê li ber çavan girt.

Meriv çawa şîroveyan vedike û di spam de xeniqîne

Hê zû ye ku em li ser biryara dawîn biaxivin. Em hîn jî nêzîkatiyên vê pirsgirêkê diceribînin, lê em jixwe dikarin bibînin ku torgilokek hêsan a sembolîk a ji çend qatan bi girîngî ji ferheng û motorên birêkûpêk pêşdetir dike: gengaz e ku hem rastbûn û hem jî bîranîn zêde bibe.

Bê guman, em fam dikin ku dê her gav rê hebin ku meriv ji otomasyona herî pêşkeftî jî derbas bike, nemaze dema ku mijar ew qas xeternak e: bi rengek binivîsin ku makîneyek ehmeq fam neke. Li vir, wekî di şerê li dijî spam de, mebesta me ne ew e ku em îhtîmala nivîsandina tiştek nebaş ji holê rakin; peywira me ev e ku em pê ewle bin ku lîstik ne hêjayî mûmê ye.

Vekirina derfeta parvekirina nêrîna xwe, danûstandin û şîrovekirinê ne dijwar e. Bidestxistina şert û mercên ewle, rehet û bi rêzgirtina mirovan pir dijwartir e. Û bêyî vê tu pêşketina tu civakê çênabe.

Source: www.habr.com

Add a comment