Чӣ гуна бояд шарҳҳоро кушоем ва дар спам ғарқ нашавем

Чӣ гуна бояд шарҳҳоро кушоем ва дар спам ғарқ нашавем

Вақте ки кори шумо эҷод кардани чизи зебо аст, шумо набояд дар бораи он бисёр сӯҳбат кунед, зеро натиҷа дар пеши назари ҳама аст. Аммо агар шумо навиштаҷотҳоро аз деворҳо тоза кунед, то даме ки деворҳо хуб ба назар мерасанд ё ягон чизи нодурустро нест кунед, ҳеҷ кас кори шуморо пайхас намекунад.

Ҳар хидмате, ки шумо метавонед шарҳ гузоред, баррасӣ кунед, паём фиристед ё аксҳоро бор кунед, дер ё зуд бо мушкилоти спам, қаллобӣ ва фаҳш рӯбарӯ мешавад. Инро пешгирӣ кардан мумкин нест, аммо бояд бо он мубориза бурд.

Номи ман Михаил, ман дар дастаи Antispam кор мекунам, ки корбарони хидматҳои Яндексро аз чунин мушкилот муҳофизат мекунад. Кори мо хеле кам мушоҳида мешавад (ва ин кори хуб аст!), бинобар ин ман имрӯз ба шумо дар бораи он бештар нақл мекунам. Шумо мефаҳмед, ки вақте модератсия бефоида аст ва чаро дақиқӣ ягона нишондиҳандаи самаранокии он нест. Мо инчунин дар бораи дашном додан бо мисоли гурбаҳо ва сагҳо сӯҳбат хоҳем кард ва чаро баъзан "мисли савганд фикр кардан" муфид аст.

Дар Яндекс бештар ва бештар хидматҳо пайдо мешаванд, ки корбарон мундариҷаи худро нашр мекунанд. Шумо метавонед дар Yandex.Q савол диҳед ё ҷавоб нависед, дар Яндекс.Ноҳияи Яндекс хабарҳои ҳавлиро муҳокима кунед, дар сӯҳбатҳо дар Яндекс.Харитаҳо шароити ҳаракати нақлиётро мубодила кунед. Аммо вақте ки аудиторияи хидмат афзоиш меёбад, он барои қаллобон ва спаммерҳо ҷолиб мешавад. Онҳо омада шарҳҳоро пур мекунанд: онҳо пули осон пешниҳод мекунанд, табобатҳои мӯъҷизаро таблиғ мекунанд ва имтиёзҳои иҷтимоӣ ваъда медиҳанд. Аз сабаби спаммерҳо, баъзе корбарон пулро аз даст медиҳанд, дар ҳоле ки дигарон хоҳиши сарф кардани вақтро дар як хидмати ногувор аз спам аз даст медиҳанд.

Ва ин ягона мушкилот нест. Мо кӯшиш мекунем, ки на танҳо корбаронро аз қаллобон муҳофизат кунем, балки барои муошират фазои бароҳат эҷод кунем. Агар одамон дар коментария бо дашном ва таҳқир рӯ ба рӯ шаванд, эҳтимол меравад, ки тарк кунанд ва дигар барнагарданд. Ин маънои онро дорад, ки шумо низ бояд бо ин кор мубориза баред.

Веби тоза

Тавре ки аксар вақт дар мо рух медиҳад, пешрафтҳои аввал дар Ҷустуҷӯ, дар қисме, ки бо спам дар натиҷаҳои ҷустуҷӯ мубориза мебаранд, ба вуҷуд омадаанд. Тақрибан даҳ сол пеш дар он ҷо вазифаи филтр кардани мундариҷаи калонсолон барои ҷустуҷӯҳои оилавӣ ва пурсишҳое пайдо шуд, ки ҷавобҳоро аз категорияи 18+ талаб намекунанд. Ҳамин тавр аввалин луғатҳои дастӣ чопшудаи порнография ва дашном пайдо шуданд, ки онҳоро таҳлилгарон пурра карданд. Вазифаи асосӣ аз он иборат буд, ки дархостҳо ба онҳое, ки нишон додани мундариҷаи калонсолон қобили қабул аст ва дар куҷо нест. Барои ин вазифа нишонаҳо ҷамъоварӣ карда шуданд, эвристика сохта шуданд ва моделҳо омӯзонида шуданд. Ҳамин тавр аввалин пешрафтҳо барои филтр кардани мундариҷаи номатлуб пайдо шуданд.

Бо гузашти вақт, UGC (мӯҳтавои аз ҷониби корбар тавлидшуда) дар Яндекс пайдо шуд - паёмҳое, ки худи корбарон навиштаанд ва Яндекс танҳо интишор мекунад. Бо сабабҳои дар боло тавсифшуда, бисёр паёмҳоро бидуни ҷустуҷӯ интишор кардан мумкин набуд - модератсия лозим буд. Сипас онҳо тасмим гирифтанд, ки хидматеро эҷод кунанд, ки барои ҳама маҳсулоти Yandex UGC муҳофизат аз спам ва ҳамлагаронро таъмин кунад ва коркардҳоро барои филтр кардани мундариҷаи номатлуб дар Ҷустуҷӯ истифода барад. Ин хидмат "Веб тоза" ном дошт.

Вазифаҳои нав ва кӯмак аз фишордиҳандагон

Дар аввал, барои мо танҳо автоматизатсияи оддӣ кор мекард: хидматҳо ба мо матнҳо фиристоданд ва мо дар онҳо луғатҳои фаҳш, луғатҳои порнографӣ ва ибораҳои муқаррариро иҷро мекардем - таҳлилгарон ҳама чизро дастӣ тартиб доданд. Аммо бо гузашти вақт, хидмат дар шумораи афзояндаи маҳсулоти Яндекс истифода мешуд ва мо маҷбур шудем, ки бо мушкилоти нав кор карданро ёд гирем.

Аксар вақт, ба ҷои барраси, корбарон маҷмӯи номаҳои бемаънӣ нашр мекунанд, кӯшиш мекунанд, ки дастовардҳои худро афзоиш диҳанд, баъзан онҳо ширкати худро дар баррасиҳои ширкати рақиб таблиғ мекунанд ва баъзан онҳо созмонҳоро ба иштибоҳ меандозанд ва дар барраси дар бораи мағозаи ҳайвонот менависанд: " Моҳии комилан пухташуда! ” Шояд рӯзе зеҳни сунъӣ фаҳмидани маънои ҳар як матнро ёд гирад, аммо ҳоло автоматизатсия баъзан аз одамон бадтар аст.

Маълум шуд, ки мо ин корро бидуни аломатгузории дастӣ иҷро карда наметавонем ва мо ба схемаи худ марҳилаи дуюмро илова кардем - фиристодани он барои санҷиши дастӣ аз ҷониби шахс. Он матнҳои нашршуда, ки таснифкунанда барои онҳо ягон мушкилот надидааст, ба он ҷо дохил карда шуданд. Микьёси ин гуна кордоро ба осонй тасаввур карда метавонед, бинобар ин мо на тандо ба арзёбидо такья мекардем, балки аз «хиради издидом» низ истифода мебурдем, яъне мо барои ёрй ба толокчиён мурочиат кардем. Онҳо касоне ҳастанд, ки ба мо дар муайян кардани он чизе, ки мошин гум кардааст, кӯмак мекунанд ва ба ин васила онро таълим медиҳанд.

Кэши интеллектуалӣ ва ҳашингии LSH

Мушкилоти дигаре, ки мо ҳангоми кор бо шарҳҳо дучор шудем, спам, аниқтараш, ҳаҷм ва суръати паҳншавии он буд. Вақте ки аудиторияи Yandex.Region босуръат афзоиш ёфт, спаммерҳо ба он ҷо омаданд. Онҳо бо роҳи каме тағйир додани матн аз ибораҳои муқаррарӣ канор рафтанро ёд гирифтанд. Спам, албатта, ҳанӯз ҳам ёфт ва нест карда шуд, аммо дар миқёси Яндекс, паёми ғайри қобили қабулро ҳатто барои 5 дақиқа интишор карда метавонад, садҳо нафар диданд.

Чӣ гуна бояд шарҳҳоро кушоем ва дар спам ғарқ нашавем

Албатта, ин ба мо мувофиқ набуд ва мо кэшкунии интеллектуалии матнро дар асоси LSH (ҳашинг ба маҳал ҳассос). Ин чунин кор мекунад: мо матнро ба эътидол овардем, истинодҳоро аз он хориҷ кардем ва онро ба n-грамм (пайдарпаймоии n ҳарф) буридаем. Минбаъд хэшҳои n-грамм ҳисоб карда шуданд ва аз онҳо вектори LSH ҳуҷҷат сохта шуд. Гап дар сари он аст, ки матнхои якхела, агарчи андаке тагйир дода шуда бошанд хам, ба векторхои якхела табдил ёфтанд.

Ин њалли масъала имкон дод, ки њукми таснифгарон ва толокерњо барои матнњои њаммонанд дубора истифода шавад. Ҳангоми ҳамлаи спам, ҳамин ки паёми аввал аз скан гузашта, бо ҳукми “спам” ба кеш ворид шуд, ҳама паёмҳои нави шабеҳ, ҳатто паёмҳои таҳриршуда ҳамон ҳукмро гирифтанд ва ба таври худкор ҳазф карда шуданд. Баъдтар, мо тарзи таълим додан ва ба таври худкор бозомӯзии таснифоти спамро омӯхтем, аммо ин "кэши оқил" бо мо монд ва ҳоло ҳам аксар вақт ба мо кӯмак мекунад.

Таснифи хуби матн

Бе вақти танаффус аз мубориза бо спам, мо фаҳмидем, ки 95% мундариҷаи мо дастӣ идора карда мешавад: таснифкунандагон танҳо ба вайронкуниҳо вокуниш нишон медиҳанд ва аксари матнҳо хубанд. Мо фаррошҳоро бор мекунем, ки дар 95 ҳолат аз 100 ҳолат баҳои "Ҳама чиз хуб аст" медиҳанд. Ба ман лозим омад, ки кори ғайриоддӣ - сохтани таснифҳои мундариҷаи хуб, хушбахтона, дар ин муддат миқдори кофии аломатҳо ҷамъ карда шуд.

Таснифи аввал чунин менамуд: матнро лемматизатсия мекунем (калимаро ба шакли ибтидоиашон кам мекунем), тамоми хиссахои ёридихандаро мепартоем ва аз «лугати леммахои хуб»-и пешакй тайёршударо истифода мебарем. Агар хамаи калимахои матн «хуб» бошанд, дар тамоми матн ягон вайронкуни вучуд надорад. Дар хидматҳои гуногун, ин равиш фавран аз 25 то 35% автоматикунонии аломатгузории дастӣ дод. Албатта, ин равиш идеалӣ нест: якчанд калимаҳои бегуноҳро муттаҳид кардан ва изҳороти хеле таҳқиромезро ба даст овардан осон аст, аммо он ба мо имкон дод, ки ба сатҳи хуби автоматизатсия зуд расем ва ба мо вақт дод, ки моделҳои мураккабтарро омӯзем.

Версияҳои навбатии таснифкунандагони хуби матн аллакай моделҳои хатӣ, дарахтони қарорҳо ва комбинатсияи онҳоро дар бар мегирифтанд. Барои нишон додани дағалӣ ва таҳқир, масалан, мо шабакаи нейронии BERT-ро кӯшиш мекунем. Фаҳмидани маънои калима дар контекст ва робитаи байни калимаҳо аз ҷумлаҳои гуногун муҳим аст ва БЕРТ ин корро хуб мекунад. (Дар омади гап, ба наздикӣ ҳамкорон аз News гуфт, чи тавр технология барои супориши гайристандартй истифода бурда мешавад — пайдо кардани хатогихо дар сарлавхахо.) Дар натича то 90%-и чараён вобаста ба хидмат автоматикунонида шуд.

Дақиқӣ, пуррагӣ ва суръат

Барои таҳия, шумо бояд фаҳмед, ки баъзе таснифҳои автоматӣ чӣ фоида меорад, тағирот дар онҳо ва оё сифати санҷишҳои дастӣ паст аст. Барои ин, мо метрикаи дақиқ ва ёдраскуниро истифода мебарем.

Дақиқӣ ин таносуби ҳукмҳои дуруст дар байни ҳама ҳукмҳо дар бораи мундариҷаи бад мебошад. Чӣ қадаре ки дақиқӣ баланд бошад, мусбатҳои бардурӯғ камтар аст. Агар шумо ба дақиқӣ аҳамият надиҳед, пас дар назария шумо метавонед ҳама спамҳо ва фаҳш ва дар баробари онҳо нисфи паёмҳои хубро нест кунед. Аз тарафи дигар, агар шумо танҳо ба дақиқӣ такя кунед, он гоҳ беҳтарин технология технологияе хоҳад буд, ки ҳеҷ касро дастгир намекунад. Аз ин рӯ, нишондиҳандаи мукаммалӣ низ вуҷуд дорад: ҳиссаи мундариҷаи бади муайяншуда дар ҳаҷми умумии мундариҷаи бад. Ин ду нишондиҳанда ҳамдигарро мувозинат мекунанд.

Барои чен кардан, мо тамоми ҷараёни воридшударо барои ҳар як хидмат интихоб мекунем ва ба арзёбӣкунандагон барои арзёбии коршиносон ва муқоиса бо ҳалли мошинҳо намунаҳои мундариҷа медиҳем.

Аммо боз як нишондихандаи мухим хает.

Дар боло навишта будам, ки паёми номақбулро ҳатто дар 5 дақиқа садҳо нафар дидан мумкин аст. Ҳамин тавр, мо ҳисоб мекунем, ки чанд маротиба мо ба одамон мундариҷаи бадро пеш аз пинҳон карданамон нишон додем. Ин муҳим аст, зеро барои самаранок кор кардан кофӣ нест - шумо инчунин бояд зуд кор кунед. Ва ҳангоме ки мо аз дашном додан дифоъ сохтем, мо онро пурра эҳсос кардем.

Антиматизм бо мисоли сагу гурба

Тарзи хурди лирикӣ. Баъзеҳо метавонанд бигӯянд, ки фаҳш ва таҳқир на ҳамчун истинодҳои зараровар хатарноканд ва на ҳамчун спам. Аммо мо мекӯшем, ки барои миллионҳо корбарон шароити мусоид барои муошират фароҳам орем ва мардум ба ҷойҳое, ки таҳқир мешаванд, баргарданд. Бесабаб нест, ки манъи дашном ва таҳқир дар қоидаҳои бисёр ҷамоатҳо, аз ҷумла дар Ҳабре навишта шудааст. Аммо мо дур мешавем.

Луғатҳои дашномдиҳанда аз ӯҳдаи тамоми сарвати забони русӣ баромада наметавонанд. Сарфи назар аз он, ки танҳо чор решаи асосии қасам вуҷуд дорад, шумо метавонед аз онҳо шумораи бешумори калимаҳоеро созед, ки онҳоро ҳеҷ гуна муҳаррикҳои муқаррарӣ гирифта наметавонанд. Илова бар ин, шумо метавонед як қисми калимаро бо транслитератсия нависед, ҳарфҳоро бо таркиби шабеҳ иваз кунед, ҳарфҳоро аз нав ҷойгир кунед, ситорачаҳо илова кунед ва ғайра. Баъзан бидуни контекст муайян кардан мумкин нест, ки корбар калимаи дашномро дар назар доштааст. Мо қоидаҳои Ҳабрро эҳтиром мекунем, бинобар ин мо инро на бо мисолҳои зинда, балки бо гурбаҳо ва сагҳо нишон медиҳем.

Чӣ гуна бояд шарҳҳоро кушоем ва дар спам ғарқ нашавем

"Қонун," гуфт гурба. Аммо мо мефаҳмем, ки гурба дигар сухан гуфтааст...

Мо дар бораи алгоритмҳои "мувофиқи номуайян" барои луғати худ ва дар бораи коркарди оқилонатар фикр карданро сар кардем: мо транслитератсияро таъмин кардем, фосилаҳо ва пунктуатсияро якҷоя кардем, намунаҳоро ҷустуҷӯ кардем ва дар онҳо ибораҳои муқаррарии алоҳида навиштем. Ин равиш натиљањо овард, вале аксаран дурустии онро кам карда, пуррагии дилхоњро таъмин намекард.

Пас аз он мо тасмим гирифтем, ки "мисли қасамхӯрон фикр кунем". Мо худамон ба ворид кардани ғавғо ба додаҳо шурӯъ кардем: ҳарфҳоро аз нав тартиб додем, хатогиҳо тавлид кардем, ҳарфҳоро бо имлоҳои шабеҳ иваз кардем ва ғайра. Нишондиҳандаи ибтидоӣ барои ин тавассути истифодаи луғатҳои матнӣ ба корпусҳои бузурги матнҳо гирифта шудааст. Агар шумо як ҷумларо бигиред ва онро бо якчанд роҳ печонед, шумо бо бисёр ҷумлаҳо хоҳед буд. Бо ин роҳ шумо метавонед намунаи омӯзиширо даҳҳо маротиба зиёд кунед. Танҳо он чизе, ки боқӣ мондааст, таълим додан дар ҳавзи натиҷавӣ буд, ки каме ё камтар модели интеллектуалӣ, ки контекстро ба назар гирифт.

Чӣ гуна бояд шарҳҳоро кушоем ва дар спам ғарқ нашавем

Дар бораи тасмими ниҳоӣ сухан гуфтан барвақт аст. Мо то ҳол усулҳои ин мушкилотро таҷриба карда истодаем, аммо мо аллакай мебинем, ки шабакаи оддии рамзӣ аз якчанд қабатҳо аз луғатҳо ва муҳаррикҳои муқаррарӣ хеле бартарӣ дорад: ҳам дақиқӣ ва ҳам хотиррасониро зиёд кардан мумкин аст.

Албатта, мо мефаҳмем, ки ҳамеша роҳҳои гузаштан аз автоматизатсияи пешрафта вуҷуд доранд, хусусан вақте ки масъала хеле хатарнок аст: тавре бинависед, ки мошини беақл нафаҳмад. Дар ин ҷо, чун дар мубориза бо спам, ҳадафи мо нест кардани эҳтимолияти навиштани чизи фаҳш нест; вазифаи мо ин аст, ки боварӣ ҳосил кунем, ки бозӣ ба шамъ намеарзад.

Кушодани имкони мубодилаи афкори худ, муошират ва шарҳ додан душвор нест. Муваффақ шудан ба шароити бехатар, бароҳат ва муносибати эҳтиромона бо одамон хеле душвортар аст. Ва бе ин хеч як чомеа инкишоф намеёбад.

Манбаъ: will.com

Илова Эзоҳ