Комментарийлерди кантип ачып, спамга түшүп калбоо керек

Комментарийлерди кантип ачып, спамга түшүп калбоо керек

Сиздин жумушуңуз кооз нерсени жаратуу болгондо, бул жөнүндө ашыкча сөз кылуунун кереги жок, анткени натыйжа ар бир адамдын көз алдында. Бирок тосмолордогу жазууларды өчүрүп салсаңыз, тосмолор жакшы көрүнсө же туура эмес нерсени өчүрүп салмайынча, сиздин ишиңизди эч ким байкабайт.

Комментарий калтырып, карап чыгуу, билдирүү жөнөтүү же сүрөттөрдү жүктөө мүмкүн болгон бардык кызматтар эртеби-кечпи спам, алдамчылык жана уятсыздык көйгөйүнө туш болот. Муну болтурбоо мүмкүн эмес, бирок аны менен күрөшүү керек.

Менин атым Михаил, мен антиспам командасында иштейм, ал Яндекс кызматтарынын колдонуучуларын ушундай көйгөйлөрдөн коргойт. Биздин иш сейрек байкалат (бул жакшы нерсе!), ошондуктан бүгүн мен бул тууралуу кененирээк айтып берем. Модерация качан пайдасыз экенин жана эмне үчүн тактык анын натыйжалуулугунун жалгыз көрсөткүчү эмес экенин билесиз. Ошондой эле мышыктар менен иттердин мисалында сөгүнүү жөнүндө жана эмне үчүн кээде «сөгүнгөн адамдай ойлонуу» пайдалуу болоору жөнүндө сүйлөшөбүз.

Яндексте колдонуучулар өздөрүнүн мазмунун жарыялаган көбүрөөк кызматтар пайда болууда. Сиз Яндекс.Qда суроо берип же жооп жаза аласыз, Яндекс.Районундагы короо жаңылыктарын талкуулай аласыз, Яндекс.Карталарда баарлашууда жол кыймылынын шарттарын бөлүшө аласыз. Бирок кызматтын аудиториясы өскөндө, ал шылуундар жана спамчылар үчүн жагымдуу болуп калат. Алар келип комментарийлерди толтурушат: жеңил акча сунушташат, кереметтерди айыктырат жана социалдык жеңилдиктерди убада кылышат. Спамчылардын айынан кээ бир колдонуучулар акчасын жоготуп коюшса, башкалары спамга толуп кеткен ээн-эркин кызматка убакыт өткөрүүнү каалашпайт.

Жана бул жалгыз көйгөй эмес. Биз колдонуучуларды шылуундардан коргоо үчүн гана эмес, баарлашуу үчүн ыңгайлуу атмосфераны түзүүгө аракет кылабыз. Комментарийлерде сөгүнүү жана кемсинтүүлөр менен бетме-бет келсе, алар кетип калышы мүмкүн жана эч качан кайтып келбейт. Бул сиз да муну менен күрөшүүгө жөндөмдүү болушу керек дегенди билдирет.

Таза веб

Көбүнчө бизде болгондой эле, биринчи иштеп чыгуулар Издөөдө, издөө натыйжаларында спам менен күрөшкөн бөлүгүндө пайда болгон. Болжол менен он жыл мурун, ал жерде үй-бүлөлүк издөө жана 18+ категориясындагы жоопторду талап кылбаган суроолор үчүн чоңдорго арналган мазмунду чыпкалоо тапшырмасы пайда болгон. Порно жана сөгүнүү боюнча кол менен терилген биринчи сөздүктөр ушундайча пайда болгон, алар аналитиктер тарабынан толукталган. Негизги милдет суроо-талаптарды чоңдорго арналган мазмунду көрсөтүүгө алгылыктуу жана алгылыктуу болгондорго классификациялоо болгон. Бул тапшырма үчүн белги чогултулуп, эвристика курулуп, моделдер үйрөтүлгөн. Керексиз мазмунду чыпкалоо боюнча биринчи иштеп чыгуулар ушундайча пайда болгон.

Убакыттын өтүшү менен UGC (колдонуучу тарабынан түзүлгөн мазмун) Яндексте пайда боло баштады - билдирүүлөр колдонуучулардын өздөрү жазган жана Яндекс гана жарыялайт. Жогоруда айтылган себептерден улам, көптөгөн билдирүүлөрдү карап туруп жарыялоо мүмкүн эмес - модерация талап кылынган. Андан кийин алар бардык Yandex UGC өнүмдөрү үчүн спамдан жана чабуулчулардан коргоону камсыз кылган кызматты түзүүнү чечишти жана Издөөдө керексиз мазмунду чыпкалоо үчүн иштеп чыгууларды колдонушту. Кызмат "Таза желе" деп аталды.

Жаңы тапшырмалар жана түртүүчүлөрдүн жардамы

Адегенде биз үчүн жөнөкөй автоматташтыруу гана иштеген: кызматтар бизге тексттерди жөнөтүштү, а биз алар боюнча адепсиз сөздүктөрдү, порно сөздүктөрдү жана туруктуу сөз айкаштарын иштеп чыктык - аналитиктер баарын кол менен түзүшкөн. Бирок, убакыттын өтүшү менен, кызмат Яндекс продуктыларынын саны көбөйүп колдонулган, биз жаңы көйгөйлөр менен иштөөнү үйрөнүшүбүз керек болчу.

Көбүнчө, сын-пикирдин ордуна колдонуучулар маанисиз каттарды жарыялап, жетишкендиктерин жогорулатууга аракет кылышат, кээде алар атаандаштын компаниясынын сын-пикирлеринде өз компанияларын жарнамалашат, ал эми кээде жөн гана уюмдарды чаташтырышат жана үй жаныбарлары дүкөнү жөнүндө рецензияга жазышат: " Мыкты бышырылган балык!» Балким, качандыр бир убакта жасалма интеллект ар кандай тексттин маанисин кемчиликсиз түшүнүүгө үйрөнөт, бирок азыр автоматика кээде адамдардан да жаман күрөшөт.

Муну кол менен белгилөөсүз кыла албасыбыз айкын болду жана биз схемабызга экинчи этапты коштук — аны адам кол менен текшерүүгө жөнөттүк. Классификациялоочу эч кандай көйгөй көрбөгөн жарыяланган тексттер ал жерге киргизилген. Мындай иштин масштабын оңой эле элестете аласыз, ошондуктан биз баа берүүчүлөргө гана ишенбестен, “элдин акылмандыгынан” да пайдаланып, башкача айтканда, жардам сурап төлөкчүлөргө кайрылдык. Алар бизге машина эмнени өткөрүп жибергенин аныктоого жардам берет жана ошону менен аны үйрөтөт.

Акылдуу кэш жана LSH хэштери

Комментарийлер менен иштөөдө биз жолуккан дагы бир көйгөй спам, тагыраагы, анын көлөмү жана таралуу ылдамдыгы болду. Яндекс.Региондун аудиториясы тездик менен өсө баштаганда, ал жакка спам жөнөтүүчүлөр келишкен. Алар текстти бир аз өзгөртүү менен туруктуу сөз айкаштарын айланып өтүүнү үйрөнүштү. Спам, албетте, дагы эле табылды жана жок кылынды, бирок Яндекстин масштабында 5 мүнөткө да жарыяланган кабыл алынгыс билдирүү жүздөгөн адамдар тарабынан көрүлүшү мүмкүн.

Комментарийлерди кантип ачып, спамга түшүп калбоо керек

Албетте, бул бизге туура келген жок жана биз LSH негизинде акылдуу текст кэшин жасадык (жергиликтүү маанидеги хэшинг). Ал мындай иштейт: биз текстти нормалдаштырдык, андан шилтемелерди алып салдык жана аны n-граммга (n тамгалардын ырааттуулугуна) кестик. Андан кийин n-граммдын хэштери эсептелип, алардан документтин LSH вектору курулган. Кеп окшош тексттер кичине өзгөртүлсө да окшош векторлорго айланып кеткенинде.

Бул чечим классификаторлордун жана толокерлердин өкүмдөрүн окшош тексттер үчүн кайра колдонууга мүмкүндүк берди. Спам чабуул учурунда, биринчи билдирүү сканерден өтүп, кэшке "спам" өкүмү менен кирээри менен, бардык жаңы окшош билдирүүлөр, жада калса өзгөртүлгөндөр да, ошол эле өкүмдү алып, автоматтык түрдө өчүрүлгөн. Кийинчерээк биз спам классификаторлорун кантип үйрөтүүнү жана автоматтык түрдө кайра даярдоону үйрөндүк, бирок бул "акылдуу кэш" бизде калды жана дагы эле бизге көп жардам берет.

Жакшы текст классификатору

Спам менен күрөшүүдөн тыныгууга үлгүрбөй туруп, биз мазмунубуздун 95% кол менен модерацияланарын түшүндүк: классификаторлор бузууларга гана жооп беришет, ал эми тексттердин көбү жакшы. Биз тазалагычтарды жүктөйбүз, алар 95 учурдун 100инде "Баары жакшы" деген баа беришет. Мен адаттан тыш жумуш кылышым керек болчу - жакшы мазмундагы классификаторлорду жасоо, бактыга жараша, бул убакыттын ичинде жетиштүү белги топтолгон.

Биринчи классификатор төмөнкүдөй болгон: биз текстти лемматташтырабыз (сөздөрдү баштапкы формасына келтиребиз), кептин бардык жардамчы мүчөлөрүн ыргытабыз жана алдын ала даярдалган «жакшы леммалардын сөздүгүн» ​​колдонобуз. Эгерде тексттеги бардык сөздөр "жакшы" болсо, анда бүтүндөй текст эч кандай бузууларды камтыбайт. Ар кандай кызматтарда бул ыкма дароо кол менен белгилөөнүн 25тен 35% га чейин автоматташтырылганын берди. Албетте, бул ыкма идеалдуу эмес: бир нече бейкүнөө сөздөрдү айкалыштыруу жана өтө адепсиз билдирүү алуу оңой, бирок ал бизге автоматташтыруунун жакшы деңгээлине тез жетүүгө мүмкүндүк берди жана татаалыраак моделдерди үйрөтүүгө убакыт берди.

Жакшы текст классификаторлорунун кийинки версияларына сызыктуу моделдер, чечим дарактары жана алардын айкалыштары кирген. Орой жана кемсинтүүнү белгилөө үчүн, мисалы, биз BERT нейрон тармагын аракет кылабыз. Контексттеги сөздүн маанисин жана ар кандай сүйлөмдөрдөгү сөздөрдүн ортосундагы байланышты түшүнүү маанилүү жана БЕРТ муну жакшы аткарат. (Баса, жакында News кесиптештери айтып, технология стандарттуу эмес тапшырма үчүн кандай колдонулат - баштардагы каталарды издөө.) Натыйжада, кызматка жараша агымдын 90% га чейин автоматташтыруу мүмкүн болду.

Тактык, толуктук жана ылдамдык

Иштеп чыгуу үчүн, сиз кээ бир автоматтык классификаторлор кандай пайда алып келерин, алардагы өзгөрүүлөрдү жана кол менен текшерүүнүн сапаты начарлап жатабы, түшүнүшүңүз керек. Бул үчүн биз тактык жана кайра чакыртуу көрсөткүчтөрүн колдонобуз.

Тактык - бул жаман мазмун жөнүндө бардык өкүмдөрдүн арасында туура өкүмдөрдүн үлүшү. Тактык канчалык жогору болсо, жалган позитивтер ошончолук аз болот. Эгер сиз тактыкка көңүл бурбасаңыз, анда теориялык жактан сиз бардык спамдарды жана уятсыз сөздөрдү жана алар менен бирге жакшы билдирүүлөрдүн жарымын жок кыла аласыз. Башка жагынан алганда, эгер сиз тактыкка гана таянсаңыз, анда эң мыкты технология эч кимди кармай албаган технология болот. Демек, толуктуктун көрсөткүчү да бар: жаман мазмундун жалпы көлөмүнүн арасында аныкталган жаман мазмундун үлүшү. Бул эки көрсөткүч бири-бирин тең салмактайт.

Өлчөө үчүн биз ар бир кызмат үчүн келген агымдын үлгүсүн алып, эксперттик баалоо жана машина чечимдери менен салыштыруу үчүн баалоочуларга мазмун үлгүлөрүн беребиз.

Бирок дагы бир маанилүү көрсөткүч бар.

Кабыл алынгыс билдирүүнү 5 мүнөттө да жүздөгөн адамдар көрө алат деп жогоруда жаздым. Ошентип, биз элге жаман мазмунду жашырганга чейин канча жолу көрсөткөнүбүздү санайбыз. Бул маанилүү, анткени эффективдүү иштөө үчүн жетиштүү эмес - сиз да тез иштешиңиз керек. Ал эми сөгүнүүгө каршы коргонууну курганыбызда аны толук сездик.

Мышыктар менен иттердин мисалында антиматизм

Кичинекей лирикалык чегинүү. Кээ бирөөлөр адепсиздик жана мазактоо зыяндуу шилтемелер сыяктуу коркунучтуу эмес жана спам сыяктуу тажатма эмес деп айтышы мүмкүн. Бирок биз миллиондогон колдонуучулар үчүн баарлашуу үчүн ыңгайлуу шарттарды түзүүгө аракет кылабыз, ал эми адамдар кордолгон жерлерге кайтып келгенди жактырышпайт. Сөгүнүүгө жана кемсинтүүгө тыюу салуу көптөгөн жамааттардын эрежелеринде, анын ичинде Хабреде жазылганы бекеринен эмес. Бирок биз чегинебиз.

Ант-кени сөздүктөр орус тилинин бардык байлыгын көтөрө албайт. Төрт гана негизги ант тамыры бар экендигине карабастан, алардан сиз эч кандай кадимки кыймылдаткычтар кармай албаган сансыз сөздөрдү түзө аласыз. Кошумчалай кетсек, сиз сөздүн бир бөлүгүн транслитерацияда жаза аласыз, тамгаларды окшош айкалыштары менен алмаштыра аласыз, тамгаларды кайра иретке келтирип, жылдызчаларды кошсоңуз болот ж.б. Кээде контекстсиз колдонуучу сөгүнгөн сөздү айтканын аныктоо мүмкүн эмес. Биз Хабрдын эрежелерин сыйлайбыз, ошондуктан биз муну жандуу мисалдар менен эмес, мышыктар менен иттер менен көрсөтөбүз.

Комментарийлерди кантип ачып, спамга түшүп калбоо керек

– Мыйзам, – деди мышык. Бирок мышык башка сөз айтканын түшүнөбүз...

Биз сөздүгүбүз үчүн “бүтүлбөгөн дал келүү” алгоритмдери жана акылдуураак алдын ала иштетүү жөнүндө ойлоно баштадык: транслитерацияны камсыздап, боштуктарды жана пунктуацияларды чогуу жабыштык, үлгүлөрдү издедик жана аларга өзүнчө туруктуу сөз айкаштарын жаздык. Бул ыкма натыйжаларды алып келди, бирок көп учурда тактыкты азайтып, каалаган толуктугун камсыз кылган эмес.

Анан «сөгүнгөндөй ойлонолу» деп чечтик. Биз маалыматка ызы-чуу киргизе баштадык: тамгаларды кайра иретке келтирдик, каталарды чыгардык, тамгаларды окшош жазуулар менен алмаштырдык жана башкалар. Бул үчүн алгачкы белгилөө тексттердин чоң корпустарына мат сөздүктөрүн колдонуу менен алынган. Эгер сиз бир сүйлөмдү алып, аны бир нече жол менен бурсаңыз, анда көптөгөн сүйлөмдөр пайда болот. Ушундай жол менен сиз машыгуу үлгүсүн ондогон эсеге көбөйтө аласыз. Болгону, контекстти эске алган аздыр-көптүр акылдуу моделдин пайда болгон бассейнинде машыгуу болду.

Комментарийлерди кантип ачып, спамга түшүп калбоо керек

Акыркы чечим тууралуу айтууга али эрте. Биз дагы эле бул көйгөйгө карата ыкмаларды сынап жатабыз, бирок биз бир нече катмардан турган жөнөкөй символикалык конволюциялык тармак сөздүктөрдөн жана кадимки кыймылдаткычтардан кыйла ашып турганын көрөбүз: тактыкты да, кайра чакырууну да жогорулатууга болот.

Албетте, биз эң өнүккөн автоматташтырууну да кыйгап өтүүнүн жолдору ар дайым боло турганын түшүнөбүз, өзгөчө маселе өтө кооптуу болгондо: акылсыз машина түшүнбөй тургандай кылып жаз. Бул жерде, спамга каршы күрөштөй эле, биздин максат уятсыз нерсени жазуу мүмкүнчүлүгүн жок кылуу эмес, биздин милдет - оюндун шамга татыктуу эмес экенине ынануу.

Пикириңизди бөлүшүү, баарлашуу жана комментарий берүү мүмкүнчүлүгүн ачуу кыйын эмес. Коопсуз, ыңгайлуу шарттарга жетүү жана адамдарга сый мамиле жасоо алда канча кыйын. Ал эми ушунусуз бир дагы коомчулуктун өнүгүүсү болбойт.

Source: www.habr.com

Комментарий кошуу