Şərhləri necə açmaq və spamda boğulmamaq olar

Şərhləri necə açmaq və spamda boğulmamaq olar

İşiniz gözəl bir şey yaratmaqdırsa, bu barədə çox danışmağa ehtiyac yoxdur, çünki nəticə hər kəsin gözü qarşısındadır. Ancaq hasarlardakı yazıları silsəniz, hasarlar layiqli göründükcə və ya səhv bir şeyi silənə qədər heç kim işinizi görməyəcək.

Şərh yaza, nəzərdən keçirə, mesaj göndərə və ya şəkillər yükləyə biləcəyiniz hər hansı bir xidmət gec-tez spam, fırıldaqçılıq və ədəbsizlik problemi ilə üzləşir. Bunun qarşısını almaq olmaz, amma bununla məşğul olmaq lazımdır.

Mənim adım Mixail, mən Yandex xidmətlərinin istifadəçilərini bu cür problemlərdən qoruyan Antispam komandasında işləyirəm. Bizim işimiz nadir hallarda nəzərə çarpır (və bu yaxşı bir şeydir!), ona görə də bu gün sizə bu barədə ətraflı məlumat verəcəyəm. Moderasiyanın nə vaxt faydasız olduğunu və niyə dəqiqliyin onun effektivliyinin yeganə göstəricisi olmadığını öyrənəcəksiniz. Biz həmçinin pişik və itlərin timsalında söyüş söyməkdən və bəzən “söyüşçü kimi düşünməyin” nə üçün faydalı olmasından danışacağıq.

İstifadəçilərin məzmununu dərc etdiyi Yandex-də getdikcə daha çox xidmətlər görünür. Yandex.Q-da sual verə və ya cavab yaza, Yandex.Rayonda həyət xəbərlərini müzakirə edə, Yandex.Maps-da söhbətlərdə yol şəraitini paylaşa bilərsiniz. Ancaq xidmətin auditoriyası böyüdükdə, fırıldaqçılar və spamerlər üçün cəlbedici olur. Gəlib şərhlər doldururlar: asan pul təklif edirlər, möcüzəvi müalicələri reklam edirlər və sosial fayda vəd edirlər. Spam göndərənlər üzündən bəzi istifadəçilər pul itirir, bəziləri isə spamla örtülmüş səliqəsiz xidmətdə vaxt keçirmək istəyini itirirlər.

Və bu yeganə problem deyil. Biz yalnız istifadəçiləri fırıldaqçılardan qorumaq üçün deyil, həm də ünsiyyət üçün rahat atmosfer yaratmağa çalışırıq. Əgər insanlar şərhlərdə söyüş və təhqirlərlə qarşılaşsalar, çox güman ki, çıxıb gedəcəklər və bir daha geri qayıtmayacaqlar. Bu o deməkdir ki, siz də bununla məşğul ola bilməlisiniz.

Təmiz Veb

Bizdə tez-tez olduğu kimi, ilk inkişaflar Axtarışda, axtarış nəticələrində spamla mübarizə aparan hissədə yaranıb. Təxminən on il əvvəl, ailə axtarışları və 18+ kateqoriyasından cavab tələb etməyən sorğular üçün böyüklər üçün məzmunu filtrləmək vəzifəsi orada ortaya çıxdı. İlk əl ilə yazılmış porno və söyüş lüğətləri belə ortaya çıxdı, onlar analitiklər tərəfindən dolduruldu. Əsas vəzifə sorğuları böyüklər üçün nəzərdə tutulmuş məzmunu göstərmək üçün məqbul olan və olmayan yerlərə bölmək idi. Bu tapşırıq üçün işarələmə toplandı, evristikalar quruldu və modellər öyrədildi. İstenmeyen məzmunu süzgəcdən keçirmək üçün ilk inkişaflar belə ortaya çıxdı.

Zamanla, UGC (istifadəçi tərəfindən yaradılan məzmun) Yandex-də görünməyə başladı - istifadəçilərin özləri tərəfindən yazılan mesajlar və Yandex yalnız dərc edir. Yuxarıda göstərilən səbəblərə görə, bir çox mesajlar baxılmadan dərc edilə bilməzdi - moderasiya tələb olunurdu. Sonra onlar bütün Yandex UGC məhsulları üçün spam və təcavüzkarlardan müdafiəni təmin edəcək və Axtarışda arzuolunmaz məzmunu filtrləmək üçün inkişaflardan istifadə edəcək bir xidmət yaratmağa qərar verdilər. Xidmət "Təmiz Veb" adlanırdı.

Yeni tapşırıqlar və itələyicilərin köməyi

Əvvəlcə bizim üçün yalnız sadə avtomatlaşdırma işlədi: xidmətlər bizə mətnlər göndərdi və biz onlara nalayiq lüğətlər, porno lüğətlər və müntəzəm ifadələr işlədirdik - analitiklər hər şeyi əl ilə tərtib etdilər. Ancaq zaman keçdikcə xidmət Yandex məhsullarının sayının artmasında istifadə edildi və biz yeni problemlərlə işləməyi öyrənməli olduq.

Çox vaxt istifadəçilər rəy əvəzinə mənasız məktublar toplusu dərc edərək nailiyyətlərini artırmağa çalışır, bəzən rəqib şirkətinin rəylərində şirkətlərini reklam edir, bəzən isə sadəcə təşkilatları çaşdırıb pet mağazası haqqında rəy yazır: “ Mükəmməl bişmiş balıq!” Ola bilsin ki, nə vaxtsa süni intellekt istənilən mətnin mənasını mükəmməl qavramağı öyrənəcək, lakin indi avtomatlaşdırma bəzən insanların öhdəsindən daha pis gəlir.

Əl ilə işarələmə olmadan bunu edə bilməyəcəyimiz aydın oldu və dövrəmizə ikinci mərhələ əlavə etdik - onu bir şəxs tərəfindən əl ilə yoxlamaya göndərdik. Təsnifatçının heç bir problem görmədiyi dərc edilmiş mətnlər oraya daxil edilmişdir. Belə bir işin miqyasını asanlıqla təsəvvür edə bilərsiniz, ona görə də biz təkcə qiymətləndiricilərə etibar etmədik, həm də “izdihamın müdrikliyindən” yararlandıq, yəni kömək üçün tolokerlərə müraciət etdik. Onlar bizə maşının nəyi qaçırdığını müəyyənləşdirməyə kömək edən və bununla da onu öyrədənlərdir.

Ağıllı keşləmə və LSH hashing

Şərhlərlə işləyərkən qarşılaşdığımız digər problem spam, daha dəqiq desək, onun həcmi və yayılma sürəti idi. Yandex.Region auditoriyası sürətlə artmağa başlayanda ora spam göndərənlər gəldi. Onlar mətni bir az dəyişdirərək normal ifadələrdən yan keçməyi öyrəndilər. Spam, əlbəttə ki, hələ də tapıldı və silindi, lakin Yandex miqyasında, hətta 5 dəqiqə ərzində göndərilən qəbuledilməz mesajı yüzlərlə insan görə bilərdi.

Şərhləri necə açmaq və spamda boğulmamaq olar

Əlbəttə ki, bu bizə uyğun deyildi və biz LSH əsasında ağıllı mətn keşini etdik (yerliliyə həssas hashing). Bu belə işləyir: biz mətni normallaşdırdıq, ondan bağlantıları çıxardıq və onu n-qrama (n hərf ardıcıllığı) kəsdik. Sonra n-qramların hashləri hesablandı və onlardan sənədin LSH vektoru quruldu. Məsələ burasındadır ki, oxşar mətnlər azacıq dəyişdirilsə də, oxşar vektorlara çevrilir.

Bu həll oxşar mətnlər üçün təsnifatçıların və tolokerlərin hökmlərini təkrar istifadə etməyə imkan verdi. Spam hücumu zamanı ilk mesaj skandan keçib “spam” hökmü ilə yaddaşa daxil olan kimi bütün yeni oxşar mesajlar, hətta dəyişdirilmiş mesajlar da eyni hökmü aldı və avtomatik olaraq silindi. Daha sonra biz spam təsnifatçılarını necə öyrətməyi və avtomatik yenidən hazırlamağı öyrəndik, lakin bu “ağıllı keş” bizimlə qaldı və yenə də tez-tez bizə kömək edir.

Yaxşı mətn təsnifatı

Spamla mübarizəyə fasilə verməyə vaxt tapmadan anladıq ki, məzmunumuzun 95%-i əl ilə idarə olunur: təsnifatçılar yalnız pozuntulara reaksiya verir və mətnlərin əksəriyyəti yaxşıdır. Biz 95-dən 100-də "Hər şey qaydasındadır" reytinqini verən təmizləyiciləri yükləyirik. Qeyri-adi bir iş görməli oldum - yaxşı məzmunlu təsnifatçılar hazırladım, xoşbəxtlikdən bu müddət ərzində kifayət qədər işarələmə toplandı.

Birinci təsnifat belə görünürdü: biz mətni lemmatlaşdırırıq (sözləri ilkin formasına salırıq), nitqin bütün köməkçi hissələrini atırıq və əvvəlcədən hazırlanmış "yaxşı lemmaların lüğətindən" istifadə edirik. Mətndəki bütün sözlər "yaxşı"dırsa, bütün mətndə heç bir pozuntu yoxdur. Müxtəlif xidmətlərdə bu yanaşma dərhal əl ilə işarələmənin 25-35% avtomatlaşdırılmasını təmin etdi. Əlbəttə ki, bu yanaşma ideal deyil: bir neçə məsum sözləri birləşdirmək və çox təhqiramiz bir ifadə almaq asandır, lakin bu, bizə tez bir zamanda yaxşı avtomatlaşdırma səviyyəsinə çatmağa imkan verdi və daha mürəkkəb modelləri öyrətmək üçün vaxt verdi.

Yaxşı mətn təsnifatının növbəti versiyalarına artıq xətti modellər, qərar ağacları və onların birləşmələri daxil idi. Kobudluğu və təhqirləri qeyd etmək üçün, məsələn, BERT neyron şəbəkəsini sınayırıq. Kontekstdə bir sözün mənasını və müxtəlif cümlələrdən olan sözlər arasındakı əlaqəni qavramaq vacibdir və BERT bunun öhdəsindən yaxşı gəlir. (Yeri gəlmişkən, bu yaxınlarda News-dan həmkarlar deyə danışdı, texnologiyadan qeyri-standart tapşırıq üçün necə istifadə olunur - başlıqlarda səhvlərin axtarışı.) Nəticədə xidmətdən asılı olaraq axının 90%-ə qədərini avtomatlaşdırmaq mümkün olub.

Dəqiqlik, tamlıq və sürət

İnkişaf etmək üçün müəyyən avtomatik təsnifatların hansı faydalar gətirdiyini, onlarda dəyişiklikləri və əllə yoxlamaların keyfiyyətinin aşağı salınıb-alınmadığını başa düşməlisiniz. Bunun üçün biz dəqiqlik və geri çağırma metriklərindən istifadə edirik.

Dəqiqlik pis məzmunla bağlı bütün hökmlər arasında düzgün hökmlərin nisbətidir. Dəqiqlik nə qədər yüksək olarsa, yanlış müsbətlər bir o qədər az olar. Dəqiqliyə diqqət yetirmirsinizsə, nəzəri olaraq bütün spamları və ədəbsizləri və onlarla birlikdə yaxşı mesajların yarısını silə bilərsiniz. Digər tərəfdən, yalnız dəqiqliyə güvənirsinizsə, ən yaxşı texnologiya heç kimi tutmayan texnologiya olacaqdır. Buna görə də, tamlıq göstəricisi də var: pis məzmunun ümumi həcmi arasında müəyyən edilmiş pis məzmunun payı. Bu iki göstərici bir-birini tarazlaşdırır.

Ölçmək üçün biz hər bir xidmət üçün bütün daxil olan axını seçirik və ekspert qiymətləndirməsi və maşın həlləri ilə müqayisə etmək üçün qiymətləndiricilərə məzmun nümunələrini veririk.

Ancaq başqa bir mühüm göstərici var.

Yuxarıda yazmışdım ki, qəbuledilməz mesajı 5 dəqiqə ərzində belə yüzlərlə insan görə bilər. Beləliklə, gizlətməzdən əvvəl insanlara neçə dəfə pis məzmun göstərdiyimizi hesablayırıq. Bu vacibdir, çünki səmərəli işləmək kifayət deyil - həm də tez işləmək lazımdır. Söyüşlərə qarşı müdafiə quranda isə bunu tam hiss etdik.

Pişik və itlərin nümunəsindən istifadə edərək antimatizm

Kiçik bir lirik təxribat. Bəziləri deyə bilər ki, ədəbsizlik və təhqirlər zərərli linklər qədər təhlükəli deyil və spam qədər zəhlətökən deyil. Amma biz milyonlarla istifadəçi üçün ünsiyyət üçün rahat şərait yaratmağa çalışırıq və insanlar təhqir olunduğu yerlərə qayıtmağı sevmirlər. Söyüş və təhqir qadağasının bir çox icmaların, o cümlədən Habré-nin qaydalarında qeyd olunması boş yerə deyil. Amma biz yayınırıq.

Söyüş lüğətləri rus dilinin bütün zənginliyinin öhdəsindən gələ bilməz. Yalnız dörd əsas söyüş kökünün olmasına baxmayaraq, onlardan heç bir adi mühərrik tərəfindən tutula bilməyən saysız-hesabsız sözlər yarada bilərsiniz. Bundan əlavə, siz sözün bir hissəsini transliterasiya ilə yaza, hərfləri oxşar birləşmələrlə əvəz edə, hərfləri yenidən yerləşdirə, ulduzlar əlavə edə və s. Biz Habrın qaydalarına hörmət edirik, ona görə də bunu canlı nümunələrlə deyil, pişik və itlərlə nümayiş etdirəcəyik.

Şərhləri necə açmaq və spamda boğulmamaq olar

"Qanun" dedi pişik. Amma başa düşürük ki, pişik başqa söz deyib...

Biz lüğətimiz üçün “qeyri-səlis uyğunluq” alqoritmləri və daha ağıllı ilkin emal haqqında düşünməyə başladıq: biz transliterasiya təmin etdik, boşluqları və durğu işarələrini bir-birinə yapışdırdıq, nümunələr axtardıq və onlar üzərində ayrıca müntəzəm ifadələr yazdıq. Bu yanaşma nəticə verdi, lakin tez-tez dəqiqliyi azaldır və istənilən tamlığı təmin etmirdi.

Sonra “söyüşçülər kimi düşünmək” qərarına gəldik. Məlumatlara özümüz səs-küy salmağa başladıq: hərfləri yenidən sıraladıq, yazı səhvləri yaratdıq, hərfləri oxşar yazımlarla əvəz etdik və s. Bunun üçün ilkin işarələmə böyük mətnlər toplusuna mat lüğətlərin tətbiqi ilə aparıldı. Bir cümlə götürüb onu bir neçə şəkildə büksəniz, çoxlu cümlələrlə nəticələnirsiniz. Bu yolla siz təlim nümunəsini onlarla dəfə artıra bilərsiniz. Qalan şey, nəticədə ortaya çıxan hovuzda konteksti nəzərə alan az-çox ağıllı model üzərində məşq etmək idi.

Şərhləri necə açmaq və spamda boğulmamaq olar

Yekun qərar barədə danışmaq hələ tezdir. Biz hələ də bu problemə yanaşmaları sınaqdan keçiririk, lakin biz artıq görə bilərik ki, bir neçə təbəqədən ibarət sadə simvolik konvolyusiya şəbəkəsi lüğətləri və adi mühərrikləri əhəmiyyətli dərəcədə üstələyir: həm dəqiqliyi, həm də geri çağırışı artırmaq mümkündür.

Əlbəttə ki, biz başa düşürük ki, ən qabaqcıl avtomatlaşdırmadan belə yan keçməyin yolları həmişə olacaq, xüsusən də məsələ çox təhlükəli olduqda: elə yazın ki, axmaq maşın başa düşməyəcək. Burada, spamla mübarizədə olduğu kimi, məqsədimiz ədəbsiz bir şey yazmaq ehtimalını aradan qaldırmaq deyil, bizim vəzifəmiz oyunun şama dəyməyəcəyinə əmin olmaqdır.

Fikrinizi bölüşmək, ünsiyyət qurmaq və şərh etmək imkanını açmaq çətin deyil. Təhlükəsiz, rahat şəraitə və insanlara hörmətlə yanaşmağa nail olmaq daha çətindir. Və bunsuz heç bir cəmiyyətin inkişafı olmayacaq.

Mənbə: www.habr.com

Добавить комментарий