Si të hapni komentet dhe të mos mbyteni në spam

Si të hapni komentet dhe të mos mbyteni në spam

Kur detyra juaj është të krijoni diçka të bukur, nuk keni pse të flisni shumë për të, sepse rezultati është para syve të të gjithëve. Por nëse fshini mbishkrimet nga gardhet, askush nuk do ta vërejë punën tuaj për sa kohë që gardhet duken të mira ose derisa të fshini diçka të gabuar.

Çdo shërbim ku mund të lini një koment, rishikim, dërgoni një mesazh ose ngarkoni foto herët a vonë përballet me problemin e spamit, mashtrimit dhe turpit. Kjo nuk mund të shmanget, por duhet trajtuar.

Emri im është Mikhail, unë punoj në ekipin Antispam, i cili mbron përdoruesit e shërbimeve Yandex nga probleme të tilla. Puna jonë vërehet rrallë (dhe kjo është një gjë e mirë!), prandaj sot do t'ju tregoj më shumë për të. Do të mësoni kur moderimi është i padobishëm dhe pse saktësia nuk është treguesi i vetëm i efektivitetit të tij. Ne gjithashtu do të flasim për sharjen duke përdorur shembullin e maceve dhe qenve dhe pse ndonjëherë është e dobishme të "mendosh si sharës".

Gjithnjë e më shumë shërbime po shfaqen në Yandex ku përdoruesit publikojnë përmbajtjen e tyre. Mund të bëni një pyetje ose të shkruani një përgjigje në Yandex.Q, të diskutoni lajmet e oborrit në Yandex.District, të ndani kushtet e trafikut në bisedat në Yandex.Maps. Por kur audienca e shërbimit rritet, ai bëhet tërheqës për mashtruesit dhe spammers. Ata vijnë dhe plotësojnë komente: ofrojnë para të lehta, reklamojnë kura të mrekullueshme dhe premtojnë përfitime sociale. Për shkak të dërguesve të padëshiruar, disa përdorues humbasin para, ndërsa të tjerë humbasin dëshirën për të shpenzuar kohë në një shërbim të parregullt të mbushur me spam.

Dhe ky nuk është problemi i vetëm. Ne përpiqemi jo vetëm të mbrojmë përdoruesit nga mashtruesit, por edhe të krijojmë një atmosferë të rehatshme për komunikim. Nëse njerëzit ballafaqohen me sharje dhe fyerje në komente, ka të ngjarë të largohen dhe të mos kthehen më. Kjo do të thotë që ju gjithashtu duhet të jeni në gjendje të merreni me këtë.

Ueb i pastër

Siç ndodh shpesh tek ne, zhvillimet e para lindën në Search, në pjesën që lufton spamin në rezultatet e kërkimit. Rreth dhjetë vjet më parë, detyra e filtrimit të përmbajtjes për të rritur për kërkimet familjare dhe për pyetjet që nuk kërkonin përgjigje nga kategoria 18+ u shfaq atje. Kështu u shfaqën fjalorët e parë të shtypur manualisht të pornografisë dhe sharjeve, ato u rimbushën nga analistët. Detyra kryesore ishte klasifikimi i kërkesave në ato ku është e pranueshme të tregohet përmbajtje për të rritur dhe ku jo. Për këtë detyrë, u mblodhën shënimet, u ndërtuan heuristika dhe u trajnuan modelet. Kështu u shfaqën zhvillimet e para për filtrimin e përmbajtjeve të padëshiruara.

Me kalimin e kohës, UGC (përmbajtja e krijuar nga përdoruesi) filloi të shfaqet në Yandex - mesazhe që janë shkruar nga vetë përdoruesit, dhe Yandex publikon vetëm. Për arsyet e përshkruara më sipër, shumë mesazhe nuk mund të publikoheshin pa shikuar - kërkohej moderimi. Më pas ata vendosën të krijonin një shërbim që do të siguronte mbrojtje kundër mesazheve të padëshiruara dhe sulmuesve për të gjitha produktet Yandex UGC dhe do të përdorte zhvillimet për të filtruar përmbajtjen e padëshiruar në Search. Shërbimi u quajt "Ueb i pastër".

Detyra të reja dhe ndihmë nga shtytësit

Në fillim, vetëm automatizimi i thjeshtë funksionoi për ne: shërbimet na dërguan tekste, dhe ne drejtuam fjalorë të turpshëm, fjalorë porno dhe shprehje të rregullta mbi to - analistët përpiluan gjithçka me dorë. Por me kalimin e kohës, shërbimi u përdor në një numër në rritje të produkteve Yandex, dhe ne duhej të mësonim të punonim me probleme të reja.

Shpesh, në vend të një rishikimi, përdoruesit publikojnë një grup letrash të pakuptimta, duke u përpjekur të rrisin arritjet e tyre, ndonjëherë ata reklamojnë kompaninë e tyre në rishikimet e kompanisë së një konkurrenti, dhe nganjëherë ata thjesht ngatërrojnë organizatat dhe shkruajnë në një përmbledhje për një dyqan kafshësh shtëpiake: " Peshk i gatuar në mënyrë perfekte!” Ndoshta një ditë inteligjenca artificiale do të mësojë të kuptojë në mënyrë të përsosur kuptimin e çdo teksti, por tani automatizimi ndonjëherë përballet më keq se njerëzit.

U bë e qartë se ne nuk mund ta bënim këtë pa shënjimin manual dhe shtuam një fazë të dytë në qarkun tonë - duke e dërguar atë për inspektim manual nga një person. Aty përfshiheshin ato tekste të publikuara për të cilat klasifikuesi nuk pa ndonjë problem. Mund ta imagjinoni lehtësisht shkallën e një detyre të tillë, kështu që ne jo vetëm që u mbështetëm te vlerësuesit, por gjithashtu shfrytëzuam "mençurinë e turmës", domethënë iu drejtuam tolokuesve për ndihmë. Janë ata që na ndihmojnë të identifikojmë atë që ka humbur makineria dhe në këtë mënyrë ta mësojmë atë.

Caching inteligjent dhe hash LSH

Një problem tjetër që hasëm gjatë punës me komentet ishte spami, ose më saktë vëllimi dhe shpejtësia e përhapjes së tij. Kur audienca e Yandex.Region filloi të rritet me shpejtësi, dërguesit e postës elektronike erdhën atje. Ata mësuan të anashkalojnë shprehjet e rregullta duke ndryshuar pak tekstin. Spam, natyrisht, ende u gjet dhe u fshi, por në shkallën e Yandex, një mesazh i papranueshëm i postuar edhe për 5 minuta mund të shihej nga qindra njerëz.

Si të hapni komentet dhe të mos mbyteni në spam

Natyrisht, kjo nuk na përshtatej dhe ne bëmë memorie inteligjente të tekstit bazuar në LSH (hash i ndjeshëm ndaj lokalitetit). Punon kështu: ne normalizuam tekstin, hoqëm lidhjet prej tij dhe e premë në n-gram (sekuenca n shkronjash). Më pas, u llogaritën hash-et e n-gramëve dhe prej tyre u ndërtua vektori LSH i dokumentit. Çështja është se tekstet e ngjashme, edhe sikur të ishin ndryshuar pak, u kthyen në vektorë të ngjashëm.

Kjo zgjidhje bëri të mundur ripërdorimin e verdikteve të klasifikuesve dhe tolokuesve për tekste të ngjashme. Gjatë një sulmi spam, sapo mesazhi i parë kaloi skanimin dhe hyri në cache me një vendim "spam", të gjitha mesazhet e reja të ngjashme, madje edhe ato të modifikuara, morën të njëjtin verdikt dhe u fshinë automatikisht. Më vonë, ne mësuam se si të trajnojmë dhe rikualifikojmë automatikisht klasifikuesit e postës së padëshiruar, por kjo "cache inteligjente" mbeti me ne dhe ende shpesh na ndihmon.

Klasifikues i mirë i tekstit

Pa pasur kohë për të bërë një pushim nga luftimi i postës së padëshiruar, kuptuam se 95% e përmbajtjes sonë moderohet manualisht: klasifikuesit reagojnë vetëm ndaj shkeljeve dhe shumica e teksteve janë të mira. Ne ngarkojmë pastrues të cilët në 95 raste nga 100 japin vlerësimin "Gjithçka është në rregull". Më duhej të bëja një punë të pazakontë - të bëja klasifikues të përmbajtjes së mirë, për fat të mirë ishte grumbulluar mjaft shënime gjatë kësaj kohe.

Klasifikuesi i parë dukej kështu: ne lematizojmë tekstin (reduktojmë fjalët në formën e tyre fillestare), hedhim të gjitha pjesët ndihmëse të të folurit dhe përdorim një "fjalor të lemave të mira" të përgatitur paraprakisht. Nëse të gjitha fjalët në tekst janë "të mira", atëherë i gjithë teksti nuk përmban asnjë shkelje. Në shërbime të ndryshme, kjo qasje dha menjëherë nga 25 në 35% automatizimin e shënimit manual. Sigurisht, kjo qasje nuk është ideale: është e lehtë të kombinosh disa fjalë të pafajshme dhe të marrësh një deklaratë shumë fyese, por na lejoi të arrijmë shpejt një nivel të mirë automatizimi dhe na dha kohë për të trajnuar modele më komplekse.

Versionet e ardhshme të klasifikuesve të mirë të tekstit tashmë përfshinin modele lineare, pemë vendimesh dhe kombinime të tyre. Për të shënuar vrazhdësi dhe fyerje, për shembull, ne provojmë rrjetin nervor BERT. Është e rëndësishme të kuptosh kuptimin e një fjale në kontekst dhe lidhjen midis fjalëve nga fjali të ndryshme, dhe BERT bën një punë të mirë për këtë. (Meqë ra fjala, kohët e fundit kolegë nga News tha, si përdoret teknologjia për një detyrë jo standarde - gjetja e gabimeve në kokë.) Si rezultat, u bë e mundur të automatizoni deri në 90% të rrjedhës, në varësi të shërbimit.

Saktësia, plotësia dhe shpejtësia

Për t'u zhvilluar, duhet të kuptoni se çfarë përfitimesh sjellin disa klasifikues automatikë, ndryshimet në to dhe nëse cilësia e kontrolleve manuale është degraduese. Për ta bërë këtë, ne përdorim metrikën e saktësisë dhe rikujtimit.

Saktësia është raporti i vendimeve të sakta midis të gjitha vendimeve për përmbajtje të keqe. Sa më e lartë të jetë saktësia, aq më pak pozitive false. Nëse nuk i kushtoni vëmendje saktësisë, atëherë në teori mund të fshini të gjitha mesazhet e padëshiruara dhe të turpshme, dhe së bashku me to gjysmën e mesazheve të mira. Nga ana tjetër, nëse mbështeteni vetëm në saktësinë, atëherë teknologjia më e mirë do të jetë ajo që nuk e kap fare askënd. Prandaj, ekziston edhe një tregues i plotësisë: pjesa e përmbajtjes së keqe të identifikuar në vëllimin e përgjithshëm të përmbajtjes së keqe. Këto dy metrika balancojnë njëra-tjetrën.

Për të matur, ne kampionojmë të gjithë rrjedhën hyrëse për secilin shërbim dhe u japim mostra të përmbajtjes vlerësuesve për vlerësimin e ekspertëve dhe krahasimin me zgjidhjet e makinerive.

Por ka një tregues tjetër të rëndësishëm.

Shkrova me lart qe nje mesazh te papranueshem mund ta shohin qindra njerez edhe ne 5 minuta. Pra, ne numërojmë sa herë u treguam njerëzve përmbajtje të keqe përpara se ta fshihnim atë. Kjo është e rëndësishme sepse nuk mjafton të punosh në mënyrë efikase - gjithashtu duhet të punosh shpejt. Dhe kur ndërtuam një mbrojtje kundër sharjeve, e ndjemë atë në maksimum.

Antimatizmi duke përdorur shembullin e maceve dhe qenve

Një digresion i vogël lirik. Disa mund të thonë se turpësia dhe fyerjet nuk janë aq të rrezikshme sa lidhjet me qëllim të keq, dhe jo aq të bezdisshme sa mesazhet e padëshiruara. Por ne përpiqemi të ruajmë kushte të rehatshme për komunikim për miliona përdorues, dhe njerëzve nuk u pëlqen të kthehen në vendet ku ofendohen. Nuk është më kot që ndalimi i sharjeve dhe fyerjeve shprehet në rregullat e shumë komuniteteve, përfshirë Habré. Por ne largohemi.

Fjalorët e sharjeve nuk mund të përballojnë gjithë pasurinë e gjuhës ruse. Përkundër faktit se ekzistojnë vetëm katër rrënjë kryesore të betimit, prej tyre mund të krijoni një numër të panumërt fjalësh që nuk mund të kapen nga asnjë motor i rregullt. Përveç kësaj, ju mund të shkruani një pjesë të një fjale në transliterim, të zëvendësoni shkronjat me kombinime të ngjashme, të riorganizoni shkronjat, të shtoni yje, etj. Ndonjëherë, pa kontekst, është në thelb e pamundur të përcaktohet se përdoruesi ka menduar një fjalë betimi. Ne respektojmë rregullat e Habrit, kështu që këtë do ta demonstrojmë jo me shembuj të gjallë, por me mace dhe qen.

Si të hapni komentet dhe të mos mbyteni në spam

"Ligji," tha macja. Por ne e kuptojmë që macja tha një fjalë tjetër ...

Filluam të mendojmë për algoritmet e "përputhjes së paqartë" për fjalorin tonë dhe për parapërpunimin më të zgjuar: siguruam transliterim, ngjitëm hapësirat dhe shenjat e pikësimit, kërkuam modele dhe shkruam shprehje të veçanta të rregullta mbi to. Kjo qasje solli rezultate, por shpesh zvogëloi saktësinë dhe nuk dha plotësinë e dëshiruar.

Pastaj vendosëm të "mendojmë si të sharë". Ne filluam të fusim vetë zhurmën në të dhënat: ne riorganizuam shkronjat, krijuam gabime shtypi, zëvendësuam shkronjat me drejtshkrime të ngjashme, e kështu me radhë. Shënimi fillestar për këtë u mor duke aplikuar fjalorë mat në korpuse të mëdha tekstesh. Nëse merrni një fjali dhe e ktheni atë në disa mënyra, përfundoni me shumë fjali. Në këtë mënyrë ju mund të rrisni mostrën e trajnimit dhjetëra herë. E tëra që mbetej ishte të stërviteshim në pishinën që rezultonte një model pak a shumë i zgjuar që merrte parasysh kontekstin.

Si të hapni komentet dhe të mos mbyteni në spam

Është shumë herët për të folur për vendimin përfundimtar. Ne jemi ende duke eksperimentuar me qasje ndaj këtij problemi, por tashmë mund të shohim se një rrjet i thjeshtë konvolucional simbolik i disa shtresave tejkalon ndjeshëm fjalorët dhe motorët e rregullt: është e mundur të rritet saktësia dhe kujtesa.

Sigurisht, ne e kuptojmë se gjithmonë do të ketë mënyra për të anashkaluar edhe automatizimin më të avancuar, veçanërisht kur çështja është kaq e rrezikshme: shkruani në atë mënyrë që një makinë budallaqe të mos kuptojë. Këtu, si në luftën kundër spamit, qëllimi ynë nuk është të zhdukim vetë mundësinë për të shkruar diçka të turpshme; detyra jonë është të sigurohemi që loja nuk ia vlen qiri.

Hapja e mundësisë për të ndarë mendimin tuaj, për të komunikuar dhe komentuar nuk është e vështirë. Është shumë më e vështirë për të arritur kushte të sigurta, të rehatshme dhe trajtim me respekt të njerëzve. Dhe pa këtë nuk do të ketë zhvillim të asnjë komuniteti.

Burimi: www.habr.com

Shto një koment