Wéi kommentéieren opzemaachen an net am Spam erdrénken

Wéi kommentéieren opzemaachen an net am Spam erdrénken

Wann Är Aarbecht ass eppes Schéines ze kreéieren, musst Dir net ze vill doriwwer schwätzen, well d'Resultat ass virun den Ae vun jidderengem. Awer wann Dir Inskriptiounen aus Fiederen läscht, wäert keen Är Aarbecht bemierken soulaang d'Fiedere anstänneg ausgesinn oder bis Dir eppes falsch läscht.

All Service wou Dir e Kommentar hannerloosse kënnt, iwwerpréiwen, e Message schécken oder Biller eropluede fréier oder spéider konfrontéiert de Problem vu Spam, Bedruch an Obszönitéit. Dëst kann net evitéiert ginn, mä et muss behandelt ginn.

Mäin Numm ass Mikhail, ech schaffen op der Antispam Team, déi Benotzer vun Yandex Servicer vun esou Problemer schützt. Eis Aarbecht gëtt selten gemierkt (an dat ass eng gutt Saach!), also haut soen ech Iech méi doriwwer. Dir léiert wann Moderatioun nëtzlos ass a firwat Genauegkeet net deen eenzegen Indikator fir seng Effektivitéit ass. Mir wäerten och iwwer Schweier schwätzen mam Beispill vu Kazen an Hënn a firwat et heiansdo nëtzlech ass "wéi e Schweier ze denken."

Méi a méi Servicer erschéngen am Yandex wou d'Benotzer hiren Inhalt publizéieren. Dir kënnt eng Fro stellen oder eng Äntwert schreiwen an Yandex.Q, diskutéieren Haff Neiegkeeten am Yandex.District, Trafficbedéngungen an Gespréicher op Yandex.Maps deelen. Awer wann d'Publikum vum Service wiisst, gëtt et attraktiv fir Scammeren a Spammeren. Si kommen a fëllen Kommentaren aus: Si bidden einfach Suen, Reklamm fir Wonnerkuren a verspriechen sozial Virdeeler. Wéinst Spammer verléieren e puer Benotzer Sue, anerer verléieren de Wonsch Zäit ze verbréngen op engem ongewollten Service deen mat Spam iwwerwältegt ass.

An dëst ass net deen eenzege Problem. Mir striewen net nëmmen d'Benotzer vu Scammers ze schützen, awer och eng komfortabel Atmosphär fir Kommunikatioun ze kreéieren. Wann d'Leit mat Geschwüren a Beleidegungen an de Kommentare konfrontéiert sinn, si si wahrscheinlech fortgaang an ni zréck. Dat heescht, Dir musst och fäeg sinn mat deem ze handelen.

Clean Web

Wéi dat bei eis dacks de Fall ass, sinn déi éischt Entwécklungen an der Sich gebuer ginn, am Deel deen de Spam an de Sichresultater bekämpft. Virun ongeféier zéng Joer ass d'Aufgab fir Erwuessene Inhalter fir Familljesiche ze filteren a fir Ufroen déi keng Äntwerten aus der Kategorie 18+ erfuerderen. Dëst ass wéi déi éischt manuell getippten Dictionnairen vu Porno a Vereedegung erschéngen, si goufen vun Analysten ersat. D'Haaptaufgab war d'Ufroen an déi ze klassifizéieren, wou et akzeptabel ass erwuessene Inhalter ze weisen a wou et net ass. Fir dës Aufgab gouf Markup gesammelt, Heuristike gebaut, a Modeller goufen trainéiert. Dëst ass wéi déi éischt Entwécklunge fir onerwënscht Inhalt ze filteren erschéngen.

Mat der Zäit huet UGC (Benotzer generéiert Inhalt) ugefaang an Yandex ze erschéngen - Messagen déi vun de Benotzer selwer geschriwwe sinn, an Yandex nëmmen publizéiert. Aus den uewe beschriwwene Grënn konnte vill Messagen net publizéiert ginn ouni ze kucken - Moderatioun war erfuerderlech. Dunn hunn se décidéiert e Service ze kreéieren deen Schutz géint Spam an Ugräifer fir all Yandex UGC Produkter ubitt an Entwécklungen benotze fir ongewollten Inhalter an der Sich ze filteren. De Service gouf "Clean Web" genannt.

Nei Aufgaben an Hëllef vun pushers

Am Ufank huet nëmmen eng einfach Automatisatioun fir eis geschafft: d'Servicer hunn eis Texter geschéckt, a mir hunn Obszenitéitsdictionnairen, Porno-Dictionnairen a regulär Ausdréck op hinnen gefouert - Analysten hunn alles manuell zesummegesat. Awer mat der Zäit gouf de Service an enger ëmmer méi grousser Zuel vu Yandex Produkter benotzt, a mir hu misse léieren mat neie Probleemer ze schaffen.

Dacks, amplaz vun enger Iwwerpréiwung, verëffentlechen d'Benotzer eng sënnlos Set vu Bréiwer, probéiert hir Leeschtungen ze erhéijen, heiansdo annoncéieren se hir Firma an de Bewäertunge vun der Konkurrentfirma, an heiansdo verwiessele se einfach Organisatiounen a schreiwen an enger Bewäertung iwwer en Déierebuttek: " Perfekt gekachten Fësch!” Vläicht léiert enges Daags kënschtlech Intelligenz d'Bedeitung vun all Text perfekt ze begräifen, awer elo ass d'Automatisatioun heiansdo méi schlecht wéi d'Mënschen.

Et gouf kloer datt mir dëst net ouni manuell Marquage maache kënnen, a mir hunn eng zweet Stuf op eise Circuit bäigefüügt - et fir eng manuell Inspektioun vun enger Persoun ze schécken. Déi publizéiert Texter, fir déi de Klassifizéierer keng Probleemer gesinn huet, waren do agebaut. Dir kënnt d'Skala vun esou enger Aufgab ganz einfach virstellen, sou datt mir net nëmmen op Bewäerter vertraut hunn, awer och vun der "Wäisheet vun der Masse" profitéiert hunn, dat heescht, mir hunn d'Toloker fir Hëllef gedréit. Si sinn déi, déi eis hëllefen z'identifizéieren wat d'Maschinn verpasst huet, an doduerch se léieren.

Smart Caching an LSH Hashing

En anere Problem dee mir begéint hunn wann Dir mat Kommentarer geschafft hutt, war Spam, oder méi präzis, säi Volumen a Geschwindegkeet vun der Verbreedung. Wann de Yandex.Region Publikum ugefaang séier ze wuessen, Spammer koumen do. Si hu geléiert regelméisseg Ausdréck ëmzegoen andeems se den Text liicht änneren. Spam, natierlech, gouf nach ëmmer fonnt a geläscht, awer op der Skala vum Yandex, eng inakzeptabel Noriicht, déi souguer fir 5 Minutten gepost gouf, konnt vun Honnerte vu Leit gesi ginn.

Wéi kommentéieren opzemaachen an net am Spam erdrénken

Natierlech huet dat eis net gepasst, a mir hunn Smart Text Caching baséiert op LSH (Uertschaft-sensibel hashing). Et funktionéiert esou: Mir hunn den Text normaliséiert, Linken dovun ewechgeholl an en an n-Gram geschnidden (Sequenze vun n Buschtawen). Als nächst goufen d'Hashes vun n-Gram berechent, an de LSH-Vektor vum Dokument gouf vun hinnen gebaut. De Punkt ass datt ähnlech Texter, och wa se liicht geännert goufen, an ähnlech Vektoren ëmgewandelt goufen.

Dës Léisung huet et méiglech gemaach d'Uerteeler vu Klassifizéierer an Toloker fir ähnlech Texter ze benotzen. Wärend engem Spamattack, soubal déi éischt Noriicht de Scan passéiert an de Cache mat engem "Spam" Uerteel erakoum, kruten all nei ähnlech Messagen, och geännert, déiselwecht Uerteel a goufen automatesch geläscht. Spéider hu mir geléiert wéi een Spam-Klassifizéierer trainéiert an automatesch nei trainéiert, awer dësen "Smart Cache" ass bei eis bliwwen an hëlleft eis ëmmer nach oft.

Gutt Textklassifizéierer

Ouni Zäit ze hunn fir eng Paus ze huelen aus dem Kampf géint Spam, hu mir gemierkt datt 95% vun eisem Inhalt manuell moderéiert ass: Klassifizéierer reagéieren nëmmen op Violatioune, an déi meescht Texter si gutt. Mir lueden Botzmëttelen, déi an 95 Fäll vun 100 d'Bewäertung "Alles ass OK" ginn. Ech hu missen eng ongewéinlech Aarbecht maachen - Klassifizéierer vu gudden Inhalt maachen, glécklecherweis hu genuch Markup während dëser Zäit accumuléiert.

Den éischte Klassifizéierer huet esou ausgesinn: mir lemmatiséieren den Text (reduzéiere d'Wierder op hir initial Form), werfen all d'Hëllefsdeeler vun der Ried eraus a benotzen e virbereet "Wörterbuch vu gudde Lemmaen". Wann all d'Wierder am Text "gutt" sinn, dann enthält de ganzen Text keng Violatioune. Op verschiddene Servicer huet dës Approche direkt vun 25 bis 35% Automatisatioun vun der manueller Markup ginn. Natierlech ass dës Approche net ideal: et ass einfach e puer onschëlleg Wierder ze kombinéieren an eng ganz offensiv Ausso ze kréien, awer et huet eis erlaabt séier e gudden Niveau vun der Automatisatioun z'erreechen an huet eis Zäit fir méi komplex Modeller ze trainéieren.

Déi nächst Versiounen vun gudden Text Classeuren abegraff schonn linear Modeller, Decisioun Beem, an hir Kombinatioune. Ze markéieren rudeness an Beleidegungen, zum Beispill, probéieren mir de BERT neural Reseau. Et ass wichteg d'Bedeitung vun engem Wuert am Kontext an d'Verbindung tëscht Wierder aus verschiddene Sätz ze begräifen, an de BERT mécht eng gutt Aarbecht dofir. (Iwwregens, viru kuerzem Kollegen vun News erzielt, Wéi d'Technologie fir eng net-Standard Aufgab benotzt gëtt - Feeler an Header ze fannen.) Als Resultat war et méiglech, bis zu 90% vum Flux ze automatiséieren, jee no dem Service.

Genauegkeet, Vollständegkeet a Geschwindegkeet

Fir ze entwéckelen, musst Dir verstoen wat Virdeeler bestëmmte automatesch Klassifizéierer bréngen, Ännerungen an hinnen, an ob d'Qualitéit vun de manuelle Kontrollen ofbaut. Fir dëst ze maachen, benotze mir Präzisioun a Réckruff Metriken.

Genauegkeet ass den Undeel vu korrekten Uerteeler tëscht all Uerteeler iwwer schlechten Inhalt. Wat méi héich d'Genauegkeet ass, wat manner falsch Positiven. Wann Dir net op Genauegkeet oppassen, da kënnt Dir an der Theorie all Spam an Obszänitéiten läschen, a mat hinnen d'Halschent vun de gudde Messagen. Op der anerer Säit, wann Dir nëmmen op Genauegkeet vertrauen, da wäert déi bescht Technologie déi sinn, déi iwwerhaapt kee fënnt. Dofir gëtt et och en Indikator vu Vollständegkeet: den Undeel vum identifizéierten schlechten Inhalt am Gesamtvolumen vum schlechten Inhalt. Dës zwou Metriken balanséieren géigesäiteg.

Fir ze moossen, probéieren mir de ganzen erakommen Stream fir all Service a ginn Inhaltsproben un d'Bewäerter fir Expert Evaluatioun a Verglach mat Maschinnléisungen.

Awer et gëtt en anere wichtege Indikator.

Ech hunn uewen geschriwwen datt en inakzeptabele Message vun Honnerte vu Leit souguer a 5 Minutten gesi ka ginn. Also ziele mir wéi oft mir de Leit schlechten Inhalt gewisen hunn ier mer et verstoppt hunn. Dëst ass wichteg well et net genuch ass effizient ze schaffen - Dir musst och séier schaffen. A wa mir eng Verteidegung géint Vereedegung gebaut hunn, hu mir et voll gefillt.

Antimatismus mam Beispill vu Kazen an Hënn

Eng kleng lyresch Digression. E puer kënne soen datt Obszönitéit a Beleidegungen net esou geféierlech sinn wéi béiswëlleg Linken, an net esou lästeg wéi Spam. Mä mir beméien eis bequem Konditioune fir Kommunikatioun fir Millioune Benotzer ze erhalen, an d'Leit kommen net gär op Plazen zréck wou se beleidegt sinn. Net fir näischt ass de Verbuet vu Schwieren a Beleidegungen an de Regele vu ville Gemengen, och op Habré, ausgeschriwwen. Awer mir verschwannen.

Schwieren Dictionnairen kënnen net mat all de Räichtum vun der russescher Sprooch eens ginn. Trotz der Tatsaach, datt et nëmme véier Haaptschwierwurzelen sinn, kënnt Dir vun hinnen eng Onmass vu Wierder ausmaachen, déi net vun all normale Motore gefaange kënne ginn. Ausserdeem kënnt Dir en Deel vun engem Wuert an der Transliteratioun schreiwen, Buschtawen duerch ähnlech Kombinatioune ersetzen, Buschtawen nei arrangéieren, Asterisken addéieren, etc. Heiansdo ass et ouni Kontext am Fong onméiglech ze bestëmmen datt de Benotzer e Schwierwuert gemengt huet. Mir respektéieren dem Habr seng Reegelen, dofir weisen mir dat net mat Live Beispiller, mee mat Kazen an Hënn.

Wéi kommentéieren opzemaachen an net am Spam erdrénken

"Gesetz," sot d'Kaz. Awer mir verstinn datt d'Kaz en anert Wuert gesot huet ...

Mir hunn ugefaang iwwer "fuzzy matching" Algorithmen fir eis Wierderbuch ze denken an iwwer méi schlau Virveraarbechtung: mir hunn d'Transliteratioun zur Verfügung gestallt, d'Plazen an d'Punctuatioun zesummegepecht, no Mustere gesicht a separat regulär Ausdréck drop geschriwwen. Dës Approche huet Resultater bruecht, awer dacks reduzéiert Genauegkeet an huet net déi gewënschte Vollständegkeet geliwwert.

Dunn hu mir décidéiert "wéi Geschwëster ze denken." Mir hunn ugefaang selwer Kaméidi an d'Donnéeën anzeféieren: mir hunn Buschtawen nei arrangéiert, Schreiffehler generéiert, Buschtawen duerch ähnlech Schreifweis ersat, asw. Déi initial Markup fir dëst gouf geholl andeems Dir mat Dictionnairen op grouss Korpora vun Texter applizéiert huet. Wann Dir ee Saz hëlt an et op verschidde Manéiere verdréit, kënnt Dir mat ville Sätz um Enn. Op dës Manéier kënnt Dir d'Ausbildungsprobe zéngmol erhéijen. Et bleift just fir op der resultéierender Pool e méi oder manner schlau Modell ze trainéieren deen de Kontext berücksichtegt huet.

Wéi kommentéieren opzemaachen an net am Spam erdrénken

Et ass ze fréi iwwer déi definitiv Entscheedung ze schwätzen. Mir experimentéieren nach ëmmer mat Approche zu dësem Problem, awer mir kënne scho gesinn datt en einfacht symbolescht Konvolutiounsnetz vu verschiddene Schichten däitlech besser ass wéi Dictionnairen a reguläre Motoren: et ass méiglech souwuel Genauegkeet wéi och Erënnerung ze erhéijen.

Natierlech verstinn mir datt et ëmmer Weeër gëtt fir och déi fortgeschratt Automatisatioun z'iwwergoen, besonnesch wann d'Saach esou geféierlech ass: Schreift sou datt eng domm Maschinn net versteet. Hei, wéi am Kampf géint Spam, ass eist Zil net d'Méiglechkeet ze läschen, eppes obszenes ze schreiwen; eis Aufgab ass sécherzestellen datt d'Spill d'Käerz net wäert ass.

D'Méiglechkeet opzemaachen fir Är Meenung ze deelen, ze kommunizéieren an ze kommentéieren ass net schwéier. Et ass vill méi schwéier sécher, komfortabel Konditiounen a respektvoll Behandlung vu Leit z'erreechen. An ouni dëst gëtt et keng Entwécklung vun enger Gemeinschaft.

Source: will.com

Setzt e Commentaire