Kuinka avata kommentteja ja olla hukkumatta roskapostiin

Kuinka avata kommentteja ja olla hukkumatta roskapostiin

Kun tehtäväsi on luoda jotain kaunista, sinun ei tarvitse puhua siitä liikaa, koska tulos on kaikkien silmien edessä. Mutta jos poistat kirjoituksia aidoista, kukaan ei huomaa työtäsi niin kauan kuin aidat näyttävät kunnollisilta tai kunnes poistat jotain vialla.

Kaikki palvelut, joihin voit jättää kommentin, arvostelun, lähettää viestin tai ladata kuvia, kohtaavat ennemmin tai myöhemmin roskapostin, petoksen ja siveettömyyden ongelman. Tätä ei voi välttää, mutta siihen on puututtava.

Nimeni on Mikhail, työskentelen Antispam-tiimissä, joka suojaa Yandex-palvelujen käyttäjiä tällaisilta ongelmilta. Työmme huomataan harvoin (ja se on hyvä asia!), joten tänään kerron siitä lisää. Opit milloin maltillisuus on hyödytöntä ja miksi tarkkuus ei ole sen tehokkuuden ainoa indikaattori. Puhumme myös kiroilusta kissojen ja koirien esimerkillä ja siitä, miksi joskus on hyödyllistä "ajatella kuin kiroilija".

Yandexiin ilmestyy yhä enemmän palveluita, joissa käyttäjät julkaisevat sisältöään. Voit esittää kysymyksen tai kirjoittaa vastauksen Yandex.Q:ssa, keskustella pihauutisista Yandex.Districtissä, jakaa liikenneolosuhteita keskusteluissa Yandex.Mapsissa. Mutta kun palvelun yleisö kasvaa, se houkuttelee huijareita ja roskapostittajia. He tulevat ja täyttävät kommentteja: tarjoavat helppoa rahaa, mainostavat ihmelääkkeitä ja lupaavat sosiaalietuja. Roskapostittajista johtuen jotkut käyttäjät menettävät rahaa, kun taas toiset menettävät halunsa viettää aikaa roskapostin umpeen kasvaneen roskapostin parissa.

Eikä tämä ole ainoa ongelma. Pyrimme paitsi suojelemaan käyttäjiä huijareilta, myös luomaan mukavan ilmapiirin viestintään. Jos ihmiset kohtaavat kommenteissa kiroilua ja loukkauksia, he todennäköisesti lähtevät eivätkä koskaan palaa. Tämä tarkoittaa, että sinun on myös kyettävä käsittelemään tätä.

Puhdas verkko

Kuten meillä usein tapahtuu, ensimmäiset kehityssuunnat syntyivät haussa, osassa, joka torjuu roskapostia hakutuloksissa. Noin kymmenen vuotta sitten siellä ilmestyi tehtävä suodattaa aikuisille suunnattua sisältöä perhehakuihin ja kyselyihin, jotka eivät vaadi vastauksia kategoriasta 18+. Näin ilmestyivät ensimmäiset käsin kirjoitetut pornon ja kiroilun sanakirjat, joita analyytikot täydensivät. Päätehtävänä oli luokitella pyynnöt niihin, joissa aikuisille suunnatun sisällön näyttäminen on sallittua ja missä ei. Tätä tehtävää varten kerättiin merkinnät, rakennettiin heuristiikkaa ja koulutettiin malleja. Näin ilmestyivät ensimmäiset ei-toivotun sisällön suodatuskehitykset.

Ajan myötä UGC (käyttäjien luoma sisältö) alkoi näkyä Yandexissä - käyttäjien itsensä kirjoittamia viestejä, ja Yandex julkaisee vain. Yllä kuvatuista syistä monia viestejä ei voitu julkaista katsomatta - moderointi vaadittiin. Sitten he päättivät luoda palvelun, joka tarjoaisi suojan roskapostia ja hyökkääjiä vastaan ​​kaikille Yandexin UGC-tuotteille ja käyttää kehitystä ei-toivotun sisällön suodattamiseen haussa. Palvelun nimi oli "Clean Web".

Uusia tehtäviä ja apua työntäjiltä

Aluksi meillä toimi vain yksinkertainen automaatio: palvelut lähettivät meille tekstejä, ja me käytimme niissä siveetöntä sanakirjoja, pornosanakirjoja ja säännöllisiä lausekkeita - analyytikot kokosivat kaiken käsin. Mutta ajan myötä palvelua käytettiin yhä useammissa Yandex-tuotteissa, ja meidän oli opittava työskentelemään uusien ongelmien kanssa.

Usein käyttäjät julkaisevat arvostelun sijaan merkityksettömän kirjesarjan yrittäessään lisätä saavutuksiaan, joskus he mainostavat yritystään kilpailijan yrityksen arvosteluissa, ja joskus he yksinkertaisesti hämmentävät organisaatioita ja kirjoittavat arvostelussa lemmikkikaupasta: " Täydellisesti kypsennetty kala!” Ehkä joskus tekoäly oppii ymmärtämään täydellisesti minkä tahansa tekstin merkityksen, mutta nyt automaatio selviää joskus huonommin kuin ihmiset.

Kävi selväksi, että emme voi tehdä tätä ilman manuaalista merkintää, ja lisäsimme piiriimme toisen vaiheen - sen lähettämisen henkilön manuaaliseen tarkastukseen. Sinne sisällytettiin ne julkaistut tekstit, joissa luokittelija ei nähnyt ongelmia. Voit helposti kuvitella tällaisen tehtävän mittakaavan, joten emme luottaneet vain arvioijiin, vaan myös hyödynsimme "joukon viisautta", eli käännyimme tolokereiden puoleen. He auttavat meitä tunnistamaan, mitä koneelta jäi huomaamatta, ja siten opettamaan sen.

Älykäs välimuisti ja LSH-tiivistys

Toinen kommenttien käsittelyssä kohtaamamme ongelma oli roskaposti tai tarkemmin sanottuna sen määrä ja leviämisnopeus. Kun Yandex.Region-yleisö alkoi kasvaa nopeasti, roskapostittajat saapuivat sinne. He oppivat ohittamaan säännölliset lausekkeet muuttamalla hieman tekstiä. Roskapostia tietysti edelleen löydettiin ja poistettiin, mutta Yandexin mittakaavassa sadat ihmiset näkivät jopa 5 minuutin ajan lähetetyn, kelpaamattoman viestin.

Kuinka avata kommentteja ja olla hukkumatta roskapostiin

Tämä ei tietenkään sopinut meille, ja teimme älykkään tekstin välimuistin LSH:n perusteella (paikkaherkkä hajautus). Se toimii näin: normalisoimme tekstin, poistimme siitä linkit ja leikkasimme sen n-grammeiksi (n kirjaimen sarjoiksi). Seuraavaksi laskettiin n-grammien tiivisteet ja rakennettiin niistä dokumentin LSH-vektori. Asia on siinä, että samanlaiset tekstit, vaikka niitä olisi hieman muutettu, muuttuivat samanlaisiksi vektoreiksi.

Tämä ratkaisu mahdollisti luokittajien ja tolokereiden tuomioiden uudelleenkäytön samankaltaisille teksteille. Roskapostihyökkäyksen aikana, heti kun ensimmäinen viesti läpäisi tarkistuksen ja tuli välimuistiin "roskapostituomiolla", kaikki uudet samankaltaiset viestit, myös muokatut, saivat saman tuomion ja ne poistettiin automaattisesti. Myöhemmin opimme opettamaan ja kouluttamaan uudelleen automaattisesti roskapostin luokittajia, mutta tämä "älykäs välimuisti" jäi meille ja auttaa edelleen usein.

Hyvä tekstin luokitin

Emme ehtineet pitää taukoa roskapostin torjumisesta, mutta ymmärsimme, että 95 % sisällöstämme moderoidaan manuaalisesti: luokittelijat reagoivat vain rikkomuksiin, ja suurin osa teksteistä on hyviä. Lataamme siivoojat, jotka 95 tapauksessa 100:sta antavat arvosanan "Kaikki on kunnossa". Jouduin tekemään epätavallista työtä - tekemään hyvän sisällön luokittelijat, onneksi merkintöjä oli kertynyt tänä aikana.

Ensimmäinen luokitin näytti tältä: lemmatisoimme tekstin (vähennämme sanat alkuperäiseen muotoonsa), heitämme pois kaikki puheen apuosat ja käytämme valmiiksi valmistettua "hyvien lemmien sanakirjaa". Jos kaikki tekstin sanat ovat "hyviä", koko teksti ei sisällä rikkomuksia. Eri palveluissa tämä lähestymistapa toi välittömästi 25 - 35 % automaattisen manuaalisen merkinnän. Tämä lähestymistapa ei tietenkään ole ihanteellinen: on helppo yhdistää useita viattomia sanoja ja saada erittäin loukkaava lausunto, mutta se antoi meille mahdollisuuden saavuttaa nopeasti hyvä automaation taso ja antoi meille aikaa kouluttaa monimutkaisempia malleja.

Hyvien tekstiluokittajien seuraavissa versioissa oli jo lineaarimalleja, päätöspuita ja niiden yhdistelmiä. Esimerkiksi töykeyden ja loukkausten merkitsemiseksi kokeilemme BERT-hermoverkkoa. On tärkeää ymmärtää sanan merkitys kontekstissa ja eri lauseiden sanojen välinen yhteys, ja BERT tekee tässä hyvää työtä. (Muuten, äskettäin kollegat Newsista kertoi, miten tekniikkaa käytetään epätyypilliseen tehtävään - virheiden etsiminen otsikoista.) Tuloksena oli mahdollista automatisoida jopa 90 % virrasta palvelusta riippuen.

Tarkkuus, täydellisyys ja nopeus

Kehittyäkseen on ymmärrettävä, mitä etuja tietyt automaattiset luokittelijat tuovat, muutoksia niissä ja onko manuaalisten tarkastusten laatu huonontunut. Käytämme tätä varten tarkkuus- ja palautusmittareita.

Tarkkuus on oikeiden tuomioiden osuus kaikista huonoa sisältöä koskevista tuomioista. Mitä suurempi tarkkuus, sitä vähemmän vääriä positiivisia. Jos et kiinnitä huomiota tarkkuuteen, voit teoriassa poistaa kaiken roskapostin ja siveettömyyden sekä niiden mukana puolet hyvistä viesteistä. Toisaalta, jos luotat vain tarkkuuteen, paras tekniikka on se, joka ei ota ketään kiinni. Siksi on olemassa myös täydellisyyden indikaattori: tunnistetun huonon sisällön osuus huonon sisällön kokonaismäärästä. Nämä kaksi mittaria tasapainottavat toisiaan.

Mittauksia varten otamme näytteen kunkin palvelun koko saapuvasta virrasta ja annamme sisältönäytteitä arvioijille asiantuntija-arviointia ja koneratkaisuihin vertailua varten.

Mutta on toinen tärkeä indikaattori.

Kirjoitin yllä, että kelpaamaton viesti näkyy sadoilla ihmisillä jopa 5 minuutissa. Joten laskemme, kuinka monta kertaa näytimme ihmisille huonoa sisältöä ennen kuin piilotimme sen. Tämä on tärkeää, koska ei riitä, että työskentelet tehokkaasti, vaan sinun on myös työskenneltävä nopeasti. Ja kun rakensimme suojan kiroilua vastaan, tunsimme sen täysin.

Antimatismi kissojen ja koirien esimerkillä

Pieni lyyrinen poikkeama. Jotkut saattavat sanoa, että säädyttömyys ja loukkaukset eivät ole yhtä vaarallisia kuin haitalliset linkit eivätkä yhtä ärsyttäviä kuin roskaposti. Mutta pyrimme ylläpitämään mukavat olosuhteet miljoonille käyttäjille, eivätkä ihmiset halua palata paikkoihin, joissa heitä loukataan. Ei ole turhaa, että kiroilu- ja loukkauskielto on kirjattu monien yhteisöjen sääntöihin, myös Habreen. Mutta poikkeamme.

Kiroilevat sanakirjat eivät kestä kaikkea venäjän kielen rikkautta. Huolimatta siitä, että kiroilun pääjuuria on vain neljä, niistä voit muodostaa lukemattoman määrän sanoja, joita mikään tavallinen moottori ei voi saada kiinni. Lisäksi voit kirjoittaa osan sanasta translitteroituna, korvata kirjaimia vastaavilla yhdistelmillä, järjestää kirjaimia uudelleen, lisätä tähtiä jne. Joskus ilman kontekstia on käytännössä mahdotonta määrittää, että käyttäjä tarkoitti kirosanaa. Kunnioitamme Habrin sääntöjä, joten emme näytä tätä elävin esimerkein, vaan kissoilla ja koirilla.

Kuinka avata kommentteja ja olla hukkumatta roskapostiin

"Laki", sanoi kissa. Mutta ymmärrämme, että kissa sanoi eri sanan...

Aloimme miettiä sanakirjamme "fuzzy matching" -algoritmeja ja älykkäämpää esikäsittelyä: teimme translitteroinnin, liimasimme välilyönnit ja välimerkit yhteen, etsimme malleja ja kirjoitimme niihin erilliset säännölliset lausekkeet. Tämä lähestymistapa tuotti tuloksia, mutta usein heikensi tarkkuutta eikä tarjonnut haluttua täydellisyyttä.

Sitten päätimme "ajatella kuin kirojat". Aloimme itse tuoda dataan kohinaa: järjestimme kirjaimia uudelleen, loimme kirjoitusvirheitä, korvasimme kirjaimet samanlaisilla kirjoitusasuilla ja niin edelleen. Alkumerkintä tähän otettiin soveltamalla mattosanakirjoja suuriin tekstikokonaisuuksiin. Jos otat yhden lauseen ja käännät sitä useilla tavoilla, päädyt useisiin lauseisiin. Näin voit kasvattaa harjoitusotoksen kymmeniä kertoja. Jäljelle jäi vain harjoitella tuloksena olevalla poolilla jotain enemmän tai vähemmän älykästä mallia, joka otti huomioon kontekstin.

Kuinka avata kommentteja ja olla hukkumatta roskapostiin

Lopullisesta päätöksestä on liian aikaista puhua. Kokeilemme edelleen lähestymistapoja tähän ongelmaan, mutta voimme jo nähdä, että yksinkertainen symbolinen useiden kerrosten konvoluutioverkko ylittää huomattavasti sanakirjat ja tavalliset moottorit: on mahdollista lisätä sekä tarkkuutta että muistamista.

Tietenkin ymmärrämme, että aina löytyy keinoja ohittaa edistyneinkin automaatio, varsinkin kun asia on niin vaarallinen: kirjoita niin, että tyhmä kone ei ymmärrä. Tässä, kuten roskapostin torjunnassa, tavoitteenamme ei ole poistaa mahdollisuutta kirjoittaa jotain säädytöntä, vaan meidän tehtävämme on varmistaa, että peli ei ole kynttilän arvoinen.

Mahdollisuuden avaaminen mielipiteen jakamiseen, kommunikointiin ja kommentointiin ei ole vaikeaa. Turvallisten, mukavien olosuhteiden ja ihmisten kunnioittavan kohtelun saavuttaminen on paljon vaikeampaa. Ja ilman tätä ei mikään yhteisö kehity.

Lähde: will.com

Lisää kommentti