Hvernig á að opna athugasemdir og ekki drukkna í ruslpósti

Hvernig á að opna athugasemdir og ekki drukkna í ruslpósti

Þegar starf þitt er að skapa eitthvað fallegt þarftu ekki að tala of mikið um það, því útkoman er fyrir augum allra. En ef þú eyðir áletrunum af girðingum mun enginn taka eftir vinnu þinni svo lengi sem girðingarnar líta almennilega út eða þar til þú eyðir eitthvað rangt út.

Sérhver þjónusta þar sem þú getur skilið eftir athugasemd, endurskoðað, sent skilaboð eða hlaðið upp myndum fyrr eða síðar stendur frammi fyrir vandræðum með ruslpósti, svikum og ruddaskap. Það er ekki hægt að komast hjá þessu, en það verður að bregðast við því.

Ég heiti Mikhail, ég vinn í Antispam teyminu, sem verndar notendur Yandex þjónustu fyrir slíkum vandamálum. Það er sjaldan tekið eftir vinnu okkar (og það er gott!), svo í dag skal ég segja þér meira frá því. Þú munt læra hvenær hófsemi er gagnslaus og hvers vegna nákvæmni er ekki eina vísbendingin um virkni þess. Við munum einnig tala um blótsyrði með því að nota dæmi um ketti og hunda og hvers vegna það er stundum gagnlegt að „hugsa eins og sverri“.

Sífellt fleiri þjónusta birtast í Yandex þar sem notendur birta efni sitt. Þú getur spurt spurninga eða skrifað svar í Yandex.Q, rætt garðfréttir í Yandex.District, deilt umferðaraðstæðum í samtölum á Yandex.Maps. En þegar áhorfendur þjónustunnar stækka verður hún aðlaðandi fyrir svindlara og ruslpóstsmiðla. Þeir koma og fylla út athugasemdir: þeir bjóða auðvelda peninga, auglýsa kraftaverkalækningar og lofa félagslegum ávinningi. Vegna ruslpóstsenda tapa sumir notendur peningum á meðan aðrir missa löngunina til að eyða tíma í ósnortna þjónustu sem er full af ruslpósti.

Og þetta er ekki eina vandamálið. Við kappkostum ekki aðeins að vernda notendur fyrir svindlum, heldur einnig að skapa þægilegt andrúmsloft fyrir samskipti. Ef fólk stendur frammi fyrir blóti og móðgunum í athugasemdum er líklegt að það fari og snúi aldrei aftur. Þetta þýðir að þú þarft líka að geta tekist á við þetta.

Hreinn vefur

Eins og oft er hjá okkur, þá fæddust fyrstu þróunin í Leit, í þeim hluta sem berst gegn ruslpósti í leitarniðurstöðum. Þar birtist fyrir um tíu árum það verkefni að sía efni fyrir fullorðna fyrir fjölskylduleit og fyrir fyrirspurnir sem ekki kröfðust svara úr 18+ flokki. Svona birtust fyrstu handvirku orðabækurnar um klám og blót, þær voru endurnýjaðar af sérfræðingum. Meginverkefnið var að flokka beiðnir í þær þar sem leyfilegt er að sýna efni fyrir fullorðna og þar sem það er ekki. Fyrir þetta verkefni var álagningu safnað, heuristics smíðuð og líkön þjálfuð. Svona birtist fyrstu þróunin til að sía óæskilegt efni.

Með tímanum byrjaði UGC (notendaframleitt efni) að birtast í Yandex - skilaboð sem eru skrifuð af notendum sjálfum og Yandex birtir aðeins. Af ástæðum sem lýst er hér að ofan var ekki hægt að birta mörg skilaboð án þess að skoða - hófsemi var krafist. Síðan ákváðu þeir að búa til þjónustu sem myndi veita vörn gegn ruslpósti og árásarmönnum fyrir allar Yandex UGC vörur og nota þróun til að sía óæskilegt efni í leit. Þjónustan var kölluð „Hreinn vefur“.

Ný verkefni og hjálp frá ýtendum

Í fyrstu virkaði aðeins einföld sjálfvirkni fyrir okkur: þjónustan sendi okkur texta og við keyrðum ósvífnisorðabækur, klámorðabækur og reglubundnar orðasambönd á þær - sérfræðingar tóku allt saman handvirkt. En með tímanum var þjónustan notuð í auknum fjölda Yandex vörum og við þurftum að læra að vinna með ný vandamál.

Oft birta notendur tilgangslaust sett af bréfum í stað umsagnar og reyna að auka árangur þeirra, stundum auglýsa þeir fyrirtæki sitt í umsögnum um fyrirtæki samkeppnisaðila og stundum rugla þeir einfaldlega saman stofnunum og skrifa í umsögn um gæludýraverslun: " Fullkomlega eldaður fiskur!” Kannski mun gervigreind einhvern tímann læra að átta sig fullkomlega á merkingu hvaða texta sem er, en nú tekst sjálfvirkni stundum verr en menn.

Það varð ljóst að við gætum ekki gert þetta án handvirkrar merkingar og við bættum öðru þrepi við hringrásina okkar - sendum það til handvirkrar skoðunar hjá einstaklingi. Þar voru birtir textar sem flokkarinn sá engin vandamál fyrir. Þú getur auðveldlega ímyndað þér umfang slíks verkefnis, þannig að við treystum ekki aðeins á matsmenn heldur nýttum okkur líka „visku mannfjöldans“, það er að segja, við leituðum til tolokers um hjálp. Það eru þeir sem hjálpa okkur að bera kennsl á hverju vélin missti af og kenna hana þar með.

Snjall skyndiminni og LSH hass

Annað vandamál sem við lentum í þegar unnið var með athugasemdir var ruslpóstur, eða nánar tiltekið magn þess og dreifingarhraði. Þegar Yandex.Region áhorfendur fóru að stækka hratt komu ruslpóstsmiðlarar þangað. Þeir lærðu að komast framhjá reglulegum orðasamböndum með því að breyta textanum lítillega. Ruslpóstur fannst að sjálfsögðu enn og var eytt, en á mælikvarða Yandex, óviðunandi skilaboð, jafnvel í 5 mínútur, gátu hundruð manna séð.

Hvernig á að opna athugasemdir og ekki drukkna í ruslpósti

Þetta hentaði okkur auðvitað ekki og við gerðum snjalla textageymslu byggða á LSH (staðsetningarnæmur hashing). Það virkar svona: við stöðluðum textann, fjarlægðum tengla úr honum og klipptum hann í n-grömm (röð af n bókstöfum). Því næst voru kjötkássa n-grömm reiknuð út og LSH vektor skjalsins byggður upp úr þeim. Málið er að svipaðir textar, jafnvel þótt þeir hafi verið örlítið breyttir, breyttust í svipaða vektora.

Þessi lausn gerði það að verkum að hægt var að endurnýta dóma flokkara og tolokara fyrir svipaða texta. Meðan á ruslpóstsárás stóð, um leið og fyrstu skilaboðin stóðust skönnunina og fóru inn í skyndiminni með „ruslpóst“ dómi, fengu öll ný svipuð skilaboð, jafnvel breytt, sama úrskurð og var eytt sjálfkrafa. Seinna lærðum við að þjálfa og endurþjálfa ruslpóstflokkara sjálfkrafa, en þetta „snjalla skyndiminni“ var hjá okkur og hjálpar okkur samt oft.

Góður textaflokkari

Án þess að hafa tíma til að taka hlé frá baráttunni gegn ruslpósti, komumst við að því að 95% af efninu okkar er stjórnað handvirkt: flokkarar bregðast aðeins við brotum og flestir textarnir eru góðir. Við hleðjum hreinsiefni sem í 95 tilfellum af 100 gefa einkunnina „Allt er í lagi“. Ég þurfti að vinna óvenjulega vinnu - að búa til flokkara af góðu efni, sem betur fer hafði safnast upp næg álagning á þessum tíma.

Fyrsti flokkarinn leit svona út: við lemmatiserum textann (minnkum orðin niður í upphafsform), hendum út öllum aukahlutum málsins og notum fyrirfram útbúna „orðabók yfir góð lemmas“. Ef öll orðin í textanum eru „góð“, þá eru engin brot í textanum í heild sinni. Í mismunandi þjónustu gaf þessi nálgun strax frá 25 til 35% sjálfvirkni handvirkrar merkingar. Auðvitað er þessi nálgun ekki tilvalin: það er auðvelt að sameina nokkur saklaus orð og fá mjög móðgandi yfirlýsingu, en hún gerði okkur kleift að ná fljótt góðu sjálfvirknistigi og gaf okkur tíma til að þjálfa flóknari gerðir.

Næstu útgáfur af góðum textaflokkara innihéldu þegar línuleg líkön, ákvörðunartré og samsetningar þeirra. Til að marka dónaskap og móðgun reynum við til dæmis BERT tauganetið. Mikilvægt er að átta sig á merkingu orðs í samhengi og tengsl orða úr mismunandi setningum og BERT stendur sig vel í því. (Við the vegur, nýlega samstarfsmenn frá News sagt, hvernig tæknin er notuð fyrir óstöðluð verkefni - leit að villum í hausum.) Fyrir vikið var hægt að gera sjálfvirkan allt að 90% af flæðinu, allt eftir þjónustu.

Nákvæmni, heill og hraði

Til að þróa þarftu að skilja hvaða ávinning ákveðnir sjálfvirkir flokkarar hafa í för með sér, breytingar á þeim og hvort gæði handvirkra athugana séu niðurlægjandi. Til að gera þetta notum við nákvæmni og munamælingar.

Nákvæmni er hlutfall réttra dóma meðal allra dóma um slæmt efni. Því meiri nákvæmni, því færri falskar jákvæðar. Ef þú gefur ekki gaum að nákvæmni, þá geturðu fræðilega eytt öllum ruslpósti og ósæmilegum orðum, og ásamt þeim helmingnum af góðu skilaboðunum. Á hinn bóginn, ef þú treystir aðeins á nákvæmni, þá verður besta tæknin sú sem grípur engan. Þess vegna er líka til vísbending um heilleika: hlutdeild auðkennds slæms efnis af heildarmagni slæms efnis. Þessir tveir mælikvarðar jafna hver annan út.

Til að mæla tökum við sýnishorn af öllu innstreymi fyrir hverja þjónustu og gefum efnissýni til matsaðila til að meta sérfræðinga og bera saman við vélalausnir.

En það er annar mikilvægur vísir.

Ég skrifaði hér að ofan að óviðunandi skilaboð geta séð hundruð manna jafnvel á 5 mínútum. Svo við teljum hversu oft við sýndum fólki slæmt efni áður en við földum það. Þetta er mikilvægt vegna þess að það er ekki nóg að vinna á skilvirkan hátt - þú þarft líka að vinna hratt. Og þegar við byggðum upp vörn gegn blótsyrði, fundum við það til hins ýtrasta.

Antimatismi með dæmi um ketti og hunda

Lítil ljóðræn útrás. Sumir gætu sagt að svívirðingar og móðgun séu ekki eins hættuleg og skaðlegir hlekkir og ekki eins pirrandi og ruslpóstur. En við kappkostum að viðhalda þægilegum samskiptaskilyrðum fyrir milljónir notenda og fólki líkar ekki að snúa aftur á staði þar sem þeim er misboðið. Það er ekki fyrir neitt sem bannið við blótsyrðum og móðgun er sett fram í reglum margra samfélaga, þar á meðal á Habré. En við víkjum.

Orðabækur með blótsyrði geta ekki ráðið við allan auð rússnesku. Þrátt fyrir þá staðreynd að það eru aðeins fjórar helstu blótsrætur, úr þeim er hægt að búa til óteljandi fjölda orða sem ekki er hægt að grípa af neinum venjulegum vélum. Að auki er hægt að skrifa hluta orðs í umritun, skipta út bókstöfum fyrir svipaðar samsetningar, endurraða stöfum, bæta við stjörnum o.s.frv. Stundum, án samhengis, er í rauninni ómögulegt að ákvarða að notandinn hafi átt við blótsorð. Við virðum reglur Habr, svo við munum sýna þetta ekki með lifandi dæmum, heldur með köttum og hundum.

Hvernig á að opna athugasemdir og ekki drukkna í ruslpósti

„Lög,“ sagði kötturinn. En við skiljum að kötturinn hafi sagt annað orð...

Við fórum að hugsa um „óljós samsvörun“ reiknirit fyrir orðabókina okkar og um snjallari forvinnslu: við bjuggum til umritun, límdum saman bil og greinarmerki, leituðum að mynstrum og skrifuðum aðskildar reglubundnar orðasambönd á þau. Þessi nálgun skilaði árangri en dró oft úr nákvæmni og skilaði ekki tilætluðum fullkomleika.

Þá ákváðum við að „hugsa eins og sverjar“. Við byrjuðum sjálf að setja hávaða inn í gögnin: við endurskipuðum bókstöfum, gerðum innsláttarvillur, skiptum út bókstöfum fyrir svipaða stafsetningu og svo framvegis. Upphafleg álagning fyrir þetta var tekin með því að beita matarorðabókum á stóra hluta texta. Ef þú tekur eina setningu og snýr henni á nokkra vegu endar þú með margar setningar. Þannig geturðu aukið æfingaúrtakið tugum sinnum. Það eina sem var eftir var að æfa á lauginni sem varð til einhvers meira og minna snjölls líkans sem tók mið af samhenginu.

Hvernig á að opna athugasemdir og ekki drukkna í ruslpósti

Of snemmt er að tala um endanlega ákvörðun. Við erum enn að gera tilraunir með nálganir á þessu vandamáli, en við getum nú þegar séð að einfalt táknrænt snýringarnet nokkurra laga er verulega betri en orðabækur og venjulegar vélar: það er hægt að auka bæði nákvæmni og muna.

Auðvitað skiljum við að það verða alltaf leiðir til að komast framhjá jafnvel fullkomnustu sjálfvirkni, sérstaklega þegar málið er svo hættulegt: skrifaðu á þann hátt að heimsk vél skilji ekki. Hér, eins og í baráttunni gegn ruslpósti, er markmið okkar ekki að uppræta möguleikann á að skrifa eitthvað ruddalegt, verkefni okkar er að ganga úr skugga um að leikurinn sé ekki þess virði kertið.

Það er ekki erfitt að opna tækifærið til að deila skoðunum þínum, hafa samskipti og tjá sig. Það er miklu erfiðara að ná öruggum, þægilegum aðstæðum og virðingu fyrir fólki. Og án þessa verður engin þróun í neinu samfélagi.

Heimild: www.habr.com

Bæta við athugasemd