Kā atvērt komentārus un nenoslīkt surogātpastā

Kā atvērt komentārus un nenoslīkt surogātpastā

Ja jÅ«su uzdevums ir radÄ«t kaut ko skaistu, jums par to nav pārāk daudz jārunā, jo rezultāts ir visu acu priekŔā. Bet, ja jÅ«s izdzēsÄ«siet uzrakstus no žogiem, neviens nepamanÄ«s jÅ«su darbu, kamēr žogi izskatÄ«sies pieklājÄ«gi vai neizdzēsÄ«siet kaut ko nepareizi.

JebkurÅ” pakalpojums, kurā varat atstāt komentāru, atsauksmi, nosÅ«tÄ«t ziņojumu vai augÅ”upielādēt attēlus, agrāk vai vēlāk saskaras ar surogātpasta, krāpÅ”anas un neÄ·Ä«trÄ«bas problēmu. No tā nevar izvairÄ«ties, bet ar to ir jātiek galā.

Mani sauc Mihails, es strādāju Antispam komandā, kas aizsargā Yandex pakalpojumu lietotājus no Ŕādām problēmām. MÅ«su darbs tiek reti pamanÄ«ts (un tas ir labi!), tāpēc Å”odien par to pastāstÄ«Å”u vairāk. JÅ«s uzzināsit, kad mērenÄ«ba ir bezjēdzÄ«ga un kāpēc precizitāte nav vienÄ«gais tās efektivitātes rādÄ«tājs. Mēs runāsim arÄ« par lamāŔanos, izmantojot kaÄ·u un suņu piemēru, un to, kāpēc dažreiz ir lietderÄ«gi "domāt kā zvērestu".

Arvien vairāk pakalpojumu parādās Yandex, kur lietotāji publicē savu saturu. Varat uzdot jautājumu vai uzrakstÄ«t atbildi vietnē Yandex.Q, apspriest pagalma jaunumus Yandex.District, dalÄ«ties ar satiksmes apstākļiem sarunās vietnē Yandex.Maps. Taču, kad pakalpojuma auditorija pieaug, tas kļūst pievilcÄ«gs krāpniekiem un surogātpasta izplatÄ«tājiem. Viņi nāk un aizpilda komentārus: piedāvā vieglu naudu, reklamē brÄ«numlÄ«dzekļus un sola sociālos pabalstus. Surogātpasta izplatÄ«tāju dēļ daži lietotāji zaudē naudu, savukārt citi zaudē vēlmi pavadÄ«t laiku nekoptam, ar surogātpastu apauguÅ”am pakalpojumam.

Un tā nav vienÄ«gā problēma. Mēs cenÅ”amies ne tikai aizsargāt lietotājus no krāpniekiem, bet arÄ« radÄ«t komfortablu atmosfēru saziņai. Ja komentāros cilvēki saskaras ar lamuvārdiem un apvainojumiem, viņi, visticamāk, aizies un vairs neatgriezÄ«sies. Tas nozÄ«mē, ka arÄ« jums ir jāspēj ar to tikt galā.

Tīrs tīmeklis

Kā tas bieži notiek pie mums, pirmie uzlabojumi radās pakalpojumā MeklÄ“Å”ana, daļā, kas cÄ«nās ar surogātpastu meklÄ“Å”anas rezultātos. Apmēram pirms desmit gadiem tur parādÄ«jās uzdevums filtrēt pieauguÅ”ajiem paredzētu saturu Ä£imenes meklējumiem un vaicājumiem, kuriem nebija vajadzÄ«gas atbildes no kategorijas 18+. Tādā veidā parādÄ«jās pirmās manuāli drukātās pornogrāfijas un zvēru vārdnÄ«cas, kuras papildināja analÄ«tiÄ·i. Galvenais uzdevums bija klasificēt pieprasÄ«jumus tādos, kur ir pieļaujams rādÄ«t pieauguÅ”ajiem paredzētu saturu un kur tas nav pieļaujams. Å im uzdevumam tika savākti marķējumi, izveidota heiristika un apmācÄ«ti modeļi. Šādi parādÄ«jās pirmie izstrādnes nevēlamā satura filtrÄ“Å”anai.

Laika gaitā Yandex sāka parādÄ«ties UGC (lietotāja Ä£enerēts saturs) - ziņojumi, kurus raksta paÅ”i lietotāji, un Yandex tikai publicē. IepriekÅ” aprakstÄ«to iemeslu dēļ daudzus ziņojumus nevarēja publicēt bez apskates ā€” bija nepiecieÅ”ama moderācija. Pēc tam viņi nolēma izveidot pakalpojumu, kas nodroÅ”inātu aizsardzÄ«bu pret surogātpastu un uzbrucējiem visiem Yandex UGC produktiem un izmantotu izstrādi, lai filtrētu nevēlamu saturu pakalpojumā MeklÄ“Å”ana. Pakalpojuma nosaukums bija ā€œTÄ«rs tÄ«meklisā€.

Jauni uzdevumi un stūmēju palīdzība

Sākumā mums darbojās tikai vienkārÅ”a automatizācija: dienesti sÅ«tÄ«ja mums tekstus, un mēs tajās palaidām neÄ·Ä«trÄ«bas vārdnÄ«cas, porno vārdnÄ«cas un regulārās izteiksmes ā€” analÄ«tiÄ·i visu apkopoja manuāli. Bet laika gaitā pakalpojums tika izmantots arvien vairāk Yandex produktu, un mums bija jāiemācās strādāt ar jaunām problēmām.

Bieži vien atsauksmes vietā lietotāji publicē bezjēdzÄ«gu burtu kopu, cenÅ”oties palielināt savus sasniegumus, dažreiz viņi reklamē savu uzņēmumu konkurentu uzņēmuma atsauksmēs, un dažreiz viņi vienkārÅ”i mulsina organizācijas un raksta atsauksmē par zooveikalu: ā€œ Lieliski pagatavota zivs!ā€ VarbÅ«t kādreiz mākslÄ«gais intelekts iemācÄ«sies perfekti izprast jebkura teksta nozÄ«mi, taču tagad automatizācija dažkārt tiek galā sliktāk nekā cilvēki.

Kļuva skaidrs, ka mēs to nevaram izdarÄ«t bez manuālas marÄ·Ä“Å”anas, un mēs savai ķēdei pievienojām otro posmu ā€” nosÅ«tām to manuālai pārbaudei, ko veic persona. Tur tika iekļauti tie publicētie teksti, kuriem klasifikators nesaskatÄ«ja nekādas problēmas. JÅ«s varat viegli iedomāties Ŕāda uzdevuma mērogu, tāpēc mēs ne tikai paļāvāmies uz vērtētājiem, bet arÄ« izmantojām ā€œpūļa gudrÄ«basā€, proti, vērsāmies pēc palÄ«dzÄ«bas pie tolokeriem. Viņi ir tie, kas palÄ«dz mums noteikt, ko maŔīna palaida garām, un tādējādi to iemācÄ«t.

Viedā keÅ”atmiņa un LSH jaukÅ”ana

Vēl viena problēma, ar kuru saskārāmies, strādājot ar komentāriem, bija surogātpasts, precīzāk, tā apjoms un izplatības ātrums. Kad Yandex.Region auditorija sāka strauji augt, tur ieradās surogātpasta izplatītāji. Viņi iemācījās apiet regulārās izteiksmes, nedaudz mainot tekstu. Surogātpasts, protams, joprojām tika atrasts un izdzēsts, taču Yandex mērogā nepieņemamu ziņojumu, kas ievietots pat 5 minūtes, varēja redzēt simtiem cilvēku.

Kā atvērt komentārus un nenoslīkt surogātpastā

Protams, tas mums nederēja, un mēs izveidojām viedo teksta keÅ”atmiņu, pamatojoties uz LSH (atraÅ”anās vietas jutÄ«ga jaukÅ”ana). Tas darbojas Ŕādi: mēs normalizējām tekstu, noņēmām no tā saites un sagriezām to n-gramos (n burtu secÄ«bās). Pēc tam tika aprēķinātas n-gramu jaucējdaļas un no tām tika izveidots dokumenta LSH vektors. Lieta tāda, ka lÄ«dzÄ«gi teksti, pat ja tie tika nedaudz mainÄ«ti, pārvērtās lÄ«dzÄ«gos vektoros.

Å is risinājums ļāva atkārtoti izmantot klasifikatoru un tolokeru spriedumus lÄ«dzÄ«giem tekstiem. Surogātpasta uzbrukuma laikā, tiklÄ«dz pirmais ziņojums izturēja skenÄ“Å”anu un nonāca keÅ”atmiņā ar ā€œsurogātpastaā€ spriedumu, visi jaunie lÄ«dzÄ«gie ziņojumi, pat modificēti, saņēma tādu paÅ”u spriedumu un tika automātiski izdzēsti. Vēlāk mēs uzzinājām, kā apmācÄ«t un automātiski pārkvalificēt surogātpasta klasifikatorus, taču Ŕī ā€œviedā keÅ”atmiņaā€ palika pie mums un joprojām bieži palÄ«dz.

Labs teksta klasifikators

Bez laika atpÅ«sties no surogātpasta apkaroÅ”anas, mēs sapratām, ka 95% mÅ«su satura tiek regulēti manuāli: klasifikatori reaģē tikai uz pārkāpumiem, un lielākā daļa tekstu ir labi. Piekraujam apkopējas, kas 95 gadÄ«jumos no 100 pieŔķir vērtējumu ā€œViss kārtÄ«bāā€. Nācās veikt neparastu darbu - taisÄ«t laba satura klasifikatorus, par laimi pa Å”o laiku bija sakrājies pietiekami uzcenojums.

Pirmais klasifikators izskatÄ«jās Ŕādi: mēs lematizējam tekstu (samazinām vārdus lÄ«dz to sākotnējai formai), izmetam visas runas palÄ«gdaļas un izmantojam iepriekÅ” sagatavotu ā€œlabo lemmu vārdnÄ«cuā€. Ja tekstā visi vārdi ir ā€œlabiā€, tad visā tekstā nav nekādu pārkāpumu. Dažādos pakalpojumos Ŕī pieeja uzreiz nodroÅ”ināja manuālās iezÄ«mÄ“Å”anas automatizāciju no 25 lÄ«dz 35%. Protams, Ŕī pieeja nav ideāla: ir viegli apvienot vairākus nevainÄ«gus vārdus un iegÅ«t ļoti aizskaroÅ”u paziņojumu, taču tas ļāva mums ātri sasniegt labu automatizācijas lÄ«meni un deva mums laiku, lai apmācÄ«tu sarežģītākus modeļus.

Nākamajās labo teksta klasifikatoru versijās jau bija iekļauti lineārie modeļi, lēmumu koki un to kombinācijas. Lai atzÄ«mētu rupjÄ«bas un apvainojumus, piemēram, mēs izmēģinām BERT neironu tÄ«klu. Ir svarÄ«gi saprast vārda nozÄ«mi kontekstā un saikni starp vārdiem no dažādiem teikumiem, un BERT to dara labi. (Starp citu, nesen kolēģi no News stāstÄ«ja, kā tehnoloÄ£ija tiek izmantota nestandarta uzdevumam - kļūdu meklÄ“Å”ana galvenēs.) Rezultātā bija iespējams automatizēt lÄ«dz pat 90% plÅ«smas atkarÄ«bā no servisa.

Precizitāte, pilnīgums un ātrums

Lai izstrādātu, ir jāsaprot, kādu labumu nes atseviŔķi automātiskie klasifikatori, izmaiņas tajos un vai nepazeminās manuālo pārbaužu kvalitāte. Lai to izdarÄ«tu, mēs izmantojam precizitātes un atsaukÅ”anas metriku.

Precizitāte ir pareizo spriedumu proporcija starp visiem spriedumiem par sliktu saturu. Jo augstāka precizitāte, jo mazāk viltus pozitÄ«vu rezultātu. Ja nepievērÅ”at uzmanÄ«bu precizitātei, tad teorētiski varat izdzēst visu surogātpastu un neÄ·Ä«trÄ«bas, kā arÄ« pusi no labajām ziņām. No otras puses, ja paļaujaties tikai uz precizitāti, labākā tehnoloÄ£ija bÅ«s tā, kas nevienu neuztver. Tāpēc ir arÄ« pabeigtÄ«bas rādÄ«tājs: identificētā sliktā satura daļa no kopējā slikta satura apjoma. Å ie divi rādÄ«tāji lÄ«dzsvaro viens otru.

Lai veiktu mērÄ«jumus, mēs ņemam paraugus no visas katra pakalpojuma ienākoŔās straumes un sniedzam satura paraugus vērtētājiem ekspertu izvērtÄ“Å”anai un salÄ«dzināŔanai ar maŔīnu risinājumiem.

Bet ir vēl viens svarīgs rādītājs.

IepriekÅ” rakstÄ«ju, ka nepieņemamu ziņu simtiem cilvēku var redzēt pat 5 minÅ«tēs. Tāpēc mēs saskaitām, cik reižu mēs parādÄ«jām cilvēkiem sliktu saturu, pirms to paslēpām. Tas ir svarÄ«gi, jo ar efektÄ«vu darbu nepietiek ā€“ jāstrādā arÄ« ātri. Un, kad mēs izveidojām aizsardzÄ«bu pret zvērestu, mēs to jutām pilnÄ«bā.

Antimatisms, izmantojot kaķu un suņu piemēru

Neliela liriska atkāpe. Daži varētu teikt, ka neÄ·Ä«trÄ«ba un apvainojumi nav tik bÄ«stami kā ļaunprātÄ«gas saites un nav tik kaitinoÅ”i kā mēstules. Taču mēs cenÅ”amies uzturēt komfortablus apstākļus saziņai miljoniem lietotāju, un cilvēkiem nepatÄ«k atgriezties vietās, kur viņus apvaino. Ne velti zvēru un apvainojumu aizliegums ir noteikts daudzu kopienu noteikumos, tostarp HabrĆ©. Bet mēs novirzāmies.

Lamuvārdnīcas nevar tikt galā ar visu krievu valodas bagātību. Neskatoties uz to, ka ir tikai četras galvenās zvēru saknes, no tām var izveidot neskaitāmus vārdus, kurus nevar uztvert neviens parastais dzinējs. Turklāt jūs varat rakstīt daļu vārda transliterācijā, aizstāt burtus ar līdzīgām kombinācijām, pārkārtot burtus, pievienot zvaigznītes utt. Dažreiz bez konteksta būtībā nav iespējams noteikt, vai lietotājs ir domājis lamuvārdu. Mēs respektējam Habra noteikumus, tāpēc mēs to demonstrēsim nevis ar dzīviem piemēriem, bet ar kaķiem un suņiem.

Kā atvērt komentārus un nenoslīkt surogātpastā

"Likums," sacīja kaķis. Bet mēs saprotam, ka kaķis teica citu vārdu...

Mēs sākām domāt par mÅ«su vārdnÄ«cas ā€œizplÅ«duŔās atbilstÄ«basā€ algoritmiem un viedāku pirmapstrādi: nodroÅ”inājām transliterāciju, salÄ«mējām atstarpes un pieturzÄ«mes, meklējām modeļus un rakstÄ«jām uz tiem atseviŔķas regulārās izteiksmes. Å Ä« pieeja deva rezultātus, taču bieži vien samazināja precizitāti un nenodroÅ”ināja vēlamo pilnÄ«gumu.

Tad mēs nolēmām "domāt kā zvērestu". Mēs paÅ”i sākām datos ieviest troksni: pārkārtojām burtus, Ä£enerējām drukas kļūdas, aizstājām burtus ar lÄ«dzÄ«gu rakstÄ«bu utt. Sākotnējais marķējums tam tika veikts, izmantojot mat vārdnÄ«cas lieliem tekstu korpusiem. Ja paņem vienu teikumu un pagriež to vairākos veidos, sanāk daudz teikumu. Tādā veidā jÅ«s varat palielināt apmācÄ«bu paraugu desmitiem reižu. Atlika tikai apmācÄ«t iegÅ«tajā baseinā kādu vairāk vai mazāk gudru modeli, kas ņēma vērā kontekstu.

Kā atvērt komentārus un nenoslīkt surogātpastā

Par galÄ«go lēmumu vēl pāragri runāt. Mēs joprojām eksperimentējam ar pieejām Å”ai problēmai, taču jau tagad redzam, ka vienkārÅ”s simbolisks vairāku slāņu konvolucionālais tÄ«kls ievērojami pārspēj vārdnÄ«cas un parastos dzinējus: ir iespējams palielināt gan precizitāti, gan atsaukÅ”anu.

Protams, mēs saprotam, ka vienmēr bÅ«s veidi, kā apiet pat vismodernāko automatizāciju, it Ä«paÅ”i, ja lieta ir tik bÄ«stama: rakstiet tā, lai stulba maŔīna nesaprastu. Å eit, tāpat kā cīņā pret surogātpastu, mÅ«su mērÄ·is nav izskaust paÅ”u iespēju uzrakstÄ«t kaut ko neÄ·Ä«tru, mÅ«su uzdevums ir pārliecināties, ka spēle nav sveces vērta.

Atvērt iespēju dalÄ«ties ar savu viedokli, sazināties un komentēt nav grÅ«ti. Daudz grÅ«tāk ir panākt droÅ”us, komfortablus apstākļus un cieņpilnu attieksmi pret cilvēkiem. Un bez tā nebÅ«s nevienas kopienas attÄ«stÄ«bas.

Avots: www.habr.com

Pievieno komentāru