Ja jÅ«su uzdevums ir radÄ«t kaut ko skaistu, jums par to nav pÄrÄk daudz jÄrunÄ, jo rezultÄts ir visu acu priekÅ”Ä. Bet, ja jÅ«s izdzÄsÄ«siet uzrakstus no žogiem, neviens nepamanÄ«s jÅ«su darbu, kamÄr žogi izskatÄ«sies pieklÄjÄ«gi vai neizdzÄsÄ«siet kaut ko nepareizi.
JebkurÅ” pakalpojums, kurÄ varat atstÄt komentÄru, atsauksmi, nosÅ«tÄ«t ziÅojumu vai augÅ”upielÄdÄt attÄlus, agrÄk vai vÄlÄk saskaras ar surogÄtpasta, krÄpÅ”anas un neÄ·Ä«trÄ«bas problÄmu. No tÄ nevar izvairÄ«ties, bet ar to ir jÄtiek galÄ.
Mani sauc Mihails, es strÄdÄju Antispam komandÄ, kas aizsargÄ Yandex pakalpojumu lietotÄjus no Å”ÄdÄm problÄmÄm. MÅ«su darbs tiek reti pamanÄ«ts (un tas ir labi!), tÄpÄc Å”odien par to pastÄstÄ«Å”u vairÄk. JÅ«s uzzinÄsit, kad mÄrenÄ«ba ir bezjÄdzÄ«ga un kÄpÄc precizitÄte nav vienÄ«gais tÄs efektivitÄtes rÄdÄ«tÄjs. MÄs runÄsim arÄ« par lamÄÅ”anos, izmantojot kaÄ·u un suÅu piemÄru, un to, kÄpÄc dažreiz ir lietderÄ«gi "domÄt kÄ zvÄrestu".
Arvien vairÄk pakalpojumu parÄdÄs Yandex, kur lietotÄji publicÄ savu saturu. Varat uzdot jautÄjumu vai uzrakstÄ«t atbildi vietnÄ Yandex.Q, apspriest pagalma jaunumus Yandex.District, dalÄ«ties ar satiksmes apstÄkļiem sarunÄs vietnÄ Yandex.Maps. TaÄu, kad pakalpojuma auditorija pieaug, tas kļūst pievilcÄ«gs krÄpniekiem un surogÄtpasta izplatÄ«tÄjiem. ViÅi nÄk un aizpilda komentÄrus: piedÄvÄ vieglu naudu, reklamÄ brÄ«numlÄ«dzekļus un sola sociÄlos pabalstus. SurogÄtpasta izplatÄ«tÄju dÄļ daži lietotÄji zaudÄ naudu, savukÄrt citi zaudÄ vÄlmi pavadÄ«t laiku nekoptam, ar surogÄtpastu apauguÅ”am pakalpojumam.
Un tÄ nav vienÄ«gÄ problÄma. MÄs cenÅ”amies ne tikai aizsargÄt lietotÄjus no krÄpniekiem, bet arÄ« radÄ«t komfortablu atmosfÄru saziÅai. Ja komentÄros cilvÄki saskaras ar lamuvÄrdiem un apvainojumiem, viÅi, visticamÄk, aizies un vairs neatgriezÄ«sies. Tas nozÄ«mÄ, ka arÄ« jums ir jÄspÄj ar to tikt galÄ.
Tīrs tīmeklis
KÄ tas bieži notiek pie mums, pirmie uzlabojumi radÄs pakalpojumÄ MeklÄÅ”ana, daļÄ, kas cÄ«nÄs ar surogÄtpastu meklÄÅ”anas rezultÄtos. ApmÄram pirms desmit gadiem tur parÄdÄ«jÄs uzdevums filtrÄt pieauguÅ”ajiem paredzÄtu saturu Ä£imenes meklÄjumiem un vaicÄjumiem, kuriem nebija vajadzÄ«gas atbildes no kategorijas 18+. TÄdÄ veidÄ parÄdÄ«jÄs pirmÄs manuÄli drukÄtÄs pornogrÄfijas un zvÄru vÄrdnÄ«cas, kuras papildinÄja analÄ«tiÄ·i. Galvenais uzdevums bija klasificÄt pieprasÄ«jumus tÄdos, kur ir pieļaujams rÄdÄ«t pieauguÅ”ajiem paredzÄtu saturu un kur tas nav pieļaujams. Å im uzdevumam tika savÄkti marÄ·Äjumi, izveidota heiristika un apmÄcÄ«ti modeļi. Å Ädi parÄdÄ«jÄs pirmie izstrÄdnes nevÄlamÄ satura filtrÄÅ”anai.
Laika gaitÄ Yandex sÄka parÄdÄ«ties UGC (lietotÄja Ä£enerÄts saturs) - ziÅojumi, kurus raksta paÅ”i lietotÄji, un Yandex tikai publicÄ. IepriekÅ” aprakstÄ«to iemeslu dÄļ daudzus ziÅojumus nevarÄja publicÄt bez apskates ā bija nepiecieÅ”ama moderÄcija. PÄc tam viÅi nolÄma izveidot pakalpojumu, kas nodroÅ”inÄtu aizsardzÄ«bu pret surogÄtpastu un uzbrucÄjiem visiem Yandex UGC produktiem un izmantotu izstrÄdi, lai filtrÄtu nevÄlamu saturu pakalpojumÄ MeklÄÅ”ana. Pakalpojuma nosaukums bija āTÄ«rs tÄ«meklisā.
Jauni uzdevumi un stÅ«mÄju palÄ«dzÄ«ba
SÄkumÄ mums darbojÄs tikai vienkÄrÅ”a automatizÄcija: dienesti sÅ«tÄ«ja mums tekstus, un mÄs tajÄs palaidÄm neÄ·Ä«trÄ«bas vÄrdnÄ«cas, porno vÄrdnÄ«cas un regulÄrÄs izteiksmes ā analÄ«tiÄ·i visu apkopoja manuÄli. Bet laika gaitÄ pakalpojums tika izmantots arvien vairÄk Yandex produktu, un mums bija jÄiemÄcÄs strÄdÄt ar jaunÄm problÄmÄm.
Bieži vien atsauksmes vietÄ lietotÄji publicÄ bezjÄdzÄ«gu burtu kopu, cenÅ”oties palielinÄt savus sasniegumus, dažreiz viÅi reklamÄ savu uzÅÄmumu konkurentu uzÅÄmuma atsauksmÄs, un dažreiz viÅi vienkÄrÅ”i mulsina organizÄcijas un raksta atsauksmÄ par zooveikalu: ā Lieliski pagatavota zivs!ā VarbÅ«t kÄdreiz mÄkslÄ«gais intelekts iemÄcÄ«sies perfekti izprast jebkura teksta nozÄ«mi, taÄu tagad automatizÄcija dažkÄrt tiek galÄ sliktÄk nekÄ cilvÄki.
Kļuva skaidrs, ka mÄs to nevaram izdarÄ«t bez manuÄlas marÄ·ÄÅ”anas, un mÄs savai Ä·Ädei pievienojÄm otro posmu ā nosÅ«tÄm to manuÄlai pÄrbaudei, ko veic persona. Tur tika iekļauti tie publicÄtie teksti, kuriem klasifikators nesaskatÄ«ja nekÄdas problÄmas. JÅ«s varat viegli iedomÄties Å”Äda uzdevuma mÄrogu, tÄpÄc mÄs ne tikai paļÄvÄmies uz vÄrtÄtÄjiem, bet arÄ« izmantojÄm āpūļa gudrÄ«basā, proti, vÄrsÄmies pÄc palÄ«dzÄ«bas pie tolokeriem. ViÅi ir tie, kas palÄ«dz mums noteikt, ko maŔīna palaida garÄm, un tÄdÄjÄdi to iemÄcÄ«t.
ViedÄ keÅ”atmiÅa un LSH jaukÅ”ana
VÄl viena problÄma, ar kuru saskÄrÄmies, strÄdÄjot ar komentÄriem, bija surogÄtpasts, precÄ«zÄk, tÄ apjoms un izplatÄ«bas Ätrums. Kad Yandex.Region auditorija sÄka strauji augt, tur ieradÄs surogÄtpasta izplatÄ«tÄji. ViÅi iemÄcÄ«jÄs apiet regulÄrÄs izteiksmes, nedaudz mainot tekstu. SurogÄtpasts, protams, joprojÄm tika atrasts un izdzÄsts, taÄu Yandex mÄrogÄ nepieÅemamu ziÅojumu, kas ievietots pat 5 minÅ«tes, varÄja redzÄt simtiem cilvÄku.
Protams, tas mums nederÄja, un mÄs izveidojÄm viedo teksta keÅ”atmiÅu, pamatojoties uz LSH (
Å is risinÄjums ļÄva atkÄrtoti izmantot klasifikatoru un tolokeru spriedumus lÄ«dzÄ«giem tekstiem. SurogÄtpasta uzbrukuma laikÄ, tiklÄ«dz pirmais ziÅojums izturÄja skenÄÅ”anu un nonÄca keÅ”atmiÅÄ ar āsurogÄtpastaā spriedumu, visi jaunie lÄ«dzÄ«gie ziÅojumi, pat modificÄti, saÅÄma tÄdu paÅ”u spriedumu un tika automÄtiski izdzÄsti. VÄlÄk mÄs uzzinÄjÄm, kÄ apmÄcÄ«t un automÄtiski pÄrkvalificÄt surogÄtpasta klasifikatorus, taÄu Ŕī āviedÄ keÅ”atmiÅaā palika pie mums un joprojÄm bieži palÄ«dz.
Labs teksta klasifikators
Bez laika atpÅ«sties no surogÄtpasta apkaroÅ”anas, mÄs sapratÄm, ka 95% mÅ«su satura tiek regulÄti manuÄli: klasifikatori reaÄ£Ä tikai uz pÄrkÄpumiem, un lielÄkÄ daļa tekstu ir labi. Piekraujam apkopÄjas, kas 95 gadÄ«jumos no 100 pieŔķir vÄrtÄjumu āViss kÄrtÄ«bÄā. NÄcÄs veikt neparastu darbu - taisÄ«t laba satura klasifikatorus, par laimi pa Å”o laiku bija sakrÄjies pietiekami uzcenojums.
Pirmais klasifikators izskatÄ«jÄs Å”Ädi: mÄs lematizÄjam tekstu (samazinÄm vÄrdus lÄ«dz to sÄkotnÄjai formai), izmetam visas runas palÄ«gdaļas un izmantojam iepriekÅ” sagatavotu ālabo lemmu vÄrdnÄ«cuā. Ja tekstÄ visi vÄrdi ir ālabiā, tad visÄ tekstÄ nav nekÄdu pÄrkÄpumu. DažÄdos pakalpojumos Ŕī pieeja uzreiz nodroÅ”inÄja manuÄlÄs iezÄ«mÄÅ”anas automatizÄciju no 25 lÄ«dz 35%. Protams, Ŕī pieeja nav ideÄla: ir viegli apvienot vairÄkus nevainÄ«gus vÄrdus un iegÅ«t ļoti aizskaroÅ”u paziÅojumu, taÄu tas ļÄva mums Ätri sasniegt labu automatizÄcijas lÄ«meni un deva mums laiku, lai apmÄcÄ«tu sarežģītÄkus modeļus.
NÄkamajÄs labo teksta klasifikatoru versijÄs jau bija iekļauti lineÄrie modeļi, lÄmumu koki un to kombinÄcijas. Lai atzÄ«mÄtu rupjÄ«bas un apvainojumus, piemÄram, mÄs izmÄÄ£inÄm BERT neironu tÄ«klu. Ir svarÄ«gi saprast vÄrda nozÄ«mi kontekstÄ un saikni starp vÄrdiem no dažÄdiem teikumiem, un BERT to dara labi. (Starp citu, nesen kolÄÄ£i no News
PrecizitÄte, pilnÄ«gums un Ätrums
Lai izstrÄdÄtu, ir jÄsaprot, kÄdu labumu nes atseviŔķi automÄtiskie klasifikatori, izmaiÅas tajos un vai nepazeminÄs manuÄlo pÄrbaužu kvalitÄte. Lai to izdarÄ«tu, mÄs izmantojam precizitÄtes un atsaukÅ”anas metriku.
PrecizitÄte ir pareizo spriedumu proporcija starp visiem spriedumiem par sliktu saturu. Jo augstÄka precizitÄte, jo mazÄk viltus pozitÄ«vu rezultÄtu. Ja nepievÄrÅ”at uzmanÄ«bu precizitÄtei, tad teorÄtiski varat izdzÄst visu surogÄtpastu un neÄ·Ä«trÄ«bas, kÄ arÄ« pusi no labajÄm ziÅÄm. No otras puses, ja paļaujaties tikai uz precizitÄti, labÄkÄ tehnoloÄ£ija bÅ«s tÄ, kas nevienu neuztver. TÄpÄc ir arÄ« pabeigtÄ«bas rÄdÄ«tÄjs: identificÄtÄ sliktÄ satura daļa no kopÄjÄ slikta satura apjoma. Å ie divi rÄdÄ«tÄji lÄ«dzsvaro viens otru.
Lai veiktu mÄrÄ«jumus, mÄs Åemam paraugus no visas katra pakalpojuma ienÄkoÅ”Äs straumes un sniedzam satura paraugus vÄrtÄtÄjiem ekspertu izvÄrtÄÅ”anai un salÄ«dzinÄÅ”anai ar maŔīnu risinÄjumiem.
Bet ir vÄl viens svarÄ«gs rÄdÄ«tÄjs.
IepriekÅ” rakstÄ«ju, ka nepieÅemamu ziÅu simtiem cilvÄku var redzÄt pat 5 minÅ«tÄs. TÄpÄc mÄs saskaitÄm, cik reižu mÄs parÄdÄ«jÄm cilvÄkiem sliktu saturu, pirms to paslÄpÄm. Tas ir svarÄ«gi, jo ar efektÄ«vu darbu nepietiek ā jÄstrÄdÄ arÄ« Ätri. Un, kad mÄs izveidojÄm aizsardzÄ«bu pret zvÄrestu, mÄs to jutÄm pilnÄ«bÄ.
Antimatisms, izmantojot kaÄ·u un suÅu piemÄru
Neliela liriska atkÄpe. Daži varÄtu teikt, ka neÄ·Ä«trÄ«ba un apvainojumi nav tik bÄ«stami kÄ Ä¼aunprÄtÄ«gas saites un nav tik kaitinoÅ”i kÄ mÄstules. TaÄu mÄs cenÅ”amies uzturÄt komfortablus apstÄkļus saziÅai miljoniem lietotÄju, un cilvÄkiem nepatÄ«k atgriezties vietÄs, kur viÅus apvaino. Ne velti zvÄru un apvainojumu aizliegums ir noteikts daudzu kopienu noteikumos, tostarp HabrĆ©. Bet mÄs novirzÄmies.
LamuvÄrdnÄ«cas nevar tikt galÄ ar visu krievu valodas bagÄtÄ«bu. Neskatoties uz to, ka ir tikai Äetras galvenÄs zvÄru saknes, no tÄm var izveidot neskaitÄmus vÄrdus, kurus nevar uztvert neviens parastais dzinÄjs. TurklÄt jÅ«s varat rakstÄ«t daļu vÄrda transliterÄcijÄ, aizstÄt burtus ar lÄ«dzÄ«gÄm kombinÄcijÄm, pÄrkÄrtot burtus, pievienot zvaigznÄ«tes utt. Dažreiz bez konteksta bÅ«tÄ«bÄ nav iespÄjams noteikt, vai lietotÄjs ir domÄjis lamuvÄrdu. MÄs respektÄjam Habra noteikumus, tÄpÄc mÄs to demonstrÄsim nevis ar dzÄ«viem piemÄriem, bet ar kaÄ·iem un suÅiem.
"Likums," sacÄ«ja kaÄ·is. Bet mÄs saprotam, ka kaÄ·is teica citu vÄrdu...
MÄs sÄkÄm domÄt par mÅ«su vÄrdnÄ«cas āizplÅ«duÅ”Äs atbilstÄ«basā algoritmiem un viedÄku pirmapstrÄdi: nodroÅ”inÄjÄm transliterÄciju, salÄ«mÄjÄm atstarpes un pieturzÄ«mes, meklÄjÄm modeļus un rakstÄ«jÄm uz tiem atseviŔķas regulÄrÄs izteiksmes. Å Ä« pieeja deva rezultÄtus, taÄu bieži vien samazinÄja precizitÄti un nenodroÅ”inÄja vÄlamo pilnÄ«gumu.
Tad mÄs nolÄmÄm "domÄt kÄ zvÄrestu". MÄs paÅ”i sÄkÄm datos ieviest troksni: pÄrkÄrtojÄm burtus, Ä£enerÄjÄm drukas kļūdas, aizstÄjÄm burtus ar lÄ«dzÄ«gu rakstÄ«bu utt. SÄkotnÄjais marÄ·Äjums tam tika veikts, izmantojot mat vÄrdnÄ«cas lieliem tekstu korpusiem. Ja paÅem vienu teikumu un pagriež to vairÄkos veidos, sanÄk daudz teikumu. TÄdÄ veidÄ jÅ«s varat palielinÄt apmÄcÄ«bu paraugu desmitiem reižu. Atlika tikai apmÄcÄ«t iegÅ«tajÄ baseinÄ kÄdu vairÄk vai mazÄk gudru modeli, kas ÅÄma vÄrÄ kontekstu.
Par galÄ«go lÄmumu vÄl pÄragri runÄt. MÄs joprojÄm eksperimentÄjam ar pieejÄm Å”ai problÄmai, taÄu jau tagad redzam, ka vienkÄrÅ”s simbolisks vairÄku slÄÅu konvolucionÄlais tÄ«kls ievÄrojami pÄrspÄj vÄrdnÄ«cas un parastos dzinÄjus: ir iespÄjams palielinÄt gan precizitÄti, gan atsaukÅ”anu.
Protams, mÄs saprotam, ka vienmÄr bÅ«s veidi, kÄ apiet pat vismodernÄko automatizÄciju, it Ä«paÅ”i, ja lieta ir tik bÄ«stama: rakstiet tÄ, lai stulba maŔīna nesaprastu. Å eit, tÄpat kÄ cÄ«ÅÄ pret surogÄtpastu, mÅ«su mÄrÄ·is nav izskaust paÅ”u iespÄju uzrakstÄ«t kaut ko neÄ·Ä«tru, mÅ«su uzdevums ir pÄrliecinÄties, ka spÄle nav sveces vÄrta.
AtvÄrt iespÄju dalÄ«ties ar savu viedokli, sazinÄties un komentÄt nav grÅ«ti. Daudz grÅ«tÄk ir panÄkt droÅ”us, komfortablus apstÄkļus un cieÅpilnu attieksmi pret cilvÄkiem. Un bez tÄ nebÅ«s nevienas kopienas attÄ«stÄ«bas.
Avots: www.habr.com