Sut i agor sylwadau a pheidio â chael eich boddi mewn sbam

Sut i agor sylwadau a pheidio â chael eich boddi mewn sbam

Pan mai'ch swydd chi yw creu rhywbeth hardd, does dim rhaid i chi siarad gormod amdano, oherwydd mae'r canlyniad o flaen llygaid pawb. Ond os ydych chi'n dileu arysgrifau oddi ar ffensys, ni fydd neb yn sylwi ar eich gwaith cyn belled â bod y ffensys yn edrych yn weddus neu nes i chi ddileu rhywbeth o'i le.

Mae unrhyw wasanaeth lle gallwch chi adael sylw, adolygu, anfon neges neu uwchlwytho lluniau yn hwyr neu'n hwyrach yn wynebu'r broblem o sbam, twyll ac anlladrwydd. Ni ellir osgoi hyn, ond rhaid delio ag ef.

Fy enw i yw Mikhail, rwy'n gweithio ar dîm Antispam, sy'n amddiffyn defnyddwyr gwasanaethau Yandex rhag problemau o'r fath. Anaml y sylwir ar ein gwaith (ac mae hynny'n beth da!), felly heddiw byddaf yn dweud mwy wrthych amdano. Byddwch yn dysgu pan fydd safoni'n ddiwerth a pham nad cywirdeb yw'r unig ddangosydd o'i effeithiolrwydd. Byddwn hefyd yn siarad am regi gan ddefnyddio’r enghraifft o gathod a chŵn a pham ei bod weithiau’n ddefnyddiol “meddwl fel tyngwr.”

Mae mwy a mwy o wasanaethau yn ymddangos yn Yandex lle mae defnyddwyr yn cyhoeddi eu cynnwys. Gallwch ofyn cwestiwn neu ysgrifennu ateb yn Yandex.Q, trafod newyddion iard yn Yandex.District, rhannu amodau traffig mewn sgyrsiau ar Yandex.Maps. Ond pan fydd cynulleidfa'r gwasanaeth yn tyfu, mae'n dod yn ddeniadol i sgamwyr a sbamwyr. Maent yn dod i lenwi sylwadau: maent yn cynnig arian hawdd, yn hysbysebu iachâd gwyrthiol ac yn addo buddion cymdeithasol. Oherwydd sbamwyr, mae rhai defnyddwyr yn colli arian, tra bod eraill yn colli'r awydd i dreulio amser ar wasanaeth blêr sydd wedi gordyfu â sbam.

Ac nid dyma'r unig broblem. Rydym yn ymdrechu nid yn unig i amddiffyn defnyddwyr rhag sgamwyr, ond hefyd i greu awyrgylch cyfforddus ar gyfer cyfathrebu. Os bydd pobl yn wynebu rhegfeydd a sarhad yn y sylwadau, maent yn debygol o adael a pheidio byth â dychwelyd. Mae hyn yn golygu bod angen i chi allu delio â hyn hefyd.

Gwe Lân

Fel sy'n digwydd yn aml gyda ni, ganed y datblygiadau cyntaf yn Search, yn y rhan sy'n ymladd sbam mewn canlyniadau chwilio. Tua deng mlynedd yn ôl, ymddangosodd y dasg o hidlo cynnwys oedolion ar gyfer chwiliadau teulu ac ar gyfer ymholiadau nad oedd angen atebion o'r categori 18+ yno. Dyma sut yr ymddangosodd y geiriaduron porn a rhegi cyntaf a deipiwyd â llaw, cawsant eu hailgyflenwi gan ddadansoddwyr. Y brif dasg oedd dosbarthu ceisiadau i'r rhai lle mae'n dderbyniol dangos cynnwys i oedolion a lle nad yw'n dderbyniol. Ar gyfer y dasg hon, casglwyd marcio, adeiladwyd heuristics, a hyfforddwyd modelau. Dyma sut yr ymddangosodd y datblygiadau cyntaf ar gyfer hidlo cynnwys diangen.

Dros amser, dechreuodd UGC (cynnwys a gynhyrchir gan ddefnyddwyr) ymddangos yn Yandex - negeseuon sy'n cael eu hysgrifennu gan ddefnyddwyr eu hunain, ac mae Yandex yn cyhoeddi yn unig. Am y rhesymau a ddisgrifir uchod, ni ellid cyhoeddi llawer o negeseuon heb edrych - roedd angen cymedroli. Yna fe benderfynon nhw greu gwasanaeth a fyddai'n darparu amddiffyniad rhag sbam ac ymosodwyr ar gyfer holl gynhyrchion UGC Yandex a defnyddio datblygiadau i hidlo cynnwys diangen yn Search. Enw’r gwasanaeth oedd “Gwe Glân”.

Tasgau newydd a chymorth gan wthwyr

Ar y dechrau, dim ond awtomeiddio syml oedd yn gweithio i ni: anfonodd y gwasanaethau destunau atom, a gwnaethom redeg geiriaduron anweddusrwydd, geiriaduron porn ac ymadroddion rheolaidd arnynt - lluniodd dadansoddwyr bopeth â llaw. Ond dros amser, defnyddiwyd y gwasanaeth mewn nifer cynyddol o gynhyrchion Yandex, a bu'n rhaid i ni ddysgu gweithio gyda phroblemau newydd.

Yn aml, yn lle adolygiad, mae defnyddwyr yn cyhoeddi set ddiystyr o lythyrau, gan geisio cynyddu eu cyflawniadau, weithiau maent yn hysbysebu eu cwmni mewn adolygiadau o gwmni cystadleuydd, ac weithiau maent yn syml yn drysu sefydliadau ac yn ysgrifennu mewn adolygiad am siop anifeiliaid anwes: “ Pysgod wedi'u coginio'n berffaith!" Efallai rywbryd y bydd deallusrwydd artiffisial yn dysgu deall ystyr unrhyw destun yn berffaith, ond nawr mae awtomeiddio weithiau'n ymdopi'n waeth na bodau dynol.

Daeth yn amlwg na allem wneud hyn heb farcio â llaw, ac fe wnaethom ychwanegu ail gam i'n cylched - ei anfon i'w archwilio â llaw gan berson. Cynhwyswyd y testunau cyhoeddedig hynny na welodd y dosbarthwr unrhyw broblemau ar eu cyfer yno. Gallwch chi ddychmygu maint tasg o'r fath yn hawdd, felly roedden ni nid yn unig yn dibynnu ar aseswyr, ond hefyd wedi manteisio ar “ddoethineb y dorf,” hynny yw, fe wnaethon ni droi at y tolokers am gymorth. Nhw yw'r rhai sy'n ein helpu i nodi'r hyn a fethodd y peiriant, a thrwy hynny ei ddysgu.

caching clyfar a stwnsio LSH

Problem arall y daethom ar ei thraws wrth weithio gyda sylwadau oedd sbam, neu'n fwy manwl gywir, ei gyfaint a chyflymder lledaeniad. Pan ddechreuodd cynulleidfa Yandex.Region dyfu'n gyflym, daeth sbamwyr yno. Dysgon nhw osgoi ymadroddion rheolaidd trwy newid ychydig ar y testun. Roedd sbam, wrth gwrs, yn dal i gael ei ddarganfod a'i ddileu, ond ar raddfa Yandex, gallai cannoedd o bobl weld neges annerbyniol a bostiwyd hyd yn oed am 5 munud.

Sut i agor sylwadau a pheidio â chael eich boddi mewn sbam

Wrth gwrs, nid oedd hyn yn addas i ni, a gwnaethom caching testun smart yn seiliedig ar LSH (stwnsh sy'n sensitif i ardal). Mae'n gweithio fel hyn: gwnaethom normaleiddio'r testun, tynnu dolenni ohono a'i dorri'n n-gram (dilyniannau o n llythyrau). Nesaf, cyfrifwyd hashes n-gram, a lluniwyd fector LSH y ddogfen ohonynt. Y pwynt yw bod testunau tebyg, hyd yn oed os cawsant eu newid ychydig, yn troi'n fectorau tebyg.

Roedd yr ateb hwn yn ei gwneud hi'n bosibl ailddefnyddio dyfarniadau dosbarthwyr a tholokers ar gyfer testunau tebyg. Yn ystod ymosodiad sbam, cyn gynted ag y bydd y neges gyntaf yn pasio'r sgan ac yn mynd i mewn i'r storfa gyda dyfarniad “spam”, derbyniodd pob neges debyg newydd, hyd yn oed rhai wedi'u haddasu, yr un dyfarniad a chawsant eu dileu yn awtomatig. Yn ddiweddarach, fe wnaethom ddysgu sut i hyfforddi ac ailhyfforddi dosbarthwyr sbam yn awtomatig, ond arhosodd y “storfa glyfar” hon gyda ni ac mae'n dal i fod yn aml yn ein helpu.

Dosbarthwr testun da

Heb gael amser i gymryd seibiant rhag ymladd sbam, sylweddolom fod 95% o'n cynnwys yn cael ei gymedroli â llaw: mae dosbarthwyr yn ymateb i droseddau yn unig, ac mae'r rhan fwyaf o'r testunau'n dda. Rydyn ni'n llwytho glanhawyr sydd mewn 95 o achosion allan o 100 yn rhoi'r sgôr “Mae popeth yn iawn”. Roedd yn rhaid i mi wneud gwaith anarferol - gwneud dosbarthwyr o gynnwys da, yn ffodus ddigon roedd marcio wedi cronni yn ystod y cyfnod hwn.

Roedd y dosbarthwr cyntaf yn edrych fel hyn: rydyn ni'n lemateiddio'r testun (lleihau'r geiriau i'w ffurf gychwynnol), yn taflu holl rannau ategol y lleferydd allan ac yn defnyddio “geiriadur o lemas da” a baratowyd ymlaen llaw. Os yw'r holl eiriau yn y testun yn "dda", yna nid yw'r testun cyfan yn cynnwys unrhyw droseddau. Ar wahanol wasanaethau, rhoddodd y dull hwn ar unwaith o 25 i 35% o awtomeiddio marcio â llaw. Wrth gwrs, nid yw'r dull hwn yn ddelfrydol: mae'n hawdd cyfuno sawl gair diniwed a chael datganiad sarhaus iawn, ond roedd yn caniatáu inni gyrraedd lefel dda o awtomeiddio yn gyflym a rhoddodd amser inni hyfforddi modelau mwy cymhleth.

Roedd y fersiynau nesaf o ddosbarthwyr testun da eisoes yn cynnwys modelau llinol, coed penderfynu, a'u cyfuniadau. I nodi anfoesgarwch a sarhad, er enghraifft, rydym yn rhoi cynnig ar rwydwaith niwral BERT. Mae’n bwysig amgyffred ystyr gair yn ei gyd-destun a’r cysylltiad rhwng geiriau o wahanol frawddegau, ac mae BERT yn gwneud gwaith da o hyn. (Gyda llaw, yn ddiweddar cydweithwyr o Newyddion dweud wrth, sut mae technoleg yn cael ei ddefnyddio ar gyfer tasg ansafonol - dod o hyd i wallau mewn penawdau.) O ganlyniad, roedd yn bosibl awtomeiddio hyd at 90% o'r llif, yn dibynnu ar y gwasanaeth.

Cywirdeb, cyflawnder a chyflymder

Er mwyn datblygu, mae angen i chi ddeall pa fuddion y mae rhai dosbarthwyr awtomatig yn eu cynnig, newidiadau ynddynt, ac a yw ansawdd gwiriadau â llaw yn ddiraddiol. I wneud hyn, rydym yn defnyddio metrigau manwl gywir ac adalw.

Cywirdeb yw cyfran y dyfarniadau cywir ymhlith pob rheithfarn am gynnwys gwael. Po uchaf yw'r cywirdeb, y lleiaf o bethau positif ffug. Os na fyddwch chi'n talu sylw i gywirdeb, yna mewn theori gallwch chi ddileu pob sbam ac anweddusrwydd, ac ynghyd â nhw hanner y negeseuon da. Ar y llaw arall, os ydych chi'n dibynnu ar gywirdeb yn unig, yna'r dechnoleg orau fydd yr un nad yw'n dal unrhyw un o gwbl. Felly, mae yna hefyd ddangosydd cyflawnrwydd: cyfran y cynnwys gwael a nodwyd ymhlith cyfanswm cyfaint y cynnwys drwg. Mae'r ddau fetrig hyn yn cydbwyso ei gilydd.

I fesur, rydym yn samplu'r ffrwd gyfan sy'n dod i mewn ar gyfer pob gwasanaeth ac yn rhoi samplau cynnwys i aseswyr i'w gwerthuso gan arbenigwyr a'u cymharu â datrysiadau peiriannau.

Ond mae yna ddangosydd pwysig arall.

Ysgrifennais uchod y gall cannoedd o bobl weld neges annerbyniol hyd yn oed mewn 5 munud. Felly rydyn ni'n cyfrif sawl gwaith rydyn ni wedi dangos cynnwys gwael i bobl cyn i ni ei guddio. Mae hyn yn bwysig oherwydd nid yw'n ddigon i weithio'n effeithlon - mae angen i chi hefyd weithio'n gyflym. A phan adeiladasom amddiffynfa rhag tyngu, teimlasom ef i'r eithaf.

Antimatiaeth gan ddefnyddio enghraifft cathod a chŵn

Digression telynegol bach. Efallai y bydd rhai yn dweud nad yw anlladrwydd a sarhad mor beryglus â chysylltiadau maleisus, ac nid mor annifyr â sbam. Ond rydym yn ymdrechu i gynnal amodau cyfforddus ar gyfer cyfathrebu i filiynau o ddefnyddwyr, ac nid yw pobl yn hoffi dychwelyd i fannau lle cânt eu sarhau. Nid am ddim y mae’r gwaharddiad ar regi a sarhau yn cael ei egluro yn rheolau llawer o gymunedau, gan gynnwys ar Habré. Ond rydyn ni'n crwydro.

Ni all tyngu geiriaduron ymdopi â holl gyfoeth yr iaith Rwsieg. Er gwaethaf y ffaith mai dim ond pedwar prif wreiddyn tyngu sydd, oddi wrthynt gallwch wneud i fyny nifer di-rif o eiriau na ellir eu dal gan unrhyw injan arferol. Yn ogystal, gallwch ysgrifennu rhan o air mewn trawslythrennu, disodli llythrennau gyda chyfuniadau tebyg, aildrefnu llythrennau, ychwanegu sêr, ac ati Weithiau, heb gyd-destun, mae'n amhosibl yn y bôn i benderfynu bod y defnyddiwr yn golygu gair rheg. Rydym yn parchu rheolau Habr, felly byddwn yn dangos hyn nid gydag enghreifftiau byw, ond gyda chathod a chwn.

Sut i agor sylwadau a pheidio â chael eich boddi mewn sbam

“Cyfraith,” meddai'r gath. Ond rydyn ni'n deall bod y gath wedi dweud gair gwahanol...

Dechreuon ni feddwl am algorithmau “paru niwlog” ar gyfer ein geiriadur ac am ragbrosesu callach: fe wnaethom ddarparu trawslythrennu, gludo bylchau ac atalnodi gyda'i gilydd, chwilio am batrymau ac ysgrifennu ymadroddion rheolaidd ar wahân arnynt. Daeth y dull hwn â chanlyniadau, ond yn aml llai o gywirdeb ac nid oedd yn darparu'r cyflawnder dymunol.

Yna fe benderfynon ni “feddwl fel rhegwyr.” Dechreuon ni gyflwyno sŵn i'r data ein hunain: fe wnaethom aildrefnu llythyrau, cynhyrchu teipiau teipio, disodli llythrennau â sillafiadau tebyg, ac ati. Cymerwyd y marcio cychwynnol ar gyfer hyn trwy gymhwyso geiriaduron mat at gorpora mawr o destunau. Os cymerwch un frawddeg a'i throelli mewn sawl ffordd, bydd gennych lawer o frawddegau yn y pen draw. Fel hyn gallwch chi gynyddu'r sampl hyfforddi ddegau o weithiau. Y cyfan oedd ar ôl oedd hyfforddi ar y pwll canlyniadol ryw fodel smart mwy neu lai a oedd yn ystyried y cyd-destun.

Sut i agor sylwadau a pheidio â chael eich boddi mewn sbam

Mae’n rhy gynnar i siarad am y penderfyniad terfynol. Rydym yn dal i arbrofi gyda dulliau o fynd i'r afael â'r broblem hon, ond gallwn eisoes weld bod rhwydwaith symbolaidd convolutional o sawl haen yn perfformio'n sylweddol well na geiriaduron a pheiriannau rheolaidd: mae'n bosibl cynyddu cywirdeb ac adalw.

Wrth gwrs, rydym yn deall y bydd yna bob amser ffyrdd o osgoi hyd yn oed yr awtomeiddio mwyaf datblygedig, yn enwedig pan fo'r mater mor beryglus: ysgrifennwch yn y fath fodd na fydd peiriant gwirion yn deall. Yma, fel yn y frwydr yn erbyn sbam, ein nod yw peidio â dileu'r union bosibilrwydd o ysgrifennu rhywbeth anweddus; ein tasg yw sicrhau nad yw'r gêm yn werth y gannwyll.

Nid yw agor y cyfle i rannu eich barn, cyfathrebu a rhoi sylwadau yn anodd. Mae'n llawer anoddach cyflawni amodau diogel, cyfforddus a thriniaeth barchus i bobl. A heb hyn ni fydd unrhyw ddatblygiad o unrhyw gymuned.

Ffynhonnell: hab.com

Ychwanegu sylw