Conas tuairimí a oscailt agus gan a bheith báite i dturscar

Conas tuairimí a oscailt agus gan a bheith báite i dturscar

Nuair is é do phost rud éigin álainn a chruthú, ní gá duit a bheith ag caint ró-mhór faoi, toisc go bhfuil an toradh roimh shúile gach duine. Ach má scriosann tú inscríbhinní ó chlaí, ní thabharfaidh aon duine faoi deara do chuid oibre chomh fada agus a bheidh cuma mhaith ar na fálta nó go dtí go scriosfaidh tú rud éigin mícheart.

Tá fadhb an turscair, na calaoise agus an graostachta le sárú ag seirbhís ar bith inar féidir leat nóta a fhágáil, athbhreithniú a dhéanamh, teachtaireacht a sheoladh nó pictiúir a uaslódáil luath nó mall. Ní féidir é seo a sheachaint, ach ní mór déileáil leis.

Is é mo ainm Mikhail, táim ag obair ar fhoireann Antispam, a chosnaíonn úsáideoirí seirbhísí Yandex ó fhadhbanna den sórt sin. Is annamh a thugtar ár gcuid oibre faoi deara (agus is rud maith é sin!), mar sin inniu inseoidh mé duit níos mó faoi. Foghlaimeoidh tú nuair a bhíonn an mhodhnóireacht gan úsáid agus cén fáth nach é cruinneas an t-aon tháscaire ar a éifeachtacht. Labhróimid freisin faoi mhionnóireacht ag baint úsáide as an sampla cait agus madraí agus cén fáth go bhfuil sé úsáideach uaireanta “smaoineamh ar nós mionnadóir”.

Tá níos mó agus níos mó seirbhísí le feiceáil i Yandex nuair a fhoilsíonn úsáideoirí a n-inneachar. Is féidir leat ceist a chur nó freagra a scríobh i Yandex.Q, nuacht clós a phlé i Yandex.District, coinníollacha tráchta a roinnt i gcomhráite ar Yandex.Maps. Ach nuair a fhásann lucht féachana na seirbhíse, bíonn sé tarraingteach do scammers agus spammers. Tagann siad agus líonann siad tuairimí: cuireann siad airgead éasca ar fáil, fógraíonn siad leigheasanna míorúiltí agus geallann siad sochair shóisialta. Mar gheall ar spammers, cailleann roinnt úsáideoirí airgead, agus cailleann daoine eile an fonn am a chaitheamh ar sheirbhís unkempt atá rófhásta le turscar.

Agus ní hé seo an t-aon fhadhb. Déanaimid ár ndícheall ní hamháin úsáideoirí a chosaint ó scammers, ach freisin atmaisféar compordach a chruthú le haghaidh cumarsáide. Má bhíonn daoine ag tabhairt aghaidh ar mhionn agus maslaí sna tuairimí, is dócha go bhfágfaidh siad agus nach bhfillfidh siad riamh. Ciallaíonn sé seo go gcaithfidh tú a bheith in ann déileáil leis seo freisin.

Gréasáin Glan

Mar a tharlaíonn go minic linne, rugadh na chéad fhorbairtí i gCuardach, sa chuid a throideann spam i dtorthaí cuardaigh. Timpeall deich mbliana ó shin, bhí an tasc maidir le hábhar do dhaoine fásta a scagadh le haghaidh cuardaigh teaghlaigh agus le haghaidh fiosrúcháin nach raibh freagraí ón gcatagóir 18+ ag teastáil uathu le feiceáil ann. Seo mar a tháinig na chéad fhoclóirí clóscríofa de láimh ar porn agus mionnú, agus d'athlíon anailísithe iad. Ba é an príomhthasc ná iarratais a rangú sna hiarratais sin ina bhfuil sé inghlactha ábhar do dhaoine fásta a thaispeáint agus nach bhfuil. Chun an tasc seo, bailíodh marcáil, tógadh heuristics, agus cuireadh oiliúint ar mhúnlaí. Seo mar a tháinig na chéad fhorbairtí chun ábhar nach dteastaíonn a scagadh.

Le himeacht ama, thosaigh UGC (ábhar a ghintear ag an úsáideoir) le feiceáil i Yandex - teachtaireachtaí atá scríofa ag úsáideoirí iad féin, agus ní fhoilsíonn Yandex ach amháin. Ar na cúiseanna a bhfuil cur síos orthu thuas, níorbh fhéidir go leor teachtaireachtaí a fhoilsiú gan breathnú - bhí modhnóireacht ag teastáil. Ansin shocraigh siad seirbhís a chruthú a sholáthródh cosaint i gcoinne turscair agus ionsaitheoirí do gach táirge UGC Yandex agus úsáid a bhaint as forbairtí chun ábhar nach dteastaíonn a scagadh i gCuardach. Tugadh “Gréasán Glan” ar an tseirbhís.

Tascanna nua agus cabhair ó bhrúiteoirí

Ar dtús, níor oibrigh ach uathoibriú simplí dúinn: chuir na seirbhísí téacsanna chugainn, agus ritheamar foclóirí gáirsiúla, foclóirí porn agus nathanna cainte rialta orthu - thiomsaigh anailísithe gach rud de láimh. Ach le himeacht ama, baineadh úsáid as an tseirbhís i méadú ar líon na dtáirgí Yandex, agus bhí orainn a fhoghlaim a bheith ag obair le fadhbanna nua.

Go minic, in ionad athbhreithnithe, foilsíonn úsáideoirí sraith litreacha gan brí, ag iarraidh a gcuid éachtaí a mhéadú, uaireanta fógraíonn siad a gcuideachta in athbhreithnithe ar chuideachta iomaitheoirí, agus uaireanta déanann siad mearbhall ar eagraíochtaí agus scríobhann siad léirmheas faoi siopa peataí: “ Iasc breá bruite!" B'fhéidir go bhfoghlaimeoidh hintleachta saorga lá éigin conas brí aon téacs a thuiscint go foirfe, ach anois téann uathoibriú i ngleic le huaire níos measa ná daoine.

Ba léir nach bhféadfaimis é seo a dhéanamh gan marcáil láimhe, agus chuireamar an dara céim lenár gciorcad - é a sheoladh le haghaidh iniúchta láimhe ag duine. Áiríodh ann na téacsanna foilsithe sin nach bhfaca an t-aicmitheoir aon fhadhbanna ina leith. Is féidir scála a leithéid de thasc a shamhlú go héasca, agus mar sin bhraitheamar ní hamháin ar mheasúnóirí, ach bhaineamar leas freisin as “eagna an tslua,” is é sin, chuamar chuig na lucht féachana chun cabhair a fháil. Is iad na cinn a chabhraíonn linn a aithint cad a chaill an meaisín, agus mar sin a mhúineadh.

Taisce cliste agus hashing LSH

Fadhb eile a tháinig orainn agus muid ag obair le tuairimí ná turscar, nó níos cruinne, toirt agus luas an leathadh. Nuair a thosaigh lucht féachana Yandex.Region ag fás go tapa, tháinig spammers ann. D'fhoghlaim siad chun nathanna rialta a sheachaint ach an téacs a athrú beagán. Fuarthas spam, ar ndóigh, fós agus scriosadh é, ach ar scála Yandex, d'fhéadfadh na céadta duine teachtaireacht do-ghlactha a phostáiltear fiú ar feadh 5 nóiméad a fheiceáil.

Conas tuairimí a oscailt agus gan a bheith báite i dturscar

Ar ndóigh, ní raibh sé seo oiriúnach dúinn, agus rinneamar taisceadh cliste téacs bunaithe ar LSH (hashing atá íogair don cheantar). Feidhmíonn sé mar seo: normalaigh muid an téacs, bhaineamar naisc as agus ghearramar é ina n-ghram (seichimh n litreacha). Ansin, ríomhadh hashes n-gram, agus tógadh veicteoir LSH an doiciméid uathu. Is é an pointe ná gur iompaigh téacsanna comhchosúla, fiú má athraíodh beagán iad, ina veicteoirí comhchosúla.

Leis an réiteach seo bhíothas in ann fíoraisc na n-aicmitheoirí agus na lorgairí a athúsáid do théacsanna comhchosúla. Le linn ionsaí turscair, chomh luath agus a chuaigh an chéad teachtaireacht thar an scanadh agus isteach sa taisce le fíorasc “turscair”, fuair gach teachtaireacht nua dá samhail, fiú cinn modhnaithe, an fíorasc céanna agus scriosadh iad go huathoibríoch. Níos déanaí, d’fhoghlaimíomar conas aicmitheoirí turscair a thraenáil agus a athoiliúint go huathoibríoch, ach d’fhan an “taisce cliste” seo linn agus is minic a chabhraíonn sé linn go fóill.

Dea-aicmitheoir téacs

Gan am a bheith againn sos a ghlacadh ó throid turscar, thugamar faoi deara go ndéantar 95% dár n-ábhar a mhodhnú de láimh: ní imoibríonn aicmitheoirí ach le sáruithe, agus tá an chuid is mó de na téacsanna go maith. Lódaimid glantóirí a thugann an rátáil “Tá gach rud ceart go leor” i 95 cás as 100 acu. Bhí orm jab neamhghnách a dhéanamh - aicmitheoirí dea-ábhar a dhéanamh, ar an dea-uair bhí go leor marcáil carntha le linn an ama seo.

Bhí cuma mar seo ar an gcéad aicmitheoir: déanaimid lemmáil ar an téacs (laghdaigh na focail go dtí an fhoirm tosaigh), caitheann muid amach na codanna cúnta cainte go léir agus bainimid úsáid as “foclóir dea-léimeanna” réamhullmhaithe. Má tá na focail go léir sa téacs “go maith”, ansin níl aon sárú ar an téacs iomlán. Ar sheirbhísí éagsúla, thug an cur chuige seo láithreach ó 25 go 35% uathoibriú marcáil láimhe. Ar ndóigh, níl an cur chuige seo iontach: tá sé éasca roinnt focal neamhchiontach a chur le chéile agus ráiteas an-ionsaitheach a fháil, ach thug sé deis dúinn leibhéal maith uathoibrithe a bhaint amach go tapa agus thug sé am dúinn chun samhlacha níos casta a oiliúint.

Áiríodh sna chéad leaganacha eile d’aicmitheoirí téacs maith samhlacha líneacha, crainn chinnidh, agus a gcomhcheangail cheana féin. Chun rudeness agus maslaí a mharcáil, mar shampla, déanaimid iarracht an líonra néarach BERT. Tá sé tábhachtach brí an fhocail a thuiscint i gcomhthéacs agus an ceangal idir focail as abairtí éagsúla, agus déanann CRET obair mhaith air seo. (Dála an scéil, le déanaí comhghleacaithe ó Nuacht inis, conas a úsáidtear teicneolaíocht le haghaidh tasc neamhchaighdeánach - earráidí a aimsiú i gceanntásca.) Mar thoradh air sin, bhí sé indéanta suas le 90% den sreabhadh a uathoibriú, ag brath ar an tseirbhís.

Cruinneas, iomláine agus luas

Chun a fhorbairt, ní mór duit a thuiscint cad iad na buntáistí a thugann aicmitheoirí uathoibríoch áirithe, athruithe orthu, agus an bhfuil cáilíocht na seiceálacha láimhe díghrádaithe. Chun seo a dhéanamh, úsáidimid méadracht bheachtais agus athghairm.

Is éard is cruinneas ann ná comhréir na bhfíorasc cearta i measc na bhfíorasc go léir faoi dhroch-ábhar. Dá airde an cruinneas, is lú dearfacha bréagacha. Mura dtugann tú aird ar chruinneas, ansin go teoiriciúil is féidir leat gach turscar agus gáirsiúlacht a scriosadh, agus leath de na teachtaireachtaí maithe in éineacht leo. Ar an láimh eile, má bhíonn tú ag brath ar chruinneas amháin, is í an teicneolaíocht is fearr nach nglacann aon duine ar chor ar bith. Dá bhrí sin, tá táscaire iomláine ann freisin: an sciar den droch-ábhar aitheanta i measc líon iomlán na n-ábhar olc. Cothromaíonn an dá mhéadracht seo a chéile.

Chun a thomhas, déanaimid sampla den sruth iomlán isteach do gach seirbhís agus tugaimid samplaí ábhair do mheasúnóirí le haghaidh meastóireacht shaineolach agus comparáid a dhéanamh le réitigh meaisín.

Ach tá táscaire tábhachtach eile.

Scríobh mé thuas gur féidir teachtaireacht do-ghlactha a fheiceáil ag na céadta daoine fiú i 5 nóiméad. Mar sin déanaimid comhaireamh cé mhéad uair a thaispeáin muid droch-ábhar do dhaoine sular fholaigh muid é. Tá sé seo tábhachtach toisc nach leor é a bheith ag obair go héifeachtach - ní mór duit oibriú go tapa freisin. Agus nuair a thógamar cosaint ar mhionnuithe, bhraitheamar é chomh fada agus is féidir.

Antimatism ag baint úsáide as an sampla de cait agus madraí

Digression beag lyrical. D'fhéadfadh roinnt a rá nach bhfuil graostacht agus maslaí chomh contúirteach le naisc mhailíseacha, agus nach bhfuil siad chomh annoying mar thurscar. Ach déanaimid ár ndícheall coinníollacha compordacha cumarsáide a choinneáil do na milliúin úsáideoirí, agus ní maith le daoine filleadh ar áiteanna ina bhfuil siad maslaithe. Ní haon rud é go bhfuil an toirmeasc ar mhionnú agus maslaí sonraithe i rialacha go leor pobal, lena n-áirítear Habré. Ach digress muid.

Ní féidir le foclóirí mionn dul i ngleic le saibhreas uile na Rúise. In ainneoin nach bhfuil ach ceithre phríomhfhréamh mhionn ann, uathu sin is féidir leat líon mór focal a dhéanamh suas nach féidir a ghabháil le haon innill rialta. Ina theannta sin, is féidir leat cuid d'fhocal a scríobh i dtraslitriú, litreacha a chur in ionad comhcheangail den chineál céanna, litreacha a athshocrú, réiltíní a chur leis, etc. Tá meas againn ar rialacha Habr, mar sin léireoimid é seo ní le samplaí beo, ach le cait agus madraí.

Conas tuairimí a oscailt agus gan a bheith báite i dturscar

“Dlí,” arsa an cat. Ach tuigimid go ndúirt an cat focal eile...

Thosaigh muid ag smaoineamh ar algartaim “meaitseála doiléir” dár bhfoclóir agus ar réamhphróiseáil níos cliste: chuireamar traslitriú ar fáil, ghreamaigh muid spásanna agus poncaíocht le chéile, d’fhéachamar ar phatrúin agus scríobhamar nathanna rialta ar leith orthu. Thug an cur chuige seo torthaí, ach laghdaigh sé cruinneas go minic agus níor sholáthair sé an iomláine a bhí ag teastáil.

Ansin shocraigh muid "smaoineamh ar nós mionnóirí." Thosaigh muid féin ag cur torann isteach sna sonraí: rinneamar atheagrú ar litreacha, ghin muid clóscríobháin, chuireamar litriú comhchosúil in ionad litreacha, agus mar sin de. Tógadh an chéad mharcáil chuige seo trí fhoclóirí mata a chur i bhfeidhm ar chorparáidí móra téacsanna. Má ghlacann tú abairt amháin agus go gcasann tú í ar bhealaí éagsúla, is iomaí abairt a bheidh agat ar deireadh. Ar an mbealach seo is féidir leat an sampla oiliúna a mhéadú na mílte uaire. Ní raibh fágtha ach oiliúint a chur ar an linn a d’eascair as múnla cliste éigin a chuir an comhthéacs san áireamh.

Conas tuairimí a oscailt agus gan a bheith báite i dturscar

Tá sé ró-luath labhairt faoin gcinneadh deiridh. Táimid fós ag tástáil le cuir chuige i leith na faidhbe seo, ach is féidir linn a fheiceáil cheana féin go n-éiríonn go mór le líonra comhdhlúite siombalach de roinnt sraitheanna ná foclóirí agus innill rialta: is féidir cruinneas agus cuimhne a mhéadú araon.

Ar ndóigh, tuigimid go mbeidh bealaí ann i gcónaí fiú an uathoibriú is airde a sheachbhóthar, go háirithe nuair a bhíonn an t-ábhar chomh guaiseach: scríobh ar bhealach nach dtuigfidh meaisín dúr. Anseo, mar atá sa chomhrac in aghaidh turscair, níl sé mar sprioc againn deireadh a chur leis an bhféidearthacht go ndéanfaí rud éigin gáirsiúil a scríobh; is é an tasc atá againn ná a chinntiú nach fiú an cluiche é.

Níl sé deacair an deis a thabhairt duit do thuairim a roinnt, cumarsáid a dhéanamh agus tuairimí a thabhairt. Tá sé i bhfad níos deacra coinníollacha sábháilte, compordacha a bhaint amach agus cóireáil ómósach a thabhairt do dhaoine. Agus gan é seo ní bheidh aon fhorbairt ar aon phobal.

Foinse: will.com

Add a comment