Conas fógraí a mhaolú

Conas fógraí a mhaolú

Gach seirbhís ar féidir a n-úsáideoirí a chruthú a n-ábhar féin (UGC - Úsáideoir-ghinte ábhar) iallach ní amháin chun réiteach fadhbanna gnó, ach freisin chun rudaí a chur in ord i UGC. Is féidir le measarthacht droch-cháilíochta nó droch-chaighdeán ábhair tarraingteacht na seirbhíse d’úsáideoirí a laghdú ar deireadh, fiú deireadh a chur lena hoibriú.

Sa lá atá inniu inseoimid duit faoin sineirgíocht idir Yula agus Odnoklassniki, rud a chabhraíonn linn fógraí a mhaolú go héifeachtach i Yula.

Is rud an-úsáideach é sineirgíocht i gcoitinne, agus sa domhan nua-aimseartha, nuair a athraíonn teicneolaíochtaí agus treochtaí go han-tapa, is féidir go n-iompóidh sé ina shábháil saoil. Cén fáth a gcuirtear acmhainní ganna agus am amú ag cumadh rud éigin atá cruthaithe cheana féin agus curtha chun cuimhne agat?

Shíleamar an rud céanna nuair a thugamar aghaidh ar an tasc iomlán chun ábhar úsáideora a mhaolú - pictiúir, téacs agus naisc. Uaslódálann ár n-úsáideoirí na milliúin píosa ábhar chuig Yula gach lá, agus gan próiseáil uathoibríoch tá sé dodhéanta go hiomlán na sonraí seo go léir a mhodhnú de láimh.

Mar sin, d’úsáideamar ardán réamhdhéanta modhnóireachta, a raibh “beagnach foirfeachta” curtha i gcrích ag ár gcomhghleacaithe ó Odnoklassniki faoin am sin.

Cén fáth Odnoklassniki?

Gach lá, tagann na mílte úsáideoirí chuig an líonra sóisialta agus foilsíonn siad na billiúin ábhar: ó ghrianghraif go físeáin agus téacsanna. Cuidíonn ardán modhnóireachta Odnoklassniki le líon an-mhór sonraí a sheiceáil agus chun cur i gcoinne spammers agus róbónna.

Tá go leor taithí carntha ag foireann modhnóireachta OK, ós rud é go bhfuil sé ag feabhsú a uirlis le 12 bliain. Tá sé tábhachtach go bhféadfaidís ní hamháin a gcuid réitigh réamhdhéanta a roinnt, ach freisin ailtireacht a n-ardán a shaincheapadh chun freastal ar ár dtascanna sonracha.

Conas fógraí a mhaolú

As seo amach, ar mhaithe le gort, ní thabharfaimid ach “ardán” ar an ardán modhnóireachta OK.

Conas a oibríonn gach rud

Bunaítear malartú sonraí idir Yula agus Odnoklassniki trí Apache Kafka.

Cén fáth ar roghnaigh muid an uirlis seo:

  • I Yula, tá gach fógra iar-mhodhnóireachta, mar sin ní raibh gá le freagra sioncrónach ar dtús.
  • Má tharlaíonn droch-alt agus nach bhfuil Yula nó Odnoklassniki ar fáil, lena n-áirítear mar gheall ar roinnt buaic-ualaí, ansin ní imíonn na sonraí ó Kafka áit ar bith agus is féidir iad a léamh níos déanaí.
  • Bhí an t-ardán comhtháite cheana féin le Kafka, mar sin réitíodh an chuid is mó de na saincheisteanna slándála.

Conas fógraí a mhaolú

I gcás gach fógra cruthaithe nó modhnaithe ag an úsáideoir in Yula, gintear JSON le sonraí, a chuirtear i Kafka le haghaidh modhnóireachta ina dhiaidh sin. Ó Kafka, déantar fógraí a luchtú isteach san ardán, áit a ndéantar breithniú orthu go huathoibríoch nó de láimh. Cuirtear bac ar dhrochfhógraí le cúis, agus marcáiltear iad siúd nach n-aimsíonn an t-ardán sáruithe mar “mhaith.” Ansin seoltar gach cinneadh ar ais chuig Yula agus cuirtear i bhfeidhm iad sa tseirbhís.

Sa deireadh, do Yula baineann sé go léir le gníomhartha simplí: seol fógra chuig an ardán Odnoklassniki agus faigh ar ais rún “ceart go leor”, nó cén fáth nach bhfuil “ceart go leor”.

Próiseáil uathoibríoch

Cad a tharlaíonn don fhógra tar éis dó an t-ardán a bhualadh? Tá gach fógra roinnte ina roinnt eintiteas:

  • Ainm,
  • tuairisc,
  • grianghraif,
  • catagóir agus fochatagóir an fhógra a roghnaigh an t-úsáideoir,
  • praghas

Conas fógraí a mhaolú

Ansin déanann an t-ardán braisliú do gach aonán chun dúblaigh a aimsiú. Ina theannta sin, cnuasaítear téacs agus grianghraif de réir scéimeanna éagsúla.

Roimh bhraisliú, déantar téacsanna a ghnáthú chun carachtair speisialta, litreacha athraithe agus truflais eile a bhaint. Tá na sonraí faighte roinnte ina N-gram, agus tá gach ceann acu hashed. Is é an toradh go leor hashes uathúil. Cinntear an chosúlacht idir téacsanna ag Beart Jackard idir an dá shraith mar thoradh air. Más mó an chosúlacht ná an tairseach, cumasctar na téacsanna in aon bhraisle amháin. Chun cuardach a dhéanamh ar bhraislí comhchosúla a bhrostú, úsáidtear MinHash agus hashing atá íogair ó thaobh na Ceantar de.

Ceapadh roghanna éagsúla maidir le híomhánna a ghluáil le haghaidh grianghraf, ó phictiúir pHash a chur i gcomparáid go dtí cuardach le haghaidh dúblaigh ag baint úsáide as líonra néarúil.

Is é an modh deiridh an ceann is "dian". Chun an tsamhail a oiliúint, roghnaíodh triplets íomhánna (N, A, P) nach bhfuil N cosúil le A, agus P cosúil le A (is leathdhúblach é). Ansin d'fhoghlaim an líonra neural conas A agus P a dhéanamh chomh gar agus is féidir, agus A agus N chomh fada agus is féidir. Mar thoradh air seo bíonn níos lú dearfacha bréagacha i gcomparáid le leabaithe a ghlacadh ó líonra réamhoilte.

Nuair a fhaigheann an líonra néarúil íomhánna mar ionchur, gineann sé veicteoir tríthoiseach N(128) do gach ceann acu agus déantar iarratas chun a ghaireacht don íomhá a mheas. Ansin, ríomhtar tairseach ina meastar gur íomhánna dúblacha iad dlúth-íomhánna.

Tá an tsamhail in ann spammers a aimsiú go sciliúil a ghrianghrafann go sonrach an táirge céanna ó uillinneacha éagsúla chun an chomparáid pHash a sheachbhóthar.

Conas fógraí a mhaolúConas fógraí a mhaolú
Sampla de ghrianghraif turscair greamaithe le chéile ag líonra néarúil mar dhúblaigh.

Ag an gcéim dheireanach, déantar fógraí dúblacha a chuardach go comhuaineach de réir téacs agus íomhá araon.

Má tá dhá fhógra nó níos mó i bhfostú le chéile i mbraisle, tosaíonn an córas ar bhlocáil uathoibríoch, a roghnaíonn, ag baint úsáide as halgartaim áirithe, na cinn atá dúblach le scriosadh agus cé acu le fágáil. Mar shampla, má tá na grianghraif chéanna ag beirt úsáideoir i bhfógra, cuirfidh an córas bac ar an bhfógra is déanaí.

Nuair a chruthaítear iad, téann gach braisle trí shraith scagairí uathoibríocha. Sannann gach scagaire scór don bhraisle: cé chomh dóchúil is atá sé go bhfuil an bhagairt a shainaithníonn an scagaire seo ann.

Mar shampla, déanann an córas anailís ar an tuairisc i bhfógra agus roghnaíonn sé catagóirí féideartha dó. Ansin tógann sé an ceann leis an dóchúlacht uasta agus cuireann sé i gcomparáid é leis an gcatagóir atá sonraithe ag údar an fhógra. Mura n-oireann siad, cuirtear bac ar an bhfógra don chatagóir mícheart. Agus ós rud é go bhfuil muid cineálta agus macánta, inseoimid go díreach don úsáideoir cén catagóir a chaithfidh sé a roghnú le go n-éireoidh leis an bhfógra modhnóireacht.

Conas fógraí a mhaolú
Fógra maidir le blocáil don chatagóir mícheart.

Mothaíonn meaisínfhoghlaim sa bhaile inár n-ardán. Mar shampla, lena chabhair déanaimid cuardach ar ainmneacha agus tuairiscí earraí toirmiscthe i gCónaidhm na Rúise. Agus déanann samhlacha néarlíonra “scrúdú” go cúramach ar na híomhánna féachaint an bhfuil URLanna, téacsanna turscair, uimhreacha gutháin, agus an fhaisnéis “toirmiscthe” chéanna iontu.

I gcásanna ina bhfuil siad ag iarraidh táirge toirmiscthe a dhíol atá faoi cheilt mar rud dlíthiúil, agus nach bhfuil aon téacs sa teideal ná sa tuairisc, bainimid úsáid as clibeáil íomhánna. I gcás gach íomhá, is féidir suas le 11 míle clibeanna éagsúla a chur leis a chuireann síos ar a bhfuil san íomhá.

Conas fógraí a mhaolú
Tá siad ag iarraidh an hookah a dhíol trí é a cheilt mar samovar.

Comhthreomhar le scagairí casta, oibríonn cinn simplí freisin, ag réiteach fadhbanna soiléire a bhaineann le téacs:

  • frithmat ;
  • Brathadóir URL agus uimhir theileafóin;
  • trácht ar theachtairí meandracha agus teagmhálacha eile;
  • praghas laghdaithe;
  • fógraí nach bhfuil aon rud ar díol iontu, etc.

Sa lá atá inniu ann, téann gach fógra trí chriathar fíneáil de níos mó ná 50 scagairí uathoibríocha a dhéanann iarracht teacht ar rud éigin dona san fhógra.

Murar oibrigh aon cheann de na brathadóirí, seoltar freagra chuig Yula gur dócha go bhfuil an fógra in ord foirfe. Bainimid úsáid as an bhfreagra seo sinn féin, agus faigheann úsáideoirí a shuibscríobh leis an díoltóir fógra faoi infhaighteacht táirge nua.

Conas fógraí a mhaolú
Fógra go bhfuil táirge nua ag an díoltóir.

Mar thoradh air sin, tá gach fógra "rófhásta" le meiteashonraí, cuid acu a ghintear nuair a chruthaítear an fógra (seoladh IP an údair, gníomhaire úsáideora, ardán, geolocation, etc.), agus is é an chuid eile an scór a d'eisigh gach scagaire. .

Scuainí fógartha

Nuair a bhuaileann fógra an t-ardán, cuireann an córas i gceann de na scuainí é. Cruthaítear gach scuaine ag baint úsáide as foirmle matamaitice a chomhcheanglaíonn meiteashonraí fógraí ar bhealach a aimsíonn aon drochphatrúin.

Mar shampla, is féidir leat scuaine fógraí a chruthú sa chatagóir “Fóin phóca” ó úsáideoirí Yula ó St. Petersburg de réir dealraimh, ach is ó Mhoscó nó ó chathracha eile a seoltaí IP.

Conas fógraí a mhaolú
Sampla d’fhógraí arna bpostáil ag úsáideoir amháin i gcathracha éagsúla.

Nó is féidir leat scuainí a dhéanamh bunaithe ar na scóir a sannann an líonra néarúil d’fhógraí, agus iad á socrú in ord íslitheach.

Sannann gach scuaine, de réir a fhoirmle féin, scór deiridh don fhógra. Ansin is féidir leat dul ar aghaidh ar bhealaí éagsúla:

  • sonraigh an tairseach ag a bhfaighidh fógra cineál áirithe blocála;
  • gach fógra sa scuaine a chur chuig modhnóirí le haghaidh athbhreithniú láimhe;
  • nó cuir na roghanna roimhe seo le chéile: sonraigh an tairseach um bhlocáil uathoibríoch agus seol na fógraí sin nach bhfuil an tairseach seo bainte amach acu chuig na modhnóirí.

Conas fógraí a mhaolú

Cén fáth a bhfuil gá leis na scuainí seo? Ligean le rá gur uaslódáil úsáideoir grianghraf d'arm tine. Sannann an líonra neural scór dó ó 95 go 100 agus cinneann sé le cruinneas 99 faoin gcéad go bhfuil arm sa phictiúr. Ach má tá an luach scór faoi bhun 95%, tosaíonn cruinneas an mhúnla ag laghdú (is gné de mhúnlaí líonra néar é seo).

Mar thoradh air sin, cruthaítear scuaine bunaithe ar an tsamhail scórála, agus déantar na fógraí sin a fuair idir 95 agus 100 a bhlocáil go huathoibríoch mar “Táirgí Toirmiscthe”. Seoltar fógraí le scór faoi bhun 95 chuig modhnóirí lena bpróiseáil láimhe.

Conas fógraí a mhaolú
Beretta seacláide le cartúis. Le haghaidh modhnóireacht láimhe amháin! 🙂

Modhnóireacht láimhe

Ag tús 2019, déantar thart ar 94% de na fógraí go léir in Yula a mhodhnú go huathoibríoch.

Conas fógraí a mhaolú

Mura féidir leis an ardán cinneadh a dhéanamh ar roinnt fógraí, seolfaidh sé iad le haghaidh modhnóireachta láimhe. D'fhorbair Odnoklassniki a n-uirlis féin: taispeánann tascanna do mhodhnóirí láithreach an fhaisnéis go léir is gá chun cinneadh tapa a dhéanamh - tá an fógra oiriúnach nó ba chóir é a bhlocáil, rud a léiríonn an chúis.

Agus ionas nach mbeidh cáilíocht na seirbhíse ag fulaingt le linn modhnóireachta láimhe, déantar monatóireacht leanúnach ar obair daoine. Mar shampla, sa tsruth tascanna, taispeántar “gaistí” don mhodhnóir – fógraí a bhfuil réitigh réitithe ina leith cheana féin. Mura dtagann cinneadh an mhodhnóra i gcomhthráth leis an gceann críochnaithe, tugtar earráid don mhodhnóir.

Ar an meán, caitheann modhnóir 10 soicind ag seiceáil fógra amháin. Ina theannta sin, níl líon na n-earráidí níos mó ná 0,5% de na fógraí fíoraithe go léir.

Measarthacht na ndaoine

Chuaigh comhghleacaithe ó Odnoklassniki níos faide fós agus bhain siad leas as “cúnamh an lucht féachana”: scríobh siad feidhmchlár cluiche don líonra sóisialta inar féidir leat cuid mhór sonraí a mharcáil go tapa, ag cur béime ar dhroch-chomhartha - Odnoklassniki Moderator (https://ok.ru/app/moderator). Bealach maith chun leas a bhaint as cabhair ó úsáideoirí OK atá ag iarraidh an t-ábhar a dhéanamh níos taitneamhaí.

Conas fógraí a mhaolú
Cluiche ina gclibálann úsáideoirí grianghraif a bhfuil uimhir theileafóin orthu.

Is féidir aon scuaine fógraí san ardán a atreorú chuig an gcluiche Odnoklassniki Moderator. Ansin seoltar gach rud a mharcálann úsáideoirí cluiche chuig modhnóirí inmheánacha lena fhíorú. Ligeann an scéim seo duit fógraí nach bhfuil scagairí cruthaithe ina leith go fóill a bhlocáil, agus samplaí oiliúna a chruthú ag an am céanna.

Torthaí modhnóireachta a stóráil

Sábháilimid gach cinneadh a dhéantar le linn modhnóireachta ionas nach ndéanaimid athphróiseáil ar na fógraí sin ar a bhfuil cinneadh déanta againn cheana féin.

Cruthaítear na milliúin braislí gach lá bunaithe ar fhógraí. Le himeacht ama, tá gach braisle lipéadaithe "go maith" nó "olc." Faigheann gach fógra nua nó a athbhreithniú, ag dul isteach i mbraisle le marc, go huathoibríoch rún ón mbraisle féin. Tá thart ar 20 míle rún uathoibríoch den sórt sin in aghaidh an lae.

Conas fógraí a mhaolú

Mura dtagann aon fhógraí nua chuig an mbraisle, baintear den chuimhne é agus scríobhtar a hash agus a réiteach chuig Apache Cassandra.

Nuair a fhaigheann an t-ardán fógra nua, déanann sé iarracht ar dtús braisle den chineál céanna a aimsiú ina measc siúd atá cruthaithe cheana féin agus réiteach a fháil uaidh. Mura bhfuil braisle den sórt sin ann, téann an t-ardán go Cassandra agus breathnaíonn sé ann. An bhfuair tú é? Go hiontach, cuireann sé an réiteach i bhfeidhm ar an mbraisle agus cuireann sé chuig Yula é. Ar an meán déantar 70 míle cinneadh “arís agus arís eile” den sórt sin gach lá—8% den iomlán.

Achoimre

Táimid ag baint úsáide as ardán modhnóireachta Odnoklassniki le dhá bhliain go leith. Is maith linn na torthaí:

  • Déanaimid modhnóireacht uathoibríoch ar 94% de na fógraí go léir in aghaidh an lae.
  • Laghdaíodh an costas a bhaineann le fógra amháin a mhodhnú ó 2 rúbal go 7 kopecks.
  • A bhuí leis an uirlis réamhdhéanta, rinneamar dearmad ar na fadhbanna a bhaineann le modhnóirí a bhainistiú.
  • Mhéadaigh muid líon na bhfógraí a próiseáladh de láimh faoi 2,5 uair leis an líon céanna modhnóirí agus buiséid. Tá méadú tagtha ar cháilíocht na modhnóireachta láimhe freisin mar gheall ar rialú uathoibrithe, agus luainíonn thart ar 0,5% d'earráidí.
  • Clúdaímid cineálacha nua turscair go tapa le scagairí.
  • Nascaimid go tapa le ranna nua le modhnóireacht "Yula Ingearach". Ó 2017, tá Yula tar éis na Real Estate, Folúntais agus Ingearach Auto a chur leis.

Foinse: will.com

Add a comment