Mar a bhios sinn a’ measadh shanasan

Mar a bhios sinn a’ measadh shanasan

Feumaidh gach seirbheis aig an urrainn do luchd-cleachdaidh an susbaint fhèin a chruthachadh (UGC - susbaint air a ghineadh le cleachdaiche) chan ann a-mhàin gus fuasgladh fhaighinn air duilgheadasan gnìomhachais, ach cuideachd rudan a chuir ann an òrdugh ann an UGC. Faodaidh measadh susbaint truagh no ìosal lùghdachadh a dhèanamh air tarraingeachd na seirbheis do luchd-cleachdaidh, eadhon crìoch a chur air a h-obrachadh.

An-diugh innsidh sinn dhut mun cho-obrachadh eadar Yula agus Odnoklassniki, a tha gar cuideachadh gu h-èifeachdach gus sanasan a mheasadh ann an Yula.

Tha synergy san fharsaingeachd na rud glè fheumail, agus anns an t-saoghal ùr-nodha, nuair a bhios teicneòlasan agus gluasadan ag atharrachadh gu math luath, faodaidh e tionndadh gu bhith na shàbhalaiche-beatha. Carson a tha thu a’ caitheamh ghoireasan agus ùine gann a’ cruthachadh rudeigin a chaidh a chruthachadh mar-thà agus a thoirt nad inntinn romhad?

Bha sinn a’ smaoineachadh an aon rud nuair a bha an làn ghnìomh againn a bhith ag atharrachadh susbaint luchd-cleachdaidh - dealbhan, teacsa agus ceanglaichean. Bidh an luchd-cleachdaidh againn a’ luchdachadh suas milleanan de phìosan susbaint gu Yula a h-uile latha, agus às aonais giollachd fèin-ghluasadach tha e gu tur do-dhèanta an dàta seo gu lèir a mhodaladh le làimh.

Mar sin, chleachd sinn àrd-ùrlar measaidh deiseil, a bha ron àm sin air crìoch a chuir air ar co-obraichean bho Odnoklassniki gu staid “cha mhòr foirfeachd.”

Carson a tha Odnoklassniki.

Gach latha, bidh deichean de mhilleanan de luchd-cleachdaidh a ’tighinn chun lìonra sòisealta agus a’ foillseachadh billeanan de phìosan susbaint: bho dhealbhan gu bhideothan agus theacsaichean. Bidh an àrd-ùrlar measaidh Odnoklassniki a’ cuideachadh le bhith a’ sgrùdadh meudan mòra de dhàta agus a’ cuir an-aghaidh spammers agus botaichean.

Tha an sgioba measaidh OK air tòrr eòlas a chruinneachadh, leis gu bheil iad air a bhith ag adhartachadh an inneal aca airson 12 bliadhna. Tha e cudromach nach b’ urrainn dhaibh a-mhàin na fuasglaidhean deiseil aca a cho-roinn, ach cuideachd ailtireachd an àrd-ùrlar aca a ghnàthachadh a rèir ar gnìomhan sònraichte.

Mar a bhios sinn a’ measadh shanasan

Bho seo a-mach, airson giorrad, canaidh sinn dìreach an àrd-ùrlar measaidh OK “àrd-ùrlar.”

Mar a tha a h-uile càil ag obair

Tha iomlaid dàta eadar Yula agus Odnoklassniki air a stèidheachadh tro Apache Kafka.

Carson a thagh sinn an inneal seo:

  • Ann an Yula, tha a h-uile sanas iar-mheasraichte, agus mar sin an toiseach cha robh feum air freagairt sioncronaich.
  • Ma thachras droch pharagraf agus nach eil Yula no Odnoklassniki ri fhaighinn, a ’toirt a-steach air sgàth cuid de luchdan as àirde, an uairsin cha tèid an dàta bho Kafka à sealladh an àite sam bith agus faodar a leughadh nas fhaide air adhart.
  • Bha an àrd-ùrlar mu thràth ceangailte ri Kafka, agus mar sin chaidh a’ mhòr-chuid de chùisean tèarainteachd fhuasgladh.

Mar a bhios sinn a’ measadh shanasan

Airson gach sanas a chruthaich no a dh’ atharraich an neach-cleachdaidh ann an Yula, thèid JSON le dàta a chruthachadh, a thèid a chuir ann an Kafka airson mion-atharrachadh às deidh sin. Bho Kafka, thèid sanasan a luchdachadh a-steach don àrd-ùrlar, far am bi iad air am breithneachadh gu fèin-ghluasadach no le làimh. Tha droch shanasan air am bacadh le adhbhar, agus tha an fheadhainn anns nach lorg an àrd-ùrlar brisidhean air an comharrachadh mar “math.” An uairsin thèid a h-uile co-dhùnadh a chuir air ais gu Yula agus a chuir an sàs san t-seirbheis.

Mu dheireadh, airson Yula tha e uile an urra ri gnìomhan sìmplidh: cuir sanas chun àrd-ùrlar Odnoklassniki agus faigh air ais rùn “ceart gu leòr”, no carson nach eil “ceart gu leòr”.

Giullachd fèin-ghluasadach

Dè thachras don t-sanas às deidh dha bualadh air an àrd-ùrlar? Tha gach sanas air a roinn ann an grunn bhuidhnean:

  • Ainm,
  • tuairisgeul,
  • dealbhan,
  • roinn a thagh an neach-cleachdaidh agus fo-roinn an t-sanas,
  • a ’phrìs.

Mar a bhios sinn a’ measadh shanasan

Bidh an àrd-ùrlar an uairsin a’ dèanamh cruinneachadh airson gach eintiteas gus dùblaidhean a lorg. A bharrachd air an sin, tha teacsa agus dealbhan air an cruinneachadh a rèir diofar sgeamaichean.

Mus tèid a chruinneachadh, thèid teacsaichean a dhèanamh àbhaisteach gus caractaran sònraichte, litrichean atharraichte agus sgudal eile a thoirt air falbh. Tha an dàta a gheibhear air a roinn ann an N-grams, agus tha gach fear dhiubh air a ghluasad. Is e an toradh mòran hashes gun samhail. Tha an coltas eadar teacsaichean air a dhearbhadh le Tomhais Jacard eadar an dà sheata de thoradh. Ma tha an coltas nas motha na an stairsneach, thèid na teacsaichean a chur còmhla ann an aon bhuidheann. Gus an rannsachadh airson cruinneachaidhean coltach ris a luathachadh, thathas a’ cleachdadh MinHash agus hashing a tha mothachail air sgìre.

Chaidh diofar roghainnean airson dealbhan a ghleusadh a chruthachadh airson dealbhan, bho bhith a’ dèanamh coimeas eadar dealbhan pHash gu bhith a’ lorg dùblaidhean a’ cleachdadh lìonra neural.

Is e an dòigh mu dheireadh am fear as “tromaiche”. Gus am modail a thrèanadh, chaidh triplets de dhealbhan (N, A, P) a thaghadh anns nach eil N coltach ri A, agus P coltach ri A (is e leth-dhùbailte a th’ ann). An uairsin dh’ ionnsaich an lìonra neòil A agus P a dhèanamh cho faisg ‘s a ghabhas, agus A agus N cho fada ‘s a ghabhas. Tha seo a’ ciallachadh gu bheil nas lugha de rudan ceàrr ann an coimeas ri bhith dìreach a’ gabhail fasgaidhean bho lìonra ro-thrèanadh.

Nuair a gheibh an lìonra neural ìomhaighean mar chur-a-steach, bidh e a’ gineadh vectar meud N (128) airson gach fear dhiubh agus thathar ag iarraidh measadh a dhèanamh air cho faisg ‘s a tha an ìomhaigh. An ath rud, thathas a’ tomhas stairsneach far am bi ìomhaighean dlùth air am meas mar dhùblachadh.

Bidh am modail comasach air spammers a lorg gu sgileil a bhios a’ togail dhealbhan gu sònraichte den aon toradh bho dhiofar cheàrnan gus a dhol seachad air coimeas pHash.

Mar a bhios sinn a’ measadh shanasanMar a bhios sinn a’ measadh shanasan
Eisimpleir de dhealbhan spam air an glaodhadh ri chèile le lìonra neural mar dhùblaidhean.

Aig an ìre mu dheireadh, bithear a’ sgrùdadh shanasan dùblaichte aig an aon àm le teacsa agus ìomhaigh.

Ma tha dà shanas no barrachd an sàs ann an cruinneachadh, bidh an siostam a’ tòiseachadh a’ bacadh gu fèin-ghluasadach, a bhios, a’ cleachdadh cuid de algoirmean, a’ taghadh dè na dùblaidhean a thèid a dhubhadh às agus cò a dh’ fhàgas iad. Mar eisimpleir, ma tha na h-aon dealbhan aig dithis neach-cleachdaidh ann an sanas, cuiridh an siostam bacadh air an t-sanas as ùire.

Aon uair ‘s gu bheil iad air an cruthachadh, bidh a h-uile cruinneachadh a’ dol tro shreath de shìoltachain fèin-ghluasadach. Bidh gach criathrag a’ sònrachadh sgòr don bhuidheann: dè cho coltach ‘s a tha e gu bheil an cunnart ann a dh’ aithnicheas an criathrag seo.

Mar eisimpleir, bidh an siostam a’ sgrùdadh an tuairisgeul ann an sanas agus a’ taghadh roinnean a dh’fhaodadh a bhith ann air a shon. An uairsin bheir e am fear leis a’ choltachd as àirde agus nì e coimeas eadar e agus an roinn a shònraich ùghdar an t-sanas. Mura h-eil iad a’ maidseadh, tha an sanas air a bhacadh airson na roinne ceàrr. Agus leis gu bheil sinn coibhneil agus onarach, bidh sinn gu dìreach ag innse don neach-cleachdaidh dè an roinn a dh’ fheumas e a thaghadh gus an tèid an t-sanas seachad air moderation.

Mar a bhios sinn a’ measadh shanasan
Sanas mu bhacadh airson roinn ceàrr.

Tha ionnsachadh innealan a’ faireachdainn ceart aig an taigh san àrd-ùrlar againn. Mar eisimpleir, le a chuideachadh bidh sinn a’ sgrùdadh ainmean agus tuairisgeulan bathair toirmisgte ann an Caidreachas na Ruis. Agus bidh modalan lìonra neòil gu faiceallach “a’ sgrùdadh ”na h-ìomhaighean gus faicinn a bheil URLan, teacsaichean spama, àireamhan fòn, agus an aon fhiosrachadh“ toirmisgte ”annta.

Airson cùisean far a bheil iad a’ feuchainn ri toradh toirmisgte a reic a tha falaichte mar rudeigin laghail, agus nach eil teacsa anns an tiotal no an tuairisgeul, bidh sinn a’ cleachdadh tagadh ìomhaighean. Airson gach ìomhaigh, faodar suas ri 11 mìle tagaichean eadar-dhealaichte a chur ris a tha ag innse na tha san ìomhaigh.

Mar a bhios sinn a’ measadh shanasan
Tha iad a 'feuchainn ris an hookah a reic le bhith ga chòmhdach mar samovar.

Ann an co-shìnte ri sìoltachain iom-fhillte, bidh feadhainn sìmplidh cuideachd ag obair, a’ fuasgladh dhuilgheadasan follaiseach co-cheangailte ri teacsa:

  • antimat;
  • Lorgaire URL agus àireamh fòn;
  • iomradh air teachdairean sa bhad agus caraidean eile;
  • prìs nas ìsle;
  • sanasan anns nach eil dad ri reic, msaa.

An-diugh, bidh a h-uile sanas a’ dol tro chriathar math de chòrr air 50 sìoltachan fèin-ghluasadach a bhios a’ feuchainn ri rudeigin dona a lorg san t-sanas.

Mura obraich gin de na lorgairean, thèid freagairt a chuir gu Yula gu bheil an sanas “as coltaiche” ann an òrdugh foirfe. Cleachdaidh sinn am freagairt seo sinn fhìn, agus gheibh luchd-cleachdaidh a tha air ballrachd a thoirt don neach-reic fios mu na tha ri fhaighinn de thoradh ùr.

Mar a bhios sinn a’ measadh shanasan
Fios gu bheil toradh ùr aig an neach-reic.

Mar thoradh air an sin, tha gach sanas “air fàs ro fhàsach” le meata-dàta, cuid dheth air a ghineadh nuair a thèid an sanas a chruthachadh (seòladh IP an ùghdair, neach-cleachdaidh, àrd-ùrlar, geolocation, msaa), agus is e an còrr an sgòr a chuir gach sìoltachan a-mach. .

Ciudha sanasachd

Nuair a bhuaileas sanas an àrd-ùrlar, bidh an siostam ga chuir ann an aon de na ciudha. Tha gach ciudha air a chruthachadh a’ cleachdadh foirmle matamataigeach a tha a’ cothlamadh meata-dàta sanasachd ann an dòigh a lorgas droch phàtranan sam bith.

Mar eisimpleir, faodaidh tu ciudha de shanasan a chruthachadh anns an roinn “Cell Phones” bho luchd-cleachdaidh Yula a rèir coltais à St. Petersburg, ach tha na seòlaidhean IP aca à Moscow no bailtean-mòra eile.

Mar a bhios sinn a’ measadh shanasan
Eisimpleir de shanasan air an postadh le aon neach-cleachdaidh ann am bailtean-mòra eadar-dhealaichte.

No faodaidh tu ciudhaichean a chruthachadh stèidhichte air na sgòran a bhios an lìonra neural a’ sònrachadh do shanasan, gan rèiteachadh ann an òrdugh teàrnaidh.

Bidh gach ciudha, a rèir na foirmle fhèin, a’ sònrachadh sgòr deireannach don t-sanas. An uairsin faodaidh tu a dhol air adhart ann an diofar dhòighean:

  • sònraich an stairsneach aig am faigh sanas seòrsa sònraichte de bhacadh;
  • cuir a h-uile sanas sa chiudha gu modaireatairean airson ath-sgrùdadh làimhe;
  • no cuir còmhla na roghainnean a bh’ ann roimhe: sònraich an stairsneach bacaidh fèin-ghluasadach agus cuir gu modaireatairean na sanasan sin nach do ràinig an ìre seo.

Mar a bhios sinn a’ measadh shanasan

Carson a tha feum air na loidhnichean sin? Canaidh sinn gun do chuir neach-cleachdaidh suas dealbh de ghunna-smàlaidh. Bidh an lìonra neural a’ sònrachadh sgòr dha bho 95 gu 100 agus a’ dearbhadh le cinnt 99 sa cheud gu bheil ball-airm san dealbh. Ach ma tha an luach sgòr nas ìsle na 95%, tha cruinneas a 'mhodail a' tòiseachadh a 'lùghdachadh (tha seo na fheart de mhodail lìonra neònach).

Mar thoradh air an sin, tha ciudha air a chruthachadh stèidhichte air a’ mhodail sgòr, agus tha na sanasan sin a fhuair eadar 95 agus 100 air am bacadh gu fèin-ghluasadach mar “Toirmisgte Toraidhean”. Thèid sanasan le sgòr nas ìsle na 95 a chuir gu modaireatairean airson làimhseachadh làimhe.

Mar a bhios sinn a’ measadh shanasan
Beretta seoclaid le cartan. A-mhàin airson measadh làimhe! 🙂

Measadh làimhe

Aig toiseach 2019, tha timcheall air 94% de na sanasan uile ann an Yula air am modaladh gu fèin-ghluasadach.

Mar a bhios sinn a’ measadh shanasan

Mura h-urrainn don àrd-ùrlar co-dhùnadh a dhèanamh air cuid de shanasan, bidh e gan cur airson measadh làimhe. Leasaich Odnoklassniki an inneal aca fhèin: bidh gnìomhan airson modaireatairean a’ taisbeanadh a h-uile fiosrachadh riatanach sa bhad gus co-dhùnadh sgiobalta a dhèanamh - tha an sanas freagarrach no bu chòir a bhacadh, a’ nochdadh an adhbhar.

Agus gus nach bi càileachd seirbheis a’ fulang aig àm measadh làimhe, thathas an-còmhnaidh a’ cumail sùil air obair dhaoine. Mar eisimpleir, anns an t-sruth-obrach, tha am modaireatair air a shealltainn “rèitichean” - sanasan far a bheil fuasglaidhean deiseil mu thràth. Mura h-eil co-dhùnadh a' mhodaireatair aig an aon àm ris an fhear chrìochnaichte, gheibh am modaireatair mearachd.

Gu cuibheasach, bidh modaireatair a’ caitheamh 10 diogan a’ sgrùdadh aon sanas. A bharrachd air an sin, chan eil an àireamh de mhearachdan nas àirde na 0,5% de na sanasan dearbhte.

Modalachd dhaoine

Chaidh co-obraichean bho Odnoklassniki eadhon nas fhaide agus ghabh iad brath air “cuideachadh an luchd-èisteachd”: sgrìobh iad tagradh geama airson an lìonra sòisealta anns an urrainn dhut tòrr dàta a chomharrachadh gu sgiobalta, a ’soilleireachadh cuid de dhroch shoidhne - Odnoklassniki Moderator (https://ok.ru/app/moderator). Dòigh mhath air brath a ghabhail air cuideachadh bho luchd-cleachdaidh OK a tha a 'feuchainn ris an t-susbaint a dhèanamh nas tlachdmhoire.

Mar a bhios sinn a’ measadh shanasan
Geama anns am bi luchd-cleachdaidh a’ tagadh dhealbhan air a bheil àireamh fòn orra.

Faodar ciudha shanasan sam bith san àrd-ùrlar ath-stiùireadh gu geama Moderator Odnoklassniki. Thèid a h-uile dad a bhios luchd-cleachdaidh geama a chomharrachadh an uairsin a chuir gu modaireatairean a-staigh airson ath-sgrùdadh. Leigidh an sgeama seo leat sanasan a bhacadh airson nach deach sìoltachain a chruthachadh fhathast, agus sampallan trèanaidh a chruthachadh aig an aon àm.

A 'stòradh toraidhean measaidh

Bidh sinn a’ sàbhaladh a h-uile co-dhùnadh a thèid a dhèanamh aig àm measadh gus nach bi sinn ag ath-phròiseasadh na sanasan sin air an do rinn sinn co-dhùnadh mu thràth.

Bithear a’ cruthachadh milleanan de chruinneachaidhean gach latha stèidhichte air sanasan. Thar ùine, tha gach buidheann air a chomharrachadh le "math" no "dona." Bidh gach sanas ùr no ath-sgrùdadh, a’ dol a-steach do bhuidheann le comharra, gu fèin-ghluasadach a’ faighinn rùn bhon bhuidheann fhèin. Tha timcheall air 20 mìle rùn fèin-ghluasadach mar sin gach latha.

Mar a bhios sinn a’ measadh shanasan

Mura tig fiosan ùra chun bhuidheann, thèid a thoirt air falbh bhon chuimhne agus tha a hash agus fuasgladh air a sgrìobhadh gu Apache Cassandra.

Nuair a gheibh an àrd-ùrlar sanas ùr, bidh e an-toiseach a’ feuchainn ri cruinneachadh coltach ris a lorg am measg an fheadhainn a chaidh a chruthachadh mar-thà agus fuasgladh fhaighinn bhuaithe. Mura h-eil cruinneachadh mar sin ann, bidh an àrd-ùrlar a’ dol gu Cassandra agus a’ coimhead an sin. An do lorg thu e? Sgoinneil, cuir a-steach am fuasgladh don bhuidheann agus ga chuir gu Yula. Tha cuibheasachd de 70 mìle co-dhùnadh mar sin “air an ath-aithris” gach latha - 8% den iomlan.

A 'togail suas

Tha sinn air a bhith a’ cleachdadh an àrd-ùrlar modaladh Odnoklassniki airson dà bhliadhna gu leth. Is toil leinn na toraidhean:

  • Bidh sinn gu fèin-ghluasadach a’ tomhas 94% de na sanasan gu lèir gach latha.
  • Chaidh cosgais aon sanas atharrachadh bho 2 rubles gu 7 kopecks.
  • Taing don inneal deiseil, dhìochuimhnich sinn mu na duilgheadasan a thaobh riaghladh modaireatairean.
  • Mheudaich sinn an àireamh de shanasan air an giullachd le làimh 2,5 uair leis an aon àireamh de mhodaireatairean agus de bhuidseit. Tha càileachd modhadh làimhe air a dhol suas cuideachd mar thoradh air smachd fèin-ghluasadach, agus ag atharrachadh timcheall air 0,5% de mhearachdan.
  • Bidh sinn gu sgiobalta a’ còmhdach seòrsaichean ùra de spama le sìoltachain.
  • Bidh sinn gu sgiobalta a’ ceangal roinnean ùra ri modarrachd "Yula Verticals". Bho 2017, tha Yula air na togalaichean, dreuchdan bàna agus inghearach chàraichean a chuir ris.

Source: www.habr.com

Cuir beachd ann