Seòrsachadh dàta scalable airson tèarainteachd agus prìobhaideachd

Seòrsachadh dàta scalable airson tèarainteachd agus prìobhaideachd

Tha seòrsachadh dàta stèidhichte air susbaint na dhuilgheadas fosgailte. Bidh siostaman casg call dàta traidiseanta (DLP) a’ fuasgladh na duilgheadas seo le bhith a’ lorg an dàta iomchaidh agus a’ cumail sùil air na puingean crìochnachaidh airson lorgan-meòir. Leis an àireamh mhòr de ghoireasan dàta a tha ag atharrachadh gu cunbhalach aig Facebook, chan e a-mhàin gu bheil an dòigh-obrach seo chan e scalable, ach cuideachd neo-èifeachdach airson a bhith a’ dearbhadh càite a bheil an dàta a’ fuireach. Tha am pàipear seo a’ cuimseachadh air siostam deireadh-gu-deireadh a chaidh a thogail gus seòrsaichean semantach mothachail a lorg ann am Facebook aig sgèile agus stòradh dàta agus smachd ruigsinneachd a chuir an gnìomh gu fèin-ghluasadach.

Is e an dòigh-obrach a tha air a mhìneachadh an seo a’ chiad shiostam prìobhaideachd deireadh-gu-deireadh againn a bhios a’ feuchainn ris an duilgheadas seo fhuasgladh le bhith a’ toirt a-steach comharran dàta, ionnsachadh innealan, agus dòighean lorg-meòir traidiseanta gus an dàta gu lèir air Facebook a mhapadh agus a sheòrsachadh. Tha an siostam a chaidh a mhìneachadh air obrachadh ann an àrainneachd cinneasachaidh, a’ faighinn sgòr cuibheasach F2 de 0,9+ thairis air grunn chlasaichean prìobhaideachd fhad ‘s a tha e a’ giullachd mòran de ghoireasan dàta thairis air dusanan de stòran. A’ toirt a-steach eadar-theangachadh de phàipear ArXiv Facebook air seòrsachadh dàta scalable airson tèarainteachd agus prìobhaideachd stèidhichte air ionnsachadh innealan.

Ro-ràdh

An-diugh, bidh buidhnean a’ cruinneachadh agus a’ stòradh tòrr dàta ann an grunn chruthan agus àiteachan [1], an uairsin bidh an dàta air a chaitheamh ann an iomadh àite, uaireannan air a chopaigeadh no air a thasgadh iomadh uair, a’ ciallachadh gu bheil fiosrachadh gnìomhachais luachmhor agus mothachail air a sgapadh thairis air mòran dàta iomairt. stòran. Nuair a dh’ fheumas buidheann coinneachadh ri riatanasan laghail no riaghlaidh sònraichte, leithid gèilleadh ri riaghailtean ann an imeachdan catharra, bidh e riatanach dàta a chruinneachadh mu shuidheachadh an dàta a tha a dhìth. Nuair a tha riaghladh prìobhaideachd ag ràdh gum feum buidheann a bhith a’ falach a h-uile Àireamh Tèarainteachd Shòisealta (SSNn) nuair a bhios iad a’ roinneadh fiosrachadh pearsanta le buidhnean gun chead, is e a’ chiad cheum nàdarra a bhith a’ sgrùdadh a h-uile SSN thairis air stòran dàta na buidhne. Ann an leithid de shuidheachaidhean, bidh seòrsachadh dàta deatamach [1]. Leigidh an siostam seòrsachaidh le buidhnean poileasaidhean prìobhaideachd is tèarainteachd a chuir an gnìomh gu fèin-ghluasadach, leithid a bhith a’ comasachadh poileasaidhean smachd ruigsinneachd, gleidheadh ​​​​dàta. Tha Facebook a’ toirt a-steach siostam a thog sinn aig Facebook a bhios a’ cleachdadh ioma-chomharran dàta, ailtireachd siostam scalable, agus ionnsachadh innealan gus seòrsaichean dàta semantach mothachail a lorg.

Is e lorg agus seòrsachadh dàta am pròiseas lorg agus bileagan dàta gus an tèid fiosrachadh iomchaidh fhaighinn air ais gu sgiobalta agus gu h-èifeachdach nuair a bhios feum air. Tha am pròiseas gnàthach caran làimhe ann an nàdar agus tha e a’ toirt a-steach sgrùdadh air na laghan no na riaghailtean buntainneach, a’ dearbhadh dè an seòrsa fiosrachaidh a bu chòir a bhith mothachail agus dè na diofar ìrean de chugallachd, agus an uairsin a’ togail chlasaichean agus poileasaidhean seòrsachaidh a rèir sin [1]. Bidh casg call dàta (DLP) an uairsin a’ lorg lorgan-meòir an dàta agus a’ cumail sùil air cinn-uidhe sìos an abhainn gus lorgan-meòir fhaighinn. Nuair a bhios tu a’ dèiligeadh ri taigh-bathair trom le maoin le petabytes de dhàta, chan eil an dòigh-obrach seo dìreach a’ sgèile.

Is e ar n-amas siostam seòrsachaidh dàta a thogail a bhios a’ sgèile gu dàta luchd-cleachdaidh làidir agus gluasadach, gun bhacadh sam bith a bharrachd air an t-seòrsa no an cruth dàta. Is e amas adhartach a tha seo, agus gu nàdarra tha dùbhlain ann. Faodaidh clàr dàta sònraichte a bhith mìltean de charactaran a dh’ fhaid.

Seòrsachadh dàta scalable airson tèarainteachd agus prìobhaideachd
Figear 1. Sruth ro-innse air-loidhne agus far loidhne

Mar sin, feumaidh sinn a riochdachadh gu h-èifeachdach a’ cleachdadh seata cumanta de fheartan a ghabhas a chur còmhla nas fhaide air adhart agus a ghluasad timcheall gu furasta. Bu chòir na feartan sin chan e a-mhàin seòrsachadh ceart a thoirt seachad, ach cuideachd sùbailteachd agus leud a thoirt seachad gus seòrsachan dàta ùra a chuir ris agus a lorg san àm ri teachd. San dàrna h-àite, feumaidh tu dèiligeadh ri bùird mòra far-loidhne. Faodar dàta seasmhach a stòradh ann an clàran a tha mòran petabytes ann am meud. Dh’ fhaodadh seo leantainn gu astaran sganaidh nas slaodaiche. San treas àite, feumaidh sinn cumail ri seòrsachadh teann SLA air dàta luaineach. Bheir seo air an t-siostam a bhith fìor èifeachdach, luath agus ceart. Mu dheireadh, feumaidh sinn seòrsachadh dàta latency ìosal a thoirt seachad airson dàta luaineach gus seòrsachadh fìor-ùine a dhèanamh a bharrachd air cùisean cleachdadh eadar-lìn.

Tha am pàipear seo ag innse mar a dhèilig sinn ris na dùbhlain gu h-àrd agus a’ taisbeanadh siostam seòrsachaidh luath is scalable a bhios a’ seòrsachadh eileamaidean dàta de gach seòrsa, cruth, agus stòr stèidhichte air seata feartan cumanta. Leudaich sinn ailtireachd an t-siostaim agus chruthaich sinn modal ionnsachaidh inneal àbhaisteach gus dàta far-loidhne agus air-loidhne a sheòrsachadh gu sgiobalta. Tha am pàipear seo air a chur air dòigh mar a leanas: Tha Earrann 2 a’ taisbeanadh dealbhadh iomlan an t-siostaim. Tha Earrann 3 a’ beachdachadh air na pàirtean de shiostam ionnsachaidh inneal. Tha Earrannan 4 agus 5 a’ soilleireachadh obair co-cheangailte agus a’ mìneachadh stiùiridhean obrach san àm ri teachd.

ailtireachd

Gus dèiligeadh ris na dùbhlain a tha an lùib dàta air-loidhne leantainneach agus sgèile Facebook, tha dà shruth eadar-dhealaichte aig an t-siostam seòrsachaidh, air am bi sinn a’ beachdachadh gu mionaideach.

Dàta Seasmhach

An toiseach, feumaidh an siostam ionnsachadh mu na h-iomadh maoin fiosrachaidh aig Facebook. Airson gach stòr, tha cuid de dh'fhiosrachadh bunaiteach air a chruinneachadh, leithid an ionad dàta anns a bheil an dàta sin, an siostam anns a bheil an dàta sin, agus na maoinean a tha suidhichte anns an stòr dàta sònraichte. Bidh seo a’ cruthachadh catalog meata-dàta a leigeas leis an t-siostam dàta fhaighinn air ais gu h-èifeachdach gun a bhith a’ luchdachadh cus luchd-dèiligidh agus goireasan a bhios innleadairean eile a’ cleachdadh.

Tha an catalog meata-dàta seo a’ toirt seachad stòr ùghdarrasach airson a h-uile maoin a chaidh a sganadh agus a’ toirt cothrom dhut sùil a chumail air inbhe diofar mhaoin. A’ cleachdadh an fhiosrachaidh seo, tha prìomhachas clàraidh air a stèidheachadh stèidhichte air an dàta cruinnichte agus fiosrachadh a-staigh bhon t-siostam, leithid an ùine a chaidh an so-mhaoin a sganadh gu soirbheachail mu dheireadh agus an ùine a chaidh a chruthachadh, a bharrachd air a’ chuimhne a dh’ fhalbh agus riatanasan CPU airson a’ mhaoin sin ma tha. chaidh a sganadh roimhe seo. An uairsin, airson gach goireas dàta (mar a bhios goireasan rim faighinn), thèid obair a ghairm gus an goireas a sganadh.

Tha gach obair na fhaidhle dà-chànanach cruinn a bhios a’ dèanamh samplachadh Bernoulli air an dàta as ùire a tha ri fhaighinn airson gach maoin. Tha an so-mhaoin air a roinn ann an colbhan fa leth, far a bheil toradh seòrsachaidh gach colbh air a phròiseasadh gu neo-eisimeileach. A bharrachd air an sin, bidh an siostam a’ sganadh airson dàta shàthaichte sam bith taobh a-staigh nan colbhan. Tha JSON, arrays, structaran còdaichte, URLan, dàta sreathach bonn 64, agus barrachd uile air an sganadh. Faodaidh seo ùine cur gu bàs àrdachadh gu mòr oir faodaidh mìltean de cholbhan neadachaidh a bhith ann am blob ann an aon chlàr json.

Airson gach sreath a thèid a thaghadh anns a’ mhaoin dàta, bidh an siostam seòrsachaidh a’ toirt a-mach na stuthan fleòdraidh is teacsa bhon t-susbaint agus a’ ceangal gach nì air ais chun cholbh às an deach a thoirt. Is e toradh a’ cheum às-tharraing feart mapa de gach feart airson gach colbh a lorgar anns a’ mhaoin dàta.

Carson a tha na comharraidhean?

Tha bun-bheachd feartan cudromach. An àite comharran fleòdraidh is teacsa, is urrainn dhuinn sampallan sreang amh a thoirt seachad a thèid a thoirt a-mach gu dìreach bho gach goireas dàta. A bharrachd air an sin, faodar modalan ionnsachaidh inneal a thrèanadh gu dìreach air gach sampall, seach ceudan de àireamhachadh feart a bhios a’ feuchainn dìreach ris an sampall a thomhas. Tha grunn adhbharan ann airson seo:

  1. Prìobhaideachd an toiseach: Nas cudromaiche, tha bun-bheachd feartan a’ leigeil leinn na pàtrain sin a gheibh sinn air ais a stòradh mar chuimhneachan a-mhàin. Bidh seo a’ dèanamh cinnteach gun glèidh sinn sampallan airson aon adhbhar agus nach bi sinn gan clàradh tro ar n-oidhirpean fhèin. Tha seo gu sònraichte cudromach airson dàta luaineach, leis gu feum an t-seirbheis cuid de staid seòrsachaidh a chumail mus toir e seachad ro-innse.
  2. Cuimhne: Faodaidh cuid de shamhlaichean a bhith mìltean de charactaran fada. Le bhith a’ stòradh dàta mar sin agus ga chuir gu pàirtean den t-siostam gun fheum bidh e a’ caitheamh mòran bytes a bharrachd. Faodaidh an dà fheart tighinn còmhla thar ùine, leis gu bheil mòran ghoireasan dàta ann le mìltean de cholbhan.
  3. Co-chruinneachadh feart: Tha feartan gu soilleir a’ riochdachadh toraidhean gach scan tro sheata de fheartan, a’ leigeil leis an t-siostam toraidhean sganaidhean roimhe seo den aon ghoireas dàta a chur còmhla ann an dòigh iomchaidh. Faodaidh seo a bhith feumail airson toraidhean scan a thoirt còmhla bho aon ghoireas dàta thairis air iomadh ruith.

Thèid na feartan an uairsin a chuir gu seirbheis ro-innse far am bi sinn a’ cleachdadh seòrsachadh stèidhichte air riaghailtean agus ionnsachadh innealan gus bileagan dàta gach colbh a ro-innse. Bidh an t-seirbheis an urra ri gach cuid seòrsachadh riaghailtean agus ionnsachadh innealan agus a’ taghadh an ro-innse as fheàrr a chaidh a thoirt seachad bho gach nì ro-innse.

Is e heuristics làimhe a th’ ann an luchd-seòrsachaidh riaghailtean, bidh iad a’ cleachdadh àireamhachadh agus co-èifeachdan gus nì a ghnàthachadh gu raon de 0 gu 100. Cho luath ‘s a thèid a leithid de sgòr tùsail a chruthachadh airson gach seòrsa dàta agus ainm colbh co-cheangailte ris an dàta sin, chan eil e air a ghabhail a-steach ann an" casg sam bith. liostaichean", Bidh an seòrsaiche riaghailt a’ taghadh an sgòr àbhaisteach as àirde am measg, gach seòrsa dàta.

Air sgàth cho iom-fhillte 'sa tha an seòrsachadh, tha a bhith an urra ri heuristics làimhe a-mhàin a' ciallachadh gu bheil cruinneas seòrsachaidh ìosal, gu sònraichte airson dàta neo-structaraichte. Air an adhbhar seo, leasaich sinn siostam ionnsachaidh inneal gus obrachadh le seòrsachadh dàta neo-structaraichte leithid susbaint luchd-cleachdaidh agus seòladh. Tha ionnsachadh innealan air a dhèanamh comasach tòiseachadh air gluasad air falbh bho heuristics làimhe agus comharran dàta a bharrachd a chuir an sàs (me ainmean colbhan, tùs dàta), a’ leasachadh gu mòr cruinneas lorg. Dàibhidh sinn gu domhainn a-steach don ailtireachd ionnsachadh inneal againn nas fhaide air adhart.

Bidh an t-seirbheis ro-innse a’ stòradh nan toraidhean airson gach colbh còmhla ri meata-dàta a thaobh ùine agus staid an scan. Faodaidh luchd-cleachdaidh sam bith agus pròiseasan sìos an abhainn a tha an urra ris an dàta seo a leughadh bhon dàta foillsichte làitheil. Bidh an seata seo a’ cruinneachadh toraidhean nan obraichean scan sin uile, no APIan Catalog Dàta Fìor-ùine. Tha ro-innsean foillsichte nam bunait airson cur an gnìomh fèin-ghluasadach de phoileasaidhean prìobhaideachd is tèarainteachd.

Mu dheireadh, às deidh don t-seirbheis ro-innse an dàta gu lèir a sgrìobhadh agus na ro-innsean uile a stòradh, faodaidh an API Catalog Dàta againn na ro-mheasaidhean seòrsa dàta airson a’ ghoireas a thilleadh ann an àm fìor. Gach latha bidh an siostam a’ foillseachadh stòr-dàta anns a bheil na ro-mheasaidhean as ùire airson gach maoin.

Dàta caochlaideach

Ged a tha am pròiseas gu h-àrd air a dhealbhadh airson maoin leantainneach, thathas cuideachd a’ beachdachadh air trafaic neo-sheasmhach mar phàirt de dhàta buidhne agus faodaidh e a bhith cudromach. Air an adhbhar seo, tha an siostam a’ toirt seachad API air-loidhne airson ro-innse seòrsachaidh fìor-ùine a ghineadh airson trafaic eadar-amail sam bith. Tha siostam ro-innse fìor-ùine air a chleachdadh gu farsaing ann a bhith a’ seòrsachadh trafaic a-muigh, trafaic a-steach gu modalan ionnsachaidh innealan agus dàta sanasachd.

An seo tha an API a’ gabhail dà phrìomh argamaid: an iuchair buidhneachaidh agus an dàta amh a tha ri ro-innse. Bidh an t-seirbheis a’ coileanadh an aon rud a’ faighinn air ais mar a chaidh a mhìneachadh gu h-àrd agus a’ cruinneachadh nan nithean còmhla airson an aon iuchair. Tha na feartan sin cuideachd a’ faighinn taic anns an tasgadan seasmhachd airson faighinn seachad air fàilligeadh. Airson gach iuchair buidhneachaidh, bidh an t-seirbheis a’ dèanamh cinnteach gu bheil e air sampallan gu leòr fhaicinn mus cuir iad fios chun t-seirbheis ro-innse, a’ leantainn a’ phròiseas a tha air a mhìneachadh gu h-àrd.

Leasachadh

Gus cuid de stòradh a sganadh, bidh sinn a’ cleachdadh leabharlannan agus dòighean gus leughadh as fheàrr bho stòradh teth [2] agus dèanamh cinnteach nach bi buaireadh sam bith ann bho luchd-cleachdaidh eile a tha a’ faighinn cothrom air an aon stòradh.

Airson bùird air leth mòr (50+ petabytes), a dh’ aindeoin na h-ùrachaidhean agus an èifeachdas cuimhne, bidh an siostam ag obair gus a h-uile càil a sganadh agus a thomhas mus ruith e a-mach à cuimhne. Às deidh na h-uile, tha an scan air a thomhas gu tur mar chuimhneachan agus chan eil e air a stòradh rè an scan. Ma tha mìltean de cholbhan ann an clàran mòra le cnapan dàta neo-structaraichte, dh’ fhaodadh an obair fàiligeadh mar thoradh air goireasan cuimhne gu leòr nuair a bhios tu a’ dèanamh ro-innse air a’ chlàr gu lèir. Bidh seo mar thoradh air còmhdach nas lugha. Gus cuir an-aghaidh seo, rinn sinn an fheum as fheàrr den t-siostam gus astar scan a chleachdadh mar neach-ionaid airson cho math sa làimhsicheas an siostam an eallach obrach gnàthach. Bidh sinn a’ cleachdadh astar mar inneal ro-innse gus duilgheadasan cuimhne fhaicinn agus gus am mapa feart obrachadh a-mach gu ro-innseach. Aig an aon àm, bidh sinn a’ cleachdadh nas lugha de dhàta na an àbhaist.

Comharran dàta

Chan eil siostam seòrsachaidh ach cho math ris na comharran bhon dàta. An seo bheir sinn sùil air na comharran gu lèir a chleachdas an siostam seòrsachaidh.

  • Stèidhichte air susbaint: Gu dearbh, is e susbaint a’ chiad chomharra agus as cudromaiche. Bithear a’ samplachadh Bernoulli air gach so-mhaoin dàta a bhios sinn a’ sganadh agus a’ toirt a-mach feartan stèidhichte air susbaint an dàta. Tha mòran shoidhnichean a 'tighinn bhon t-susbaint. Tha e comasach àireamh sam bith de stuthan fleòdraidh, a tha a’ riochdachadh àireamhachadh cia mheud uair a chaidh seòrsa sònraichte de shampall fhaicinn. Mar eisimpleir, is dòcha gu bheil comharran againn air an àireamh de phuist-d a chithear ann an sampall, no comharran air cia mheud emojis a chithear ann an sampall. Faodar an àireamhachadh feart seo a dhèanamh àbhaisteach agus a thoirt còmhla thairis air diofar sganaidhean.
  • Cruth dàta: Comharra cudromach a dh'fhaodas cuideachadh nuair a tha an susbaint air atharrachadh bhon chlàr phàrant. Is e eisimpleir cumanta dàta hashed. Nuair a tha dàta ann an clàr pàiste air a ghluasad, bidh e tric a 'tighinn bhon chlàr phàrant, far a bheil e fhathast soilleir. Bidh dàta loidhneach a’ cuideachadh le bhith a’ seòrsachadh cuid de sheòrsan dàta nuair nach eil iad air an leughadh gu soilleir no air an tionndadh bho chlàr shuas an abhainn.
  • Notaichean: Comharra àrd-inbhe eile a chuidicheas le bhith ag aithneachadh dàta neo-structaraichte. Gu dearbh, faodaidh notaichean agus dàta tùs obrachadh còmhla gus buadhan a ghluasad thairis air diofar mhaoin dàta. Bidh notaichean a’ cuideachadh le bhith ag aithneachadh cò às a thàinig dàta neo-structaraichte, agus faodaidh dàta sreathach cuideachadh le bhith a’ cumail sùil air sruthadh an dàta sin air feadh an stòrais.
  • Tha in-stealladh dàta na dhòigh far a bheil caractaran sònraichte, nach gabh leughadh air an toirt a-steach a dh’aona ghnothach gu stòran aithnichte de sheòrsan dàta aithnichte. An uairsin, nuair a bhios sinn a’ sganadh susbaint leis an aon sreath charactaran nach gabh leughadh, faodaidh sinn a thighinn a-mach gu bheil an susbaint a’ tighinn bhon t-seòrsa dàta aithnichte sin. Is e seo comharra dàta càileachdail eile coltach ri notaichean. Ach a-mhàin gu bheil lorg stèidhichte air susbaint a’ cuideachadh le bhith a’ lorg an dàta a chaidh a chuir a-steach.

Tomhais Metrics

Is e pàirt chudromach modh-obrach teann airson meatrach a thomhas. Is e na prìomh mheatrics airson ath-aithris leasachadh seòrsachaidh mionaideachd agus ath-ghairm air gach leubail, leis an sgòr F2 as cudromaiche.

Gus na meatrach sin obrachadh a-mach, tha feum air dòigh-obrach neo-eisimeileach airson a bhith a’ labail maoin dàta a tha neo-eisimeileach bhon t-siostam fhèin, ach a ghabhas cleachdadh airson coimeas dìreach ris. Gu h-ìosal tha sinn a 'toirt cunntas air mar a bhios sinn a' cruinneachadh fìrinn talmhainn bho Facebook agus ga chleachdadh gus an siostam seòrsachaidh againn a thrèanadh.

Cruinneachadh de dhàta earbsach

Bidh sinn a’ cruinneachadh dàta earbsach bho gach stòr gu h-ìosal na chlàr fhèin. Tha uallach air gach clàr airson na luachan as ùire a chaidh fhaicinn bhon stòr shònraichte sin a chruinneachadh. Tha sgrùdaidhean càileachd dàta aig gach stòr gus dèanamh cinnteach gu bheil na luachan a chaidh fhaicinn airson gach stòr de chàileachd àrd agus gu bheil na bileagan seòrsa dàta as ùire ann.

  • Ullachaidhean àrd-ùrlair logaidh: Tha dàta de sheòrsa sònraichte air cuid de raointean ann am bùird hive. Tha cleachdadh agus sgaoileadh an dàta seo mar thùs earbsach de fhìrinn.
  • Bileag làimhe: Tha luchd-leasachaidh a tha a’ cumail suas an t-siostam a bharrachd air bileagan bhon taobh a-muigh air an trèanadh gus colbhan a chomharrachadh. Mar as trice bidh seo ag obair gu math airson a h-uile seòrsa dàta anns an taigh-bathair, agus faodaidh e a bhith na phrìomh thùs fìrinn airson cuid de dhàta neo-structaraichte, leithid dàta teachdaireachd no susbaint luchd-cleachdaidh.
  • Faodaidh colbhan bho chlàran phàrantan a bhith air an comharrachadh no air an comharrachadh le cuid de dhàta, agus is urrainn dhuinn an dàta sin a lorg ann an clàir na cloinne.
  • A’ faighinn snàithleanan cur gu bàs: bidh snàithleanan cur gu bàs ann am Facebook a’ giùlan seòrsachan sònraichte de dhàta. A’ cleachdadh an sganair againn mar ailtireachd seirbheis, is urrainn dhuinn sruthan a shampall air a bheil seòrsaichean dàta aithnichte agus an cur tron ​​​​t-siostam. Tha an siostam a’ gealltainn nach tèid an dàta seo a stòradh.
  • Clàran sampaill: Faodar clàran mòra hive, anns a bheil fios gu bheil an corpas dàta gu lèir, a chleachdadh mar dhàta trèanaidh agus a dhol tron ​​​​sganair mar sheirbheis. Tha seo fìor mhath airson bùird le làn raon de sheòrsan dàta, gus am bi samplachadh colbh air thuaiream co-ionann ri bhith a’ samplachadh an t-seata iomlan den t-seòrsa dàta sin.
  • Dàta synthetigeach: Is urrainn dhuinn eadhon leabharlannan a chleachdadh a ghineas dàta air an itealan. Tha seo ag obair gu math airson seòrsachan dàta poblach sìmplidh leithid seòladh no GPS.
  • Stiùbhartan Dàta: Mar as trice bidh prògraman prìobhaideachd a’ cleachdadh stiùbhardan dàta gus poileasaidhean a shònrachadh le làimh gu pìosan dàta. Tha seo na stòr fìor cheart de fhìrinn.

Bidh sinn a’ cothlamadh a h-uile prìomh thùs fìrinn ann an aon chorpas leis an dàta sin gu lèir. Is e an dùbhlan as motha a thaobh dligheachd dèanamh cinnteach gu bheil e riochdachail den stòr dàta. Rud eile, faodaidh einnseanan seòrsachaidh a dhol thairis air. Gus cuir an-aghaidh seo, thathas a’ cleachdadh na stòran gu h-àrd gus dèanamh cinnteach à cothromachadh nuair a bhios tu a’ trèanadh mhodalan no a’ tomhas meatrach. A bharrachd air an sin, bidh bileagan daonna gu co-ionann a’ samplachadh cholbhan eadar-dhealaichte anns an stòr agus a’ comharrachadh an dàta a rèir sin gus am bi cruinneachadh fìrinn talmhainn fhathast neo-phàirteach.

Amalachadh leantainneach

Gus dèanamh cinnteach à ath-aithris agus leasachadh luath, tha e cudromach an-còmhnaidh coileanadh siostam a thomhas ann an àm fìor. Is urrainn dhuinn gach leasachadh seòrsachaidh a thomhas mu choinneamh an t-siostam an-diugh, gus an urrainn dhuinn leasachaidhean san àm ri teachd a stiùireadh stèidhichte air dàta. An seo bheir sinn sùil air mar a chuireas an siostam crìoch air an lùb fios-air-ais a tha air a thoirt seachad le dàta dligheach.

Nuair a choinnicheas an siostam clàraidh ri maoin aig a bheil bileag bho stòr earbsach, bidh sinn a’ clàradh dà ghnìomh. Bidh a’ chiad fhear a’ cleachdadh ar sganair cinneasachaidh agus mar sin ar comasan toraidh. Bidh an dàrna gnìomh a’ cleachdadh an sganair togail as ùire leis na feartan as ùire. Bidh gach gnìomh a’ sgrìobhadh a thoraidhean chun bhòrd aice fhèin, a’ tagadh dhreachan còmhla ri toraidhean seòrsachaidh.

Seo mar a nì sinn coimeas eadar toraidhean seòrsachaidh an tagraiche fuasglaidh agus am modail toraidh ann an àm fìor.

Fhad ‘s a tha na stòran-dàta a’ dèanamh coimeas eadar feartan RC agus PROD, tha mòran atharrachaidhean air einnsean seòrsachaidh ML na seirbheis ro-innse air an clàradh. Am modail ionnsachaidh inneal a chaidh a thogail o chionn ghoirid, am modail gnàthach ann an cinneasachadh, agus modalan deuchainneach sam bith. Tha an aon dòigh-obrach a’ toirt cothrom dhuinn “sìoladh” diofar dhreachan den mhodail (agnostic to our rule classifiers) agus coimeas a dhèanamh eadar meatrach ann an àm fìor. Tha seo ga dhèanamh furasta faighinn a-mach cuin a tha deuchainn ML deiseil airson a dhol a-steach gu cinneasachadh.

Gach oidhche, thèid na feartan RC a chaidh a thomhas airson an latha sin a chuir gu loidhne-phìoban trèanaidh ML, far a bheil am modail air a thrèanadh air na feartan RC as ùire agus a’ measadh a choileanadh an aghaidh an t-seata fìrinn talmhainn.

Gach madainn, bidh am modail a’ crìochnachadh trèanadh agus ga fhoillseachadh gu fèin-ghluasadach mar mhodail deuchainneach. Tha e air a ghabhail a-steach gu fèin-ghluasadach air an liosta deuchainneach.

Cuid de thoraidhean

Tha còrr air 100 diofar sheòrsa dàta air an ainmeachadh le fìor chruinneas. Tha seòrsaichean le deagh structar leithid puist-d agus àireamhan fòn air an seòrsachadh le sgòr f2 nas àirde na 0,95. Bidh seòrsaichean dàta an-asgaidh leithid susbaint agus ainm a ghineadh leis an neach-cleachdaidh cuideachd a’ coileanadh glè mhath, le sgòran F2 nas àirde na 0,85.

Tha àireamh mhòr de cholbhan fa leth de dhàta seasmhach agus luaineach air an seòrsachadh gach latha thar gach stòr. Tha còrr air 500 terabytes air an sganadh gach latha thairis air barrachd air 10 taighean-bathair dàta. Tha còmhdach còrr air 98% aig a’ mhòr-chuid de na stòran sin.

Thar ùine, tha seòrsachadh air fàs gu math èifeachdach, le obraichean seòrsachaidh ann an sruth leantainneach far-loidhne a’ toirt cuibheas de 35 diog bho bhith a’ sganadh maoin gu bhith a’ tomhas ro-innse airson gach colbh.

Seòrsachadh dàta scalable airson tèarainteachd agus prìobhaideachd
Reis. 2. Diagram a’ toirt cunntas air an t-sruth amalachaidh leantainneach gus tuigse fhaighinn air mar a tha nithean RC air an gineadh agus air an cur chun mhodail.

Seòrsachadh dàta scalable airson tèarainteachd agus prìobhaideachd
Figear 3. Diagram àrd-ìre de cho-phàirt ionnsachaidh inneal.

Co-phàirt siostam ionnsachaidh inneal

Anns an earrainn roimhe seo, ghabh sinn dàibheadh ​​​​domhainn a-steach do ailtireachd an t-siostaim iomlan, a’ soilleireachadh sgèile, optimization, agus sruthan dàta far-loidhne agus air-loidhne. Anns an earrainn seo, seallaidh sinn ris an t-seirbheis ro-innse agus bheir sinn cunntas air an t-siostam ionnsachaidh innealan a bheir cumhachd don t-seirbheis ro-innse.

Le còrr air 100 seòrsa dàta agus cuid de shusbaint neo-structaraichte leithid dàta teachdaireachd agus susbaint luchd-cleachdaidh, bidh cleachdadh heuristics làimhe a-mhàin a’ leantainn gu cruinneas seòrsachaidh subparametric, gu sònraichte airson dàta neo-structaraichte. Air an adhbhar seo, tha sinn cuideachd air siostam ionnsachaidh innealan a leasachadh gus dèiligeadh ri iom-fhillteachd dàta neo-structaraichte. Le bhith a’ cleachdadh ionnsachadh inneal leigidh sin leat tòiseachadh air gluasad air falbh bho heuristics làimhe agus obrachadh le feartan agus comharran dàta a bharrachd (mar eisimpleir, ainmean colbhan, tùs dàta) gus cruinneas a leasachadh.

Bidh am modail gnìomhaichte a’ sgrùdadh riochdachaidhean vector [3] thairis air nithean dùmhail agus gann air leth. Tha iad sin an uairsin air an cur còmhla gus vectar a chruthachadh, a thèid tro shreath de normalachadh baidse [4] agus ceumannan neo-riaghailteachd gus an toradh deireannach a thoirt gu buil. Is e an toradh mu dheireadh àireamh puing fleòdraidh eadar [0-1] airson gach leubail, a’ nochdadh an coltachd gum buin an eisimpleir don t-seòrsa cugallachd sin. Le bhith a’ cleachdadh PyTorch airson a’ mhodail leig sinn leinn gluasad nas luaithe, a’ leigeil le luchd-leasachaidh taobh a-muigh na sgioba atharrachaidhean a dhèanamh agus deuchainn a dhèanamh gu sgiobalta.

Nuair a bhathas a' dealbhadh na h-ailtireachd, bha e cudromach rudan gann (me teacsa) agus dùmhail (m.e. àireamhach) a mhodail fa leth air sgàth nan eadar-dhealachaidhean gnèitheach aca. Airson an ailtireachd mu dheireadh, bha e cudromach cuideachd sguab paramadair a dhèanamh gus an luach as fheàrr a lorg airson ìre ionnsachaidh, meud baidse, agus hyperparameters eile. Bha an roghainn optimizer cuideachd na hyperparameter cudromach. Lorg sinn gu bheil optimizer mòr-chòrdte Adamgu tric a 'leantainn gu overfitting, ach modail le SGD nas seasmhaiche. Bha nuances a bharrachd ann a dh’ fheumadh sinn a thoirt a-steach gu dìreach sa mhodail. Mar eisimpleir, riaghailtean statach a rinn cinnteach gu bheil am modail a’ dèanamh ro-innse cinntiche nuair a tha luach sònraichte aig feart. Tha na riaghailtean statach sin air am mìneachadh leis an luchd-dèiligidh againn. Fhuair sinn a-mach gun robh an toirt a-steach gu dìreach sa mhodail a’ leantainn gu ailtireachd nas fèin-chumanta agus nas làidire, an àite a bhith a’ cur an gnìomh ceum iar-ghiollachd gus na cùisean iomaill sònraichte sin a làimhseachadh. Thoir an aire cuideachd gu bheil na riaghailtean sin ciorramach rè trèanadh gus nach cuir iad bacadh air a ’phròiseas trèanaidh teàrnadh caisead.

Duilgheadasan

B’ e aon de na dùbhlain a bh’ ann a bhith a’ cruinneachadh dàta àrd-inbhe, earbsach. Feumaidh am modail misneachd airson gach clas gus an ionnsaich e ceanglaichean eadar nithean agus bileagan. Anns an earrainn roimhe seo, bheachdaich sinn air dòighean cruinneachadh dàta airson an dà chuid tomhas siostam agus trèanadh modail. Sheall an anailis nach eil clasaichean dàta leithid àireamhan cairt creideas agus cunntas banca glè chumanta anns an taigh-bathair againn. Tha seo ga dhèanamh duilich tòrr dàta earbsach a chruinneachadh gus modalan a thrèanadh. Gus dèiligeadh ris a’ chùis seo, tha sinn air pròiseasan a leasachadh airson dàta fìrinn talmhainn synthetigeach fhaighinn airson nan clasaichean sin. Bidh sinn a’ gineadh dàta mar sin airson seòrsaichean mothachail a’ gabhail a-steach SSN, àireamhan cairt-creideis и IBAN- àireamhan airson nach b’ urrainn don mhodail ro-innse roimhe seo. Tha an dòigh-obrach seo a’ leigeil le seòrsachan dàta mothachail a bhith air an giullachd às aonais na cunnartan prìobhaideachd co-cheangailte ri bhith a’ falach an fhìor dàta mothachail.

A bharrachd air cùisean fìrinn talmhainn, tha cùisean ailtireachd fosgailte air a bheil sinn ag obair, leithid atharraich aonaranachd и stad tràth. Tha iomallachd atharrachaidh cudromach gus dèanamh cinnteach nuair a thèid diofar atharrachaidhean a dhèanamh air diofar phàirtean den lìonra, gu bheil a’ bhuaidh air a sgaradh gu clasaichean sònraichte agus nach eil buaidh fharsaing aige air coileanadh ro-innse iomlan. Tha e deatamach cuideachd gun tèid slatan-tomhais stad tràth a leasachadh gus an urrainn dhuinn stad a chur air a’ phròiseas trèanaidh aig ìre sheasmhach airson a h-uile clas, seach aig àm far a bheil cuid de chlasaichean a’ dol thairis air agus cuid eile nach eil.

Cudromachd feart

Nuair a thèid feart ùr a thoirt a-steach do mhodail, tha sinn airson faighinn a-mach a bhuaidh iomlan air a’ mhodail. Tha sinn cuideachd airson dèanamh cinnteach gu bheil na ro-innsean eadar-mhìneachadh daonna gus an tuig sinn gu dìreach dè na feartan a thathas a’ cleachdadh airson gach seòrsa dàta. Airson an adhbhair seo tha sinn air a leasachadh agus a thoirt a-steach a rèir clas cho cudromach sa tha feartan airson modal PyTorch. Thoir an aire gu bheil seo eadar-dhealaichte bho chudromachd feart iomlan, a tha mar as trice a’ faighinn taic, oir chan eil e ag innse dhuinn dè na feartan a tha cudromach airson clas sònraichte. Bidh sinn a’ tomhas cho cudromach sa tha nì le bhith a’ tomhas an àrdachadh ann am mearachd ro-innse às deidh an nì ath-eagrachadh. Tha feart “cudromach” nuair a bhios atharrachadh luachan ag àrdachadh mearachd a’ mhodail oir sa chùis seo bha am modail an urra ris an fheart gus a ro-innse a dhèanamh. Tha feart “neo-chudromach” nuair a dh’ atharraicheas a luachan fàgaidh sin mearachd a’ mhodail gun atharrachadh, oir anns a’ chùis seo cha tug am modail an aire dha [5].

Tha cudromachd feart airson gach clas a’ leigeil leinn am modail a mhìneachadh gus am faic sinn cò ris a tha am modail a’ coimhead nuair a thathar a’ ro-innse bileag. Mar eisimpleir, nuair a bhios sinn a 'dèanamh anailis ADDR, an uair sin tha sinn a 'barantachadh gu bheil an soidhne co-cheangailte ris an t-seòladh, leithid SeòladhLinesCount, aig ìre àrd anns a’ chlàr cudromachd feart airson gach clas gus am bi ar n-inntinn daonna a’ freagairt gu math ris na tha am modail air ionnsachadh.

mheasadh

Tha e cudromach aon mheatrach a mhìneachadh airson soirbheachas. Thagh sinn F2 - cothromachadh eadar ath-ghairm agus mionaideachd (tha claonadh cuimhneachaidh beagan nas motha). Tha ath-ghairm nas cudromaiche airson cùis cleachdadh prìobhaideachd na cruinneas oir tha e deatamach don sgioba gun a bhith ag ionndrainn dàta mothachail sam bith (fhad ‘s a nì iad cinnteach à cruinneas reusanta). Tha fìor mheasadh dèanadais F2 air a’ mhodail againn taobh a-muigh raon a’ phàipeir seo. Ach, le gleusadh faiceallach is urrainn dhuinn sgòran àrd (0,9+) F2 a choileanadh airson nan clasaichean mothachail as cudromaiche.

Obair co-cheangailte

Tha mòran algorithms ann airson seòrsachadh fèin-ghluasadach de sgrìobhainnean neo-structaraichte a’ cleachdadh diofar dhòighean leithid maidseadh phàtrain, sgrùdadh coltach ri sgrìobhainnean agus diofar dhòighean ionnsachaidh innealan (Bayesian, craobhan co-dhùnaidh, k-na nàbaidhean as fhaisge agus mòran eile) [6]. Faodar gin dhiubh sin a chleachdadh mar phàirt de sheòrsachadh. Ach, is e scalability an duilgheadas. Tha an dòigh seòrsachaidh san artaigil seo ag amas air sùbailteachd agus coileanadh. Leigidh seo leinn taic a thoirt do chlasaichean ùra san àm ri teachd agus latency a chumail ìosal.

Tha tòrr obrach ann cuideachd air lorgan-meòir dàta. Mar eisimpleir, thug na h-ùghdaran ann an [7] cunntas air fuasgladh a tha ag amas air an duilgheadas a thaobh a bhith a’ glacadh aodion dàta mothachail. Is e a’ bharail bhunaiteach gum faodar an dàta a lorgan-meòir gus a mhaidseadh ri seata de dhàta mothachail aithnichte. Tha na h-ùghdaran ann an [8] a’ toirt cunntas air duilgheadas coltach ri aoidionachd prìobhaideachd, ach tha am fuasgladh aca stèidhichte air ailtireachd sònraichte Android agus chan eil e air a sheòrsachadh ach ma thig gnìomhan luchd-cleachdaidh gu bhith a’ roinneadh fiosrachadh pearsanta no ma bhios an aplacaid bunaiteach a’ leigeil a-mach dàta luchd-cleachdaidh. Tha an suidheachadh an seo rudeigin eadar-dhealaichte oir faodaidh dàta luchd-cleachdaidh a bhith glè neo-structarail cuideachd. Mar sin, feumaidh sinn dòigh-obrach nas iom-fhillte na lorgan-meòir.

Mu dheireadh, gus dèiligeadh ri gainnead dàta airson cuid de sheòrsan dàta mothachail, thug sinn a-steach dàta synthetigeach. Tha cruinneachadh mòr de litreachas ann mu mheudachadh dàta, mar eisimpleir, rinn na h-ùghdaran ann an [9] sgrùdadh air àite in-stealladh fuaim rè trèanadh agus chunnaic iad toraidhean adhartach ann an ionnsachadh fo stiùir. Tha an dòigh-obrach againn a thaobh prìobhaideachd eadar-dhealaichte oir faodaidh toirt a-steach dàta fuaimneach a bhith torach, agus an àite sin bidh sinn a’ cuimseachadh air dàta synthetigeach àrd-inbhe.

co-dhùnadh

Anns a’ phàipear seo, thaisbein sinn siostam as urrainn pìos dàta a sheòrsachadh. Leigidh seo leinn siostaman a chruthachadh gus poileasaidhean prìobhaideachd is tèarainteachd a chuir an gnìomh. Tha sinn air sealltainn gu bheil prìomh àite aig bun-structar scalable, amalachadh leantainneach, ionnsachadh innealan agus gealltanas dàta àrd-inbhe ann an soirbheachas mòran de na h-iomairtean prìobhaideachd againn.

Tha iomadh stiùireadh ann airson obair san àm ri teachd. Dh’fhaodadh seo a bhith a’ toirt a-steach a bhith a’ toirt taic do dhàta gun sgeama (faidhlichean), a’ seòrsachadh chan e a-mhàin seòrsa dàta ach cuideachd ìre cugallachd, agus a’ cleachdadh ionnsachadh fèin-stiùirichte rè trèanadh le bhith a’ cruthachadh eisimpleirean synthetigeach ceart. A chuidicheas, an uair sin, am modail gus call a lughdachadh leis an ìre as motha. Dh’ fhaodadh obair san àm ri teachd cuideachd fòcas a chuir air sruth-obrach an sgrùdaidh, far am bi sinn a’ dol nas fhaide na lorg agus a’ toirt seachad mion-sgrùdadh bun-adhbhar air diofar bhrisidhean prìobhaideachd. Cuidichidh seo ann an cùisean leithid mion-sgrùdadh cugallachd (i.e. a bheil cugallachd prìobhaideachd seòrsa dàta àrd (m.e. IP neach-cleachdaidh) no ìosal (me Facebook IP a-staigh)).

Clàr-leabhraichean

  1. Daibhidh Ben-Daibhidh, Tamar Domany, agus Abigail Tarem. Seòrsachadh dàta iomairt a’ cleachdadh teicneòlasan lìn semantach. Ann am Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks, agus Birte Glimm, luchd-deasachaidh, An Lìon Semantic - ISWC 2010, duilleagan 66–81, Berlin, Heidelberg, 2010. Springer Berlin Heidelberg.
  2. Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath Sivakumar, Linceng Tang, agus Sanjeev Kumar. f4: Siostam stòraidh blàth BLOB aig Facebook. Anns 11mh Symposium USENIX air Dealbhadh agus Cur an Gnìomh Siostaman Obrachaidh (OSDI 14), duilleagan 383–398, Broomfield, CO, Dàmhair 2014. Comann USENIX.
  3. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, agus Jeff Dean. Sgaoileadh riochdachaidhean de fhaclan is abairtean agus an co-dhèanamh. Ann an C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, agus K. Q. Weinberger, luchd-deasachaidh, Adhartasan ann an Siostaman Giullachd Fiosrachaidh Neural 26, duilleagan 3111–3119. Curran Associates, Inc., 2013.
  4. Sergey Ioffe agus Christian Szegedy. Gnàthachadh baidse: A’ luathachadh trèanadh lìonra domhainn le bhith a’ lughdachadh gluasad covariate a-staigh. Ann am Francis Bach agus David Blei, luchd-deasachaidh, Gnìomhan an 32mh Co-labhairt Eadar-nàiseanta air Ionnsachadh Innealan, leabhar 37 de Gnìomhan Rannsachadh Ionnsachadh Inneal, duilleagan 448–456, Lille, An Fhraing, 07–09 Jul 2015. PMLR.
  5. Leo Breiman. Coilltean air thuaiream. Mach. Ionnsaich., 45(1):5–32, Dàmhair 2001.
  6. Thair Nu Phyu. Sgrùdadh air dòighean seòrsachaidh ann am mèinneadh dàta.
  7. X. Shu, D. Yao, agus E. Bertino. Prìobhaideachd - lorg foillseachadh dàta mothachail. Gnìomhan IEEE air forensics fiosrachaidh agus tèarainteachd, 10(5):1092–1103, 2015.
  8. Zhemin Yang, Min Yang, Yuan Zhang, Guofei Gu, Peng Ning, agus Xiaoyang Wang. Tagraiche: A’ dèanamh anailis air sgaoileadh dàta mothachail ann an android airson aoidion prìobhaideachd a lorg. duilleagan 1043–1054, 11 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong, agus Quoc V. Le. Meudachadh dàta gun stiùireadh.

Seòrsachadh dàta scalable airson tèarainteachd agus prìobhaideachd
Faigh a-mach mion-fhiosrachadh air mar a gheibh thu dreuchd air a bheil iarrtas bhon fhìor thoiseach no Ìre Suas a thaobh sgilean agus tuarastal le bhith a’ gabhail cùrsaichean air-loidhne SkillFactory:

Tuilleadh chùrsaichean

Source: www.habr.com

Cuir beachd ann