A bheil feum againn air loch dàta? Dè a nì thu leis an stòr-dàta?

Tha an artaigil seo na eadar-theangachadh den artaigil agam air meadhan - A’ tòiseachadh le Data Lake, a thionndaidh a-mach gu bhith mòr-chòrdte, is dòcha air sgàth cho sìmplidh ‘s a tha e. Mar sin, chuir mi romham a sgrìobhadh ann an Ruisis agus beagan a chuir ris gus a dhèanamh soilleir do neach àbhaisteach nach eil na eòlaiche dàta dè a th’ ann an taigh-bathair dàta (DW), agus dè a th’ ann an loch dàta (Loch Dàta), agus mar a tha iad. gabh ri chèile.

Carson a bha mi airson sgrìobhadh mun loch dàta? Tha mi air a bhith ag obair le dàta agus anailisean airson còrr air 10 bliadhna, agus a-nis tha mi gu cinnteach ag obair le dàta mòr aig Amazon Alexa AI ann an Cambridge, a tha ann am Boston, ged a tha mi a’ fuireach ann am Bhictòria air Eilean Bhancoubhar agus gu tric a’ tadhal air Boston, Seattle , agus Ann an Vancouver, agus uaireannan eadhon ann am Moscow, bidh mi a’ bruidhinn aig co-labhairtean. Bidh mi a’ sgrìobhadh bho àm gu àm cuideachd, ach bidh mi a’ sgrìobhadh sa mhòr-chuid sa Bheurla, agus tha mi air sgrìobhadh mu thràth cuid de leabhraichean, feumaidh mi cuideachd gluasadan anailis à Ameireaga a Tuath a cho-roinn, agus bidh mi uaireannan a’ sgrìobhadh a-steach teileagraman.

Tha mi an-còmhnaidh air a bhith ag obair le stòran dàta, agus bho 2015 thòisich mi ag obair gu dlùth le Amazon Web Services, agus mar as trice thionndaidh mi gu anailisean sgòthan (AWS, Azure, GCP). Tha mi air sùil a thoirt air mean-fhàs de fhuasglaidhean anailitigeach bho 2007 agus eadhon ag obair dha neach-reic an taigh-bathair dàta Teradata agus ga chuir an gnìomh aig Sberbank, agus sin nuair a nochd Big Data le Hadoop. Thòisich a h-uile duine ag ràdh gu robh an àm stòraidh air a dhol seachad agus a-nis bha a h-uile dad air Hadoop, agus an uairsin thòisich iad a ’bruidhinn mu dheidhinn Data Lake, a-rithist, gu robh a-nis deireadh an taigh-bathair dàta air tighinn gu cinnteach. Ach gu fortanach (is dòcha gu mì-fhortanach dha cuid a rinn tòrr airgid a’ stèidheachadh Hadoop), cha do dh’ fhalbh an taigh-bathair dàta.

San artaigil seo seallaidh sinn dè a th’ ann an loch dàta. Tha an artaigil seo airson daoine aig nach eil mòran eòlais no eòlas sam bith air taighean-bathair dàta.

A bheil feum againn air loch dàta? Dè a nì thu leis an stòr-dàta?

Anns an dealbh tha Lake Bled, seo aon de na lochan as fheàrr leam, ged nach robh mi ann ach aon turas, chuimhnich mi air airson a’ chòrr de mo bheatha. Ach bruidhnidh sinn mu dheidhinn seòrsa eile de loch - loch dàta. Is dòcha gu bheil mòran agaibh air cluinntinn mun teirm seo barrachd air aon uair, ach cha dèan aon mhìneachadh eile cron air duine sam bith.

An toiseach, seo na mìneachaidhean as mòr-chòrdte air Lake Data:

“stòradh faidhle de gach seòrsa de dhàta amh a tha ri fhaighinn airson mion-sgrùdadh le neach sam bith sa bhuidheann.” - Martin Fowler

“Ma tha thu den bheachd gur e botal uisge a th’ ann am mart dàta - air a ghlanadh, air a phacaigeadh agus air a phacaigeadh airson a chaitheamh gu goireasach, tha loch dàta na loch-tasgaidh mòr uisge na chruth nàdarra. Luchd-cleachdaidh, is urrainn dhomh uisge a chruinneachadh dhomh fhìn, dàibheadh ​​​​domhainn, sgrùdadh. ” - Seumas Dixon

A-nis gu bheil fios againn gu cinnteach gu bheil loch dàta mu dheidhinn anailisean, leigidh e leinn tòrr dàta a stòradh anns a ’chruth thùsail aige agus tha an cothrom riatanach agus goireasach againn air an dàta.

Is toil leam gu tric rudan a dhèanamh nas sìmplidhe, mas urrainn dhomh teirm iom-fhillte a mhìneachadh ann am faclan sìmplidh, tuigidh mi dhomh fhìn mar a tha e ag obair agus carson a tha feum air. Aon latha, bha mi a 'coimhead mun cuairt ann an gailearaidh dhealbhan an iPhone, agus thàinig e a-mach orm, is e fìor loch dàta a tha seo, rinn mi eadhon sleamhnag airson co-labhairtean:

A bheil feum againn air loch dàta? Dè a nì thu leis an stòr-dàta?

Tha a h-uile dad gu math sìmplidh. Bidh sinn a’ togail dealbh air a’ fòn, thèid an dealbh a shàbhaladh air a’ fòn agus faodar a shàbhaladh gu iCloud (stòradh faidhle neòil). Bidh am fòn cuideachd a 'cruinneachadh meata-dàta dhealbhan: na tha air a shealltainn, geo-tag, ùine. Mar thoradh air an sin, is urrainn dhuinn an eadar-aghaidh furasta a chleachdadh den iPhone gus an dealbh againn a lorg agus chì sinn eadhon comharran, mar eisimpleir, nuair a bhios mi a’ lorg dealbhan leis an fhacal teine, lorg mi 3 dealbhan le ìomhaigh teine. Dhòmhsa, tha seo dìreach mar inneal Fiosrachaidh Gnìomhachais a bhios ag obair gu math luath agus gu soilleir.

Agus gu dearbh, cha bu chòir dhuinn dìochuimhneachadh mu thèarainteachd (ùghdarrachadh agus dearbhadh), air neo faodaidh an dàta againn a bhith san raon phoblach gu furasta. Tha tòrr naidheachdan ann mu chorporra mòra agus companaidhean tòiseachaidh a thàinig an dàta aca gu poblach air sgàth dearmad luchd-leasachaidh agus nach do lean iad riaghailtean sìmplidh.

Tha eadhon dealbh cho sìmplidh gar cuideachadh le bhith a’ smaoineachadh dè a th’ ann an loch dàta, na h-eadar-dhealachaidhean a th’ ann bho thaigh-bathair dàta traidiseanta agus na prìomh eileamaidean aige:

  1. A’ luchdachadh dàta (Ingestion) na phrìomh phàirt den loch dàta. Faodaidh dàta a dhol a-steach don taigh-bathair dàta ann an dà dhòigh - baidse (luchdachadh aig amannan) agus sruthadh (sruthadh dàta).
  2. Stòradh faidhle Is e (stòradh) am prìomh phàirt den Data Lake. Bha feum againn air an stòradh a bhith furasta a scalladh, gu math earbsach agus aig prìs ìosal. Mar eisimpleir, ann an AWS is e S3 a th’ ann.
  3. Catalog agus lorg (Catalog agus Rannsachadh) - gus an urrainn dhuinn an Data Swamp a sheachnadh (is ann nuair a dhumpas sinn an dàta gu lèir ann an aon chrann, agus an uairsin gu bheil e do-dhèanta obrachadh leis), feumaidh sinn còmhdach meata-dàta a chruthachadh gus an dàta a sheòrsachadh gus an urrainn do luchd-cleachdaidh an dàta a lorg gu furasta, a dh’ fheumas iad airson mion-sgrùdadh. A bharrachd air an sin, faodaidh tu fuasglaidhean sgrùdaidh a bharrachd a chleachdadh leithid ElasticSearch. Bidh sgrùdadh a’ cuideachadh an neach-cleachdaidh an dàta a tha a dhìth a lorg tro eadar-aghaidh a tha furasta a chleachdadh.
  4. Pròiseas (Pròiseas) - tha uallach air a 'cheum seo airson a bhith a' giullachd agus ag atharrachadh dàta. Is urrainn dhuinn dàta a thionndadh, a structar atharrachadh, a ghlanadh, agus mòran a bharrachd.
  5. Tèarainteachd (Tèarainteachd) - Tha e cudromach ùine a chaitheamh air dealbhadh tèarainteachd an fhuasglaidh. Mar eisimpleir, crioptachadh dàta rè stòradh, giollachd agus luchdachadh. Tha e cudromach dòighean dearbhaidh agus ceadachaidh a chleachdadh. Mu dheireadh, tha feum air inneal sgrùdaidh.

Bho shealladh practaigeach, is urrainn dhuinn loch dàta a chomharrachadh le trì buadhan:

  1. Cruinnich agus stòradh rud sam bith - tha an dàta gu lèir anns an loch dàta, an dà chuid dàta amh neo-ullaichte airson ùine sam bith agus dàta air a phròiseasadh / air a ghlanadh.
  2. Sgan domhainn - tha loch dàta a’ leigeil le luchd-cleachdaidh dàta a sgrùdadh agus a sgrùdadh.
  3. Cothrom sùbailte - Tha an loch dàta a’ toirt cothrom sùbailte airson diofar dhàta agus diofar shuidheachaidhean.

A-nis is urrainn dhuinn bruidhinn mun eadar-dhealachadh eadar taigh-bathair dàta agus loch dàta. Mar as trice bidh daoine a’ faighneachd:

  • Dè mu dheidhinn an stòr-dàta?
  • A bheil sinn a’ cur loch dàta an àite an taigh-bathair no a bheil sinn ga leudachadh?
  • A bheil e comasach fhathast a dhèanamh às aonais loch dàta?

Ann an ùine ghoirid, chan eil freagairt soilleir ann. Tha e uile an urra ris an t-suidheachadh sònraichte, sgilean na sgioba agus am buidseat. Mar eisimpleir, imrich taigh-bathair dàta gu Oracle gu AWS agus cruthachadh loch dàta le fo-bhuidheann Amazon - Woot - An sgeulachd loch dàta againn: Mar a thog Woot.com loch dàta gun fhrithealaiche air AWS.

Air an làimh eile, tha an neach-reic Snowflake ag ràdh nach fheum thu smaoineachadh air loch dàta tuilleadh, leis gu bheil an àrd-ùrlar dàta aca (gu 2020 bha e na thaigh-bathair dàta) a’ leigeil leat an dà chuid loch dàta agus taigh-bathair dàta a chur còmhla. Chan eil mi air mòran obrachadh le Snowflake, agus tha e dha-rìribh na thoradh air leth as urrainn seo a dhèanamh. Tha prìs na cùise na chùis eile.

Gu crìch, is e mo bheachd pearsanta gu bheil feum againn fhathast air taigh-bathair dàta mar phrìomh thùs dàta airson ar n-aithris, agus ge bith dè nach eil iomchaidh bidh sinn a’ stòradh ann an loch dàta. Is e dleastanas iomlan anailisean ruigsinneachd furasta a thoirt do ghnìomhachas gus co-dhùnaidhean a dhèanamh. Ge bith dè a chanas duine, bidh luchd-cleachdaidh gnìomhachais ag obair nas èifeachdaiche le taigh-bathair dàta na loch dàta, mar eisimpleir ann an Amazon - tha Redshift (stòr dàta anailis) agus tha Redshift Spectrum / Athena (eadar-aghaidh SQL airson loch dàta ann an S3 stèidhichte air). Hive/Presto). Tha an aon rud a’ buntainn ri stòran dàta anailis ùr-nodha eile.

Bheir sinn sùil air ailtireachd taigh-bathair àbhaisteach:

A bheil feum againn air loch dàta? Dè a nì thu leis an stòr-dàta?

Is e fuasgladh clasaigeach a tha seo. Tha siostaman stòr againn, a’ cleachdadh ETL/ELT bidh sinn a’ dèanamh lethbhreac de dhàta a-steach do thaigh-bathair dàta anailis agus ga cheangal ri fuasgladh Business Intelligence (is e Tableau am fear as fheàrr leam, dè mu dheidhinn do chuid fhèin?).

Tha na h-eas-bhuannachdan a leanas aig an fhuasgladh seo:

  • Feumaidh gnìomhachd ETL/ELT ùine agus goireasan.
  • Mar riaghailt, chan eil cuimhne airson stòradh dàta ann an taigh-bathair mion-sgrùdaidh saor (mar eisimpleir, Redshift, BigQuery, Teradata), oir feumaidh sinn cruinneachadh iomlan a cheannach.
  • Tha cothrom aig luchd-cleachdaidh gnìomhachais air dàta glan agus gu tric cruinnichte agus chan eil cothrom aca air dàta amh.

Gu dearbh, tha e uile an urra ris a 'chùis agad. Mura h-eil duilgheadasan agad leis an taigh-bathair dàta agad, chan fheum thu loch dàta idir. Ach nuair a tha prìomh àite aig duilgheadasan le dìth àite, cumhachd, no prìs, faodaidh tu beachdachadh air roghainn loch dàta. Sin as coireach gu bheil fèill mhòr air an loch dàta. Seo eisimpleir de ailtireachd loch dàta:
A bheil feum againn air loch dàta? Dè a nì thu leis an stòr-dàta?
A’ cleachdadh dòigh-obrach loch dàta, bidh sinn a’ luchdachadh dàta amh a-steach don loch dàta againn (baidse no sruthadh), agus an uairsin bidh sinn a’ giullachd an dàta mar a dh’ fheumar. Tha an loch dàta a’ leigeil le luchd-cleachdaidh gnìomhachais na h-atharrachaidhean dàta aca fhèin a chruthachadh (ETL/ELT) no mion-sgrùdadh a dhèanamh air dàta ann am fuasglaidhean Business Intelligence (ma tha an draibhear riatanach ri fhaighinn).

Is e amas fuasgladh anailis sam bith seirbheis a thoirt do luchd-cleachdaidh gnìomhachais. Mar sin, feumaidh sinn an-còmhnaidh a bhith ag obair a rèir riatanasan gnìomhachais. (Aig Amazon is e seo aon de na prionnsapalan - ag obair air ais).

Ag obair le gach cuid taigh-bathair dàta agus loch dàta, is urrainn dhuinn coimeas a dhèanamh eadar an dà fhuasgladh:

A bheil feum againn air loch dàta? Dè a nì thu leis an stòr-dàta?

Is e am prìomh cho-dhùnadh a dh'fhaodar a tharraing nach eil an taigh-bathair dàta a 'farpais ris an loch dàta, ach a' cur ris. Ach tha e an urra riut fhèin co-dhùnadh dè a tha ceart airson do chùis. Tha e an-còmhnaidh inntinneach feuchainn ort fhèin agus na co-dhùnaidhean ceart a tharraing.

Bu mhath leam cuideachd aon de na cùisean innse dhut nuair a thòisich mi a’ cleachdadh an dòigh loch dàta. Tha a h-uile dad gu math beag, dh’ fheuch mi ri inneal ELT a chleachdadh (bha Matillion ETL againn) agus Amazon Redshift, dh ’obraich am fuasgladh agam, ach cha robh e a’ freagairt air na riatanasan.

Dh'fheumadh mi logaichean lìn a ghabhail, an cruth-atharrachadh agus an cruinneachadh gus dàta a thoirt seachad airson 2 chùis:

  1. Bha an sgioba margaidheachd airson mion-sgrùdadh a dhèanamh air gnìomhachd bot airson SEO
  2. Bha IT airson sùil a thoirt air tomhasan coileanaidh làrach-lìn

Logaichean gu math sìmplidh, gu math sìmplidh. Seo eisimpleir:

https 2018-07-02T22:23:00.186641Z app/my-loadbalancer/50dc6c495c0c9188 
192.168.131.39:2817 10.0.0.1:80 0.086 0.048 0.037 200 200 0 57 
"GET https://www.example.com:443/ HTTP/1.1" "curl/7.46.0" ECDHE-RSA-AES128-GCM-SHA256 TLSv1.2 
arn:aws:elasticloadbalancing:us-east-2:123456789012:targetgroup/my-targets/73e2d6bc24d8a067
"Root=1-58337281-1d84f3d73c47ec4e58577259" "www.example.com" "arn:aws:acm:us-east-2:123456789012:certificate/12345678-1234-1234-1234-123456789012"
1 2018-07-02T22:22:48.364000Z "authenticate,forward" "-" "-"

Bha cuideam aon fhaidhle 1-4 megabytes.

Ach bha aon duilgheadas ann. Bha 7 raointean againn air feadh an t-saoghail, agus chaidh 7000 mìle faidhle a chruthachadh ann an aon latha. Chan eil seo mòran a bharrachd tomhas-lìonaidh, dìreach 50 gigabytes. Ach bha meud ar cruinneachadh Redshift cuideachd beag (4 nodan). Thug luchdachadh aon fhaidhle san dòigh thraidiseanta timcheall air mionaid. Is e sin, cha deach an duilgheadas fhuasgladh ceann-air. Agus bha seo fìor nuair a cho-dhùin mi an dòigh loch dàta a chleachdadh. Bha am fuasgladh a’ coimhead rudeigin mar seo:

A bheil feum againn air loch dàta? Dè a nì thu leis an stòr-dàta?

Tha e gu math sìmplidh (tha mi airson a thoirt fa-near gur e sìmplidheachd a ’bhuannachd a bhith ag obair san sgòth). Chleachd mi:

  • Lùghdaich Mapa Elastic AWS (Hadoop) airson Cumhachd Coimpiutaireachd
  • AWS S3 mar stòradh fhaidhlichean le comas dàta a chrioptachadh agus ruigsinneachd a chuingealachadh
  • Spark mar chumhachd coimpiutaireachd InMemory agus PySpark airson cruth-atharrachadh loidsig agus dàta
  • Parquet mar thoradh air Spark
  • AWS Glue Crawler mar neach-cruinneachaidh meata-dàta mu dhàta agus sgaraidhean ùra
  • Redshift Spectrum mar eadar-aghaidh SQL don loch dàta airson luchd-cleachdaidh Redshift a tha ann mar-thà

Phròiseas an cruinneachadh EMR + Spark as lugha an stac iomlan de fhaidhlichean ann an 30 mionaid. Tha cùisean eile ann airson AWS, gu sònraichte mòran co-cheangailte ri Alexa, far a bheil tòrr dàta ann.

Dìreach o chionn ghoirid dh’ ionnsaich mi gur e GDPR aon de na h-eas-bhuannachdan a tha aig loch dàta. Is e an duilgheadas a th’ ann nuair a dh’ iarras an neach-dèiligidh air a sguabadh às agus gu bheil an dàta ann am fear de na faidhlichean, chan urrainn dhuinn Cànan Làimhseachaidh Dàta agus obrachadh DELETE a chleachdadh mar ann an stòr-dàta.

Tha mi an dòchas gu bheil an artaigil seo air soilleireachadh a dhèanamh air an eadar-dhealachadh eadar taigh-bathair dàta agus loch dàta. Nam biodh ùidh agad, is urrainn dhomh barrachd de na h-artaigilean agam no artaigilean de phroifeiseantaich a leugh mi eadar-theangachadh. Agus cuideachd innis mu na fuasglaidhean leis a bheil mi ag obair agus an ailtireachd.

Source: www.habr.com

Cuir beachd ann