Ṣe a nilo adagun data kan? Kini lati ṣe pẹlu ibi ipamọ data?

Nkan yii jẹ itumọ ọrọ mi lori alabọde - Bibẹrẹ pẹlu Data Lake, eyiti o jade lati jẹ olokiki pupọ, boya nitori irọrun rẹ. Nitorinaa, Mo pinnu lati kọ ọ ni ede Rọsia ati ṣafikun diẹ lati jẹ ki o ye eniyan lasan ti kii ṣe alamọja data kini ile-ipamọ data (DW) jẹ, ati kini adagun data jẹ (Data Lake), ati bii wọn ṣe jẹ. gba papo.

Kini idi ti MO fẹ lati kọ nipa adagun data naa? Mo ti n ṣiṣẹ pẹlu data ati awọn atupale fun ọdun mẹwa 10, ati ni bayi Mo n ṣiṣẹ ni pato pẹlu data nla ni Amazon Alexa AI ni Cambridge, eyiti o wa ni Boston, botilẹjẹpe Mo n gbe ni Victoria lori Erekusu Vancouver ati nigbagbogbo ṣabẹwo si Boston, Seattle , ati Ni Vancouver, ati nigbami paapaa ni Moscow, Mo sọrọ ni awọn apejọ. Mo tún máa ń kọ̀wé látìgbàdégbà, àmọ́ èdè Gẹ̀ẹ́sì ni mo máa ń kọ ní pàtàkì, mo sì ti kọ ọ́ diẹ ninu awọn iwe ohun, Mo tun ni iwulo lati pin awọn aṣa atupale lati Ariwa America, ati pe nigbakan Mo kọ sinu telegram.

Mo ti nigbagbogbo sise pẹlu data warehouses, ati niwon 2015 Mo bẹrẹ lati ṣiṣẹ ni pẹkipẹki pẹlu Amazon Web Services, ati gbogbo yipada si awọsanma atupale (AWS, Azure, GCP). Mo ti ṣe akiyesi itankalẹ ti awọn solusan atupale lati ọdun 2007 ati paapaa ṣiṣẹ fun ataja ile-itaja data Teradata ati ṣe imuse ni Sberbank, ati pe iyẹn nigbati Big Data pẹlu Hadoop han. Gbogbo eniyan bẹrẹ lati sọ pe akoko ipamọ ti kọja ati nisisiyi ohun gbogbo wa lori Hadoop, lẹhinna wọn bẹrẹ si sọrọ nipa Data Lake, lẹẹkansi, pe bayi opin ile-itaja data ti de pato. Ṣugbọn laanu (boya laanu fun diẹ ninu awọn ti o ni owo pupọ lati ṣeto Hadoop), ile-itaja data ko lọ.

Ninu nkan yii a yoo wo kini adagun data jẹ. Nkan yii jẹ ipinnu fun awọn eniyan ti o ni diẹ tabi ko si iriri pẹlu awọn ile itaja data.

Ṣe a nilo adagun data kan? Kini lati ṣe pẹlu ibi ipamọ data?

Ninu aworan ni Lake Bled, eyi jẹ ọkan ninu awọn adagun ayanfẹ mi, botilẹjẹpe Mo wa nibẹ ni ẹẹkan, Mo ranti rẹ fun iyoku igbesi aye mi. Ṣugbọn a yoo sọrọ nipa iru adagun miiran - adagun data kan. Boya ọpọlọpọ ninu yin ti gbọ ọrọ yii diẹ sii ju ẹẹkan lọ, ṣugbọn itumọ ọkan diẹ kii yoo ṣe ipalara fun ẹnikẹni.

Ni akọkọ, eyi ni awọn asọye olokiki julọ ti Adagun Data kan:

“Ipamọ faili ti gbogbo iru data aise ti o wa fun itupalẹ nipasẹ ẹnikẹni ninu agbari” - Martin Fowler.

“Ti o ba ro pe mart data jẹ igo omi kan - ti sọ di mimọ, akopọ ati akopọ fun lilo irọrun, lẹhinna adagun data jẹ ifiomipamo nla ti omi ni irisi adayeba rẹ. Awọn olumulo, Mo le gba omi fun ara mi, besomi jin, ṣawari. ” - James Dixon.

Bayi a mọ daju pe adagun data kan jẹ nipa awọn atupale, o gba wa laaye lati tọju data pupọ ni fọọmu atilẹba rẹ ati pe a ni iwọle si pataki ati irọrun si data naa.

Mo sábà máa ń fẹ́ láti mú kí nǹkan rọrùn. Tí mo bá lè ṣàlàyé ọ̀rọ̀ tó díjú ní àwọn ọ̀rọ̀ tó rọrùn, ó túmọ̀ sí pé mo ti lóye bí ó ṣe ń ṣiṣẹ́ àti ohun tí ó jẹ́ fún. Nígbà kan, mo ń ronú nípa rẹ̀. iPhone Nínú àwòrán àwòrán náà, ó sì yé mi pé adágún dátà gidi ni èyí, mo tilẹ̀ ṣe àwòrán fún àwọn ìpàdé:

Ṣe a nilo adagun data kan? Kini lati ṣe pẹlu ibi ipamọ data?

Ó rọrùn gan-an. A máa ya fọ́tò lórí fóònù wa, a máa fi fọ́tò náà pamọ́ sínú fóònù, a sì lè fi pamọ́ sínú iCloud (iṣẹ́ ìpamọ́ fáìlì tí ó dá lórí ìkùukùu). Fóònù náà tún máa ń kó àwọn ìwádìí àwòrán náà jọ: ohun tí ó wà nínú fọ́tò náà, àmì ìrísí ojú ìwé, àti àkókò náà. Nítorí náà, a lè lo ojú ìwòye tí ó rọrùn láti lò. iPhoneLáti rí fọ́tò wa, a tilẹ̀ rí àwọn ìwọ̀n. Fún àpẹẹrẹ, nígbà tí mo bá ń wá àwọn fọ́tò pẹ̀lú ọ̀rọ̀ náà "iná," mo rí àwọn fọ́tò mẹ́ta ti iná ìpakà. Fún mi, ó dà bí irinṣẹ́ ọgbọ́n ìṣòwò tí ó ń ṣiṣẹ́ kíákíá àti lọ́nà tí ó gbéṣẹ́.

Ati pe nitorinaa, a ko gbọdọ gbagbe nipa aabo (aṣẹ ati ijẹrisi), bibẹẹkọ data wa le ni irọrun pari ni agbegbe gbangba. Ọpọlọpọ awọn iroyin wa nipa awọn ile-iṣẹ nla ati awọn ibẹrẹ ti data wọn di gbangba ni gbangba nitori aibikita ti awọn olupilẹṣẹ ati ikuna lati tẹle awọn ofin ti o rọrun.

Paapaa iru aworan ti o rọrun ṣe iranlọwọ fun wa lati fojuinu kini adagun data jẹ, awọn iyatọ rẹ lati ile itaja data ibile ati awọn eroja akọkọ rẹ:

  1. Gbigba Data (Ingestion) jẹ paati bọtini ti adagun data. Data le tẹ ile itaja data sii ni awọn ọna meji - ipele (ikojọpọ ni awọn aaye arin) ati ṣiṣanwọle (sisan data).
  2. Ibi ipamọ faili (Ipamọ) jẹ paati akọkọ ti Data Lake. A nilo ibi ipamọ lati jẹ iwọn irọrun, igbẹkẹle lalailopinpin, ati idiyele kekere. Fun apẹẹrẹ, ni AWS o jẹ S3.
  3. Katalogi ati Wa (Katalogi ati Wiwa) - lati yago fun Swamp Data (eyi ni nigbati a ba da gbogbo data sinu opoplopo kan, ati lẹhinna ko ṣee ṣe lati ṣiṣẹ pẹlu rẹ), a nilo lati ṣẹda Layer metadata lati ṣe iyatọ data naa. ki awọn olumulo le awọn iṣọrọ ri awọn data, eyi ti won nilo fun onínọmbà. Ni afikun, o le lo afikun awọn ojutu wiwa bii ElasticSearch. Wiwa ṣe iranlọwọ fun olumulo lati wa data ti o nilo nipasẹ wiwo ore-olumulo.
  4. Itọju (Ilana) - igbesẹ yii jẹ iduro fun sisẹ ati iyipada data. A le yi data pada, yi eto rẹ pada, sọ di mimọ, ati pupọ diẹ sii.
  5. Aabo (Aabo) - O ṣe pataki lati lo akoko lori apẹrẹ aabo ti ojutu. Fun apẹẹrẹ, fifi ẹnọ kọ nkan data lakoko ibi ipamọ, sisẹ ati ikojọpọ. O ṣe pataki lati lo ijẹrisi ati awọn ọna aṣẹ. Nikẹhin, ohun elo iṣayẹwo jẹ iwulo.

Lati oju iwoye ti o wulo, a le ṣe apejuwe adagun data kan nipasẹ awọn abuda mẹta:

  1. Gba ati tọju ohunkohun - adagun data naa ni gbogbo data naa, mejeeji data aise ti ko ni ilana fun eyikeyi akoko ati data ti a ti ṣiṣẹ / mimọ.
  2. Ayẹwo Jin - adagun data gba awọn olumulo laaye lati ṣawari ati itupalẹ data.
  3. Wiwọle to rọ - Adagun data n pese iraye si rọ fun data oriṣiriṣi ati awọn oju iṣẹlẹ oriṣiriṣi.

Bayi a le sọrọ nipa iyatọ laarin ile-ipamọ data ati adagun data kan. Nigbagbogbo eniyan beere:

  • Kini nipa ibi ipamọ data naa?
  • Njẹ a n rọpo ile-itaja data pẹlu adagun data tabi a n pọ si?
  • Ṣe o tun ṣee ṣe lati ṣe laisi adagun data?

Ni kukuru, ko si idahun ti o daju. Gbogbo rẹ da lori ipo kan pato, awọn ọgbọn ti ẹgbẹ ati isuna. Fun apẹẹrẹ, gbigbe ile-itaja data kan si Oracle si AWS ati ṣiṣẹda adagun data nipasẹ oniranlọwọ Amazon - Woot - Itan adagun data wa: Bawo ni Woot.com ṣe kọ adagun data alaini olupin lori AWS.

Ni apa keji, olutaja Snowflake sọ pe o ko nilo lati ronu nipa adagun data kan, nitori pe pẹpẹ data wọn (titi di ọdun 2020 o jẹ ile-itaja data) ngbanilaaye lati darapọ mejeeji adagun data ati ile-itaja data kan. Emi ko ṣiṣẹ pupọ pẹlu Snowflake, ati pe o jẹ ọja alailẹgbẹ kan ti o le ṣe eyi. Awọn owo ti oro jẹ miiran ọrọ.

Ni ipari, ero ti ara mi ni pe a tun nilo ile-itaja data bi orisun akọkọ ti data fun ijabọ wa, ati ohunkohun ti ko baamu a fipamọ sinu adagun data kan. Gbogbo ipa ti awọn atupale ni lati pese iraye si irọrun fun iṣowo lati ṣe awọn ipinnu. Ohunkohun ti ẹnikan le sọ, awọn olumulo iṣowo n ṣiṣẹ daradara diẹ sii pẹlu ile-ipamọ data ju adagun data lọ, fun apẹẹrẹ ni Amazon - Redshift wa (ibi ipamọ data itupalẹ) ati Redshift Spectrum/Athena (ni wiwo SQL fun adagun data ni S3 da lori Ile Agbon / Presto). Kanna kan si awọn ile itaja data itupalẹ ode oni.

Jẹ ki a wo faaji ile itaja data aṣoju kan:

Ṣe a nilo adagun data kan? Kini lati ṣe pẹlu ibi ipamọ data?

Eleyi jẹ a Ayebaye ojutu. A ni awọn ọna ṣiṣe orisun, ni lilo ETL/ELT a daakọ data sinu ile-itaja data itupalẹ ati so pọ si ojutu oye Iṣowo (ayanfẹ mi ni Tableau, kini nipa tirẹ?).

Ojutu yii ni awọn alailanfani wọnyi:

  • Awọn iṣẹ ETL/ELT nilo akoko ati awọn orisun.
  • Gẹgẹbi ofin, iranti fun titoju data ni ile itaja data itupalẹ kii ṣe olowo poku (fun apẹẹrẹ, Redshift, BigQuery, Teradata), nitori a nilo lati ra gbogbo iṣupọ kan.
  • Awọn olumulo iṣowo ni iwọle si ti mọtoto ati nigbagbogbo akojọpọ data ati pe wọn ko ni iwọle si data aise.

Dajudaju, gbogbo rẹ da lori ọran rẹ. Ti o ko ba ni awọn iṣoro pẹlu ile-ipamọ data rẹ, lẹhinna o ko nilo adagun data rara. Ṣugbọn nigbati awọn iṣoro ba dide pẹlu aini aaye, agbara, tabi idiyele ṣe ipa pataki, lẹhinna o le ronu aṣayan ti adagun data kan. Eyi ni idi ti adagun data jẹ olokiki pupọ. Eyi ni apẹẹrẹ ti faaji adagun data kan:
Ṣe a nilo adagun data kan? Kini lati ṣe pẹlu ibi ipamọ data?
Lilo ọna adagun data, a gbe data aise sinu adagun data wa (ipele tabi ṣiṣanwọle), lẹhinna a ṣe ilana data bi o ti nilo. Adagun data ngbanilaaye awọn olumulo iṣowo lati ṣẹda awọn iyipada data tiwọn (ETL/ELT) tabi ṣe itupalẹ data ni awọn solusan oye Iṣowo (ti awakọ pataki ba wa).

Ibi-afẹde ti eyikeyi ojutu atupale ni lati sin awọn olumulo iṣowo. Nitorinaa, a gbọdọ ṣiṣẹ nigbagbogbo ni ibamu si awọn ibeere iṣowo. (Ni Amazon eyi jẹ ọkan ninu awọn ilana - ṣiṣẹ sẹhin).

Nṣiṣẹ pẹlu mejeeji ile itaja data ati adagun data kan, a le ṣe afiwe awọn solusan mejeeji:

Ṣe a nilo adagun data kan? Kini lati ṣe pẹlu ibi ipamọ data?

Ipari akọkọ ti o le fa ni pe ile-ipamọ data ko ni idije pẹlu adagun data, ṣugbọn kuku ṣe afikun rẹ. Ṣugbọn o wa si ọ lati pinnu ohun ti o tọ fun ọran rẹ. O jẹ igbadun nigbagbogbo lati gbiyanju funrararẹ ati fa awọn ipinnu to tọ.

Emi yoo tun fẹ lati sọ fun ọ ọkan ninu awọn ọran nigbati mo bẹrẹ lilo ọna adagun data. Ohun gbogbo jẹ ohun bintin, Mo gbiyanju lati lo ohun elo ELT (a ni Matillion ETL) ati Amazon Redshift, ojutu mi ṣiṣẹ, ṣugbọn ko baamu awọn ibeere naa.

Mo nilo lati mu awọn akọọlẹ wẹẹbu, yi wọn pada ki o ṣajọpọ wọn lati pese data fun awọn ọran 2:

  1. Ẹgbẹ titaja fẹ lati ṣe itupalẹ iṣẹ ṣiṣe bot fun SEO
  2. IT fẹ lati wo awọn metiriki iṣẹ oju opo wẹẹbu

O rọrun pupọ, awọn akọọlẹ ti o rọrun pupọ. Eyi ni apẹẹrẹ:

https 2018-07-02T22:23:00.186641Z app/my-loadbalancer/50dc6c495c0c9188 
192.168.131.39:2817 10.0.0.1:80 0.086 0.048 0.037 200 200 0 57 
"GET https://www.example.com:443/ HTTP/1.1" "curl/7.46.0" ECDHE-RSA-AES128-GCM-SHA256 TLSv1.2 
arn:aws:elasticloadbalancing:us-east-2:123456789012:targetgroup/my-targets/73e2d6bc24d8a067
"Root=1-58337281-1d84f3d73c47ec4e58577259" "www.example.com" "arn:aws:acm:us-east-2:123456789012:certificate/12345678-1234-1234-1234-123456789012"
1 2018-07-02T22:22:48.364000Z "authenticate,forward" "-" "-"

Faili kan wọn 1-4 megabyte.

Ṣugbọn iṣoro kan wa. A ni awọn ibugbe 7 ni ayika agbaye, ati pe a ṣẹda awọn faili 7000 ẹgbẹrun ni ọjọ kan. Eyi kii ṣe iwọn didun pupọ diẹ sii, 50 gigabytes nikan. Ṣugbọn iwọn iṣupọ Redshift wa tun jẹ kekere (awọn apa mẹrin). Ikojọpọ faili kan ni ọna ibile gba bii iṣẹju kan. Iyẹn ni pe, iṣoro naa ko yanju ni iwaju. Ati pe eyi jẹ ọran nigbati Mo pinnu lati lo ọna adagun data. Ojutu naa dabi nkan bi eyi:

Ṣe a nilo adagun data kan? Kini lati ṣe pẹlu ibi ipamọ data?

O rọrun pupọ (Mo fẹ lati ṣe akiyesi pe anfani ti ṣiṣẹ ninu awọsanma jẹ ayedero). Mo lo:

  • AWS Rirọ Map Din (Hadoop) fun oniṣiro Power
  • AWS S3 bi ibi ipamọ faili pẹlu agbara lati encrypt data ati opin wiwọle
  • Spark bi InMemory iširo agbara ati PySpark fun kannaa ati data iyipada
  • Parquet bi abajade ti Spark
  • AWS Glue Crawler gẹgẹbi olugba metadata nipa data titun ati awọn ipin
  • Redshift Spectrum bi wiwo SQL si adagun data fun awọn olumulo Redshift ti o wa

Iṣupọ EMR+Spark ti o kere julọ ṣe ilana gbogbo akopọ awọn faili ni ọgbọn išẹju 30. Awọn ọran miiran wa fun AWS, paapaa ọpọlọpọ ti o ni ibatan si Alexa, nibiti data pupọ wa.

Laipẹ Mo kọ ọkan ninu awọn aila-nfani ti adagun data jẹ GDPR. Iṣoro naa ni nigbati alabara ba beere lati parẹ ati pe data wa ninu ọkan ninu awọn faili, a ko le lo Ede Ifọwọyi Data ati DELETE iṣẹ bii ninu ibi ipamọ data.

Mo nireti pe nkan yii ti ṣalaye iyatọ laarin ile itaja data ati adagun data kan. Ti o ba nifẹ si, Mo le tumọ diẹ sii ti awọn nkan mi tabi awọn nkan ti awọn akosemose ti Mo ka. Ati tun sọ nipa awọn ojutu ti Mo ṣiṣẹ pẹlu ati faaji wọn.

orisun: www.habr.com

Ra alejo gbigba igbẹkẹle fun awọn aaye pẹlu aabo DDoS, awọn olupin VPS VDS 🔥 Ra gbigbalejo oju opo wẹẹbu ti o gbẹkẹle pẹlu aabo DDoS, awọn olupin VPS VDS | ProHoster