Ma u baahanahay haro xogeed? Maxaa lagu sameeyaa bakhaarka xogta?

Maqaalkani waa tarjumaad maqaalkayga ku saabsan warbaahinta - Ka Bilawga Xogta Harada, kaas oo noqday mid caan ah, malaha sababtoo ah fududaantiisa. Sidaa darteed, waxaan go'aansaday in aan ku qoro afka Ruushka oo aan wax yar ku daro si aan ugu caddeeyo qofka caadiga ah ee aan ahayn khabiirka xogta waxa uu yahay kaydka xogta (DW) iyo waxa ay tahay xogta (Data Lake), iyo sida ay u shaqeeyaan. is raaca .

Maxaan u rabay inaan wax ka qoro harada xogta? Waxaan la shaqeynayay xogta iyo falanqaynta in ka badan 10 sano, oo hadda waxaan si xaqiiqo ah ula shaqeynayaa xogta weyn ee Amazon Alexa AI ee Cambridge, taas oo ku taal Boston, inkastoo aan ku noolahay Victoria Island Vancouver oo aan inta badan booqdo Boston, Seattle. , iyo Vancouver, iyo mararka qaarkood xitaa Moscow, waxaan ka hadlaa shirarka. Waxaan sidoo kale wax ku qoraa waqti ka waqti, laakiin waxaan wax ku qoraa inta badan Ingiriisi, horayna waan u qoray buugaagta qaar, Waxaan sidoo kale u baahanahay inaan la wadaago isbeddellada falanqaynta ee Waqooyiga Ameerika, oo aan mararka qaarkood wax ku qoro telegram.

Waxaan had iyo jeer la shaqeeyay bakhaarrada xogta, iyo tan iyo 2015 waxaan bilaabay inaan si dhow ula shaqeeyo Amazon Web Services, oo guud ahaan u wareegay falanqaynta daruuraha (AWS, Azure, GCP). Waxaan arkay horumarka xalalka falanqaynta ilaa 2007 oo xitaa u shaqeeyay iibiyaha bakhaarka xogta Teradata oo ka hirgeliyay Sberbank, taasina waa markii Xogta Weyn ee Hadoop ay soo muuqatay. Qof kastaa wuxuu bilaabay inuu sheego in xilligii kaydinta uu dhammaaday oo hadda wax walbaa ay ku jireen Hadoop, ka dibna waxay bilaabeen inay ka hadlaan Lake Data, mar kale, in hadda dhamaadka bakhaarka xogta uu hubaal yimid. Laakiin nasiib wanaag (laga yaabee nasiib darro qaar ka mid ah kuwa sameeyay lacag badan dejinta Hadoop), kaydinta xogta ma tagin.

Maqaalkan waxaan ku eegi doonaa waxa ay tahay harada xogtu. Maqaalkan waxaa loogu talagalay dadka aan khibrad u lahayn kaydinta xogta.

Ma u baahanahay haro xogeed? Maxaa lagu sameeyaa bakhaarka xogta?

Sawirka waa harada Bled, tani waa mid ka mid ah harooyinka aan jeclahay, in kasta oo aan halkaas joogay hal mar oo kaliya, waxaan xusuustay noloshayda inta ka dhiman. Laakiin waxaan ka hadli doonaa nooc kale oo haro ah - haro xog ah. Waxaa laga yaabaa in qaar badan oo idinka mid ah aad mar hore ka maqasheen ereygan wax ka badan hal mar, laakiin qeexitaan kale cidna wax yeeli mayso.

Marka hore, waa kuwan qeexitaannada ugu caansan Harada Xogta:

"Kaydinta fayl ee dhammaan noocyada xogta ceeriin ah oo diyaar u ah inuu falanqeeyo qof kasta oo ka tirsan ururka" - Martin Fowler.

"Haddii aad u maleyneyso in mareegta xogta ay tahay dhalo biyo ah - la nadiifiyey, baakadeeyey oo loo diyaariyey si habboon loo isticmaalo, markaa harada xogtu waa kayd weyn oo biyo ah qaabkeeda dabiiciga ah. Isticmaalayaasha, anigu nafteyda ayaan biyo u ururin karaa, quusan karaa, sahaminta” - James Dixon

Hadda waxaan ognahay in harada xogtu ay ku saabsan tahay falanqaynta, waxay noo ogolaanaysaa inaan kaydinno tiro badan oo xog ah qaabkeeda asalka ah waxaanan haysanaa helitaanka lagama maarmaanka ah oo ku habboon xogta.

Inta badan waxaan jeclahay in aan fududeeyo waxyaallaha, haddii aan ku sharxi karo erey adag oo kelmado fudud ah, markaa waxaan naftayda u fahmayaa sida ay u shaqeyso iyo waxa loo baahan yahay. Maalin maalmaha ka mid ah, waxaan ku dhex mushaaxaya hareeraha sawirka iPhone-ka, wayna ii soo baxday, tani waa haro xog dhab ah, xitaa waxaan sameeyay duleel shirarka:

Ma u baahanahay haro xogeed? Maxaa lagu sameeyaa bakhaarka xogta?

Wax walba waa mid aad u fudud. Waxaan sawir ka qaadnaa taleefanka, sawirka waxaa lagu keydiyaa taleefanka waxaana lagu keydin karaa iCloud (kaydinta faylka Cloud). Taleefanka sidoo kale wuxuu ururiyaa xogta badan ee sawirka: waxa la tusay, geo tag, wakhtiga. Natiijo ahaan, waxaan isticmaali karnaa interface-ka-saaxiibtinimo ee iPhone si aan u helno sawirkeena oo xitaa aragno tilmaamayaasha, tusaale ahaan, markaan raadiyo sawirro ereyga dabka, waxaan helaa 3 sawir oo leh sawir dab ah. Aniga ahaan, tani waa sida aaladda Sirdoonka Ganacsiga oo si degdeg ah oo cad u shaqeysa.

Dabcan, waa in aynaan iloobin amniga (oggolaanshaha iyo xaqiijinta), haddii kale xogtayadu waxay si fudud ugu dhammaan kartaa goobaha dadweynaha. Waxaa jira warar badan oo ku saabsan shirkadaha waaweyn iyo kuwa bilawga ah kuwaas oo xogtoodu noqotay mid si cad loo heli karo sababtoo ah dayacaadka horumarinta iyo ku guuldareysiga in ay raacaan sharciyada fudud.

Xitaa sawirka fudud ee noocan oo kale ah wuxuu naga caawiyaa inaan qiyaasno waxa ay tahay harada xogtu, waxay ka duwan tahay kaydka xogta dhaqameed iyo walxaha ugu muhiimsan:

  1. Soodejinaya Xogta (Lugista) waa qayb muhiim ah oo ka mid ah harada xogta. Xogtu waxay ku geli kartaa bakhaarka xogta laba siyaabood - Dufcaddii (loading at intervals) iyo streaming (data flow).
  2. Kaydinta faylka (Kaydinta) waa qaybta ugu muhiimsan ee Harada Xogta. Waxaan u baahneyn in kaydinta ay noqoto mid si fudud loo miisaami karo, si aad ah loogu kalsoonaan karo, oo qiimo jaban. Tusaale ahaan, gudaha AWS waa S3.
  3. Buugaag iyo Raadin (Catalog and Search) - si aan uga fogaano Xogta Swamp (tani waa marka aan ku shubno dhammaan xogta hal tusin, ka dibna suurtagal maaha in lagu shaqeeyo), waxaan u baahanahay inaan abuurno lakab metadata si aan u kala saarno xogta. si dadka isticmaala ay si fudud u helaan xogta, taas oo ay u baahan yihiin falanqaynta. Intaa waxaa dheer, waxaad isticmaali kartaa xalal raadin dheeraad ah sida ElasticSearch. Raadinta waxay ka caawisaa isticmaaluhu inuu helo xogta loo baahan yahay iyada oo loo marayo isdhexgal isticmaale-saaxiibtinimo.
  4. Kala shaqeynta (Habka) - tallaabadani waxay mas'uul ka tahay habaynta iyo beddelka xogta. Waan bedeli karnaa xogta, bedeli karnaa qaab dhismeedkeeda, nadiifin karnaa, iyo wax ka badan.
  5. Amniga (Amniga) - Waa muhiim in waqti lagu bixiyo qaabeynta amniga ee xalka. Tusaale ahaan, sirta xogta inta lagu jiro kaydinta, habaynta iyo rarista Waa muhiim in la isticmaalo hababka xaqiijinta iyo oggolaanshaha. Ugu dambayntii, qalab hanti dhawr ayaa loo baahan yahay.

Marka laga eego aragtida dhabta ah, waxaan ku tilmaami karnaa harada xogta saddex sifo:

  1. Ururi oo kaydi wax kasta - harada xogtu waxay ka kooban tahay dhammaan xogta, labadaba xogta cayriin ee aan la farsamayn ee wakhti kasta iyo xogta la farsameeyay/nadiifiyey.
  2. Scan qoto dheer - harada xogta waxay u ogolaataa isticmaalayaasha inay sahamiyaan oo ay falanqeeyaan xogta.
  3. Helitaanka dabacsan - Harada xogtu waxay siisaa helitaan dabacsan oo xog kala duwan iyo xaalado kala duwan.

Hadda waxaan ka hadli karnaa farqiga u dhexeeya bakhaarka xogta iyo harada xogta. Caadi ahaan dadku waxay weydiiyaan:

  • Ka warran bakhaarka xogta?
  • Ma bakhaarka xogta ma ku bedelnaa haro xogeed mise waanu balaadhinaynaa?
  • Wali suurtagal ma tahay in la sameeyo la'aanteed xogta?

Marka la soo koobo, ma jirto jawaab cad. Dhammaan waxay ku xiran tahay xaaladda gaarka ah, xirfadaha kooxda iyo miisaaniyadda. Tusaale ahaan, u haajiridda bakhaarka xogta ee Oracle una guuraya AWS iyo abuurista harada xogta ee shirkad Amazon - Woot - Sheekadayada harada xogta: Sida Woot.com u dhistay harada xog aan server lahayn ee AWS.

Dhanka kale, iibiyaha Snowflake wuxuu leeyahay uma baahnid inaad ka fikirto harada xogta, maadaama madal xogtooda (ilaa 2020 ay ahayd bakhaar xogeed) waxay kuu ogolaaneysaa inaad isku darsato harada xogta iyo bakhaarka xogta labadaba. Wax badan kamaanu shaqayn Snowflake, runtiina waa badeecad gaar ah oo tan samayn karta. Qiimaha arrintu waa arrin kale.

Gabagabadii, ra'yigayga shakhsi ahaaneed ayaa ah in aan wali u baahanahay kayd xogeed oo ah isha ugu muhiimsan ee xogtayada laga helo warbixinteena, wax kasta oo aan ku haboonayn waxa aan ku kaydinnaa harada xogta. Doorka guud ee falanqayntu waa in si fudud loo helo ganacsiga si uu go'aan uga gaadho. Wax kasta oo la odhan karo, dadka isticmaala ganacsigu waxay si hufan ugu shaqeeyaan bakhaarka xogta marka loo eego harada xogta, tusaale ahaan Amazon - waxaa jira Redshift (bakhaarka xogta falanqaynta) waxaana jira Redshift Spectrum / Athena (SQL interface for harada xogta ee S3 oo ku salaysan). Rugta/Presto). Isla sidaas oo kale ayaa khuseeysa kaydadka xogta falanqaynta ee casriga ah.

Aynu eegno qaab dhismeedka bakhaarka xogta caadiga ah:

Ma u baahanahay haro xogeed? Maxaa lagu sameeyaa bakhaarka xogta?

Tani waa xal caadi ah. Waxaan leenahay nidaamyada ilaha, annagoo isticmaalaya ETL/ELT waxaanu nuqul ka samaynaa xogta bakhaarka xogta falanqaynta oo aanu ku xidhno xalka Sirdoonka Ganacsiga (aniga aan jeclahay waa Tableau, ka warran adiga?).

Xalkani waxa uu leeyahay khasaaraha soo socda:

  • Hawlgallada ETL/ELT waxay u baahan yihiin waqti iyo agab.
  • Sida caadiga ah, xusuusta kaydinta xogta ee bakhaarka xogta falanqaynta ma aha mid raqiis ah (tusaale, Redshift, BigQuery, Teradata), maadaama aan u baahanahay inaan iibsano koox dhan.
  • Isticmaalayaasha ganacsigu waxay heli karaan xog la nadiifiyay oo inta badan la isku daray mana helaan xog ceeriin ah.

Dabcan, wax walba waxay ku xiran yihiin kiiskaaga. Haddii aadan wax dhib ah kala kulmin bakhaarka xogtaada, markaa uma baahnid harada xogta gabi ahaanba. Laakiin marka dhibaatooyinku ka soo baxaan la'aanta meel bannaan, awood, ama qiimaha ayaa door muhiim ah ka ciyaara, markaa waxaad tixgelin kartaa doorashada harada xogta. Tani waa sababta harada xogtu ay aad caan u tahay. Waa kan tusaale ahaan qaab dhismeedka harada xogta:
Ma u baahanahay haro xogeed? Maxaa lagu sameeyaa bakhaarka xogta?
Isticmaalka habka harada xogta, waxaan ku shubnaa xogta ceeriin harada xogta (dufcada ama qulqulka), ka dib waxaan u farsameyneynaa xogta sida loogu baahdo. Harada xogtu waxay u ogolaataa isticmaalayaasha ganacsiga inay abuuraan isbeddelka xogta (ETL/ELT) ama ay ku falanqeeyaan xogta xalalka Sirdoonka Ganacsiga (haddii darawalka lagama maarmaanka ah la heli karo).

Hadafka xal kasta oo falanqayn ah waa in loo adeego isticmaalayaasha ganacsiga. Sidaa darteed, waa in aan mar walba ku shaqaynaa si waafaqsan shuruudaha ganacsiga. (Amazon kani waa mid ka mid ah mabaadi'da - dib u shaqaynta).

La shaqaynta bakhaarka xogta iyo baliga xogta labadaba, waxaan barbar dhigi karnaa labada xal:

Ma u baahanahay haro xogeed? Maxaa lagu sameeyaa bakhaarka xogta?

Gabagabada ugu weyn ee laga soo saari karaa waa in bakhaarka xogtu aanu la tartamin harada xogta, balse uu kabo. Laakin adiga ayay ku xiran tahay inaad go'aansato waxa ku habboon kiiskaaga. Had iyo jeer waa wax xiiso leh inaad isku daydo naftaada oo aad ka soo baxdo gabagabada saxda ah.

Waxaan sidoo kale jeclaan lahaa inaan kuu sheego mid ka mid ah kiisas markii aan bilaabay isticmaalka habka harada xogta. Wax walba waa wax aan macquul ahayn, waxaan isku dayay inaan isticmaalo aaladda ELT (waxaan haysanay Matillion ETL) iyo Amazon Redshift, xalkaygu wuu shaqeeyay, laakiin kuma habboona shuruudaha.

Waxaan u baahday inaan qaato diiwaannada shabakadda, beddelo oo aan isu geeyo si aan xogta ugu bixiyo 2 xaaladood:

  1. Kooxda suuqgeyntu waxay rabeen inay falanqeeyaan dhaqdhaqaaqa bot ee SEO
  2. IT waxay rabtay inay eegto cabirka waxqabadka mareegaha

Qoryo aad u fudud, aad u fudud. Waa kan tusaale:

https 2018-07-02T22:23:00.186641Z app/my-loadbalancer/50dc6c495c0c9188 
192.168.131.39:2817 10.0.0.1:80 0.086 0.048 0.037 200 200 0 57 
"GET https://www.example.com:443/ HTTP/1.1" "curl/7.46.0" ECDHE-RSA-AES128-GCM-SHA256 TLSv1.2 
arn:aws:elasticloadbalancing:us-east-2:123456789012:targetgroup/my-targets/73e2d6bc24d8a067
"Root=1-58337281-1d84f3d73c47ec4e58577259" "www.example.com" "arn:aws:acm:us-east-2:123456789012:certificate/12345678-1234-1234-1234-123456789012"
1 2018-07-02T22:22:48.364000Z "authenticate,forward" "-" "-"

Hal fayl ayaa miisaankiisu ahaa 1-4 megabyte.

Laakiin waxaa jirtay hal dhib. Waxaan leenahay 7 domain oo adduunka ah, iyo 7000 kun oo fayl ayaa la sameeyay hal maalin. Tani ma aha wax ka badan mugga, kaliya 50 gigabytes. Laakin cabbirka kooxdayada Redshift waxay kaloo ahayd mid yar (4 nood). Ku rarista hal fayl oo ah hab dhaqameed waxay qaadatay ilaa hal daqiiqo. Yacni, dhibka lama xalin madax-furasho. Oo tani waxay ahayd kiis markii aan go'aansaday inaan isticmaalo habka harada xogta. Xalku wuxuu u ekaa sidan:

Ma u baahanahay haro xogeed? Maxaa lagu sameeyaa bakhaarka xogta?

Way fududahay (waxaan rabaa in aan ogaado in faa'iidada ka shaqeynta daruurtu ay tahay mid fudud). waxaan isticmaalay:

  • Khariidadda Elastic Yaree (Hadoop) ee Awoodda Xisaabinta
  • AWS S3 sida kaydinta faylalka leh awoodda sirta xogta iyo xaddidida gelitaanka
  • Spark sida InMemory xisaabinta awoodda iyo PySpark ee macquulka ah iyo beddelka xogta
  • Parquet oo ay sabab u tahay Spark
  • AWS Glue Crawler sidii xog ururiye badan oo ku saabsan xogta cusub iyo qaybaha
  • Redshift Spectrum sida interface SQL ee harada xogta isticmaalayaasha Redshift ee jira

Kooxda ugu yar ee EMR+Spark waxay ku farsamaysay dhammaan kaydkii faylalka 30 daqiiqo gudahood. Waxaa jira kiisas kale oo loogu talagalay AWS, gaar ahaan kuwa badan oo la xiriira Alexa, halkaas oo ay jiraan xog badan.

Dhawaan waxaan bartay mid ka mid ah faa'iido darrada harada xogta waa GDPR. Dhibaatadu waxay tahay marka macmiilku codsado inuu tirtiro oo xogta ay ku jirto mid ka mid ah faylalka, ma isticmaali karno Data Manipulation Language iyo DELETE Operation sida database.

Waxaan rajeynayaa in maqaalkani uu caddeeyay farqiga u dhexeeya bakhaarka xogta iyo harada xogta. Haddii aad xiisaynayso, waan tarjumi karaa in badan oo maqaalladayda ah ama maqaallada xirfadleyda ee aan akhriyey. Iyo sidoo kale wax ku saabsan xalalka aan la shaqeeyo iyo qaabdhismeedkooda.

Source: www.habr.com

Add a comment