Sida aan u abaabulnay DataLake aad u hufan oo aan qaali ahayn iyo sababta ay tani sidaas tahay

Waxaan ku noolnahay waqti cajiib ah oo aad si dhakhso ah oo fudud ugu xidhi karto dhowr qalab oo diyaarsan oo diyaarsan, ku dheji "miyirkaaga demiyay" sida ku cad talada qulqulka qulqulka, adigoon dhex gelin "xaruufo badan", oo bilaabay iyaga oo galay hawlgal ganacsi. Oo markaad u baahato inaad cusboonaysiiso / balaadhiso ama qof si lama filaan ah dib ugu bilaabo laba mashiin - waxaad ogaanaysaa in nooc ka mid ah riyo xun oo xun ay bilaabatay, wax walbaa waxay noqdeen kuwo aad u adag oo ka baxsan aqoonsiga, ma jirto dib u soo noqosho, mustaqbalku waa mugdi iyo ammaan. halkii aad ka samayn lahayd barnaamij, kori shinni oo farmaajo samee.

Waxba maaha in saaxiibo khibrad badan leh, oo madaxooda ay ka daadsan yihiin cayayaanka sidaas darteedna mar horeba cawlan, iyagoo ka fakaraya sida xawliga ah ee degdegga ah loo geynayo xirmooyinka "konteenarada" ee "cubes" daraasiin server ah oo ku qoran "luqado casri ah" oo leh taageero la dhisay asynchronous aan xannibin I/O, dhoola cadeyn. Oo waxay si aamusnaan ah u sii wadaan inay dib u akhriyaan "man ps", waxay dhex galaan koodhka isha "nginx" ilaa ay indhahoodu dhiigaan, oo qoraan, qoraan, qoraan imtixaannada cutubka. Asxaabtu way ogyihiin in waxa ugu xiisaha badan uu iman doono marka "waxan oo dhan" hal maalin ay noqoto habeenka habeenka sanadka cusub. Waxaana kaliya lagu caawin doonaa faham qoto dheer oo ku saabsan dabeecadda unix, miiska gobolka ee la xafiday ee TCP/IP iyo algorithms-ka-soocidda aasaasiga ah. Si loo soo nooleeyo nidaamka nolosha marka ay qaylo-dhaantu garaacdo.

Haa, waan yara mashquulay, laakiin waxaan rajeynayaa inaan ku guulaystey inaan gudbiyo xaaladda rajada.
Maanta waxaan rabaa in aan wadaagno waayo-aragnimadayada ku aaddan geynta xirmo ku habboon oo aan qaali ahayn oo loogu talagalay DataLake, taas oo u xalisa inta badan hawlaha falanqaynta ee shirkadda qaybaha qaabdhismeedka gebi ahaanba kala duwan.

Waqti ka hor, waxaan u nimid fahamka in shirkaduhu ay si sii kordheysa ugu baahan yihiin miraha labadaba badeecada iyo falanqaynta farsamada (ma aha in la xuso jeexjeexyada cake ee qaabka barashada mashiinka) iyo in la fahmo isbeddellada iyo khatarta - waxaan u baahanahay inaan ururino oo aan falanqeyno qiyaaso badan iyo in ka badan.

Falanqaynta farsamada aasaasiga ah ee Bitrix24

Dhowr sano ka hor, isla mar ahaantaana markii la bilaabay adeegga Bitrix24, waxaan si firfircoon u galinay waqti iyo kheyraad si aan u abuurno madal falanqeyn oo fudud oo la isku halayn karo taas oo gacan ka geysan doonta in si dhakhso ah loo arko dhibaatooyinka kaabayaasha iyo qorsheynta tallaabada xigta. Dabcan, waxaa lagu talinayaa in la qaato qalab diyaarsan oo fudud oo la fahmi karo intii suurtagal ah. Natiijo ahaan, nagios waxaa loo doortay la socodka iyo munin falanqaynta iyo aragga. Hadda waxaan ku haynaa kumanaan jeeg oo ku yaal nagios, boqolaal jaantus oo ku yaal munin, iyo asxaabteena ayaa si guul leh u isticmaala maalin kasta. Halbeegyadu waa cad yihiin, garaafyadu waa cad yihiin, nidaamku si kalsooni leh ayuu u shaqeynayay dhowr sano waxaana si joogto ah loogu daraa imtixaanno iyo garaafyo cusub: marka aan adeeg cusub galno, waxaan ku darnaa dhowr imtixaan iyo garaafyo. Nasiib wacan.

Farta garaaca - Falanqaynta Farsamada Sare

Rabitaanka helitaanka macluumaadka ku saabsan dhibaatooyinka "sida ugu dhakhsaha badan ee suurtogalka ah" waxay nagu keentay tijaabooyin firfircoon oo leh qalab fudud oo la fahmi karo - pinba iyo xhprof.

Pinba waxay noo soo dirtay tirakoobyada xirmooyinka UDP ee ku saabsan xawaaraha hawlgalka qaybo ka mid ah boggaga internetka ee PHP, waxaanan ku arki karnaa internetka kaydinta MySQL (Pinba waxay la socotaa mashiinka MySQL ee falanqaynta dhacdooyinka degdega ah) liis gaaban oo dhibaatooyin ah oo ka jawaabaan iyaga. Iyo xhprof waxay si toos ah noogu ogolaatay inaan ka ururinno garaafyada fulinta boggaga PHP ee ugu gaabis ah macaamiisha oo aan u falanqeyno waxa u horseedi kara tan - si degan, shaah ku shubaya ama wax ka xoog badan.

Waqti ka hor, qalabka waxaa lagu buuxiyey matoor kale oo fudud oo la fahmi karo oo ku salaysan algorithmamka tusmaynta, oo si fiican looga hirgeliyey maktabadda caanka ah ee Lucene - Elastic/Kibana. Fikradda fudud ee duubista dukumiintiyada badan ee duuban ee tusmada Lucene rogan ee ku saleysan dhacdooyinka diiwaanka iyo raadinta degdega ah iyaga oo isticmaalaya qaybinta wajiga ayaa noqotay mid faa'iido leh.

In kasta oo muuqaalka farsamada ee muuqaalka Kibana oo leh fikrado heer hoose ah sida "baaldi" "kor u qulqulaya" iyo luqadda dib-u-cusboonaysiinta ee aljabrada xidhiidhka ee aan wali si buuxda loo ilaawin, qalabku wuxuu bilaabay inuu si fiican nooga caawiyo hawlaha soo socda:

  • Immisa khaladaad PHP ah ayuu macmiilka Bitrix24 ku lahaa portal-ka p1 saacaddii u dambaysay iyo waa kuwee? Faham, cafi oo si degdeg ah u sax.
  • Immisa wicitaan fiidiyoow ah ayaa lagu sameeyay portals-ka Jarmalka 24-kii saac ee la soo dhaafay, tayada iyo ma jiraan wax dhib ah oo dhanka kanaalka/shabakadda?
  • Intee in le'eg ayuu u shaqeeyaa nidaamka (kordhintayada C ee PHP), oo laga soo ururiyay isha cusboonaysiinta adeeggii ugu dambeeyay oo loo fidiyay macaamiisha, shaqeeyaa? Ma jiraan segfaults?
  • Xogta macmiilku miyay ku habboon tahay xusuusta PHP? Ma jiraan wax khaladaad ah oo ku saabsan dhaafitaanka xusuusta loo qoondeeyay hababka: "Xusuusta ka baxday"? Hel oo dhexdhexaad ka noqo.

Waa kan tusaale la taaban karo. In kasta oo ay jiraan imtixaan heersare ah oo dhammaystiran iyo kuwo badan, macmiilku, oo wata kiis aan caadi ahayn iyo xogta wax gelinta ee dhaawacantay, waxa uu helay khalad aad looga xumaado oo lama filaan ah, seeriga ayaa dhawaaqay oo habka degdegga ah loo hagaajinayo ayaa bilaabmay:

Sida aan u abaabulnay DataLake aad u hufan oo aan qaali ahayn iyo sababta ay tani sidaas tahay

Intaa waxaa dheer, kibana waxay kuu ogolaaneysaa inaad abaabusho ogeysiisyada dhacdooyinka la cayimay, iyo waqti gaaban qalabka shirkadda wuxuu bilaabay inuu isticmaalo daraasiin shaqaale ah oo ka socda waaxyo kala duwan - laga bilaabo taageerada farsamada iyo horumarinta QA.

Waxqabadka waax kasta oo ka mid ah shirkaddu waxay noqotay mid ku habboon in la raad raaco oo la cabbiro - halkii aad gacanta ku falanqeyn lahayd diiwaannada server-yada, waxaad u baahan tahay oo kaliya inaad dejiso diiwaan-gelinta hal mar oo u dir kooxda laastikada si aad ugu raaxaysato, tusaale ahaan, ka fikirida kibana dashboardka tirada kittens ee labada madax leh ee la iibiyay ee lagu daabacay daabacaha 3-D bishii ugu dambeysay.

Falanqaynta Ganacsiga aasaasiga ah

Qof kastaa wuu ogyahay in falanqaynta ganacsiga ee shirkadaha ay inta badan ku bilaabato isticmaalka aadka u firfircoon ee, haa, Excel. Laakiin waxa ugu weyn ayaa ah in aysan halkaas ku dhammaan. Falanqaynta Google-ku-saleysan ee daruuriga ah ayaa sidoo kale ku dareysa shidaal dabka - si dhakhso ah ayaad u bilaabaysaa inaad la qabsato waxyaabaha wanaagsan.

Shirkaddayada si isku mid ah u kobcaysa, halkan iyo halkaas "nabiyo" shaqo dheeraad ah oo xog badan ayaa bilaabay inay soo baxaan. Baahida loo qabo warbixino qoto dheer oo dhinacyo badan leh ayaa bilaabay inay si joogto ah u muuqdaan, iyada oo loo marayo dadaalka rag ka socda waaxyo kala duwan, wakhti ka hor ayaa la abaabulay xal fudud oo la taaban karo - isku-darka ClickHouse iyo PowerBI.

Muddo dheer, xalkan dabacsan ayaa wax badan ka caawiyay, laakiin si tartiib tartiib ah fahamku wuxuu bilaabmay in ClickHouse aanu ahayn caag oo aan sidaas oo kale lagu majaajiloon karin.

Halkan waxaa muhiim ah in si fiican loo fahmo in ClickHouse, sida Druid, sida Vertica, sida Amazon RedShift (oo ku salaysan postgres), ay yihiin matoorada gorfaynta ee loogu talagalay falanqaynta ku habboon (isku-darka, isku-darka, ugu yaraan ugu badnaan tiir iyo dhowr suurtagal ah oo ku biiraya ), sababtoo ah loo habeeyay kaydinta hufan ee tiirarka miisaska xidhiidhka ah, si ka duwan MySQL iyo xog ururin kale (kuwa safka) ee nala yaqaan.

Nuxur ahaan, ClickHouse waa "database" ka awood badan, oo aan ku habboonayn gelinta-dhibic-dhibcood (taasi waa sida loogu talagalay, wax walba waa hagaagsan yihiin), laakiin falanqaynta wanaagsan iyo hawlo xiiso leh oo xiiso leh oo lagu shaqeynayo xogta. Haa, xitaa waxaad abuuri kartaa koox - laakiin waxaad fahamsan tahay in cidiyaha lagu dhufto mikroskoob aysan ahayn mid sax ah oo waxaan bilownay inaan raadinno xalal kale.

Baahida python iyo falanqeeyayaasha

Shirkadeena waxay leedahay horumariyayaal badan oo maalin walba kood ku qora 10-20 sano PHP, JavaScript, C #, C/C++, Java, Go, Rust, Python, Bash. Waxa kale oo jira maamulayaal badan oo khibrad u leh nidaamka kuwaas oo la kulmay in ka badan hal masiibo cajiib ah oo aan ku habboonayn shuruucda tirakoobka (tusaale ahaan, marka inta badan saxanadaha ku jira weerarka-10 ay burburiyaan hillaac xooggan). Xaaladahan oo kale, muddo dheer ma cadda waxa "falanqeeyaha Python" uu yahay. Python waa sida PHP oo kale, kaliya magaca ayaa waxyar ka dheer waxaana jira raad yar oo walxaha maskaxda wax ka beddelaya oo ku jira koodhka isha ee turjubaanka. Si kastaba ha ahaatee, iyadoo warbixino badan oo falanqayn ah la abuuray, horumariyayaal khibrad leh ayaa bilaabay inay si sii kordheysa u fahmaan muhiimada ay leedahay takhasuska cidhiidhiga ah ee aaladaha sida nambarada, pandas, matplotlib, badda-dhashay.
Doorka muhiimka ah, oo ay u badan tahay, waxaa ciyaaray suuxdin lama filaan ah oo shaqaale ah oo ka yimid ereyada "dib-u-celinta saadka" iyo muujinta warbixinta waxtarka leh ee xogta ballaaran iyadoo la adeegsanayo, haa, haa, pyspark.

Apache Spark, jaantuskeeda shaqayneed ee aljabradu si fiican ugu habboon tahay, awooddeeduna waxay ka dhigtay soo-saareyaal caadaystay MySQL in baahida loo qabo xoojinta darajooyinka ay la socdaan falanqeeyayaasha khibradda leh ay caddaatay maalintii.

Isku dayo dheeraad ah oo Apache Spark/Hadoop ah in la qaado iyo waxa aan u socon si waafaqsan qoraalka

Si kastaba ha ahaatee, waxa markiiba caddaatay in shay aanu si nidaamsan ugu saxsanayn Spark, ama ay lama huraan ahayd inaad si fiican u dhaqdo gacmahaaga. Haddii kaydka Hadoop/MapReduce/Lucene ay sameeyeen barnaamijyo khibrad leh, taas oo cad haddii aad si dhow u eegto koodhka isha Java ama fikradaha Doug Cutting ee Lucene, ka dibna Spark, si lama filaan ah, ayaa lagu qoray luqadda qalaad ee Scala, taas oo ah aad u muran badan marka loo eego aragtida la taaban karo oo aan hadda la horumarin. Iyo hoos u dhaca joogtada ah ee xisaabinta kooxda Spark sababtoo ah shaqo aan caqli-gal ahayn oo aan aad u hufanayn oo leh qoondaynta xusuusta ee hoos u dhigista hawlgallada (furayaal badan ayaa hal mar yimaada) waxay abuurtay halo ku wareegsan shay meel uu ku koro. Intaa waxaa dheer, xaaladda waxaa sii xumeeyay tiro badan oo dekedo furan oo yaab leh, faylal ku meel gaar ah oo ku koraya meelaha aan la fahmi karin iyo jahannamada ku tiirsanaanta - taas oo keentay in maamulayaasha nidaamka ay yeeshaan hal dareen oo si fiican loo yaqaan carruurnimadii: nacayb daran (ama laga yaabo in waxay u baahdeen inay gacmaha ku dhaqdaan saabuun).

Natiijo ahaan, waxaan "ka badbaaday" dhowr mashruuc oo falanqayn gudaha ah oo si firfircoon u isticmaala Apache Spark (oo ay ku jiraan Spark Streaming, Spark SQL) iyo Hadoop deegaanka (iyo wixii la mid ah iyo wixii la mid ah). In kasta oo xaqiiqda ah in muddo ka dib aan baranay inaan u diyaargarowno oo aan la soconno "si fiican", iyo "waxaa" si dhab ah u joojisay burburka lama filaanka ah sababtoo ah isbeddelada dabeecadda xogta iyo dheelitir la'aanta dharka RDD ee xashiishka, rabitaanka in la qaato wax horeba diyaar u ah. , la cusboonaysiiyay oo laga maamulay meel daruurta ah ayaa sii xoogaysanaysa oo sii xoogaysanaysa. Waxay ahayd wakhtigan aan isku daynay inaan isticmaalno isu-ururinta daruuraha diyaarsan ee Adeegyada Shabakadda Amazon - EMR iyo, ka dib, isku dayay in ay xaliyaan dhibaatooyinka isticmaalaya. EMR waa Apache Spark oo ay diyaarisay Amazon oo wata software dheeraad ah oo ka yimid nidaamka deegaanka, sida Cloudera/Hortonworks ay u dhisto.

Kaydinta faylka caagga ah ee falanqaynta waa baahi degdeg ah

Waayo-aragnimada "karinta" Hadoop/Spark ee gubanaya qaybaha kala duwan ee jidhka ma ahayn wax aan waxba tarayn. Baahida loo qabo in la abuuro hal kayd, raqiis ah oo la isku halayn karo faylal oo adkaysi u yeelan doona fashilinta hardware iyo taas oo ay suurto gal tahay in lagu kaydiyo faylasha qaabab kala duwan oo ka mid ah hababka kala duwan iyo samaynta muunado hufan oo waqti-wax-ku-ool ah warbixinnada xogtan ayaa noqday mid sii kordhaya. cad.

Waxa kale oo aan rabay in cusboonaysiinta softiweerka madalkani aanu isu rogin habeen riyo ah oo sannadka cusub ah iyada oo la akhrinayo 20 bog raadadka Java iyo falanqaynta gunnada faahfaahsan ee kiiloomitirka dheer ee kooxda iyada oo la adeegsanayo Spark History Server iyo muraayad weynaynaysa. Waxaan rabay in aan haysto qalab fudud oo hufan oo aan u baahnayn quusitaanka joogtada ah ee daboolka hoostiisa haddii codsi-sameeyaha MapReduce-ga caadiga ah uu joojiyo fulinta markii shaqaalaha xog-yaraynta uu ka dhacay xusuusta sababtoo ah qaybinta xogta isha oo aan si fiican loo dooran.

Amazon S3 ma u sharaxan yahay DataLake?

Waayo-aragnimada Hadoop/MapReduce waxay ina baray inaan u baahanahay nidaam faylal la isku halayn karo oo la isku halayn karo iyo shaqaale la qiyaasi karo oo korkiisa ah, "ku soo dhawaada" xogta si aan xogta loogu marin shabakada. Shaqaaluhu waa inay awoodaan inay akhriyaan xogta qaabab kala duwan, laakiin doorbidaya inaysan akhriyin macluumaadka aan loo baahnayn oo ay awood u yeeshaan inay hore u kaydiyaan xogta qaabab ku habboon shaqaalaha.

Mar labaad, fikradda aasaasiga ah. Ma jirto rabitaan ah in lagu "ku shubo" xog weyn hal matoorka falanqaynta kooxeed, kaas oo mar dhow ama hadhow ku mergagi doona oo waxaad u baahan doontaa inaad si fool xun u xoqdo. Waxaan rabaa inaan kaydiyo faylal, kaliya faylal, qaab la fahmi karo oo aan ku sameeyo su'aalo gorfayn oo waxtar leh iyaga oo isticmaalaya qalab kala duwan laakiin la fahmi karo. Waxaana jiri doona faylal aad iyo aad u badan oo qaabab kala duwan ah. Oo way ka wanaagsan tahay in aan la jeexjeexin mishiinka, laakiin xogta isha. Waxaan u baahanahay DataLake caalami ah oo la fidin karo, waxaan go'aansanay...

Maxaa dhacaya haddii aad ku kaydiso faylasha kaydinta daruuriga ah ee la yaqaan ee caanka ah ee Amazon S3, adoon u baahnayn inaad diyaariso garoogyadaada Hadoop?

Way caddahay in xogta shakhsi ahaaneed ay "hooseeeyso", laakiin ka waran xogta kale haddii aan ka soo saarno halkaas oo aan "si wax ku ool ah u wadno"?

Cluster-bigdata-analytics ecosystem of Amazon Web Services - erayo aad u fudud

Marka loo eego waayo-aragnimadayada AWS, Apache Hadoop/MapReduce ayaa si firfircoon loogu isticmaalay halkaas muddo dheer iyada oo la adeegsanayo suugo kala duwan, tusaale ahaan adeegga DataPipeline (Waan ka masayray asxaabteyda, waxay barteen sida loo diyaariyo si sax ah). Halkan waxaan ka diyaarinay adeegyo kala duwan oo ka mid ah miisaska DynamoDB:
Sida aan u abaabulnay DataLake aad u hufan oo aan qaali ahayn iyo sababta ay tani sidaas tahay

Waxayna si joogto ah ugu shaqaynayeen Hadoop/Map-ku-xidhan oo ay yareeyaan rucubyada sida saacadaha shaqada muddo dhawr sano ah hadda. "Deji oo illow":

Sida aan u abaabulnay DataLake aad u hufan oo aan qaali ahayn iyo sababta ay tani sidaas tahay

Waxa kale oo aad si wax ku ool ah uga qaybqaadan kartaa shaydaannimada xogta adiga oo u dejinaya kumbuyuutarrada Jupiter ee daruuraha ee falanqeeyayaasha iyo adeegsiga adeegga AWS SageMaker si aad u tababarto una geyso moodooyinka AI dagaalka. Waa kan sida ay noogu muuqato:

Sida aan u abaabulnay DataLake aad u hufan oo aan qaali ahayn iyo sababta ay tani sidaas tahay

Oo haa, waxaad naftaada u qaadan kartaa laptop ama falanqeeye daruuraha ku jira oo ku dheji kooxda Hadoop/Spark, samee xisaabinta ka dibna wax walba ku ciddi:

Sida aan u abaabulnay DataLake aad u hufan oo aan qaali ahayn iyo sababta ay tani sidaas tahay

Runtii ku haboon mashruucyada gorfaynta shaqsiga ah qaarna waxaan si guul leh ugu isticmaalnay adeega EMR xisaabinta iyo falanqaynta baaxada leh. Ka waran xalka nidaamka DataLake, ma shaqayn doonaa? Waqtigan xaadirka ah waxaan ku signay rajo iyo quus, baadigoobkiina waan sii wadnay.

AWS Glue - Apache Spark oo si fiican loo baakadeeyay

Waxaa soo baxday in AWS ay leedahay nooc u gaar ah oo ah xirmada "Hive/Pig/Spark". Doorka Hive, i.e. Buug-yaraha faylalka iyo noocyadooda ku jira DataLake waxaa sameeya adeegga "Xogta Xogta", kaas oo aan qarinayn la jaanqaadkeeda qaabka Apache Hive. Waxaad u baahan tahay inaad ku darto macluumaadka ku saabsan halka faylashaadu ku yaaliin iyo qaabka ay yihiin. Xogtu ma noqon karto oo keliya s3, laakiin sidoo kale waxay ku jirtaa kaydka xogta, laakiin taasi maaha mawduuca boostada. Waa kan sida hagaha xogta DataLake loo habeeyey:

Sida aan u abaabulnay DataLake aad u hufan oo aan qaali ahayn iyo sababta ay tani sidaas tahay

Faylasha waa diiwaan gashan yihiin, weyn. Haddii faylalka la cusboonaysiiyay, waxaanu ku bilaabaynaa gurguurta gacanta ama jadwal, kuwaas oo ka cusboonaysiin doona macluumaadka iyaga harada oo badbaadin doona. Kadibna xogta harada waa laga baaraandegi karaa natiijadana meel baa lagu shubaa. Xaaladda ugu fudud, waxaan sidoo kale u rarnaa s3. Habaynta xogta ayaa lagu samayn karaa meel kasta, laakiin waxa laguu soo jeedinayaa inaad ku habayso habaynta kutlada Apache Spark adigoo isticmaalaya awoodo horumarsan iyada oo loo marayo AWS Glue API. Dhab ahaantii, waxaad qaadan kartaa koodkii hore ee wanaagsanaa ee la yaqaanay adigoo isticmaalaya maktabadda pyspark oo aad ku habeyn kartaa fulinteeda N ee koox awood leh oo leh kormeer, adigoon qodin xiidmaha Hadoop iyo jiidista weelasha docker-moker iyo baabi'inta isku dhacyada ku tiirsanaanta. .

Mar labaad, fikrad fudud. Looma baahna in la habeeyo Apache Spark, kaliya waxaad u baahan tahay inaad qorto koodka python ee pyspark, ku tijaabi gudaha desktop-kaaga ka dibna ku socodsii koox weyn oo daruuraha ku jirta, adoo cayimaya halka xogta isha ku taal iyo meesha natiijada la dhigo. Mararka qaarkood tani waa lagama maarmaan oo faa'iido leh, oo halkan waa sida aan u dhigno:

Sida aan u abaabulnay DataLake aad u hufan oo aan qaali ahayn iyo sababta ay tani sidaas tahay

Sidaa darteed, haddii aad u baahan tahay inaad wax ku xisaabiso koox Spark adigoo isticmaalaya xogta s3, waxaan ku qornaa koodka Python/pyspark, tijaabi, iyo nasiib wacan daruuraha.

Ka warran abaabulka? Maxaa dhacaya haddii hawshu dhacday oo la waayo? Haa, waxaa la soo jeediyay in la sameeyo dhuumo qurux badan qaabka Apache Pig oo aan xitaa isku daynay, laakiin hadda waxaan go'aansanay inaan isticmaalno orchestration-ka qoto dheer ee PHP iyo JavaScript (waan fahamsanahay, waxaa jira kala-bax garasho, laakiin way shaqeysaa, sanado iyo khaladaad la'aan).

Sida aan u abaabulnay DataLake aad u hufan oo aan qaali ahayn iyo sababta ay tani sidaas tahay

Qaabka faylasha lagu kaydiyay harada ayaa fure u ah waxqabadka

Aad iyo aad bay muhiim u tahay in la fahmo laba qodob oo kale oo muhiim ah. Si su'aalaha ku saabsan xogta faylka harada loo fuliyo sida ugu dhakhsaha badan ee suurtogalka ah, waxqabadkuna aanu hoos u dhigin marka macluumaadka cusub lagu daro, waxaad u baahan tahay:

  • Si gooni gooni ah u kaydi tiirarka faylalka (si aadan u baahnayn inaad akhrido dhammaan khadadka si aad u fahamto waxa ku jira tiirarka). Taas awgeed, waxaan ku qaadanay qaabka parquet la riixo
  • Aad bay muhiim u tahay in la jeexjeexo faylasha sida: luqadda, sanadka, bisha, maalinta, toddobaadka. Matoorada fahma nooca jeexjeexa noocan ah waxay eegi doonaan oo keliya faylalka lagama maarmaanka ah, iyada oo aan la shaandheyn dhammaan xogta isku xigta.

Asal ahaan, habkan, waxaad u dejisaa xogta isha qaabka ugu waxtarka badan ee matoorada falanqaynta ee korka ku dheggan, kuwaas oo xitaa faylalka la jeexjeexay ay si xushmad leh u geli karaan oo u akhriyi karaan kaliya tiirarka lagama maarmaanka ah ee faylasha. Uma baahnid inaad "buuxiso" xogta meel kasta (kaydinta ayaa si fudud u qarxi doonta) - isla markiiba si caqli gal ah ugu dheji nidaamka faylka qaabka saxda ah. Dabcan, waa in ay halkan ku caddahay in kaydinta faylka csv weyn ee DataLake, kaas oo ay tahay in marka hore lagu akhriyo xariiqda xariiqda kooxdu si loo soo saaro tiirarka, maahan mid aad u habboon. Ka fakar mar labaad labada qodob ee sare haddi aanay wali caddayn sababta waxan oo dhami u dhacayaan.

AWS Athena - jack-in-the-sanduuqa

Kadibna, markii la abuurayay haro, waxaan si lama filaan ah u nimid Amazon Athena. Isla markiiba waxaa soo baxday in adiga oo si taxadar leh u habaynaya faylalkayada logaga waaweyn ee galka galka qaabka saxda ah (parquet), waxaad si dhakhso ah uga samayn kartaa xulashooyin aad u xog badan iyaga oo ka dhisi kara warbixino LA'AAN, iyada oo aan la helin Apache Spark/Glue.

Matoorka Athena ee ku shaqeeya xogta s3 waxay ku salaysan tahay halyeeyga Horayba - wakiil ka socda MPP (waxqabad weyn oo isbarbar socda) qoyska hababka habaynta xogta, qaadashada xogta halka ay jiifto, min s3 iyo Hadoop ilaa Cassandra iyo faylasha qoraalka caadiga ah. Kaliya waxaad u baahan tahay inaad weydiiso Athena inay fuliso weydiinta SQL, ka dibna wax walba "si degdeg ah oo toos ah ayay u shaqeeyaan." Waxaa muhiim ah in la ogaado in Athena ay tahay "caqli leh", waxay aadaysaa oo keliya faylalka jeexan ee lagama maarmaanka ah waxayna akhridaa oo kaliya tiirarka loo baahan yahay codsiga.

Qiimaha codsiyada Athena sidoo kale waa mid xiiso leh. Waxaan bixinaa mugga xogta la sawiray. Kuwaas. ma aha tirada mishiinada kutlada daqiiqadiiba, laakiin... xogta dhab ahaantii lagu sawiray mishiinada 100-500, kaliya xogta lagama maarmaanka u ah in la buuxiyo codsiga.

Iyo adoo codsanaya kaliya tiirarka lagama maarmaanka u ah galka saxda ah ee la jeexjeexay, waxaa soo baxday in adeegga Athena uu nagu kharash gareeyo tobanaan doolar bishii. Hagaag, weyn, ku dhawaad ​​bilaash, marka la barbar dhigo falanqaynta kooxaha!

Jid ahaan, waa kan sida aan u qaybinno xogtayada s3:

Sida aan u abaabulnay DataLake aad u hufan oo aan qaali ahayn iyo sababta ay tani sidaas tahay

Natiijo ahaan, waqti yar gudaheed, waaxyo gebi ahaanba kala duwan oo shirkadda ah, laga soo bilaabo amniga macluumaadka ilaa falanqaynta, waxay bilaabeen inay si firfircoon u codsadaan Athena oo si dhakhso ah, ilbiriqsiyo gudahood, ay jawaabo waxtar leh ka helaan xogta "weyn" muddo dheer oo cadaalad ah: bilo, nus sano, iwm. P.

Laakiin waannu sii soconnay oo waxaan bilownay inaan aadno daruurta si aan jawaabo u helno iyada oo loo marayo darawalka ODBC: falanqeeye ayaa ku qoraya su'aal SQL ah konsole la yaqaan, kaas oo ku jira 100-500 mishiin "pennies" u soo diraya xogta s3 oo soo celisa jawaabta inta badan dhowr ilbiriqsi gudahood. Raaxo leh Oo degdeg ah. Wali ma rumaysan karo.

Natiijo ahaan, annagoo go'aansanay inaan ku kaydino xogta s3, qaab tiirar oo hufan iyo si macquul ah oo xogta loo qaybiyo faylalka... waxaan helnay DataLake iyo matoor falanqeyn oo degdeg ah oo jaban - bilaash. Wuxuuna noqday mid caan ka ah shirkadda, sababtoo ah... fahma SQL oo u shaqeeya amarrada baaxadda degdega ah marka loo eego bilaabista/joojinta/dejinta kooxaha. "Oo haddii natiijadu isku mid tahay, maxaad wax badan u bixinaysaa?"

Codsiga Athena wuxuu u eg yahay wax sidan oo kale ah. Haddii la rabo, dabcan, waxaad samayn kartaa ku filan su'aal SQL oo adag iyo bogag badan, laakiin waxaan nafteena ku koobnaan doonaa kooxaynta fudud. Aynu aragno koodka jawaabta ee macmiilku ku lahaa dhawr toddobaad ka hor diiwaanka server-ka webka oo aan hubinno in aanay khaladaad jirin:

Sida aan u abaabulnay DataLake aad u hufan oo aan qaali ahayn iyo sababta ay tani sidaas tahay

natiijooyinka

Markii aan soo maray, maaha in la yiraahdo waddo dheer, laakiin xanuun badan, si joogto ah u qiimeynta khatarta iyo heerka kakanaanta iyo kharashka taageerada, waxaan u helnay xal DataLake iyo falanqaynta oo aan waligood joojin inay naga farxiyaan xawaaraha iyo qiimaha lahaanshaha labadaba.

Waxaa soo baxday in dhisidda wax ku ool ah, degdeg ah oo raqiis ah in lagu shaqeeyo DataLake ee baahiyaha qaybaha kala duwan ee shirkadu ay si buuxda ugu dhex jirto awoodaha xitaa horumariyayaal khibrad leh oo aan waligood u shaqayn sidii naqshadeeyayaasha oo aan garanaynin sida loo sawiro labajibaaranayaasha fallaaro oo waxay yaqaanaan 50 erey ee nidaamka deegaanka Hadoop.

Bilawgii safarka, madaxaygu waxa uu ka kala baxayay duurjoogta duurjoogta ah ee badan ee software furan iyo kuwa xiran iyo fahamka culeyska mas'uuliyadda ee faraca. Ka bilow inaad ka dhisto DataLake qalabkaaga fudud: nagios/munin -> elastic/kibana -> Hadoop/Spark/s3... Wax kasta oo adag oo mugdi ah - sii cadawga iyo tartamayaasha.

Haddii aadan rabin inaad aado daruuraha oo aad jeceshahay inaad taageerto, cusboonaysiiso oo aad dhejiso mashaariicda il furan, waxaad ku dhisi kartaa nidaam la mid ah kayaga gudaha, mashiinnada xafiisyo jaban oo Hadoop iyo Presto ay kor saaran yihiin. Waxa ugu weyni maaha in la joojiyo oo hore loo socdo, tiriyo, raadiyo xalal fudud oo cad, wax walbana hubaal way shaqayn doonaan! Nasiib wacan qof walba oo aan mar kale ku aragno!

Source: www.habr.com

Add a comment