Kif organizzajna DataLake effiċjenti ħafna u rħas u għaliex dan hu hekk

Aħna ngħixu fi żmien aqwa meta tista 'malajr u faċilment tgħaqqad diversi għodod open-source lesti, twaqqafhom bil-"sensi mitfija" tiegħek skond il-parir ta' stackoverflow, mingħajr ma tidħol fil-"ittri multipli", u tniedi f’operazzjoni kummerċjali. U meta jkollok bżonn taġġorna/tespandi jew xi ħadd aċċidentalment jerġa 'jibda xi magni - tirrealizza li bdiet xi tip ta' ħolma ħażina ossessiva, kollox sar ikkumplikat b'mod drammatiku lil hinn mir-rikonoxximent, m'hemm l-ebda ritorn lura, il-futur huwa vag u aktar sigur, minflok ma tipprogramma, trabbi n-naħal u tagħmel ġobon.

Mhux ta’ b’xejn li kollegi ta’ aktar esperjenza, b’rashom mifruxa bi bugs u għalhekk diġà griżi, jikkontemplaw l-iskjerament veloċi oerhört ta’ pakketti ta’ “kontenituri” f’“kubi” fuq għexieren ta’ servers f’“lingwi tal-moda” b’appoġġ integrat għal I/O asinkroniku li ma jimblokkax, tbissem b'mod modest . U siekta jkomplu jaqraw mill-ġdid "man ps", jidħlu fil-kodiċi tas-sors "nginx" sakemm għajnejhom joħorġu d-demm, u jiktbu, jiktbu, jiktbu testijiet tal-unità. Il-kollegi jafu li l-aktar ħaġa interessanti tiġi meta "dan kollu" jum wieħed isir stakeed bil-lejl lejlet l-Ewwel tas-Sena. U se jkunu megħjuna biss minn fehim profond tan-natura ta 'unix, it-tabella tal-istat TCP/IP memorizzata u algoritmi bażiċi ta' tfittxija ta 'għażla. Biex iġġib is-sistema lura għall-ħajja hekk kif iċ-ċrieket jolqot.

Oh iva, sibt xi ftit distratt, imma nispera li rnexxieli nwassal l-istat ta 'antiċipazzjoni.
Illum irrid naqsam l-esperjenza tagħna fl-iskjerament ta 'munzell konvenjenti u rħas għal DataLake, li jsolvi l-maġġoranza tal-kompiti analitiċi fil-kumpanija għal diviżjonijiet strutturali kompletament differenti.

Xi żmien ilu, sirna nifhmu li l-kumpaniji għandhom bżonn dejjem aktar il-frott kemm tal-analitika tal-prodott kif ukoll dik teknika (biex ma nsemmux iċ-ċirasa fuq il-kejk fil-forma ta’ tagħlim bil-magni) u biex nifhmu x-xejriet u r-riskji - jeħtieġ li niġbru u janalizzaw. aktar u aktar metriċi.

Analitika teknika bażika f'Bitrix24

Bosta snin ilu, fl-istess ħin mat-tnedija tas-servizz Bitrix24, investejna b'mod attiv ħin u riżorsi fil-ħolqien ta 'pjattaforma analitika sempliċi u affidabbli li tgħin biex tara malajr il-problemi fl-infrastruttura u tippjana l-pass li jmiss. Naturalment, kien rakkomandabbli li jittieħdu għodod lesti li kienu sempliċi u li jinftiehmu kemm jista 'jkun. Bħala riżultat, nagios intgħażel għall-monitoraġġ u munin għall-analiżi u l-viżwalizzazzjoni. Issa għandna eluf ta’ kontrolli fin-nagios, mijiet ta’ charts f’munin, u l-kollegi tagħna jużawhom b’suċċess kuljum. Il-metriċi huma ċari, il-grafiċi huma ċari, is-sistema ilha taħdem b'mod affidabbli għal diversi snin u testijiet u graffs ġodda huma miżjuda regolarment magħha: meta npoġġu servizz ġdid fis-seħħ, inżidu diversi testijiet u graffs. Ix-xorti t-tajba.

Finger on the Pulse - Advanced Technical Analytics

Ix-xewqa li nirċievu informazzjoni dwar problemi "kemm jista 'jkun malajr" wasslitna għal esperimenti attivi b'għodod sempliċi u li jinftiehmu - pinba u xhprof.

Pinba bagħtilna statistika f'pakketti UDP dwar il-veloċità tat-tħaddim ta 'partijiet ta' paġni tal-web f'PHP, u stajna naraw onlajn fil-ħażna MySQL (Pinba jiġi mal-magna MySQL tiegħu stess għal analitika ta 'avvenimenti veloċi) lista qasira ta' problemi u tirrispondi għal minnhom. U xhprof awtomatikament ippermetta li niġbru graffs tal-eżekuzzjoni tal-paġni PHP l-aktar bil-mod mill-klijenti u nanalizzaw x'jista 'jwassal għal dan - bil-kalma, tferra 'tè jew xi ħaġa aktar b'saħħitha.

Ftit tal-ħin ilu, is-sett ta' għodda ġie rifornit b'magna oħra pjuttost sempliċi u li tinftiehem ibbażata fuq l-algoritmu ta' indiċjar invers, implimentata perfettament fil-librerija leġġendarja Lucene - Elastic/Kibana. L-idea sempliċi ta 'reġistrazzjoni multi-threaded ta' dokumenti f'indiċi Lucene invers ibbażat fuq avvenimenti fir-zkuk u tfittxija mgħaġġla minnhom bl-użu ta 'diviżjoni tal-aspetti rriżultaw li kienu verament utli.

Minkejja d-dehra pjuttost teknika tal-viżwalizzazzjonijiet f'Kibana b'kunċetti ta 'livell baxx bħal "barmil" "jiċċirkola 'l fuq" u l-lingwa ivvintata mill-ġdid tal-alġebra relazzjonali li għadha mhix minsija għal kollox, l-għodda bdiet tgħinna sew fil-kompiti li ġejjin:

  • Kemm kellu żbalji PHP il-klijent Bitrix24 fuq il-portal p1 fl-aħħar siegħa u liema? Ifhem, aħfer u kkoreġi malajr.
  • Kemm saru sejħiet bil-vidjo fuq portali fil-Ġermanja fl-24 siegħa ta' qabel, b'liema kwalità u kien hemm xi diffikultajiet mal-kanal/netwerk?
  • Kemm taħdem tajjeb il-funzjonalità tas-sistema (l-estensjoni C tagħna għall-PHP), miġbura mis-sors fl-aħħar aġġornament tas-servizz u mxerrda lill-klijenti? Hemm segfaults?
  • Id-dejta tal-klijent tidħol fil-memorja PHP? Hemm xi żbalji dwar il-qbiż tal-memorja allokata għall-proċessi: "mingħajr memorja"? Sib u newtralizza.

Hawn eżempju konkret. Minkejja ttestjar bir-reqqa u f'diversi livelli, il-klijent, b'każ mhux standard ħafna u dejta tal-input bil-ħsara, irċieva żball tedjanti u mhux mistenni, daqqet sirena u beda l-proċess biex jirranġaha malajr:

Kif organizzajna DataLake effiċjenti ħafna u rħas u għaliex dan hu hekk

Barra minn hekk, kibana jippermettilek torganizza notifiki għal avvenimenti speċifikati, u fi żmien qasir l-għodda fil-kumpanija bdiet tintuża minn għexieren ta 'impjegati minn dipartimenti differenti - minn appoġġ tekniku u żvilupp sa QA.

L-attività ta 'kwalunkwe dipartiment fi ħdan il-kumpanija saret konvenjenti biex issegwi u tkejjel - minflok ma tanalizza manwalment zkuk fuq servers, għandek bżonn biss li twaqqaf parsing logs darba u tibgħathom lill-cluster elastiku biex tgawdi, pereżempju, tikkontempla fil-kibana dashboard in-numru ta 'qtates b'żewġ irjus mibjugħa stampati fuq printer 3-D għall-aħħar xahar Lunar.

Analytics Bażiku tan-Negozju

Kulħadd jaf li l-analiżi tan-negozju fil-kumpaniji spiss tibda b'użu estremament attiv ta', iva, Excel. Iżda l-ħaġa prinċipali hija li ma tispiċċax hemm. Google Analytics ibbażat fuq is-sħab iżid ukoll il-fjuwil għan-nar - malajr tibda tidra l-affarijiet tajbin.

Fil-kumpanija tagħna li qed tiżviluppa b'mod armonjuż, hawn u hemm "profeti" ta 'xogħol aktar intensiv b'dejta akbar bdew jidhru. Il-ħtieġa għal rapporti aktar fil-fond u multidimensjonali bdiet tidher regolarment, u permezz tal-isforzi ta 'guys minn dipartimenti differenti, xi żmien ilu ġiet organizzata soluzzjoni sempliċi u prattika - taħlita ta' ClickHouse u PowerBI.

Għal żmien pjuttost twil, din is-soluzzjoni flessibbli għenet ħafna, iżda gradwalment beda jiġi l-fehim li ClickHouse mhix gomma u ma tistax tiġi mocked hekk.

Hawnhekk huwa importanti li wieħed jifhem sew li ClickHouse, bħal Druid, bħal Vertica, bħal Amazon RedShift (li hija bbażata fuq postgres), huma magni analitiċi ottimizzati għal analitika pjuttost konvenjenti (somom, aggregazzjonijiet, minimu-massimu mill-kolonna u ftit joins possibbli. ), għax organizzata għal ħażna effiċjenti ta 'kolonni ta' tabelli relazzjonali, b'differenza MySQL u databases oħra (orjentati lejn ir-ringieli) magħrufa lilna.

Essenzjalment, ClickHouse hija biss "database" aktar kapaċita, b'inserzjoni punt b'punt mhux konvenjenti ħafna (hekk huwa maħsub, kollox huwa ok), iżda analytics pjaċevoli u sett ta 'funzjonijiet qawwija interessanti biex taħdem mad-data. Iva, tista 'anki toħloq raggruppament - imma tifhem li l-imsiemer tal-imsiemer bil-mikroskopju mhuwiex kompletament korrett u bdejna nfittxu soluzzjonijiet oħra.

Domanda għal python u analisti

Il-kumpanija tagħna għandha ħafna żviluppaturi li jiktbu kodiċi kważi kuljum għal 10-20 sena f'PHP, JavaScript, C#, C/C++, Java, Go, Rust, Python, Bash. Hemm ukoll ħafna amministraturi tas-sistema b'esperjenza li esperjenzaw aktar minn diżastru wieħed assolutament inkredibbli li ma jidħolx fil-liġijiet tal-istatistika (per eżempju, meta l-maġġoranza tad-diski f'raid-10 jinqerdu minn sajjetti qawwija). F'ċirkostanzi bħal dawn, għal żmien twil ma kienx ċar x'kien "analista python". Python huwa bħal PHP, l-isem biss huwa ftit itwal u hemm ftit inqas traċċi ta 'sustanzi li jbiddlu l-moħħ fil-kodiċi sors ta' l-interpretu. Madankollu, hekk kif inħolqu aktar u aktar rapporti analitiċi, żviluppaturi b'esperjenza bdew jifhmu dejjem aktar l-importanza ta 'speċjalizzazzjoni dejqa f'għodod bħal numpy, pandas, matplotlib, seaborn.
Ir-rwol deċiżiv, x'aktarx, kellu l-ħass ħażin f'daqqa tal-impjegati mill-kombinazzjoni tal-kliem "rigressjoni loġistika" u d-dimostrazzjoni ta 'rappurtar effettiv fuq data kbira bl-użu, iva, iva, pyspark.

Apache Spark, il-paradigma funzjonali tiegħu li fiha l-alġebra relazzjonali taqbel perfettament, u l-kapaċitajiet tagħha għamlu tali impressjoni fuq l-iżviluppaturi mdorrijin bil-MySQL li l-ħtieġa li jissaħħu l-gradi ma 'analisti b'esperjenza dehret ċara bħala jum.

Aktar tentattivi ta 'Apache Spark/Hadoop biex jitilgħu u dak li ma marx pjuttost skond l-iskrittura

Madankollu, malajr deher ċar li xi ħaġa ma kinitx sistematikament sewwa ma 'Spark, jew sempliċement għandek bżonn taħsel idejk aħjar. Jekk il-munzell Hadoop/MapReduce/Lucene sar minn programmaturi b'esperjenza pjuttost, li huwa ovvju jekk tħares mill-qrib lejn il-kodiċi tas-sors f'Java jew l-ideat ta' Doug Cutting f'Lucene, allura Spark, f'daqqa waħda, huwa miktub bil-lingwa eżotika Scala, li hija kontroversjali ħafna mil-lat tal-prattiċità u bħalissa mhux qed tiżviluppa. U t-tnaqqis regolari fil-kalkoli fuq il-cluster Spark minħabba xogħol illoġiku u mhux trasparenti ħafna b'allokazzjoni ta 'memorja għal operazzjonijiet ta' tnaqqis (ħafna ċwievet jaslu f'daqqa) ħoloq halo madwaru ta 'xi ħaġa li għandha spazju biex tikber. Barra minn hekk, is-sitwazzjoni kienet aggravata minn numru kbir ta’ portijiet strambi miftuħa, fajls temporanji li qed jikbru fl-aktar postijiet inkomprensibbli, u infern ta’ dipendenzi tal-vażetti – li kkawżaw lill-amministraturi tas-sistema jkollhom sentiment wieħed li kien magħruf sew mit-tfulija: mibegħda ħarxa (jew forsi kellhom bżonn jaħslu idejhom bis-sapun).

Bħala riżultat, aħna "salvajna" diversi proġetti analitiċi interni li jużaw b'mod attiv Apache Spark (inkluż Spark Streaming, Spark SQL) u l-ekosistema Hadoop (u l-bqija u oħrajn). Minkejja l-fatt li maż-żmien tgħallimna nippreparaw u nissorveljaw "hija" pjuttost tajjeb, u "hija" prattikament waqfet f'daqqa tiġġarraf minħabba bidliet fin-natura tad-dejta u l-iżbilanċ ta 'hashing RDD uniformi, ix-xewqa li tieħu xi ħaġa diġà lesta. , aġġornata u amministrata x'imkien fis-sħaba kibret aktar u aktar b'saħħitha. Kien f'dan iż-żmien li ppruvajna nużaw l-assemblaġġ tal-cloud lest tal-Amazon Web Services - EMR u, sussegwentement, ippruvaw isolvu problemi bl-użu tiegħu. EMR huwa Apache Spark ippreparat minn Amazon b'softwer addizzjonali mill-ekosistema, bħall-bini ta' Cloudera/Hortonworks.

Il-ħażna tal-fajls tal-gomma għall-analiżi hija ħtieġa urġenti

L-esperjenza ta '"tisjir" Hadoop / Spark bi ħruq f'diversi partijiet tal-ġisem ma kinitx għalxejn. Il-ħtieġa li tinħoloq ħażna ta' fajls waħda, irħas u affidabbli li tkun reżistenti għall-ħsarat tal-hardware u li fiha jkun possibbli li jinħażnu fajls f'formati differenti minn sistemi differenti u li jsiru kampjuni effiċjenti u effiċjenti fil-ħin għar-rapporti minn din id-dejta saret dejjem aktar. ċara.

Ridt ukoll li l-aġġornament tas-softwer ta 'din il-pjattaforma ma jinbidilx f'ħmar il-lejl tas-Sena l-Ewwel bil-qari ta' traċċi Java ta '20 paġna u janalizza zkuk dettaljati ta' kilometri twal tal-cluster bl-użu ta 'Spark History Server u lenti ta' l-ingrandiment backlit. Xtaqt li jkolli għodda sempliċi u trasparenti li ma kinitx teħtieġ għadis regolari taħt il-barnuża jekk it-talba standard MapReduce tal-iżviluppatur ma tibqax tesegwixxi meta l-ħaddiem tat-tnaqqis tad-data waqa 'mill-memorja minħabba algoritmu ta' qsim tad-dejta tas-sors mhux magħżul tajjeb ħafna.

Amazon S3 hija kandidat għal DataLake?

L-esperjenza ma 'Hadoop/MapReduce tgħallimna li għandna bżonn ta' sistema ta 'fajls skalabbli u affidabbli u ħaddiema skalabbli fuqha, "jiġu" eqreb lejn id-dejta sabiex ma nsuqux id-dejta fuq in-netwerk. Il-ħaddiema għandhom ikunu jistgħu jaqraw data f'formati differenti, iżda preferibbilment ma jaqrawx informazzjoni mhux meħtieġa u jkunu jistgħu jaħżnu data minn qabel f'formati konvenjenti għall-ħaddiema.

Għal darb'oħra, l-idea bażika. M'hemm l-ebda xewqa li "tferra" dejta kbira f'magna analitika ta 'cluster wieħed, li illum jew għada jifga u jkollok tqatta' ikrah. Irrid naħżen fajls, fajls biss, f'format li jinftiehem u nwettaq mistoqsijiet analitiċi effettivi fuqhom billi tuża għodod differenti iżda li jinftiehmu. U se jkun hemm aktar u aktar fajls f'formati differenti. U huwa aħjar li tqatta 'mhux il-magna, iżda d-dejta tas-sors. Għandna bżonn DataLake estensibbli u universali, iddeċidejna...

X'jiġri jekk taħżen fajls fil-ħażna sħaba skalabbli familjari u magħrufa sew Amazon S3, mingħajr ma jkollok tipprepara chops tiegħek minn Hadoop?

Huwa ċar li d-data personali hija "baxxa", imma xi ngħidu dwar data oħra jekk noħduha hemmhekk u "ssuqha b'mod effettiv"?

Ekosistema ta' cluster-bigdata-analytics ta' Amazon Web Services - fi kliem sempliċi ħafna

Meta wieħed jiġġudika mill-esperjenza tagħna ma 'AWS, Apache Hadoop/MapReduce intuża b'mod attiv hemmhekk għal żmien twil taħt diversi zlazi, pereżempju fis-servizz DataPipeline (ngħira lill-kollegi tiegħi, tgħallmu kif jippreparawh b'mod korrett). Hawnhekk waqqafna backups minn servizzi differenti minn tabelli DynamoDB:
Kif organizzajna DataLake effiċjenti ħafna u rħas u għaliex dan hu hekk

U ilhom jaħdmu regolarment fuq clusters inkorporati Hadoop/MapReduce bħal clockwork għal bosta snin issa. "Issettjaha u tinsa":

Kif organizzajna DataLake effiċjenti ħafna u rħas u għaliex dan hu hekk

Tista' wkoll tidħol b'mod effettiv fis-sataniżmu tad-dejta billi twaqqaf laptops Jupiter fil-cloud għall-analisti u tuża s-servizz AWS SageMaker biex tħarreġ u tuża mudelli AI fil-battalja. Hawn kif jidher għalina:

Kif organizzajna DataLake effiċjenti ħafna u rħas u għaliex dan hu hekk

U iva, tista 'taqbad laptop għalik innifsek jew analista fis-sħaba u waħħalha ma' cluster Hadoop/Spark, agħmel il-kalkoli u mbagħad imsiemer kollox:

Kif organizzajna DataLake effiċjenti ħafna u rħas u għaliex dan hu hekk

Verament konvenjenti għal proġetti analitiċi individwali u għal xi wħud użajna b'suċċess is-servizz EMR għal kalkoli u analitiċi fuq skala kbira. Xi ngħidu dwar soluzzjoni tas-sistema għal DataLake, se taħdem? F’dan il-mument konna f’xifer it-tama u d-disprament u komplejna t-tfittxija.

AWS Glue - Apache Spark ippakkjat pulit fuq sterojdi

Irriżulta li l-AWS għandha l-verżjoni tagħha stess tal-munzell "Hive/Pig/Spark". Ir-rwol ta’ Hive, i.e. Il-katalgu tal-fajls u t-tipi tagħhom f'DataLake jitwettaq mis-servizz "Katalgu tad-Data", li ma jaħbix il-kompatibilità tiegħu mal-format Apache Hive. Għandek bżonn iżżid informazzjoni ma' dan is-servizz dwar fejn jinsabu l-fajls tiegħek u f'liema format huma. Id-dejta tista 'tkun mhux biss f's3, iżda wkoll fid-database, iżda dan mhuwiex is-suġġett ta' din il-kariga. Hawn kif huwa organizzat id-direttorju tad-data DataLake tagħna:

Kif organizzajna DataLake effiċjenti ħafna u rħas u għaliex dan hu hekk

Il-fajls huma reġistrati, kbir. Jekk il-fajls ikunu ġew aġġornati, inniedu crawlers jew manwalment jew fuq skeda, li jaġġornaw l-informazzjoni dwarhom mill-lag u jiffrankawhom. Imbagħad id-dejta mill-lag tista 'tiġi pproċessata u r-riżultati jittellgħu x'imkien. Fl-aktar każ sempliċi, aħna wkoll ittellgħu fuq s3. L-ipproċessar tad-dejta jista 'jsir kullimkien, iżda huwa ssuġġerit li tikkonfigura l-ipproċessar fuq cluster Apache Spark billi tuża kapaċitajiet avvanzati permezz tal-API AWS Glue. Fil-fatt, tista 'tieħu l-kodiċi python tajjeb antik u familjari billi tuża l-librerija pyspark u tikkonfigura l-eżekuzzjoni tagħha fuq N nodes ta' raggruppament ta 'xi kapaċità b'monitoraġġ, mingħajr ma tħaffer fl-imsaren ta' Hadoop u tkaxkar kontenituri docker-moker u telimina kunflitti ta 'dipendenza .

Għal darb'oħra, idea sempliċi. M'hemmx bżonn li jiġi kkonfigurat Apache Spark, għandek bżonn biss li tikteb kodiċi python għal pyspark, tittestjah lokalment fuq id-desktop tiegħek u mbagħad tħaddem fuq cluster kbir fil-sħab, u tispeċifika fejn tinsab id-dejta tas-sors u fejn tpoġġi r-riżultat. Xi drabi dan huwa meħtieġ u utli, u hawn kif waqqafna:

Kif organizzajna DataLake effiċjenti ħafna u rħas u għaliex dan hu hekk

Għalhekk, jekk għandek bżonn tikkalkula xi ħaġa fuq cluster Spark billi tuża dejta f's3, niktbu kodiċi f'python/pyspark, nittestjawha, u Xorti tajba għas-sħaba.

Xi ngħidu dwar l-orkestrazzjoni? X'jiġri jekk il-kompitu waqa' u sparixxa? Iva, huwa propost li nagħmlu pipeline sabiħ fl-istil Apache Pig u saħansitra ppruvajnahom, iżda għalissa ddeċidejna li nużaw l-orkestrazzjoni personalizzata profondament tagħna f'PHP u JavaScript (nifhem, hemm dissonanza konjittiva, iżda taħdem, għal snin u mingħajr żbalji).

Kif organizzajna DataLake effiċjenti ħafna u rħas u għaliex dan hu hekk

Il-format tal-fajls maħżuna fil-lag huwa ċ-ċavetta għall-prestazzjoni

Huwa importanti ħafna li wieħed jifhem żewġ punti ewlenin oħra. Sabiex il-mistoqsijiet dwar id-dejta tal-fajls fil-lag jiġu esegwiti malajr kemm jista’ jkun u l-prestazzjoni ma tiddegradax meta tiżdied informazzjoni ġdida, għandek bżonn:

  • Aħżen il-kolonni tal-fajls separatament (sabiex ma jkollokx għalfejn taqra l-linji kollha biex tifhem x'hemm fil-kolonni). Għal dan ħadna l-format tal-parkè bil-kompressjoni
  • Huwa importanti ħafna li shard files f'folders bħal: lingwa, sena, xahar, jum, ġimgħa. Magni li jifhmu dan it-tip ta 'sharding se jħarsu biss lejn il-folders meħtieġa, mingħajr ma jgħarbel id-dejta kollha wara xulxin.

Essenzjalment, b'dan il-mod, inti tqiegħed id-dejta tas-sors fl-aktar forma effiċjenti għall-magni analitiċi mdendla fuq, li anke f'folders imqattgħin jistgħu b'mod selettiv jidħlu u jaqraw biss il-kolonni meħtieġa mill-fajls. M'għandekx bżonn "timla" d-dejta kullimkien (il-ħażna sempliċement tinfaqa ') - immedjatament immedjatament poġġiha b'mod għaqli fis-sistema tal-fajls fil-format korrett. Naturalment, għandu jkun ċar hawnhekk li l-ħażna ta 'fajl csv enormi f'DataLake, li l-ewwel irid jinqara linja b'linja mill-cluster sabiex jiġu estratti l-kolonni, mhuwiex rakkomandabbli ħafna. Erġa' aħseb dwar iż-żewġ punti ta' hawn fuq jekk għadu mhux ċar għaliex qed jiġri dan kollu.

AWS Athena - il-jack-in-the-box

U mbagħad, waqt li ħoloq lag, aħna b'xi mod aċċidentalment ltqajna ma 'Amazon Athena. F'daqqa waħda rriżulta li billi tirranġa bir-reqqa l-fajls tal-log enormi tagħna fi shards ta 'folders fil-format korrett tal-kolonna (parquet), tista' malajr ħafna tagħmel selezzjonijiet estremament informattivi minnhom u tibni rapporti MINGĦAJR, mingħajr cluster Apache Spark/Glue.

Il-magna Athena mħaddma bid-dejta fl-s3 hija bbażata fuq il-leġġendarju Presto - rappreżentant tal-familja ta 'approċċi MPP (ipproċessar parallel massiv) għall-ipproċessar tad-dejta, li jieħu d-dejta fejn tinsab, minn s3 u Hadoop sa Cassandra u fajls ta' test ordinarji. Għandek bżonn biss li titlob lil Athena biex tesegwixxi mistoqsija SQL, u mbagħad kollox "jaħdem malajr u awtomatikament." Huwa importanti li wieħed jinnota li Athena hija "intelliġenti", tmur biss għall-folders sharded meħtieġa u taqra biss il-kolonni meħtieġa fit-talba.

Il-prezz għat-talbiet lil Athena huwa wkoll interessanti. Aħna nħallsu għal volum ta' data skanjata. Dawk. mhux għan-numru ta 'magni fil-cluster kull minuta, iżda... għad-dejta fil-fatt skanjata fuq 100-500 magni, biss id-dejta meħtieġa biex titlesta t-talba.

U billi talbet biss il-kolonni meħtieġa minn folders imqassma b'mod korrett, irriżulta li s-servizz Athena jiswielna għexieren ta 'dollari fix-xahar. Ukoll, kbir, kważi b'xejn, meta mqabbel ma 'analitiċi fuq clusters!

Mill-mod, hawn kif aħna nqattgħu d-dejta tagħna f's3:

Kif organizzajna DataLake effiċjenti ħafna u rħas u għaliex dan hu hekk

Bħala riżultat, fi żmien qasir, dipartimenti kompletament differenti fil-kumpanija, mis-sigurtà tal-informazzjoni għall-analiżi, bdew jagħmlu talbiet b'mod attiv lil Athena u malajr, f'sekondi, jirċievu tweġibiet utli minn data "kbar" fuq perjodi pjuttost twal: xhur, nofs sena, eċċ P.

Imma morna aktar u bdejna mmorru fis-sħaba għat-tweġibiet permezz tas-sewwieq ODBC: analista jikteb mistoqsija SQL f'console familjari, li fuq magni 100-500 "għal pennies" jibgħat data lil s3 u jirritorna tweġiba normalment fi ftit sekondi. Komdu. U malajr. Għadni ma nistax nemmen.

Bħala riżultat, wara li ddeċidiet li taħżen id-dejta f's3, f'format kolonni effiċjenti u bi sharding raġonevoli ta 'dejta f'folders... irċevejna DataLake u magna analitika veloċi u rħisa - b'xejn. U sar popolari ħafna fil-kumpanija, għax... jifhem l-SQL u jaħdem ordnijiet ta 'kobor aktar malajr milli permezz tal-bidu/waqfien/twaqqif ta' clusters. "U jekk ir-riżultat huwa l-istess, għaliex tħallas aktar?"

Talba lil Athena tidher xi ħaġa bħal din. Jekk mixtieq, ovvjament, tista 'tifforma biżżejjed mistoqsija SQL kumplessa u b'ħafna paġni, iżda aħna se nillimitaw ruħna għal raggruppament sempliċi. Ejja naraw liema kodiċijiet ta' rispons kellu l-klijent ftit ġimgħat ilu fir-reġistri tas-server tal-web u kun żgur li ma jkunx hemm żbalji:

Kif organizzajna DataLake effiċjenti ħafna u rħas u għaliex dan hu hekk

Sejbiet

Wara li għaddejna, biex ma ngħidx triq twila, iżda bl-uġigħ, ivvaluta b'mod kostanti b'mod adegwat ir-riskji u l-livell ta 'kumplessità u l-ispiża ta' appoġġ, sibna soluzzjoni għal DataLake u analytics li qatt ma tieqaf togħġobna kemm bil-veloċità kif ukoll bl-ispiża tas-sjieda.

Irriżulta li l-bini ta 'DataLake effettiv, veloċi u irħis biex jopera għall-bżonnijiet ta' dipartimenti kompletament differenti tal-kumpanija huwa kompletament fi ħdan il-kapaċitajiet ta 'żviluppaturi anke b'esperjenza li qatt ma ħadmu bħala periti u ma jafux kif tiġbed kwadri fuq kwadri b' vleġeġ u taf 50 terminu mill-ekosistema Hadoop.

Fil-bidu tal-vjaġġ, rasi kienet qed tinqasam mill-ħafna zoos selvaġġi ta 'softwer miftuħ u magħluq u l-fehim tal-piż tar-responsabbiltà għad-dixxendenti. Ibda biss il-bini tad-DataLake tiegħek minn għodod sempliċi: nagios/munin -> elastic/kibana -> Hadoop/Spark/s3..., tiġbor feedback u tifhem profondament il-fiżika tal-proċessi li qed iseħħu. Kollox kumpless u mċajpar - agħtih lill-għedewwa u lill-kompetituri.

Jekk ma tridx tmur fis-sħab u tixtieq tappoġġja, taġġorna u twaħħal proġetti open-source, tista 'tibni skema simili għal tagħna lokalment, fuq magni tal-uffiċċju rħas b'Hadoop u Presto fuq nett. Il-ħaġa prinċipali hija li ma tieqafx u timxi 'l quddiem, tgħodd, tfittex soluzzjonijiet sempliċi u ċari, u kollox definittivament se jaħdem! Awguri lil kulħadd u nerġgħu narawkom!

Sors: www.habr.com

Żid kumment