Ki jan nou te òganize yon DataLake trè efikas ak chè ak poukisa sa a se konsa

Nou ap viv nan yon tan etonan lè ou ka byen vit ak byen fasil konekte plizyè zouti louvri-sous pare, mete yo kanpe ak "konsyans ou etenn" dapre konsèy la nan stackoverflow, san yo pa fouye nan "lèt yo miltip", ak lanse. yo nan operasyon komèsyal yo. Epi lè ou bezwen mete ajou / elaji oswa yon moun aksidantèlman rdemare yon koup nan machin - ou reyalize ke kèk kalite obsession move rèv te kòmanse, tout bagay te vin dramatikman konplike pi lwen pase rekonesans, pa gen okenn vire tounen, lavni an vag ak pi an sekirite, olye pou yo pwograme, kwaze myèl ak fè fwomaj.

Se pa pou anyen ke kòlèg ki gen plis eksperyans, ak tèt yo epapiye ak pinèz ak Se poutèt sa deja gri, kontanple deplwaman an ekstrèmman rapid nan pake "resipyan" nan "kib" sou plizyè douzèn sèvè nan "lang alamòd" ak sipò bati pou asynchrone ki pa bloke I/O, souri modèst . Epi yo an silans kontinye re-li "man ps", fouye nan kòd sous "nginx" jiskaske je yo senyen, epi ekri, ekri, ekri tès inite yo. Kòlèg yo konnen ke bagay ki pi enteresan an ap vini lè "tout sa a" yon sèl jou a vin pike nan mitan lannwit nan lavèy nouvèl ane a. Apre sa, yo pral sèlman ede pa yon konpreyansyon pwofon sou nati a nan Unix, tab la eta TCP / IP memorize ak algoritm debaz klasman-rechèch. Pou fè sistèm nan tounen nan lavi pandan sonnen yo frape.

Oh wi, mwen te gen yon ti kras distrè, men mwen espere ke mwen jere yo transmèt eta a nan antisipasyon.
Jodi a mwen vle pataje eksperyans nou nan deplwaye yon pil pratik ak chè pou DataLake, ki rezoud majorite travay analyse nan konpayi an pou divizyon estriktirèl konplètman diferan.

Kèk tan de sa, nou te vin konprann ke konpayi yo de pli zan pli bezwen fwi tou de pwodwi ak analiz teknik (nou pa mansyone jivraj sou gato a nan fòm aprantisaj machin) ak konprann tandans ak risk - nou bezwen kolekte ak analize. pi plis ak plis mezi.

Analiz teknik debaz nan Bitrix24

Plizyè ane de sa, ansanm ak lansman sèvis Bitrix24 la, nou te aktivman envesti tan ak resous nan kreye yon platfòm analyse senp ak serye ki ta ede byen vit wè pwoblèm nan enfrastrikti a epi planifye pwochen etap la. Natirèlman, li te konseye yo pran zouti pare ki te kòm senp ak konprann ke posib. Kòm yon rezilta, yo te chwazi nagios pou siveyans ak munin pou analiz ak vizyalizasyon. Koulye a, nou gen dè milye de chèk nan nagios, dè santèn de tablo nan munin, ak kòlèg nou yo sèvi ak yo avèk siksè chak jou. Paramèt yo klè, graf yo klè, sistèm nan ap travay seryezman pandan plizyè ane epi yo ajoute nouvo tès ak graf regilyèman: lè nou mete yon nouvo sèvis an fonksyon, nou ajoute plizyè tès ak graf. Bon chans.

Dwèt sou batman kè a - Advanced Technical Analytics

Dezi a resevwa enfòmasyon sou pwoblèm "pi vit ke posib" te mennen nou nan eksperyans aktif ak zouti senp ak konprann - pinba ak xhprof.

Pinba te voye nou estatistik nan pake UDP sou vitès operasyon pati nan paj wèb nan PHP, epi nou te kapab wè sou entènèt nan depo MySQL la (Pinba vini ak pwòp motè MySQL li pou analiz rapid evènman) yon ti lis pwoblèm ak reponn a. yo. Ak xhprof otomatikman pèmèt nou kolekte graf nan ekzekisyon paj PHP ki pi dousman nan men kliyan yo epi analize sa ki ka mennen nan sa a - avèk kalm, vide te oswa yon bagay ki pi fò.

Kèk tan de sa, yo te ranpli zouti a ak yon lòt motè san patipri senp ak konprann ki baze sou algorithm nan Indexing ranvèse, parfe aplike nan bibliyotèk la lejand Lucene - Elastic/Kibana. Lide a senp nan anrejistreman milti-threaded nan dokiman nan yon endèks envès Lucene ki baze sou evènman nan mòso bwa yo ak yon rechèch rapid nan yo lè l sèvi avèk divizyon fasèt yo te reyèlman itil.

Malgre aparans plito teknik nan vizyalizasyon nan Kibana ak konsèp ba-nivo tankou "bokit" "ap koule tankou dlo" ak lang re-envante nan aljèb relasyon an ki poko bliye konplètman, zouti a te kòmanse ede nou byen nan travay sa yo:

  • Konbyen erè PHP kliyan Bitrix24 la te genyen sou pòtal p1 la nan dènye èdtan an e kiyès? Konprann, padone epi byen vit korije.
  • Konbyen apèl videyo yo te fè sou pòtal yo nan Almay nan 24 èdtan anvan yo, ak ki kalite ak te gen nenpòt difikilte ak chanèl la / rezo a?
  • Ki jan fonksyonalite sistèm lan (ektansyon C nou an pou PHP), konpile soti nan sous nan dènye aktyalizasyon sèvis la ak woule soti nan kliyan, travay? Èske gen segfaults?
  • Èske done kliyan anfòm nan memwa PHP? Èske gen nenpòt erè sou depase memwa a atribye ba pwosesis: "soti nan memwa"? Jwenn ak netralize.

Men yon egzanp konkrè. Malgre tès apwofondi ak milti-nivo, kliyan an, ak yon ka trè ki pa estanda ak done done domaje, te resevwa yon erè anmèdan ak inatandi, yon sirèn sonnen ak pwosesis la byen vit repare li te kòmanse:

Ki jan nou te òganize yon DataLake trè efikas ak chè ak poukisa sa a se konsa

Anplis de sa, kibana pèmèt ou òganize notifikasyon pou evènman espesifye, ak nan yon ti tan zouti nan konpayi an te kòmanse itilize pa plizyè douzèn anplwaye ki soti nan diferan depatman - soti nan sipò teknik ak devlopman nan QA.

Aktivite nenpòt depatman nan konpayi an vin pratik pou swiv ak mezire - olye pou yo analize manyèlman mòso bwa sou serveurs, ou jis bezwen mete kanpe analiz mòso bwa yon fwa epi voye yo nan gwoup elastik la pou jwi, pou egzanp, kontanple nan kibana a. tablodbò kantite ti chat ki gen de tèt ki vann enprime sou enprimant 3-D pou dènye mwa linè a.

Analiz de baz biznis

Tout moun konnen ke analiz biznis nan konpayi yo souvan kòmanse ak itilizasyon trè aktif nan, wi, Excel. Men, bagay prensipal la se ke li pa fini la. Google Analytics ki baze sou nwaj tou ajoute gaz nan dife a - ou byen vit kòmanse abitye ak bon bagay yo.

Nan konpayi nou an annamoni devlope, isit la epi gen "pwofèt" nan travay pi entansif ak pi gwo done yo te kòmanse parèt. Bezwen pou plis rapò apwofondi ak plizyè aspè yo te kòmanse parèt regilyèman, ak nan efò yo nan mesye ki soti nan diferan depatman, kèk tan de sa yo te òganize yon solisyon senp ak pratik - yon konbinezon de ClickHouse ak PowerBI.

Pou yon tan long, solisyon fleksib sa a te ede anpil, men piti piti konpreyansyon yo te kòmanse vini ke ClickHouse se pa kawotchou epi yo pa ka pase nan betiz konsa.

Isit la li enpòtan pou konprann byen ke ClickHouse, tankou Druid, tankou Vertica, tankou Amazon RedShift (ki baze sou postgres), se motè analitik optimize pou analiz jistis pratik (som, agrégasyon, minimòm-maksimòm pa kolòn ak kèk rantre posib. ), paske òganize pou depo efikas kolòn tab relasyon, kontrèman ak MySQL ak lòt baz done (oryante ranje) nou konnen.

Nan sans, ClickHouse se jis yon "baz done" plis kapasite, ak ensèsyon pwen-pa-pwen pa trè pratik (sa a ki jan li gen entansyon, tout bagay se ok), men analytics bèl ak yon seri fonksyon enteresan enteresan pou travay ak done. Wi, ou ka menm kreye yon grap - men ou konprann ke klou mato ak yon mikwoskòp pa totalman kòrèk epi nou te kòmanse chèche lòt solisyon.

Demann pou python ak analis yo

Konpayi nou an gen anpil devlopè ki ekri kòd prèske chak jou pou 10-20 ane nan PHP, JavaScript, C#, C/C++, Java, Go, Rust, Python, Bash. Genyen tou anpil administratè sistèm ki gen eksperyans ki te fè eksperyans plis pase yon katastwòf absoliman enkwayab ki pa anfòm nan lwa estatistik yo (pa egzanp, lè majorite disk nan yon atak-10 yo detwi pa yon gwo grèv zèklè). Nan sikonstans sa yo, pou yon tan long li pa t klè ki sa yon "analis python" te. Python se tankou PHP, sèlman non an se yon ti kras pi long epi gen yon ti kras mwens tras nan sibstans ki chanje lide nan kòd sous entèprèt la. Sepandan, kòm plis ak plis rapò analyse yo te kreye, devlopè ki gen eksperyans yo te kòmanse konprann de pli zan pli enpòtans ki genyen nan espesyalizasyon etwat nan zouti tankou numpy, panda, matplotlib, seaborn.
Wòl la desizif, gen plis chans, te jwe pa toudenkou endispoze nan anplwaye nan konbinezon an nan mo "regression lojistik" ak demonstrasyon an nan rapò efikas sou done gwo lè l sèvi avèk, wi, wi, pyspark.

Apache Spark, paradigm fonksyonèl li sou ki aljèb relasyon an adapte parfe, ak kapasite li yo te fè tankou yon enpresyon sou devlopè abitye ak MySQL ke bezwen an ranfòse ran yo ak analis ki gen eksperyans te vin klè tankou jou.

Plis tantativ Apache Spark / Hadoop pou dekole ak sa ki pa t ale byen dapre script la

Sepandan, li byento te vin klè ke yon bagay te sistemikman pa byen ak Spark, oswa li te tou senpleman nesesè yo lave men ou pi byen. Si pile Hadoop/MapReduce/Lucene te fèt pa pwogramasyon ki gen anpil eksperyans, sa ki evidan si w gade ak anpil atansyon nan kòd sous la nan Java oswa lide Doug Cutting nan Lucene, Lè sa a, Spark, toudenkou, ekri nan lang ekzotik Scala, ki se trè kontwovèsyal nan pwen de vi nan pratik ak se kounye a pa devlope. Ak gout nan regilye nan kalkil sou gwoup la Spark akòz travay ki pa lojik ak pa trè transparan ak alokasyon memwa pou operasyon diminye (anpil kle rive nan yon fwa) te kreye yon halo alantou li nan yon bagay ki gen plas yo grandi. Anplis de sa, sitiyasyon an te agrave pa yon gwo kantite pò etranj louvri, dosye tanporè k ap grandi nan kote ki pi enkonpreyansib yo ak yon lanfè depandans bokal - ki te lakòz administratè sistèm yo gen yon santiman ki te byen li te ye depi nan anfans: rayisman feròs (oswa petèt. yo te bezwen lave men yo ak savon).

Kòm yon rezilta, nou te "siviv" plizyè pwojè analyse entèn ki aktivman itilize Apache Spark (ki gen ladan Spark Streaming, Spark SQL) ak ekosistèm Hadoop (ak sou sa ak sou sa). Malgre lefèt ke sou tan nou te aprann prepare ak kontwole "li" byen, ak "li" pratikman sispann toudenkou aksidan akòz chanjman nan nati a nan done yo ak dezekilib la nan inifòm RDD hashing, dezi a pran yon bagay ki deja pare. , mete ajou ak administre yon kote nan nwaj la te vin pi fò ak pi fò. Li te nan moman sa a ke nou te eseye sèvi ak asanble nwaj pare yo nan Amazon Web Services - EMR epi, imedyatman, yo te eseye rezoud pwoblèm lè l sèvi avèk li. EMR se Apache Spark ki prepare pa Amazon ak lojisyèl adisyonèl ki soti nan ekosistèm nan, anpil tankou Cloudera/Hortonworks bati.

Depo dosye kawotchou pou analiz se yon bezwen ijan

Eksperyans nan "kwit manje" Hadoop / Spark ak boule nan divès pati nan kò a pa t 'pou gremesi. Bezwen pou kreye yon depo fichye sèl, chè ak serye ki ta rezistan a echèk pyès ki nan konpitè epi kote li ta posib pou estoke fichye nan diferan fòma nan diferan sistèm epi fè echantiyon efikas ak tan efikas pou rapò ki soti nan done sa yo te vin de pli zan pli. klè.

Mwen te vle tou ke aktyalizasyon lojisyèl platfòm sa a pa t tounen yon kochma Nouvèl Ane a ak lekti tras Java 20 paj ak analize mòso detaye ki gen yon kilomèt longè sou gwoup la lè l sèvi avèk Spark History Server ak yon loup retroeklere. Mwen te vle gen yon zouti senp ak transparan ki pa t mande pou plonje regilye anba kapo a si demann MapReduce estanda pwomotè a te sispann egzekite lè travayè a diminye done tonbe soti nan memwa akòz yon algorithm patisyon done sous pa trè byen chwazi.

Èske Amazon S3 se yon kandida pou DataLake?

Eksperyans ak Hadoop/MapReduce te anseye nou ke nou bezwen yon sistèm fichye évolutive, serye ak travayè évolutive sou tèt li, "vini" pi pre done yo pou yo pa kondwi done yo sou rezo a. Travayè yo ta dwe kapab li done nan diferan fòma, men de preferans pa li enfòmasyon ki pa nesesè epi yo dwe kapab estoke done davans nan fòma ki bon pou travayè yo.

Yon fwa ankò, lide debaz la. Pa gen okenn dezi pou "vide" gwo done nan yon sèl motè analitik gwoup, ki pral pi bonè oswa pita toufe epi w ap oblije shard li lèd. Mwen vle sere fichye, jis fichye, nan yon fòma ki konprann epi fè rechèch efikas analyse sou yo lè l sèvi avèk zouti diferan men ki konprann. Epi pral gen pi plis ak plis dosye nan diferan fòma. Epi li pi bon pou shard pa motè a, men done sous yo. Nou bezwen yon DataLake extensible ak inivèsèl, nou deside...

E si ou estoke fichye yo nan depo nwaj ki abitye ak byen li te ye Amazon S3, san yo pa bezwen prepare pwòp ou a soti nan Hadoop?

Li klè ke done pèsonèl yo "ba", men e lòt done si nou pran li deyò epi "kondwi li efektivman"?

Ekosistèm Cluster-bigdata-analytics nan Amazon Web Services - nan mo trè senp

Jije pa eksperyans nou ak AWS, Apache Hadoop/MapReduce te aktivman itilize la pou yon tan long anba divès kalite sòs, pou egzanp nan sèvis la DataPipeline (mwen jalouzi kòlèg mwen yo, yo te aprann ki jan yo prepare li kòrèkteman). Isit la nou mete sovgad soti nan sèvis diferan nan tab DynamoDB:
Ki jan nou te òganize yon DataLake trè efikas ak chè ak poukisa sa a se konsa

Apre sa, yo te kouri regilyèman sou entegre Hadoop / MapReduce grap tankou revèy pou plizyè ane kounye a. "Mete li epi bliye li":

Ki jan nou te òganize yon DataLake trè efikas ak chè ak poukisa sa a se konsa

Ou ka efektivman angaje nan satanism done tou lè w mete pòtatif Jupiter nan nwaj la pou analis yo epi itilize sèvis AWS SageMaker pou antrene ak deplwaye modèl AI nan batay. Men sa li sanble pou nou:

Ki jan nou te òganize yon DataLake trè efikas ak chè ak poukisa sa a se konsa

Epi wi, ou ka pran yon laptop pou tèt ou oswa yon analis nan nwaj la epi tache li nan yon gwoup Hadoop/Spark, fè kalkil yo epi kloure tout bagay:

Ki jan nou te òganize yon DataLake trè efikas ak chè ak poukisa sa a se konsa

Vrèman pratik pou pwojè analyse endividyèl ak pou kèk nou te itilize avèk siksè sèvis EMR pou kalkil gwo echèl ak analiz. E yon solisyon sistèm pou DataLake, èske l ap travay? Nan moman sa a nou te sou wout pou espwa ak dezespwa epi kontinye rechèch la.

AWS Glue - byen pake Apache Spark sou estewoyid

Li te tounen soti ke AWS gen pwòp vèsyon li yo nan chemine "Hive / Pig / Spark". Wòl Hive, i.e. Katalòg la nan dosye ak kalite yo nan DataLake fèt pa sèvis la "Katalòg Done", ki pa kache konpatibilite li yo ak fòma Apache Hive la. Ou bezwen ajoute enfòmasyon nan sèvis sa a sou ki kote dosye ou yo ye ak nan ki fòma yo ye. Done yo ka pa sèlman nan s3, men tou, nan baz done a, men sa a se pa sijè a nan pòs sa a. Men ki jan anyè done DataLake nou an òganize:

Ki jan nou te òganize yon DataLake trè efikas ak chè ak poukisa sa a se konsa

Dosye yo anrejistre, gwo. Si fichye yo te mete ajou, nou lanse krole swa manyèlman oswa sou yon orè, ki pral mete ajou enfòmasyon sou yo nan lak la epi sove yo. Lè sa a, done ki soti nan lak la ka trete ak rezilta yo Uploaded yon kote. Nan ka ki pi senp, nou menm tou nou telechaje nan s3. Pwosesis done yo ka fè nenpòt kote, men li sijere ke ou konfigirasyon pwosesis la sou yon gwoup Apache Spark lè l sèvi avèk kapasite avanse atravè AWS Glue API la. An reyalite, ou ka pran bon ansyen ak abitye python kòd la lè l sèvi avèk bibliyotèk la pyspark ak konfigirasyon ekzekisyon li sou N nœuds nan yon gwoup nan kèk kapasite ak siveyans, san yo pa fouye nan zantray yo nan Hadoop ak trennen resipyan docker-moker ak elimine konfli depandans. .

Yon fwa ankò, yon lide senp. Pa gen okenn bezwen konfigirasyon Apache Spark, ou jis bezwen ekri kòd python pou pyspark, teste li lokalman sou Desktop ou ak Lè sa a, kouri li sou yon gwo gwoup nan nwaj la, espesifye kote done yo sous yo ak ki kote yo mete rezilta a. Pafwa sa nesesè ak itil, epi sa a se ki jan li se configuré isit la:

Ki jan nou te òganize yon DataLake trè efikas ak chè ak poukisa sa a se konsa

Kidonk, si ou bezwen kalkile yon bagay sou yon gwoup Spark lè l sèvi avèk done nan s3, nou ekri kòd nan python/pyspark, teste li, epi yo dwe sou wout nou nan nwaj la.

E òkestrasyon an? E si travay la te tonbe epi li te disparèt? Wi, li pwopoze pou fè yon bèl tiyo nan style Apache Pig e nou menm eseye yo, men pou kounye a nou deside sèvi ak òkestrasyon pwofondman Customized nou an nan PHP ak JavaScript (mwen konprann, gen dissonans mantal, men li travay, pou ane ak san erè).

Ki jan nou te òganize yon DataLake trè efikas ak chè ak poukisa sa a se konsa

Fòma nan dosye ki estoke nan lak la se kle nan pèfòmans

Li trè, trè enpòtan pou w konprann de plis pwen kle. Nan lòd pou demann sou done dosye nan lak la dwe egzekite pi vit posib epi pèfòmans pa degrade lè yo ajoute nouvo enfòmasyon, ou bezwen:

  • Sere kolòn dosye yo separeman (pou ou pa bezwen li tout liy yo pou w konprann sa ki nan kolòn yo). Pou sa nou te pran fòma partez la ak konpresyon
  • Li trè enpòtan pou separe fichye yo nan dosye tankou: lang, ane, mwa, jou, semèn. Motè ki konprann sa a kalite sharding pral gade sèlman nan dosye ki nesesè yo, san yo pa tamize nan tout done yo nan yon ranje.

Esansyèlman, nan fason sa a, ou mete deyò done yo sous nan fòm ki pi efikas pou motè yo analyse kwoke sou tèt, ki menm nan dosye sharded ka oaza antre epi li sèlman kolòn ki nesesè nan dosye yo. Ou pa bezwen "ranpli" done yo nenpòt kote (depo a pral tou senpleman pete) - jis imedyatman avèk sajès mete l nan sistèm nan dosye nan fòma ki kòrèk la. Natirèlman, li ta dwe klè isit la ke estoke yon gwo dosye csv nan DataLake, ki dwe premye li liy pa liy pa gwoup la yo nan lòd yo ekstrè kolòn yo, se pa trè rekòmande. Reflechi sou de pwen ki anwo yo ankò si li poko klè poukisa tout bagay sa yo ap pase.

AWS Athena - jack-in-box la

Lè sa a, pandan y ap kreye yon lak, nou yon jan kanmenm aksidantèlman te rankontre Amazon Athena. Menm lè a, li te tounen soti ke ak anpil atansyon fè aranjman pou dosye gwo boutèy demi lit nou yo nan shards katab nan fòma kolòn kòrèk (Parquet), ou ka trè byen vit fè seleksyon trè enfòmatif nan men yo epi bati rapò SAN, san yo pa yon gwoup Apache Spark/Glue.

Motè Athena ki mache ak done nan s3 baze sou lejand la Presto - yon reprezantan MPP (masif pwosesis paralèl) fanmi apwòch nan pwosesis done, pran done kote li kouche, soti nan s3 ak Hadoop nan Cassandra ak dosye tèks òdinè. Ou jis bezwen mande Athena pou egzekite yon rechèch SQL, ak Lè sa a, tout bagay "ap travay byen vit ak otomatikman." Li enpòtan sonje ke Athena se "entelijan", li ale sèlman nan dosye ki nesesè yo epi li sèlman kolòn ki nesesè nan demann lan.

Pri a pou demann Athena se tou enteresan. Nou peye pou volim done analize. Moun sa yo. pa pou kantite machin nan gwoup la pou chak minit, men... pou done yo aktyèlman tcheke sou 100-500 machin, se sèlman done ki nesesè yo ranpli demann lan.

Epi lè w mande sèlman kolòn ki nesesè yo soti nan dosye kòrèkteman sharded, li te tounen soti ke sèvis Athena koute nou dè dizèn de dola pa mwa. Oke, gwo, prèske gratis, konpare ak analiz sou grap!

By wout la, men ki jan nou shard done nou yo nan s3:

Ki jan nou te òganize yon DataLake trè efikas ak chè ak poukisa sa a se konsa

Kòm yon rezilta, nan yon ti tan, depatman konplètman diferan nan konpayi an, ki soti nan sekirite enfòmasyon ak analiz, yo te kòmanse aktivman fè demann bay Athena epi byen vit, nan kèk segonn, resevwa repons itil nan "gwo" done sou peryòd jistis long: mwa, mwatye yon ane, elatriye P.

Men, nou te ale pi lwen epi yo te kòmanse ale nan nwaj la pou repons atravè chofè ODBC: yon analis ekri yon rechèch SQL nan yon konsole abitye, ki sou 100-500 machin "pou peni" voye done nan s3 epi li retounen yon repons anjeneral nan kèk segonn. Konfòtab. Ak vit. Mwen toujou pa ka kwè li.

Kòm yon rezilta, li te deside estoke done nan s3, nan yon fòma kolòn efikas ak ak sharding rezonab nan done nan dosye... nou te resevwa DataLake ak yon motè analyse rapid ak bon mache - pou gratis. Apre sa, li te vin trè popilè nan konpayi an, paske... konprann SQL ak travay lòd nan grandè pi vit pase nan kòmanse / kanpe / mete kanpe grap yo. "Epi si rezilta a se menm, poukisa peye plis?"

Yon demann pou Athena sanble yon bagay tankou sa a. Si ou vle, nan kou, ou ka fòme ase rechèch SQL konplèks ak plizyè paj, men nou pral limite tèt nou nan gwoupman senp. Ann wè ki kòd repons kliyan an te gen kèk semèn de sa nan mòso bwa sèvè entènèt yo epi asire w pa gen okenn erè:

Ki jan nou te òganize yon DataLake trè efikas ak chè ak poukisa sa a se konsa

Jwenn

Lè nou te pase, pou nou pa di yon chemen long, men douloure, toujou ap byen evalye risk yo ak nivo konpleksite ak pri sipò, nou te jwenn yon solisyon pou DataLake ak analytics ki pa janm sispann fè nou plezi ak tou de vitès ak pri de an komen.

Li te tounen soti ke bati yon efikas, vit ak bon mache yo opere DataLake pou bezwen yo nan depatman konplètman diferan nan konpayi an se konplètman nan kapasite yo nan menm devlopè ki gen eksperyans ki pa janm te travay kòm achitèk epi yo pa konnen ki jan yo trase kare sou kare ak. flèch epi konnen 50 tèm ki soti nan ekosistèm Hadoop la.

Nan kòmansman vwayaj la, tèt mwen te divize ak anpil zoo sovaj nan lojisyèl louvri ak fèmen ak konpreyansyon yo genyen sou chay responsablite a nan pitit pitit yo. Jis kòmanse bati DataLake ou a soti nan zouti senp: nagios/munin -> elastik/kibana -> Hadoop/Spark/s3..., kolekte fidbak ak pwofondman konprann fizik pwosesis k ap fèt yo. Tout bagay konplèks ak twoub - bay l 'bay lènmi ak konpetitè.

Si ou pa vle ale nan nwaj la epi renmen sipòte, mete ajou ak patch pwojè sous louvri, ou ka bati yon konplo ki sanble ak pa nou lokalman, sou machin biwo ki pa chè ak Hadoop ak Presto sou tèt. Bagay pwensipal lan se pa sispann ak avanse pou pi devan, konte, gade pou solisyon senp ak klè, ak tout bagay pral definitivman travay deyò! Bòn chans pou tout moun epi wè nou ankò!

Sous: www.habr.com

Add nouvo kòmantè