Cumu avemu urganizatu un DataLake altamente efficiente è prezzu è perchè questu hè cusì

Vivemu in un tempu maravigghiusu quandu pudete cunnette rapidamente è facilmente parechji strumenti open-source pronti, stallate cù a vostra "cuscenza spenta" secondu i cunsiglii di stackoverflow, senza sfondà in e "lettere multiple", è lanciate. elli in operazione cummerciale. È quandu avete bisognu di aghjurnà / espansione o qualcunu riavvia accidentalmente un paru di machini - vi rendete conto chì un tipu di malu sognu obsessivu hè iniziatu, tuttu hè diventatu dramaticamente complicatu fora di ricunniscenza, ùn ci hè micca ritornu, u futuru hè vagu è più sicuru, invece di prugrammazione, allevate l'api è fate u furmagliu.

Ùn hè per nunda chì i culleghi più sperimentati, cù i so capi sparsi di bugs è dunque digià grisgi, cuntemplà l'incredibbilmente veloce di implementazione di pacchetti di "contenitori" in "cubi" nantu à decine di servitori in "lingue di moda" cù supportu integratu per I/O asincronu senza bloccu, sorrisu modestamente. È cuntinueghjanu in silenziu à rileghje "man ps", sfondate in u codice fonte "nginx" finu à chì i so ochji sagnanu, è scrivite, scrivenu, scrivenu testi di unità. I culleghi sanu chì a cosa più interessante vene quandu "tuttu questu" un ghjornu diventa stacked in a notte in a vigilia di l'annu novu. È solu seranu aiutati da una cunniscenza prufonda di a natura di Unix, a tavola di statu TCP / IP memorizata è algoritmi di ricerca di ricerca di basa. Per rinvià u sistema à a vita cum'è i campagnoli.

Iè, aghju un pocu distrattu, ma speru chì aghju sappiutu trasmette u statu di anticipazione.
Oghje vogliu sparte a nostra sperienza in implementà una pila cunvene è pocu costu per DataLake, chì risolve a maiò parte di i travaglii analitici in a cumpagnia per divisioni strutturali completamente diverse.

Qualchì tempu fà, avemu capitu chì e cumpagnie anu sempre più bisognu di i frutti di l'analitiche tecniche è di produttu (per micca di parlà di a ciliegina nantu à a torta in forma di l'apprendimentu di machine) è per capiscenu i tendenzi è i risichi - avemu bisognu di cullà è analizà. più è più metrica.

Analitiche tecniche basiche in Bitrix24

Parechji anni fà, simultaneamente cù u lanciamentu di u serviziu Bitrix24, avemu attivamente investitu tempu è risorse in a creazione di una piattaforma analitica simplice è affidabile chì aiutava à vede rapidamente i prublemi in l'infrastruttura è pianificà u prossimu passu. Di sicuru, era cunsigliatu di piglià l'arnesi pronti chì eranu simplici è capiscenu quant'è pussibule. In u risultatu, nagios hè statu sceltu per u monitoraghju è munin per l'analisi è a visualizazione. Avà avemu millaie di cuntrolli in nagios, centinaie di carte in munin, è i nostri culleghi l'utilizanu bè ogni ghjornu. I metrici sò chjaru, i grafici sò chjaru, u sistema hà travagliatu in modu affidabile per parechji anni è novi testi è grafici sò regularmente aghjuntu à questu: quandu mettemu un novu serviziu in opera, aghjunghjemu parechji testi è grafici. Bona Furtuna.

Finger on the Pulse - Advanced Technical Analytics

U desideriu di riceve infurmazioni nantu à i prublemi "cu più prestu pussibule" ci hà purtatu à esperimenti attivi cù arnesi simplici è comprensibili - pinba è xhprof.

Pinba ci hà mandatu statistiche in pacchetti UDP nantu à a rapidità di funziunamentu di parte di e pagine web in PHP, è pudemu vede in ligna in l'almacenamiento MySQL (Pinba vene cù u so propiu mutore MySQL per l'analisi rapida di l'avvenimenti) una breve lista di prublemi è risponde à elli. E xhprof ci hà permessu automaticamente di cullà i grafici di l'esekzione di e pagine PHP più lente da i clienti è analizà ciò chì puderia guidà à questu - tranquillamente, versà tè o qualcosa più forte.

Qualchì tempu fà, u toolkit hè statu rimbursatu cù un altru mutore abbastanza simplice è comprensibile basatu annantu à l'algoritmu di indexazione inversa, implementatu perfettamente in a legendaria biblioteca di Lucene - Elastic/Kibana. L'idea simplice di arregistramentu multi-threaded di documenti in un indice Lucene inversu basatu annantu à l'avvenimenti in i logs è una ricerca rapida à traversu elli utilizendu a divisione facet hè stata veramente utile.

Malgradu l'aspettu piuttostu tecnicu di visualizazioni in Kibana cù cuncetti di livellu bassu cum'è "bucket" "flowing upward" è a lingua reinventata di l'algebra relazionale micca completamente scurdata, l'uttellu hà cuminciatu à aiutà bè in i seguenti compiti:

  • Quanti errori PHP hà avutu u cliente Bitrix24 nantu à u portale p1 in l'ultima ora è quale? Capisce, perdona è currettu rapidamente.
  • Quante videochiamate sò state fatte nantu à i portali in Germania in l'ora di 24 precedenti, cù quale qualità è ci sò stati difficultà cù u canali / rete?
  • Cume funziona a funziunalità di u sistema (a nostra estensione C per PHP), cumpilata da a fonte in l'ultima aghjurnazione di u serviziu è sparta à i clienti? Ci sò segfaults?
  • I dati di i clienti sò in a memoria PHP? Ci hè qualchì errore nantu à u sopra à a memoria attribuita à i prucessi: "fora di memoria"? Truvate è neutralizà.

Eccu un esempiu concretu. Malgradu una prova approfondita è multi-livellu, u cliente, cù un casu assai micca standard è dati di input dannatu, hà ricevutu un errore fastidiosu è inesperu, una sirena suonò è u prucessu di riparà rapidamente hà cuminciatu:

Cumu avemu urganizatu un DataLake altamente efficiente è prezzu è perchè questu hè cusì

Inoltre, Kibana vi permette di urganizà notificazioni per l'avvenimenti specificati, è in pocu tempu l'uttellu in a cumpagnia hà cuminciatu à esse utilizatu da decine d'impiegati di diversi dipartimenti - da u sustegnu tecnicu è u sviluppu à QA.

L'attività di ogni dipartimentu in a cumpagnia hè diventata cunvene per seguità è misura - invece di analizà manualmente i logs nantu à i servitori, basta à stabilisce i logs di analisi una volta è mandà à u cluster elasticu per piacè, per esempiu, cuntemplando in a kibana. dashboard u numeru di gattini à dui capi venduti stampati nantu à una stampante 3D per l'ultimu mese lunare.

Basic Business Analytics

Tuttu u mondu sapi chì l'analitiche di l'affari in l'imprese spessu cumincianu cù l'usu estremamente attivu di, sì, Excel. Ma a cosa principal hè chì ùn finisci micca quì. Google Analytics basatu in nuvola aghjusta ancu carburante à u focu - vi cuminciate rapidamente à abituà à e cose boni.

In a nostra cumpagnia di sviluppu armuniosu, quì è quì "prufeti" di travagliu più intensu cù dati più grande cuminciaru à apparisce. A necessità di rapporti più approfonditi è multifaceti cuminciò à cumparisce regularmente, è attraversu i sforzi di ragazzi di diversi dipartimenti, qualchì tempu fà una suluzione simplice è pratica hè stata urganizata - una cumminazione di ClickHouse è PowerBI.

Per un bellu pezzu, sta suluzione flexibule hà aiutatu assai, ma à pocu à pocu cuminciò à capisce chì ClickHouse ùn hè micca gomma è ùn pò micca esse burlatu cusì.

Quì hè impurtante di capisce bè chì ClickHouse, cum'è Druid, cum'è Vertica, cum'è Amazon RedShift (chì hè basatu annantu à postgres), sò mutori analitici ottimizzati per analitiche abbastanza convenienti (summi, aggregazioni, minimu-massimu per colonna è uni pochi di unisci pussibuli). ), perchè urganizata per un almacenamentu efficiente di e culonne di e tabelle relazionali, à u cuntrariu di MySQL è altre basa di dati (orientate à fila) cunnisciute da noi.

In essenza, ClickHouse hè solu una "base di dati" più capiente, cù una inserzione puntu per puntu micca assai còmuda (hè cusì chì hè intesu, tuttu hè bè), ma analitiche piacevuli è un inseme di funzioni putenti interessanti per travaglià cù dati. Iè, pudete ancu creà un cluster - ma avete capitu chì martellare unghie cù un microscopiu ùn hè micca sanu currettu è avemu cuminciatu à circà altre suluzioni.

A dumanda di python è analisti

A nostra cumpagnia hà parechji sviluppatori chì scrivenu codice quasi ogni ghjornu per 10-20 anni in PHP, JavaScript, C#, C/C++, Java, Go, Rust, Python, Bash. Ci hè ancu parechji amministratori di sistema sperimentati chì anu sperimentatu più di un disastru assolutamente incredibile chì ùn si mette micca in e lege di statistiche (per esempiu, quandu a maiò parte di i discu in un raid-10 sò distrutte da un forte fulmine). In tali circustanze, per un bellu pezzu ùn era micca chjaru ciò chì era un "analista di pitone". Python hè cum'è PHP, solu u nome hè un pocu più longu è ci sò un pocu menu tracce di sustanzi chì alteranu a mente in u codice fonte di l'interprete. Tuttavia, cum'è più è più rapporti analitici sò stati creati, i sviluppatori sperimentati cuminciaru à capisce sempre più l'impurtanza di a specializazione stretta in arnesi cum'è numpy, pandas, matplotlib, seaborn.
U rolu decisivu, assai prubabilmente, hè statu ghjucatu da u svenimentu bruscu di l'impiegati da a cumminazione di e parolle "regressione logistica" è a dimustrazione di rappurtazioni efficaci nantu à grande dati usendu, sì, sì, pyspark.

Apache Spark, u so paradigma funziunale nantu à quale l'algebra relazionale si adatta perfettamente, è e so capacità hà fattu una tale impressione nantu à i sviluppatori abituati à MySQL chì a necessità di rinfurzà i ranchi cù analisti sperimentati hè diventatu chjaru cum'è ghjornu.

Ulteriori tentativi di Apache Spark / Hadoop per decolla è ciò chì ùn hè micca andatu bè secondu u script

In ogni casu, prestu hè diventatu chjaru chì qualcosa sistematica ùn era micca bè cù Spark, o era solu necessariu di lavà e mani megliu. Se a pila di Hadoop/MapReduce/Lucene hè stata fatta da programatori abbastanza sperimentati, chì hè ovvi s'è vo guardate attentamente à u codice fonte in Java o l'idee di Doug Cutting in Lucene, allora Spark, di colpu, hè scrittu in a lingua esotica Scala, chì hè assai cuntruversu da u puntu di vista di praticità è attualmente ùn hè micca sviluppatu. È a caduta regulare di i calculi nantu à u cluster Spark per via di un travagliu illogicu è micca assai trasparente cù l'allocazione di memoria per l'operazioni di riduzzione (assai chjavi ghjunghjenu à una volta) hà creatu un halo intornu à qualcosa chì hà spaziu per cultivà. Inoltre, a situazione hè stata aggravata da un gran numaru di strani porti aperti, schedarii tempurane chì crescenu in i lochi più incomprensibili è un infernu di dependenzii di jar - chì hà fattu chì l'amministratori di u sistema anu un sentimentu chì era ben cunnisciutu da a zitiddina: l'odiu feroce (o forse. avianu bisognu di lavà e mani cù sapone).

In u risultatu, avemu "survivutu" parechji prughjetti analitici interni chì utilizanu attivamente Apache Spark (cumpresu Spark Streaming, Spark SQL) è l'ecosistema Hadoop (è cetara è cetara). Malgradu u fattu chì cù u tempu avemu amparatu à preparà è monitorà "it" abbastanza bè, è "it" praticamenti cessatu di colpu di colpu per via di cambiamenti in a natura di e dati è u squilibrio di l'uniforme RDD hashing, u desideriu di piglià qualcosa digià pronta. , aghjurnatu è amministratu in un locu in u nuvulu hè diventatu più forte è più forte. Hè in questu tempu chì avemu pruvatu à utilizà l'assemblea di nuvola pronta di Amazon Web Services - EMR è, in seguitu, hà pruvatu à risolve i prublemi usendu. EMR hè Apache Spark preparatu da Amazon cù software supplementu da l'ecosistema, cum'è Cloudera / Hortonworks builds.

L'almacenamiento di file di gomma per l'analisi hè una necessità urgente

L'esperienza di "cucina" Hadoop / Spark cù burns à diverse parti di u corpu ùn hè micca in vain. A necessità di creà un archiviu unicu, prezzu è affidabile, chì sia resistente à i fallimenti di hardware è in quale puderia almacenà i fugliali in diversi formati da diversi sistemi è fà campioni efficaci è efficaci di tempu per i rapporti da queste dati hè diventatu sempre più. chjaru.

Vuliu ancu chì l'aghjurnamentu di u software di sta piattaforma ùn si trasformissi in un incubo di l'annu novu cù a lettura di tracce Java di 20 pagine è l'analisi di logs dettagliati di chilometru longu di u cluster utilizendu Spark History Server è una lente retroilluminata. Vuliu avè un strumentu simplice è trasparente chì ùn hà micca bisognu di immersione regulare sottu u cappucciu se a dumanda MapReduce standard di u sviluppatore hà cessatu di eseguisce quandu u travagliu di riduzzione di dati hè cascatu fora di a memoria per un algoritmu di partizionamentu di dati fonte micca assai ben sceltu.

Amazon S3 hè un candidatu per DataLake?

L'esperienza cù Hadoop / MapReduce ci hà insignatu chì avemu bisognu di un sistema di schedariu scalabile, affidabile è di i travagliadori scalabili nantu à questu, "avvicinendu" più vicinu à i dati per ùn guidà e dati nantu à a reta. I travagliadori duveranu esse capaci di leghje e dati in diversi formati, ma preferibilmente micca leghje infurmazioni innecessarii è esse capaci di almacenà dati in anticipu in formati convenienti per i travagliadori.

Una volta, l'idea basica. Ùn ci hè micca vuluntà di "pour" big data in un unicu mutore analiticu di cluster, chì prima o dopu sferiscerà è vi tuccherà à shard lu bruttu. Vogliu almacenà i fugliali, solu i fugliali, in un formatu comprensibile è eseguisce dumande analitiche efficaci nantu à elli utilizendu strumenti diffirenti ma comprensibili. È ci sarà più è più schedari in diversi furmati. È hè megliu shard micca u mutore, ma i dati fonte. Avemu bisognu di un DataLake estensibile è universale, avemu decisu ...

E s'è guardate i fugliali in l'almacenamiento in nuvola scalable famosu è cunnisciutu Amazon S3, senza avè da preparà i vostri propri chops da Hadoop?

Hè chjaru chì i dati persunali sò "bassu", ma chì ne di l'altri dati s'ellu ci pigliamu fora è "conduce in modu efficace"?

Ecosistema Cluster-bigdata-analitiche di Amazon Web Services - in parolle assai simplici

A ghjudicà da a nostra sperienza cù AWS, Apache Hadoop/MapReduce hè stata utilizata attivamente quì per un bellu pezzu sottu diverse salsi, per esempiu in u serviziu di DataPipeline (invidiu i mo culleghi, anu amparatu à preparà bè). Quì avemu stabilitu backups da diversi servizii da e tavule DynamoDB:
Cumu avemu urganizatu un DataLake altamente efficiente è prezzu è perchè questu hè cusì

È sò stati eseguiti regularmente in clusters Hadoop/MapReduce integrati cum'è un clockwork dapoi parechji anni. "Fighjate è scurdatevi":

Cumu avemu urganizatu un DataLake altamente efficiente è prezzu è perchè questu hè cusì

Pudete ancu impegnà in modu efficace in u satanismu di dati cunfiguendu laptop Jupiter in u nuvulu per analisti è utilizendu u serviziu AWS SageMaker per furmà è implementà mudelli AI in battaglia. Eccu ciò chì pare per noi:

Cumu avemu urganizatu un DataLake altamente efficiente è prezzu è perchè questu hè cusì

È sì, pudete piglià un laptop per sè stessu o un analista in u nuvulu è attaccallu à un cluster Hadoop / Spark, fate i calculi è poi chjappà tuttu:

Cumu avemu urganizatu un DataLake altamente efficiente è prezzu è perchè questu hè cusì

Veramente convenientu per i prughjetti analitici individuali è per alcuni avemu usatu bè u serviziu EMR per calculi è analitiche à grande scala. E una soluzione di sistema per DataLake, funzionerà? In questu mumentu eramu nantu à a spiranza è a disperazione è cuntinuemu a ricerca.

AWS Glue - Apache Spark ben imballatu nantu à i steroidi

Hè risultatu chì AWS hà a so propria versione di a pila "Hive / Pig / Spark". U rolu di Hive, i.e. U catalogu di i schedari è i so tipi in DataLake hè realizatu da u serviziu "catalogue di dati", chì ùn oculta micca a so cumpatibilità cù u formatu Apache Hive. Avete bisognu di aghjunghje infurmazioni à stu serviziu nantu à induve si trovanu i vostri schedari è in quale formatu sò. I dati ponu esse micca solu in s3, ma ancu in a basa di dati, ma questu ùn hè micca u sughjettu di stu post. Eccu cumu hè urganizatu u nostru repertoriu di dati DataLake:

Cumu avemu urganizatu un DataLake altamente efficiente è prezzu è perchè questu hè cusì

I schedari sò arregistrati, grande. Se i fugliali sò stati aghjurnati, lanciamu i crawlers manualmente o in un schedariu, chì aghjurnà l'infurmazioni nantu à elli da u lavu è i salve. Allora i dati da u lavu ponu esse processati è i risultati caricati in un locu. In u casu più simplice, carichemu ancu à s3. U prucessu di dati pò esse fattu in ogni locu, ma hè suggeritu chì cunfigurà u processu in un cluster Apache Spark utilizendu capacità avanzate attraversu l'API AWS Glue. In fatti, pudete piglià u bonu codice python anticu è familiar cù a biblioteca pyspark è cunfigurà a so esecuzione nantu à N nodi di un cluster di qualchì capacità cun monitoraghju, senza scavà in l'intestini di Hadoop è trascinendu cuntenituri docker-moker è eliminendu i cunflitti di dependenza. .

Una volta, una idea simplice. Ùn ci hè bisognu di cunfigurà Apache Spark, basta à scrive u codice python per pyspark, pruvà lucale in u vostru scrittore è poi eseguite nantu à un grande cluster in u nuvulu, specificendu induve sò i dati di fonte è induve mette u risultatu. A volte questu hè necessariu è utile, è eccu cumu l'avemu stallatu:

Cumu avemu urganizatu un DataLake altamente efficiente è prezzu è perchè questu hè cusì

Cusì, sè avete bisognu di calculà qualcosa nantu à un cluster Spark usendu dati in s3, scrivimu codice in python/pyspark, pruvemu, è bona furtuna à u nuvulu.

E l'orchestrazione ? E se u compitu hè cascatu è sparitu? Iè, hè prupostu di fà una bella pipeline in u stilu Apache Pig è avemu ancu pruvatu, ma per avà avemu decisu d'utilizà a nostra orchestrazione prufondamente persunalizata in PHP è JavaScript (aghju capitu, ci hè dissonanza cognitiva, ma funziona, per anni è senza errori).

Cumu avemu urganizatu un DataLake altamente efficiente è prezzu è perchè questu hè cusì

U formatu di i schedari guardati in u lavu hè a chjave per u rendiment

Hè assai, assai impurtante per capiscenu dui punti più chjave. Per chì e dumande nantu à i dati di u fugliale in u lavu sò eseguite u più prestu pussibule è u rendimentu ùn si degrade micca quandu a nova informazione hè aghjuntu, avete bisognu di:

  • Stoccate e colonne di schedari per separatamente (per ùn avè micca bisognu di leghje tutte e linee per capisce ciò chì ci hè in e colonne). Per questu avemu pigliatu u formatu di parquet cù compressione
  • Hè assai impurtante per sparghje i schedari in cartulare cum'è: lingua, annu, mese, ghjornu, settimana. I mutori chì capiscenu stu tipu di sharding fighjanu solu à i cartulare necessarii, senza sifting through all the data in a row.

Essenzialmente, in questu modu, stendete i dati di fonte in a forma più efficaci per i mutori analitici appiccicati in cima, chì ancu in i cartulari sharded ponu selettivamente entre è leghje solu e colonne necessarie da i schedari. Ùn avete micca bisognu di "rimplete" i dati in ogni locu (l'almacenamiento si sparghjera solu) - basta à mette immediatamente in u sistema di fugliale in u formatu currettu. Di sicuru, deve esse chjaru quì chì l'almacenamentu di un grande csv file in DataLake, chì deve esse prima lettu ligna per linea da u cluster per estrae e culonni, ùn hè micca assai cunsigliatu. Pensate à i dui punti sopra di novu s'ellu ùn hè ancu chjaru perchè tuttu questu succede.

AWS Athena - u jack-in-the-box

E dopu, mentre creavamu un lavu, avemu in qualchì modu accidentalmente scontru in Amazon Athena. Improvvisamente, si scopre chì, organizendu currettamente i nostri enormi schedarii di log in frammenti di cartulare in u formatu di colonna curretta (parquet), pudete fà assai rapidamente selezzione estremamente informativa da elli è custruisce rapporti SENZA, senza un cluster Apache Spark / Glue.

U mutore Athena alimentatu da dati in s3 hè basatu annantu à u legendariu Presto - un rapprisintanti di a famiglia MPP (massivu di trasfurmazioni paralleli) di avvicinamenti à u prucessu di dati, pigghiannu dati induve si trova, da s3 è Hadoop à Cassandra è schedarii di testu ordinariu. Basta à dumandà à Athena per eseguisce una dumanda SQL, è dopu tuttu "funziona rapidamente è automaticamente". Hè impurtante à nutà chì Athena hè "intelligente", anda solu à i cartulare sharded necessarii è leghje solu e culonni necessarii in a dumanda.

U prezzu per e dumande à Athena hè ancu interessante. Paghemu per volume di dati scansati. Quelli. micca per u nùmeru di machini in u cluster per minutu, ma ... per i dati veramente scansati nantu à i machini 100-500, solu i dati necessarii per compie a dumanda.

E dumandendu solu e culonni necessarii da i cartulare currettamente sharded, hè risultatu chì u serviziu Athena ci costa decine di dollari à u mese. Ebbè, grande, quasi gratuitu, cumparatu cù l'analitiche nantu à i clusters!

A propositu, eccu cumu sparghjemu i nostri dati in s3:

Cumu avemu urganizatu un DataLake altamente efficiente è prezzu è perchè questu hè cusì

In u risultatu, in pocu tempu, dipartimenti completamente differenti in a cumpagnia, da a sicurità di l'infurmazioni à l'analitiche, cuminciaru à fà attivamente richieste à Athena è rapidamente, in sicondi, ricevenu risposte utili da dati "grandi" per periodi abbastanza longu: mesi, mezzo annu, ecc. P.

Ma andemu più in là è cuminciamu à andà in u nuvulu per e risposte via driver ODBC: un analista scrive una query SQL in una cunsola familiare, chì nantu à 100-500 machines "per centesimi" manda dati à s3 è torna una risposta di solitu in pochi sicondi. Cunfortu. È prestu. Ùn possu micca crede.

In u risultatu, avè decisu di almacenà e dati in s3, in un formatu di columnare efficiente è cun sharding raghjone di dati in cartulare ... avemu ricevutu DataLake è un mutore analiticu veloce è economicu - gratuitamente. È hè diventatu assai populari in a cumpagnia, perchè ... capisce SQL è travaglia ordini di grandezza più veloce ch'è attraversu l'iniziu / stopping / set up clusters. "E se u risultatu hè u listessu, perchè pagà più?"

Una dumanda à Athena pare cusì cusì. Se vulete, sicuru, pudete furmà abbastanza dumanda SQL cumplessa è multi-pagina, ma ci limiteremu à un raggruppamentu simplice. Videmu quali codici di risposta u cliente hà avutu qualchì settimana fà in i logs di u servitore web è assicuratevi chì ùn ci sò micca errori:

Cumu avemu urganizatu un DataLake altamente efficiente è prezzu è perchè questu hè cusì

scuperti

Dopu avè passatu, per ùn dì micca un percorsu longu, ma dulurosu, valutendu constantemente in modu adeguatu i risichi è u livellu di cumplessità è u costu di supportu, avemu trovu una suluzione per DataLake è analytics chì ùn cessà mai di piace à noi cù a velocità è u costu di pruprietà.

Hè risultatu chì a custruzzione di un DataLake efficace, veloce è economicu per uperà per i bisogni di dipartimenti completamente differenti di a cumpagnia hè cumplettamente in e capacità di sviluppatori ancu sperimentati chì ùn anu mai travagliatu cum'è architetti è ùn sanu micca cumu disegnà quadrati nantu à i quadrati cù frecce è cunnosce 50 termini da l'ecosistema Hadoop.

À l'iniziu di u viaghju, u mo capu era splitting from the many wild zoos of open and closed software and the understanding of the load of rispunsabilità à i discendenti. Basta à cumincià à custruisce u vostru DataLake da arnesi simplici: nagios/munin -> elastic/kibana -> Hadoop/Spark/s3..., raccoglie feedback è capisce in profondità a fisica di i prucessi chì si sò realizati. Tuttu cumplessu è scuru - dà à i nemici è i cuncurrenti.

Se ùn vulete micca andà in u nuvulu è piace à sustene, aghjurnà è patch prughjetti open-source, pudete custruisce un schema simile à u nostru in u locu, nantu à e macchine d'uffiziu di prezzu cù Hadoop è Presto in cima. A cosa principal ùn hè micca di piantà è avanzà, cuntà, cercate suluzioni simplici è chjari, è tuttu hà da esse sicuru! Bona furtuna à tutti è à vede di novu !

Source: www.habr.com

Add a comment