Ciò chì hè specialu nantu à Cloudera è cumu a cucina

U mercatu per l'informatica distribuita è i big data, secondu statistiche, cresce da 18-19% annu. Questu significa chì u prublema di sceglie u software per questi scopi resta pertinenti. In questu post, avemu da principià per quessa chì l'informatica distribuita hè necessaria, andemu in più dettagli nantu à a scelta di u software, parlemu di l'usu di Hadoop cù Cloudera, è infine parlemu di sceglie l'hardware è cumu affetta u rendiment in diverse manere.

Ciò chì hè specialu nantu à Cloudera è cumu a cucina
Perchè l'informatica distribuita hè necessaria in l'affari regulare? Tuttu quì hè simplice è cumplessu à u stessu tempu. Semplice - perchè in a maiò parte di i casi facemu calculi relativamente simplici per unità di informazioni. Hè difficiuli perchè ci hè assai di tali informazioni. Tanti. In cunseguenza, hè necessariu processà terabytes di dati in 1000 fili. Cusì, i casi d'usu sò abbastanza universali: i calculi ponu esse utilizati induve hè necessariu di piglià in contu un gran numaru di metriche nantu à una varietà ancu più grande di dati.

Unu di l'esempii recenti: a catena di pizzeria Dodo Pizza determinatu basatu annantu à una analisi di a basa di dati di l'ordine di i clienti, chì quandu sceglite una pizza cù un topping aleatoriu, l'utilizatori generalmente operanu cù solu sei setti basi di ingredienti più un coppiu di quelli casuali. In cunfurmità cù questu, a pizzeria hà aghjustatu e so compra. Inoltre, hà sappiutu megliu ricumandemu prudutti supplementari offerti à l'utilizatori durante a tappa di l'ordine, chì anu aumentatu i profitti.

Un altru esempiu: analisi L'articuli di u produttu permettenu à a tenda H&M di riduce l'assortimentu in i magazzini individuali da 40%, mantenendu i livelli di vendita. Questu hè stata ottenuta escludendu l'articuli di vendita pocu, è a staghjunalità hè stata presa in contu in i calculi.

Selezzione di u strumentu

U standard di l'industria per stu tipu di computing hè Hadoop. Perchè? Perchè Hadoop hè un quadru eccellente, ben documentatu (u stessu Habr furnisce assai articuli detallati nantu à questu tema), chì hè accumpagnatu da un inseme sanu di utilità è biblioteche. Pudete inserisce insemi enormi di dati strutturati è micca strutturati, è u sistema stessu distribuirà trà u putere di l'informatica. Inoltre, sti stessi capacità ponu esse aumentati o disattivati ​​in ogni mumentu - quella stessa scalabilità horizontale in azzione.

In 2017, l'influente cumpagnia di cunsulenza Gartner cunclusuchì Hadoop diventerà prestu obsolet. U mutivu hè abbastanza banale: l'analisti credi chì e cumpagnie migraranu in massa à u nuvulu, postu chì quì puderanu pagà cumu utilizanu u putere di l'informatica. U sicondu fattore impurtante chì pò suppostamente "sepultà" Hadoop hè a so rapidità. Perchè l'opzioni cum'è Apache Spark o Google Cloud DataFlow sò più veloci di MapReduce, chì sottumette Hadoop.

Hadoop si basa nantu à parechji pilastri, i più notevuli di i quali sò tecnulugii MapReduce (un sistema di distribuzione di dati per i calculi trà i servitori) è u sistema di schedari HDFS. L'ultime hè apposta per almacenà l'infurmazioni distribuite trà i nodi di cluster: ogni bloccu di una dimensione fissa pò esse piazzatu nantu à parechji nodi, è grazia à a replicazione, u sistema hè resistente à i fallimenti di i nodi individuali. Invece di una tabella di schedari, un servitore speciale chjamatu NameNode hè utilizatu.

L'illustrazione sottu mostra cumu funziona MapReduce. À a prima tappa, i dati sò spartuti secondu un certu criteriu, in a seconda tappa hè distribuitu secondu a putenza di l'informatica, è in a terza tappa u calculu hè fattu.

Ciò chì hè specialu nantu à Cloudera è cumu a cucina
MapReduce hè statu creatu originariamente da Google per i so bisogni di ricerca. Allora MapReduce andò in codice liberu, è Apache hà pigliatu u prugettu. Eppo, Google hà migratu gradualmente à altre soluzioni. Un tidbit interessante: Google hà attualmente un prughjettu chjamatu Google Cloud Dataflow, posizionatu cum'è u prossimu passu dopu à Hadoop, cum'è un sustitutu rapidu per questu.

Un sguardu più vicinu mostra chì Google Cloud Dataflow hè basatu annantu à una variazione di Apache Beam, mentri Apache Beam include u framework Apache Spark ben documentatu, chì ci permette di parlà di quasi a stessa velocità di esecuzione di soluzioni. Ebbè, Apache Spark funziona perfettamente in u sistema di schedari HDFS, chì permette di esse implementatu nantu à i servitori Hadoop.

Aghjunghjite quì u voluminu di documentazione è soluzioni pronti per Hadoop è Spark versus Google Cloud Dataflow, è a scelta di l'uttellu diventa evidente. Inoltre, l'ingegneri ponu decide per elli stessi quale codice - per Hadoop o Spark - duveranu eseguisce, cuncintendu u compitu, l'esperienza è e qualifiche.

Servitore cloud o locale

A tendenza versu una transizione generale à u nuvulu hà ancu suscitatu un termu cusì interessante cum'è Hadoop-as-a-service. In un tali scenariu, l'amministrazione di i servitori cunnessi hè diventatu assai impurtante. Perchè, sfortunatamente, malgradu a so popularità, Hadoop puru hè un strumentu piuttostu difficiule di cunfigurà, postu chì assai deve esse fattu a manu. Per esempiu, cunfigurà i servitori individualmente, monitorizà u so rendiment, è cunfigurà cun cura parechji paràmetri. In generale, u travagliu hè per un dilettante è ci hè una grande probabilità di missing up somewhere or missing something.

Per quessa, diversi kit di distribuzione, chì sò inizialmente equipati di strumenti di implementazione è amministrazione convenienti, sò diventati assai populari. Una di e distribuzioni più populari chì sustene Spark è rende tuttu faciule hè Cloudera. Hà una versione pagata è libera - è in l'ultime tutte e funziunalità di basa sò dispunibili, senza limità u numeru di nodi.

Ciò chì hè specialu nantu à Cloudera è cumu a cucina

Durante a stallazione, Cloudera Manager hà da cunnette via SSH à i vostri servitori. Un puntu ntirissanti: quandu si stallanu, hè megliu specificà chì esse realizatu da u cusì chjamatu pasticci: pacchetti spiciali, ognunu di i quali cuntene tutti i cumpunenti necessarii cunfigurati per travaglià cù l'altri. Essenzialmente questa hè una versione mejorata di u gestore di pacchetti.

Dopu a stallazione, ricevemu una cunsola di gestione di cluster, induve pudete vede a telemetria di cluster, i servizii installati, più pudete aghjunghje / caccià risorse è edità a cunfigurazione di cluster.

Ciò chì hè specialu nantu à Cloudera è cumu a cucina

In u risultatu, a cabina di u cohettu chì vi purterà in u futuru brillanti di BigData appare davanti à voi. Ma prima di dì "andemu", andemu sottu à u cappucciu.

Requisiti di hardware

In u so situ web, Cloudera cita diverse configurazioni pussibuli. I principii generali per quale sò custruiti sò mostrati in l'illustrazione:

Ciò chì hè specialu nantu à Cloudera è cumu a cucina
MapReduce pò sbulicà sta stampa ottimista. Se guardate torna à u diagramma da a sezione precedente, diventa chjaru chì in quasi tutti i casi, un travagliu MapReduce pò scontru un collu di buttiglia quandu leghje dati da u discu o da a reta. Questu hè ancu nutatu in u blog di Cloudera. In u risultatu, per qualsiasi calculi veloci, ancu attraversu Spark, chì hè spessu usatu per i calculi in tempu reale, a velocità I / O hè assai impurtante. Per quessa, quandu si usa Hadoop, hè assai impurtante chì u cluster include macchine equilibrate è veloci, chì, per dì, ùn hè micca sempre assicurata in l'infrastruttura di nuvola.

L'equilibriu in a distribuzione di carica hè ottenutu per via di l'usu di a virtualizazione Openstack nantu à i servitori cù CPU putenti multi-core. I nodi di dati sò attribuiti i so risorsi di u processatore propiu è dischi specifichi. In a nostra decisione Atos Codex Data Lake Engine A larga virtualizazione hè ottenuta, per quessa chì avemu benefiziu in quantu à u rendiment (l'impattu di l'infrastruttura di rete hè minimizatu) è in TCO (i servitori fisichi extra sò eliminati).

Ciò chì hè specialu nantu à Cloudera è cumu a cucina
Quandu si usanu i servitori BullSequana S200, avemu una carica assai uniforme, priva di qualchi buttiglia. A cunfigurazione minima include 3 servitori BullSequana S200, ognunu cù dui JBOD, più S200 supplementari chì cuntenenu quattru nodi di dati sò cunnessi opzionalmente. Eccu un esempiu di a carica in a prova TeraGen:

Ciò chì hè specialu nantu à Cloudera è cumu a cucina

I testi cù diversi volumi di dati è valori di replicazione mostranu i stessi risultati in quantu à a distribuzione di carica trà i nodi di cluster. Quì sottu hè un graficu di a distribuzione di l'accessu à u discu da e teste di rendiment.

Ciò chì hè specialu nantu à Cloudera è cumu a cucina

I calculi sò stati realizati nantu à una cunfigurazione minima di servitori 3 BullSequana S200. Include 9 nodi di dati è 3 nodi maestri, è ancu macchine virtuali riservate in casu di implementazione di prutezzione basatu nantu à OpenStack Virtualization. Risultu di a prova TeraSort: taglia di bloccu 512 MB fattore di replicazione uguale à trè cù criptografia hè 23,1 minuti.

Cumu pò esse allargatu u sistema? Ci sò diversi tipi di estensioni dispunibili per Data Lake Engine:

  • Nodi di dati: per ogni 40 TB di spaziu utilizable
  • Nodi analitici cù a capacità di installà una GPU
  • Altre opzioni sicondu i bisogni di l'affari (per esempiu, se avete bisognu di Kafka è simili)

Ciò chì hè specialu nantu à Cloudera è cumu a cucina

L'Atos Codex Data Lake Engine include i servitori stessi è u software preinstallatu, cumpresu un kit licenziatu Cloudera; Hadoop stessu, OpenStack cù macchine virtuali basate nantu à u kernel RedHat Enterprise Linux, replicazione di dati è sistemi di salvezza (cumpresu cù un nodu di salvezza è Cloudera BDR - Backup and Disaster Recovery). Atos Codex Data Lake Engine hè diventatu a prima suluzione di virtualizazione à esse certificata Cloudera.

Sè site interessatu à i dettagli, saremu felici di risponde à e nostre dumande in i cumenti.

Source: www.habr.com

Add a comment