U mercatu per l'informatica distribuita è i big data, secondu
Perchè l'informatica distribuita hè necessaria in l'affari regulare? Tuttu quì hè simplice è cumplessu à u stessu tempu. Semplice - perchè in a maiò parte di i casi facemu calculi relativamente simplici per unità di informazioni. Hè difficiuli perchè ci hè assai di tali informazioni. Tanti. In cunseguenza, hè necessariu
Unu di l'esempii recenti: a catena di pizzeria Dodo Pizza
Un altru esempiu:
Selezzione di u strumentu
U standard di l'industria per stu tipu di computing hè Hadoop. Perchè? Perchè Hadoop hè un quadru eccellente, ben documentatu (u stessu Habr furnisce assai articuli detallati nantu à questu tema), chì hè accumpagnatu da un inseme sanu di utilità è biblioteche. Pudete inserisce insemi enormi di dati strutturati è micca strutturati, è u sistema stessu distribuirà trà u putere di l'informatica. Inoltre, sti stessi capacità ponu esse aumentati o disattivati in ogni mumentu - quella stessa scalabilità horizontale in azzione.
In 2017, l'influente cumpagnia di cunsulenza Gartner
Hadoop si basa nantu à parechji pilastri, i più notevuli di i quali sò tecnulugii MapReduce (un sistema di distribuzione di dati per i calculi trà i servitori) è u sistema di schedari HDFS. L'ultime hè apposta per almacenà l'infurmazioni distribuite trà i nodi di cluster: ogni bloccu di una dimensione fissa pò esse piazzatu nantu à parechji nodi, è grazia à a replicazione, u sistema hè resistente à i fallimenti di i nodi individuali. Invece di una tabella di schedari, un servitore speciale chjamatu NameNode hè utilizatu.
L'illustrazione sottu mostra cumu funziona MapReduce. À a prima tappa, i dati sò spartuti secondu un certu criteriu, in a seconda tappa hè distribuitu secondu a putenza di l'informatica, è in a terza tappa u calculu hè fattu.
MapReduce hè statu creatu originariamente da Google per i so bisogni di ricerca. Allora MapReduce andò in codice liberu, è Apache hà pigliatu u prugettu. Eppo, Google hà migratu gradualmente à altre soluzioni. Un tidbit interessante: Google hà attualmente un prughjettu chjamatu Google Cloud Dataflow, posizionatu cum'è u prossimu passu dopu à Hadoop, cum'è un sustitutu rapidu per questu.
Un sguardu più vicinu mostra chì Google Cloud Dataflow hè basatu annantu à una variazione di Apache Beam, mentri Apache Beam include u framework Apache Spark ben documentatu, chì ci permette di parlà di quasi a stessa velocità di esecuzione di soluzioni. Ebbè, Apache Spark funziona perfettamente in u sistema di schedari HDFS, chì permette di esse implementatu nantu à i servitori Hadoop.
Aghjunghjite quì u voluminu di documentazione è soluzioni pronti per Hadoop è Spark versus Google Cloud Dataflow, è a scelta di l'uttellu diventa evidente. Inoltre, l'ingegneri ponu decide per elli stessi quale codice - per Hadoop o Spark - duveranu eseguisce, cuncintendu u compitu, l'esperienza è e qualifiche.
Servitore cloud o locale
A tendenza versu una transizione generale à u nuvulu hà ancu suscitatu un termu cusì interessante cum'è Hadoop-as-a-service. In un tali scenariu, l'amministrazione di i servitori cunnessi hè diventatu assai impurtante. Perchè, sfortunatamente, malgradu a so popularità, Hadoop puru hè un strumentu piuttostu difficiule di cunfigurà, postu chì assai deve esse fattu a manu. Per esempiu, cunfigurà i servitori individualmente, monitorizà u so rendiment, è cunfigurà cun cura parechji paràmetri. In generale, u travagliu hè per un dilettante è ci hè una grande probabilità di missing up somewhere or missing something.
Per quessa, diversi kit di distribuzione, chì sò inizialmente equipati di strumenti di implementazione è amministrazione convenienti, sò diventati assai populari. Una di e distribuzioni più populari chì sustene Spark è rende tuttu faciule hè Cloudera. Hà una versione pagata è libera - è in l'ultime tutte e funziunalità di basa sò dispunibili, senza limità u numeru di nodi.
Durante a stallazione, Cloudera Manager hà da cunnette via SSH à i vostri servitori. Un puntu ntirissanti: quandu si stallanu, hè megliu specificà chì esse realizatu da u cusì chjamatu pasticci: pacchetti spiciali, ognunu di i quali cuntene tutti i cumpunenti necessarii cunfigurati per travaglià cù l'altri. Essenzialmente questa hè una versione mejorata di u gestore di pacchetti.
Dopu a stallazione, ricevemu una cunsola di gestione di cluster, induve pudete vede a telemetria di cluster, i servizii installati, più pudete aghjunghje / caccià risorse è edità a cunfigurazione di cluster.
In u risultatu, a cabina di u cohettu chì vi purterà in u futuru brillanti di BigData appare davanti à voi. Ma prima di dì "andemu", andemu sottu à u cappucciu.
Requisiti di hardware
In u so situ web, Cloudera cita diverse configurazioni pussibuli. I principii generali per quale sò custruiti sò mostrati in l'illustrazione:
MapReduce pò sbulicà sta stampa ottimista. Se guardate torna à u diagramma da a sezione precedente, diventa chjaru chì in quasi tutti i casi, un travagliu MapReduce pò scontru un collu di buttiglia quandu leghje dati da u discu o da a reta. Questu hè ancu nutatu in u blog di Cloudera. In u risultatu, per qualsiasi calculi veloci, ancu attraversu Spark, chì hè spessu usatu per i calculi in tempu reale, a velocità I / O hè assai impurtante. Per quessa, quandu si usa Hadoop, hè assai impurtante chì u cluster include macchine equilibrate è veloci, chì, per dì, ùn hè micca sempre assicurata in l'infrastruttura di nuvola.
L'equilibriu in a distribuzione di carica hè ottenutu per via di l'usu di a virtualizazione Openstack nantu à i servitori cù CPU putenti multi-core. I nodi di dati sò attribuiti i so risorsi di u processatore propiu è dischi specifichi. In a nostra decisione Atos Codex Data Lake Engine A larga virtualizazione hè ottenuta, per quessa chì avemu benefiziu in quantu à u rendiment (l'impattu di l'infrastruttura di rete hè minimizatu) è in TCO (i servitori fisichi extra sò eliminati).
Quandu si usanu i servitori BullSequana S200, avemu una carica assai uniforme, priva di qualchi buttiglia. A cunfigurazione minima include 3 servitori BullSequana S200, ognunu cù dui JBOD, più S200 supplementari chì cuntenenu quattru nodi di dati sò cunnessi opzionalmente. Eccu un esempiu di a carica in a prova TeraGen:
I testi cù diversi volumi di dati è valori di replicazione mostranu i stessi risultati in quantu à a distribuzione di carica trà i nodi di cluster. Quì sottu hè un graficu di a distribuzione di l'accessu à u discu da e teste di rendiment.
I calculi sò stati realizati nantu à una cunfigurazione minima di servitori 3 BullSequana S200. Include 9 nodi di dati è 3 nodi maestri, è ancu macchine virtuali riservate in casu di implementazione di prutezzione basatu nantu à OpenStack Virtualization. Risultu di a prova TeraSort: taglia di bloccu 512 MB fattore di replicazione uguale à trè cù criptografia hè 23,1 minuti.
Cumu pò esse allargatu u sistema? Ci sò diversi tipi di estensioni dispunibili per Data Lake Engine:
- Nodi di dati: per ogni 40 TB di spaziu utilizable
- Nodi analitici cù a capacità di installà una GPU
- Altre opzioni sicondu i bisogni di l'affari (per esempiu, se avete bisognu di Kafka è simili)
L'Atos Codex Data Lake Engine include i servitori stessi è u software preinstallatu, cumpresu un kit licenziatu Cloudera; Hadoop stessu, OpenStack cù macchine virtuali basate nantu à u kernel RedHat Enterprise Linux, replicazione di dati è sistemi di salvezza (cumpresu cù un nodu di salvezza è Cloudera BDR - Backup and Disaster Recovery). Atos Codex Data Lake Engine hè diventatu a prima suluzione di virtualizazione à esse certificata
Sè site interessatu à i dettagli, saremu felici di risponde à e nostre dumande in i cumenti.
Source: www.habr.com