Wat ass speziell iwwer Cloudera a wéi een et kachen

De Maart fir verdeelt Informatik a Big Data, laut statistiken, wiisst mat 18-19% pro Joer. Dëst bedeit datt d'Fro fir Software fir dës Zwecker ze wielen relevant bleift. An dësem Post fänke mir mat firwat mir verdeelt Informatik brauchen, mir wäerte méi detailléiert iwwer d'Wiel vun der Software wunnen, mir schwätzen iwwer d'Benotzung vun Hadoop mat Cloudera, a schliisslech schwätze mir iwwer d'Wiel vun der Hardware a wéi et d'Performance beaflosst op verschidde Manéieren.

Wat ass speziell iwwer Cloudera a wéi een et kachen
Firwat brauche mir verdeelt Informatik am normale Geschäft? Alles ass einfach a komplizéiert zur selwechter Zäit. Einfach - well mir am meeschte Fäll relativ einfach Berechnungen pro Unitéit vun Informatiounen Leeschtunge. Schwéier - well et vill vun esou Informatiounen ass. Sou vill. Als Konsequenz muss een Prozess Terabytes vun Daten an 1000 thread. Also sinn d'Benotzungsfäll zimlech universell: Berechnunge kënne applizéiert ginn wou et néideg ass eng grouss Zuel vu Metriken op enger nach méi grousser Datarray ze berücksichtegen.

Ee rezent Beispill: Dodo Pizza definéiert baséiert op enger Analyse vun der Client Uerdnung Basis, datt wann Dir eng Pizza mat arbiträr toppings auswielen, Benotzer Bedreiwen normalerweis mat nëmme sechs Basis Formatioun vun Ingredienten plus e puer zoufälleg. Deementspriechend huet d'Pizzeria Akeef ugepasst. Zousätzlech konnt et d'Benotzer besser empfeelen zousätzlech Produkter, déi an der Bestellungsstadium ugebuede ginn, wat de Gewënn erhéicht huet.

E Beispill méi: Analyse Wueren erlaabt H&M d'Sortiment an eenzel Geschäfter ëm 40% ze reduzéieren, wärend de Verkafsniveau behalen. Dëst gouf erreecht andeems se schlecht verkaaft Positiounen ausgeschloss hunn, an d'Saisonalitéit gouf an de Berechnungen berücksichtegt.

Toolauswiel

Den Industriestandard fir dës Zort Informatik ass Hadoop. Firwat? Well Hadoop en exzellenten, gutt dokumentéierte Kader ass (dee selwechte Habr gëtt vill detailléiert Artikelen iwwer dëst Thema eraus), dee vun enger ganzer Rei vun Utilitys a Bibliothéiken begleet gëtt. Dir kënnt enorm Sätz vu strukturéierten an onstrukturéierten Donnéeën als Input ofginn, an de System selwer verdeelt se tëscht Rechenkraaft. Ausserdeem kënnen déiselwecht Kapazitéiten zu all Moment erhéicht oder deaktivéiert ginn - déiselwecht horizontal Skalierbarkeet an Aktioun.

Am Joer 2017 huet déi beaflosst Berodungsfirma Gartner ofgeschlossdatt Hadoop geschwënn iwwerflësseg gëtt. De Grond ass éischter banal: Analysten gleewen datt d'Firmen massiv an d'Wollek migréieren, well do kënne se op Basis vun der Rechenkraaft bezuelen. Den zweete wichtege Faktor, dee vermeintlech fäeg ass Hadoop ze "begruewen" ass d'Geschwindegkeet vun der Aarbecht. Well Optiounen wéi Apache Spark oder Google Cloud DataFlow si méi séier wéi de MapReduce Basisdaten Hadoop.

Hadoop riicht op verschidde Piliere, déi bemierkenswäert vun deenen sinn MapReduce Technologien (e System fir Daten fir Berechnungen tëscht Serveren ze verdeelen) an den HDFS Dateisystem. Déi lescht ass speziell entwéckelt fir Informatioun ze späicheren, déi tëscht Clusternoden verdeelt gëtt: all Block vun enger fixer Gréisst kann op e puer Wirbelen plazéiert ginn, an duerch Replikatioun ass de System resistent géint Feeler vun eenzelne Wirbelen. Amplaz vun enger Dateitabel gëtt e spezielle Server genannt NameNode benotzt.

D'Illustratioun hei drënner weist wéi MapReduce funktionnéiert. Op der éischter Etapp ginn d'Donnéeën no engem bestëmmten Attribut opgedeelt, op der zweeter Stuf gi se duerch Rechenkraaft verdeelt, an der drëtter Stuf gëtt d'Berechnung stattfonnt.

Wat ass speziell iwwer Cloudera a wéi een et kachen
MapReduce gouf ursprénglech vu Google erstallt fir d'Bedierfnesser vu senger Sich. Dunn ass MapReduce a gratis Code gaang, an Apache huet de Projet iwwerholl. Gutt, Google migréiert lues a lues op aner Léisungen. Eng interessant Nuance: am Moment huet Google e Projet mam Numm Google Cloud Dataflow, positionéiert als de nächste Schrëtt nom Hadoop, als säi séieren Ersatz.

E méi no kucken weist datt Google Cloud Dataflow op enger Variatioun vum Apache Beam baséiert, während Apache Beam de gutt dokumentéierten Apache Spark Kader enthält, wat eis erlaabt iwwer bal déiselwecht Geschwindegkeet vun der Léisungsausféierung ze schwätzen. Gutt, Apache Spark funktionnéiert gutt am HDFS Dateisystem, wat Iech erlaabt et op Hadoop Serveren z'installéieren.

Füügt hei de Volume vun der Dokumentatioun a fäerdege Léisunge fir Hadoop a Spark géint Google Cloud Dataflow un, an d'Wiel vum Tool gëtt offensichtlech. Ausserdeem kënne Ingenieuren selwer entscheeden wéi ee Code - ënner Hadoop oder Spark - se ausféieren, konzentréieren op d'Aufgab, d'Erfahrung an d'Qualifikatiounen.

Cloud oder lokal Server

Den Trend zum allgemengen Iwwergank an d'Wollek huet souguer zu engem interessanten Term wéi Hadoop-as-a-Service entstanen. An esou engem Szenario ass d'Verwaltung vu verbonne Serveren ganz wichteg ginn. Well, leider, trotz senger Popularitéit, pure Hadoop ass en zimlech schwéier Tool fir ze konfiguréieren, well Dir musst vill mat der Hand maachen. Zum Beispill kënnt Dir Server individuell konfiguréieren, hir Leeschtung iwwerwaachen, a vill Parameteren ofstëmmen. Am Allgemengen, schafft fir en Amateur an et ass eng grouss Chance iergendwou ze schrauwen oder eppes ze verpassen.

Dofir si verschidde Verdeelunge ganz populär ginn, déi ufanks mat prakteschen Détachement an Administratiounsinstrumenter ausgestatt sinn. Ee vun de méi populäre Verdeelungen déi Spark ënnerstëtzt an d'Saachen einfach mécht ass Cloudera. Et huet souwuel bezuelte wéi gratis Versiounen - an an der leschter ass all d'Haaptfunktionalitéit verfügbar, an ouni d'Zuel vun de Wirbelen ze limitéieren.

Wat ass speziell iwwer Cloudera a wéi een et kachen

Wärend der Konfiguratioun verbënnt de Cloudera Manager iwwer SSH mat Äre Serveren. En interessanten Punkt: beim Installatioun ass et besser ze spezifizéieren datt et duerch de sougenannten duerchgefouert gëtt Päck: speziell Packagen, jidderee vun deenen all déi néideg Komponenten enthält, déi konfiguréiert sinn fir mateneen ze schaffen. Tatsächlech ass dëst sou eng verbessert Versioun vum Package Manager.

No der Installatioun kréie mir eng Cluster Management Konsole, wou Dir Telemetrie fir Cluster, installéiert Servicer gesinn, plus Dir kënnt Ressourcen derbäisetzen / ewechhuelen an d'Clusterkonfiguratioun änneren.

Wat ass speziell iwwer Cloudera a wéi een et kachen

Als Resultat erschéngt d'Ausschneiden vun där Rakéit virun Iech, wat Iech an déi hell Zukunft vu BigData bréngt. Awer ier mer soen "loosse mer goen", loosst eis séier no vir ënner der Hood.

Hardware Ufuerderunge

Op hirer Websäit ernimmt Cloudera verschidde méiglech Konfiguratiounen. Déi allgemeng Prinzipien no deenen se gebaut ginn sinn an der Illustratioun gewisen:

Wat ass speziell iwwer Cloudera a wéi een et kachen
MapReduce kann dëst optimistescht Bild verschwannen. Wann Dir nach eng Kéier op d'Diagramm an der viregter Sektioun kuckt, gëtt et kloer datt a bal all de Fäll eng MapReduce Aarbecht e Flaschenhals kann schloen wann Dir Daten vun der Disk oder dem Netz liest. Dëst gëtt och um Cloudera Blog bemierkt. Als Resultat, fir all séier Berechnungen, och duerch Spark, déi dacks fir Echtzäit Berechnungen benotzt gëtt, ass d'I / O Geschwindegkeet ganz wichteg. Dofir, wann Dir Hadoop benotzt, ass et ganz wichteg datt equilibréiert a séier Maschinnen an de Stärekoup kommen, wat, fir et mild ze soen, net ëmmer an der Wollekinfrastruktur geliwwert gëtt.

Balance an der Lastverdeelung gëtt erreecht duerch d'Benotzung vun Openstack Virtualiséierung op Servere mat mächtege Multi-Core CPUs. Dateknäppchen ginn hir eege Prozessorressourcen a bestëmmte Disken zougewisen. An eiser Léisung Atos Codex Data Lake Engine breet Virtualiséierung gëtt erreecht, dofir gewannen mir souwuel wat d'Performance ugeet (den Impakt vun der Netzwierkinfrastruktur ass miniméiert) an TCO (extra kierperlech Serveren ginn eliminéiert).

Wat ass speziell iwwer Cloudera a wéi een et kachen
Am Fall vun Benotzung vun BullSequana S200 Serveren, mir kréien eng ganz eenheetlech Laascht, ouni e puer vun de Knäppercher. D'Mindestkonfiguratioun enthält 3 BullSequana S200 Serveren, jidderee mat zwee JBODs, plus zousätzlech S200s mat véier Dateknäppchen sinn optional verbonnen. Hei ass e Beispill Belaaschtung an engem TeraGen Test:

Wat ass speziell iwwer Cloudera a wéi een et kachen

Tester mat verschiddenen Datevolumen a Replikatiounswäerter weisen déiselwecht Resultater wat d'Laaschtverdeelung iwwer de Clusternoden ugeet. Drënner ass eng Grafik vun der Verdeelung vum Disk Access duerch Performance Tester.

Wat ass speziell iwwer Cloudera a wéi een et kachen

Berechnungen baséieren op engem Minimum Configuratioun vun 3 BullSequana S200 Serveren. Et enthält 9 Dateknäppchen an 3 Masterknäppchen, souwéi reservéiert virtuell Maschinnen am Fall vun Ofbau vum Schutz baséiert op OpenStack Virtualization. TeraSort Testresultat: 512 MB Blockgréisst vun engem Replikatiounsfaktor vun dräi mat Verschlësselung ass 23,1 Minutten.

Wéi kann de System ausgebaut ginn? Verschidde Typen vun Extensiounen si fir den Data Lake Engine verfügbar:

  • Dateknäppchen: fir all 40 TB vum benotzbare Raum
  • Analytesch Noden mat der Fäegkeet fir eng GPU z'installéieren
  • Aner Optiounen ofhängeg vu Geschäftsbedürfnisser (zum Beispill wann Dir Kafka an dergläiche braucht)

Wat ass speziell iwwer Cloudera a wéi een et kachen

Den Atos Codex Data Lake Engine Komplex enthält souwuel d'Server selwer a virinstalléiert Software, dorënner de Cloudera Kit mat enger Lizenz; Hadoop selwer, OpenStack mat virtuelle Maschinnen baséiert op dem RedHat Enterprise Linux Kernel, Datereplikatioun a Backup Systemer (och mat engem Backup Node a Cloudera BDR - Backup and Disaster Recovery). Atos Codex Data Lake Engine ass déi éischt Virtualiséierungsléisung déi zertifizéiert gëtt cloudera.

Wann Dir un d'Detailer interesséiert sidd, äntweren mir gären eis Froen an de Kommentaren.

Source: will.com

Setzt e Commentaire