De Maart fir verdeelt Informatik a Big Data, laut
Firwat brauche mir verdeelt Informatik am normale Geschäft? Alles ass einfach a komplizéiert zur selwechter Zäit. Einfach - well mir am meeschte Fäll relativ einfach Berechnungen pro Unitéit vun Informatiounen Leeschtunge. Schwéier - well et vill vun esou Informatiounen ass. Sou vill. Als Konsequenz muss een
Ee rezent Beispill: Dodo Pizza
E Beispill méi:
Toolauswiel
Den Industriestandard fir dës Zort Informatik ass Hadoop. Firwat? Well Hadoop en exzellenten, gutt dokumentéierte Kader ass (dee selwechte Habr gëtt vill detailléiert Artikelen iwwer dëst Thema eraus), dee vun enger ganzer Rei vun Utilitys a Bibliothéiken begleet gëtt. Dir kënnt enorm Sätz vu strukturéierten an onstrukturéierten Donnéeën als Input ofginn, an de System selwer verdeelt se tëscht Rechenkraaft. Ausserdeem kënnen déiselwecht Kapazitéiten zu all Moment erhéicht oder deaktivéiert ginn - déiselwecht horizontal Skalierbarkeet an Aktioun.
Am Joer 2017 huet déi beaflosst Berodungsfirma Gartner
Hadoop riicht op verschidde Piliere, déi bemierkenswäert vun deenen sinn MapReduce Technologien (e System fir Daten fir Berechnungen tëscht Serveren ze verdeelen) an den HDFS Dateisystem. Déi lescht ass speziell entwéckelt fir Informatioun ze späicheren, déi tëscht Clusternoden verdeelt gëtt: all Block vun enger fixer Gréisst kann op e puer Wirbelen plazéiert ginn, an duerch Replikatioun ass de System resistent géint Feeler vun eenzelne Wirbelen. Amplaz vun enger Dateitabel gëtt e spezielle Server genannt NameNode benotzt.
D'Illustratioun hei drënner weist wéi MapReduce funktionnéiert. Op der éischter Etapp ginn d'Donnéeën no engem bestëmmten Attribut opgedeelt, op der zweeter Stuf gi se duerch Rechenkraaft verdeelt, an der drëtter Stuf gëtt d'Berechnung stattfonnt.
MapReduce gouf ursprénglech vu Google erstallt fir d'Bedierfnesser vu senger Sich. Dunn ass MapReduce a gratis Code gaang, an Apache huet de Projet iwwerholl. Gutt, Google migréiert lues a lues op aner Léisungen. Eng interessant Nuance: am Moment huet Google e Projet mam Numm Google Cloud Dataflow, positionéiert als de nächste Schrëtt nom Hadoop, als säi séieren Ersatz.
E méi no kucken weist datt Google Cloud Dataflow op enger Variatioun vum Apache Beam baséiert, während Apache Beam de gutt dokumentéierten Apache Spark Kader enthält, wat eis erlaabt iwwer bal déiselwecht Geschwindegkeet vun der Léisungsausféierung ze schwätzen. Gutt, Apache Spark funktionnéiert gutt am HDFS Dateisystem, wat Iech erlaabt et op Hadoop Serveren z'installéieren.
Füügt hei de Volume vun der Dokumentatioun a fäerdege Léisunge fir Hadoop a Spark géint Google Cloud Dataflow un, an d'Wiel vum Tool gëtt offensichtlech. Ausserdeem kënne Ingenieuren selwer entscheeden wéi ee Code - ënner Hadoop oder Spark - se ausféieren, konzentréieren op d'Aufgab, d'Erfahrung an d'Qualifikatiounen.
Cloud oder lokal Server
Den Trend zum allgemengen Iwwergank an d'Wollek huet souguer zu engem interessanten Term wéi Hadoop-as-a-Service entstanen. An esou engem Szenario ass d'Verwaltung vu verbonne Serveren ganz wichteg ginn. Well, leider, trotz senger Popularitéit, pure Hadoop ass en zimlech schwéier Tool fir ze konfiguréieren, well Dir musst vill mat der Hand maachen. Zum Beispill kënnt Dir Server individuell konfiguréieren, hir Leeschtung iwwerwaachen, a vill Parameteren ofstëmmen. Am Allgemengen, schafft fir en Amateur an et ass eng grouss Chance iergendwou ze schrauwen oder eppes ze verpassen.
Dofir si verschidde Verdeelunge ganz populär ginn, déi ufanks mat prakteschen Détachement an Administratiounsinstrumenter ausgestatt sinn. Ee vun de méi populäre Verdeelungen déi Spark ënnerstëtzt an d'Saachen einfach mécht ass Cloudera. Et huet souwuel bezuelte wéi gratis Versiounen - an an der leschter ass all d'Haaptfunktionalitéit verfügbar, an ouni d'Zuel vun de Wirbelen ze limitéieren.
Wärend der Konfiguratioun verbënnt de Cloudera Manager iwwer SSH mat Äre Serveren. En interessanten Punkt: beim Installatioun ass et besser ze spezifizéieren datt et duerch de sougenannten duerchgefouert gëtt Päck: speziell Packagen, jidderee vun deenen all déi néideg Komponenten enthält, déi konfiguréiert sinn fir mateneen ze schaffen. Tatsächlech ass dëst sou eng verbessert Versioun vum Package Manager.
No der Installatioun kréie mir eng Cluster Management Konsole, wou Dir Telemetrie fir Cluster, installéiert Servicer gesinn, plus Dir kënnt Ressourcen derbäisetzen / ewechhuelen an d'Clusterkonfiguratioun änneren.
Als Resultat erschéngt d'Ausschneiden vun där Rakéit virun Iech, wat Iech an déi hell Zukunft vu BigData bréngt. Awer ier mer soen "loosse mer goen", loosst eis séier no vir ënner der Hood.
Hardware Ufuerderunge
Op hirer Websäit ernimmt Cloudera verschidde méiglech Konfiguratiounen. Déi allgemeng Prinzipien no deenen se gebaut ginn sinn an der Illustratioun gewisen:
MapReduce kann dëst optimistescht Bild verschwannen. Wann Dir nach eng Kéier op d'Diagramm an der viregter Sektioun kuckt, gëtt et kloer datt a bal all de Fäll eng MapReduce Aarbecht e Flaschenhals kann schloen wann Dir Daten vun der Disk oder dem Netz liest. Dëst gëtt och um Cloudera Blog bemierkt. Als Resultat, fir all séier Berechnungen, och duerch Spark, déi dacks fir Echtzäit Berechnungen benotzt gëtt, ass d'I / O Geschwindegkeet ganz wichteg. Dofir, wann Dir Hadoop benotzt, ass et ganz wichteg datt equilibréiert a séier Maschinnen an de Stärekoup kommen, wat, fir et mild ze soen, net ëmmer an der Wollekinfrastruktur geliwwert gëtt.
Balance an der Lastverdeelung gëtt erreecht duerch d'Benotzung vun Openstack Virtualiséierung op Servere mat mächtege Multi-Core CPUs. Dateknäppchen ginn hir eege Prozessorressourcen a bestëmmte Disken zougewisen. An eiser Léisung Atos Codex Data Lake Engine breet Virtualiséierung gëtt erreecht, dofir gewannen mir souwuel wat d'Performance ugeet (den Impakt vun der Netzwierkinfrastruktur ass miniméiert) an TCO (extra kierperlech Serveren ginn eliminéiert).
Am Fall vun Benotzung vun BullSequana S200 Serveren, mir kréien eng ganz eenheetlech Laascht, ouni e puer vun de Knäppercher. D'Mindestkonfiguratioun enthält 3 BullSequana S200 Serveren, jidderee mat zwee JBODs, plus zousätzlech S200s mat véier Dateknäppchen sinn optional verbonnen. Hei ass e Beispill Belaaschtung an engem TeraGen Test:
Tester mat verschiddenen Datevolumen a Replikatiounswäerter weisen déiselwecht Resultater wat d'Laaschtverdeelung iwwer de Clusternoden ugeet. Drënner ass eng Grafik vun der Verdeelung vum Disk Access duerch Performance Tester.
Berechnungen baséieren op engem Minimum Configuratioun vun 3 BullSequana S200 Serveren. Et enthält 9 Dateknäppchen an 3 Masterknäppchen, souwéi reservéiert virtuell Maschinnen am Fall vun Ofbau vum Schutz baséiert op OpenStack Virtualization. TeraSort Testresultat: 512 MB Blockgréisst vun engem Replikatiounsfaktor vun dräi mat Verschlësselung ass 23,1 Minutten.
Wéi kann de System ausgebaut ginn? Verschidde Typen vun Extensiounen si fir den Data Lake Engine verfügbar:
- Dateknäppchen: fir all 40 TB vum benotzbare Raum
- Analytesch Noden mat der Fäegkeet fir eng GPU z'installéieren
- Aner Optiounen ofhängeg vu Geschäftsbedürfnisser (zum Beispill wann Dir Kafka an dergläiche braucht)
Den Atos Codex Data Lake Engine Komplex enthält souwuel d'Server selwer a virinstalléiert Software, dorënner de Cloudera Kit mat enger Lizenz; Hadoop selwer, OpenStack mat virtuelle Maschinnen baséiert op dem RedHat Enterprise Linux Kernel, Datereplikatioun a Backup Systemer (och mat engem Backup Node a Cloudera BDR - Backup and Disaster Recovery). Atos Codex Data Lake Engine ass déi éischt Virtualiséierungsléisung déi zertifizéiert gëtt
Wann Dir un d'Detailer interesséiert sidd, äntweren mir gären eis Froen an de Kommentaren.
Source: will.com