Banatutako konputazioaren eta big dataren merkatua, arabera
Zergatik behar dugu informatika banatua negozio arruntetan? Dena sinplea eta konplikatua da aldi berean. Sinplea - kasu gehienetan informazio unitate bakoitzeko kalkulu erraz samarrak egiten ditugulako. Zaila - informazio hori asko dagoelako. Hainbeste. Ondorioz, bat egin behar da
Adibide berri bat: Dodo Pizza
Beste adibide bat:
Erreminta hautatzea
Informatika mota honen industria estandarra Hadoop da. Zergatik? Hadoop marko bikaina eta ongi dokumentatua delako (Habr berak gai honi buruzko artikulu zehatz asko ematen ditu), erabilgarritasun eta liburutegi multzo oso batekin batera. Datu egituratu eta egituratu gabekoen multzo erraldoiak bidal ditzakezu sarrera gisa, eta sistemak berak banatuko ditu konputazio-potentziaren artean. Gainera, ahalmen horiek edozein unetan handitu edo desgaitu daitezke - eskalagarritasun horizontal bera ekintzan.
2017an, Gartner aholkularitza konpainia eragingarria
Hadoop hainbat zutabetan oinarritzen da, eta horien artean nabarmenenak MapReduce teknologiak (zerbitzarien artean kalkuluak egiteko datuak banatzeko sistema) eta HDFS fitxategi sistema dira. Azken hau berariaz diseinatuta dago cluster-nodoen artean banatutako informazioa gordetzeko: tamaina finkoko bloke bakoitza hainbat nodotan jar daiteke, eta erreplikazioari esker, sistemak erresistentea du banakako nodoen hutsegiteen aurrean. Fitxategi-taula baten ordez, NameNode izeneko zerbitzari berezi bat erabiltzen da.
Beheko ilustrazioak MapReduce nola funtzionatzen duen erakusten du. Lehen fasean, datuak atributu jakin baten arabera banatzen dira, bigarren fasean konputazio potentziaren arabera banatzen da, hirugarren fasean kalkulua egiten da.
MapReduce Google-k sortu zuen bere bilaketaren beharretarako. Orduan MapReduce kode librean sartu zen, eta Apachek hartu zuen proiektua. Beno, Google pixkanaka beste irtenbide batzuetara migratu zen. Γabardura interesgarri bat: momentuz, Google-k Google Cloud Dataflow izeneko proiektua du, Hadoop-en ondorengo hurrengo urrats gisa kokatua, bere ordezko azkar gisa.
Begirada hurbilago batek erakusten du Google Cloud Dataflow Apache Beam-en aldakuntza batean oinarritzen dela, eta Apache Beam-ek, berriz, ondo dokumentatuta dagoen Apache Spark esparrua barne hartzen du, eta horrek soluzioen exekuzio abiadura ia berari buruz hitz egiteko aukera ematen digu. Tira, Apache Spark-ek ondo funtzionatzen du HDFS fitxategi-sisteman, eta horrek Hadoop zerbitzarietan zabaltzeko aukera ematen du.
Gehitu hemen Google Cloud Dataflow-en Hadoop eta Spark-entzako dokumentazio-bolumena eta prest dauden soluzioen bolumena, eta bistakoa da tresnaren aukera. Gainera, ingeniariek beraiek erabaki dezakete zein kode exekutatu (Hadoop edo Spark pean), zereginean, esperientzian eta kualifikazioetan zentratuz.
Hodeiko edo tokiko zerbitzaria
Hodeirako trantsizio orokorrerako joerak Hadoop-as-a-service bezalako termino interesgarri bat ere sortu du. Horrelako eszenatoki batean, konektatutako zerbitzarien administrazioa oso garrantzitsua bihurtu da. Zeren, tamalez, ospea izan arren, Hadoop hutsa konfiguratzeko tresna zaila da, eskuz asko egin behar baita. Adibidez, zerbitzariak banan-banan konfigura ditzakezu, haien errendimendua kontrolatu eta parametro asko finkatu. Oro har, afizionatu batentzat lan egin eta nonbait izorratzeko edo zerbait galtzeko aukera handia dago.
Hori dela eta, hainbat banaketa oso ezagunak bihurtu dira, hasiera batean hedapen eta administrazio tresna erosoekin hornituta daudenak. Spark onartzen duen eta gauzak errazten dituen banaketa ezagunenetako bat Cloudera da. Ordainpeko zein doako bertsioak ditu, eta azken honetan, funtzionalitate nagusi guztiak eskuragarri daude, eta nodo kopurua mugatu gabe.
Konfigurazioan, Cloudera Manager SSH bidez konektatuko da zure zerbitzarietara. Puntu interesgarri bat: instalatzerakoan, hobe da zehaztea deitzen denak egingo duela fardelak: pakete bereziak, bakoitzak elkarren artean lan egiteko konfiguratutako beharrezko osagai guztiak ditu. Izan ere, paketeen kudeatzailearen bertsio hobetua da hau.
Instalatu ondoren, kluster kudeatzeko kontsola bat lortzen dugu, non klusterren telemetria ikus dezakezun, instalatutako zerbitzuak, gainera baliabideak gehitu / kendu eta kluster konfigurazioa edita dezakezu.
Ondorioz, suziri horren mozketa agertzen da zure aurrean, eta horrek BigDataren etorkizun distiratsura eramango zaitu. Baina "goaz" esan baino lehen, goazen azkar aurrera kaputxa azpian.
hardware-eskakizunak
Euren webgunean, Clouderak konfigurazio posible desberdinak aipatzen ditu. Hauek eraikitzen dituzten printzipio orokorrak ilustrazioan erakusten dira:
MapReduce-k irudi baikor hau lausotu dezake. Aurreko ataleko diagrama berriro begiratuz, argi geratzen da ia kasu guztietan, MapReduce lan batek estutu dezakeela diskoko edo sareko datuak irakurtzerakoan. Cloudera blogean ere ageri da hori. Ondorioz, edozein kalkulu azkar egiteko, Spark bidez barne, denbora errealean kalkuluetarako erabili ohi dena, I/O abiadura oso garrantzitsua da. Hori dela eta, Hadoop erabiltzean, oso garrantzitsua da makina orekatuak eta azkarrak klusterrean sartzea, eta hori, nolabait esateko, ez da beti hodeiko azpiegituran eskaintzen.
Karga banaketaren oreka Openstack birtualizazioa erabiliz lortzen da nukleo anitzeko CPU indartsuak dituzten zerbitzarietan. Datu-nodoei beren prozesadore-baliabideak eta zenbait disko esleitzen zaizkie. Gure soluzioan Atos Codex Data Lake Motorra birtualizazio zabala lortzen da, eta horregatik irabazten dugu bai errendimenduan (sare-azpiegituren eragina gutxitu egiten da) bai TCO (zerbitzari fisiko gehigarriak ezabatzen dira).
BullSequana S200 zerbitzariak erabiltzearen kasuan, oso karga uniformea ββlortzen dugu, botila-lepo batzuk gabe. Gutxieneko konfigurazioak 3 BullSequana S200 zerbitzari barne hartzen ditu, bakoitza bi JBODrekin, eta lau datu-nodo dituzten S200 osagarriak aukeran konektatuta daude. Hona hemen TeraGen proba bateko karga adibide bat:
Datu-bolumen eta erreplikazio-balio desberdinekin egindako probek emaitza berdinak erakusten dituzte kluster-nodoen karga-banaketari dagokionez. Jarraian, errendimendu proben arabera diskorako sarbidearen banaketaren grafikoa dago.
Kalkuluak 3 BullSequana S200 zerbitzariren gutxieneko konfigurazioan oinarritzen dira. 9 datu-nodo eta 3 nodo nagusi biltzen ditu, baita erreserbatutako makina birtualak ere, OpenStack Birtualizazioan oinarritutako babesa zabaltzen bada. TeraSort probaren emaitza: enkriptatutako hiruko erreplikazio-faktore baten 512 MB bloke-tamaina 23,1 minutukoa da.
Nola zabaldu daiteke sistema? Data Lake Engine-rako hainbat luzapen mota daude eskuragarri:
- Datu-nodoak: erabilgarri dagoen 40 TBko espazio bakoitzeko
- GPU bat instalatzeko gaitasuna duten nodo analitikoak
- Negozioaren beharren araberako beste aukera batzuk (adibidez, Kafka eta antzekoak behar badituzu)
Atos Codex Data Lake Engine konplexuak zerbitzariak berak eta aurrez instalatutako softwarea barne hartzen ditu, lizentzia duen Cloudera kit-a barne; Hadoop bera, OpenStack RedHat Enterprise Linux nukleoan oinarritutako makina birtualekin, datuen erreplikazioa eta babeskopia sistemak (backup nodo bat eta Cloudera BDR - Backup and Disaster Recovery barne). Atos Codex Data Lake Engine ziurtagiria duen lehen birtualizazio irtenbidea da
Xehetasunak interesatzen bazaizkizu, pozik erantzungo ditugu gure galderei iruzkinetan.
Iturria: www.habr.com