Clouderak zer berezitasun duen eta nola prestatu

Banatutako konputazioaren eta big dataren merkatua, arabera estatistikak, urtean %18-19 hazten ari da. Horrek esan nahi du helburu horietarako softwarea aukeratzearen gaiak garrantzitsua izaten jarraitzen duela. Post honetan, konputazio banatua zergatik behar dugun azaltzen hasiko gara, softwarearen aukeraketan sakonduko dugu, Hadoop Clouderarekin erabiltzeari buruz hitz egingo dugu eta, azkenik, hardwarearen aukeraketaz eta errendimenduan nola eragiten duen hitz egingo dugu. modu ezberdinetan.

Clouderak zer berezitasun duen eta nola prestatu
Zergatik behar dugu informatika banatua negozio arruntetan? Dena sinplea eta konplikatua da aldi berean. Sinplea - kasu gehienetan informazio unitate bakoitzeko kalkulu erraz samarrak egiten ditugulako. Zaila - informazio hori asko dagoelako. Hainbeste. Ondorioz, bat egin behar da terabyte datuak prozesatu 1000 haritan. Beraz, erabilera kasuak nahiko unibertsalak dira: kalkuluak behar den lekuan aplika daitezke datu-matrize are handiagoan metrika-kopuru handia kontuan hartzeko.

Adibide berri bat: Dodo Pizza definitu Bezeroen eskaera-oinarriaren analisian oinarrituta, osagarri arbitrarioekin pizza bat aukeratzerakoan, erabiltzaileek normalean oinarrizko sei osagai-multzo soilik gehi ausazko pare batekin funtzionatzen dute. Horren arabera, pizzeriak erosketak egokitu zituen. Horrez gain, eskaera fasean eskaintzen diren produktu osagarriak hobeto gomendatu ahal izan zituen erabiltzaileei, eta horrek irabaziak handitu zituen.

Beste adibide bat: azterketa salgaiak H&M-k banakako dendetan sorta %40 murriztea ahalbidetu zuen, salmenta maila mantenduz. Gaizki saltzen ziren posizioak baztertuz lortu zen, eta kalkuluetan urtarokotasuna kontuan izan zen.

Erreminta hautatzea

Informatika mota honen industria estandarra Hadoop da. Zergatik? Hadoop marko bikaina eta ongi dokumentatua delako (Habr berak gai honi buruzko artikulu zehatz asko ematen ditu), erabilgarritasun eta liburutegi multzo oso batekin batera. Datu egituratu eta egituratu gabekoen multzo erraldoiak bidal ditzakezu sarrera gisa, eta sistemak berak banatuko ditu konputazio-potentziaren artean. Gainera, ahalmen horiek edozein unetan handitu edo desgaitu daitezke - eskalagarritasun horizontal bera ekintzan.

2017an, Gartner aholkularitza konpainia eragingarria ondorioztatu zuenHadoop laster zaharkituta geratuko dela. Arrazoia nahiko hutsala da: analistek uste dute enpresek masiboki migratuko dutela hodeira, han konputazio-ahalmenaren erabileran oinarrituta ordaindu ahal izango baitute. Ustez Hadoop "lurperatzeko" gai den bigarren faktore garrantzitsua lanaren abiadura da. Apache Spark edo Google Cloud DataFlow bezalako aukerak MapReduce azpian dagoen Hadoop baino azkarragoak direlako.

Hadoop hainbat zutabetan oinarritzen da, eta horien artean nabarmenenak MapReduce teknologiak (zerbitzarien artean kalkuluak egiteko datuak banatzeko sistema) eta HDFS fitxategi sistema dira. Azken hau berariaz diseinatuta dago cluster-nodoen artean banatutako informazioa gordetzeko: tamaina finkoko bloke bakoitza hainbat nodotan jar daiteke, eta erreplikazioari esker, sistemak erresistentea du banakako nodoen hutsegiteen aurrean. Fitxategi-taula baten ordez, NameNode izeneko zerbitzari berezi bat erabiltzen da.

Beheko ilustrazioak MapReduce nola funtzionatzen duen erakusten du. Lehen fasean, datuak atributu jakin baten arabera banatzen dira, bigarren fasean konputazio potentziaren arabera banatzen da, hirugarren fasean kalkulua egiten da.

Clouderak zer berezitasun duen eta nola prestatu
MapReduce Google-k sortu zuen bere bilaketaren beharretarako. Orduan MapReduce kode librean sartu zen, eta Apachek hartu zuen proiektua. Beno, Google pixkanaka beste irtenbide batzuetara migratu zen. Γ‘abardura interesgarri bat: momentuz, Google-k Google Cloud Dataflow izeneko proiektua du, Hadoop-en ondorengo hurrengo urrats gisa kokatua, bere ordezko azkar gisa.

Begirada hurbilago batek erakusten du Google Cloud Dataflow Apache Beam-en aldakuntza batean oinarritzen dela, eta Apache Beam-ek, berriz, ondo dokumentatuta dagoen Apache Spark esparrua barne hartzen du, eta horrek soluzioen exekuzio abiadura ia berari buruz hitz egiteko aukera ematen digu. Tira, Apache Spark-ek ondo funtzionatzen du HDFS fitxategi-sisteman, eta horrek Hadoop zerbitzarietan zabaltzeko aukera ematen du.

Gehitu hemen Google Cloud Dataflow-en Hadoop eta Spark-entzako dokumentazio-bolumena eta prest dauden soluzioen bolumena, eta bistakoa da tresnaren aukera. Gainera, ingeniariek beraiek erabaki dezakete zein kode exekutatu (Hadoop edo Spark pean), zereginean, esperientzian eta kualifikazioetan zentratuz.

Hodeiko edo tokiko zerbitzaria

Hodeirako trantsizio orokorrerako joerak Hadoop-as-a-service bezalako termino interesgarri bat ere sortu du. Horrelako eszenatoki batean, konektatutako zerbitzarien administrazioa oso garrantzitsua bihurtu da. Zeren, tamalez, ospea izan arren, Hadoop hutsa konfiguratzeko tresna zaila da, eskuz asko egin behar baita. Adibidez, zerbitzariak banan-banan konfigura ditzakezu, haien errendimendua kontrolatu eta parametro asko finkatu. Oro har, afizionatu batentzat lan egin eta nonbait izorratzeko edo zerbait galtzeko aukera handia dago.

Hori dela eta, hainbat banaketa oso ezagunak bihurtu dira, hasiera batean hedapen eta administrazio tresna erosoekin hornituta daudenak. Spark onartzen duen eta gauzak errazten dituen banaketa ezagunenetako bat Cloudera da. Ordainpeko zein doako bertsioak ditu, eta azken honetan, funtzionalitate nagusi guztiak eskuragarri daude, eta nodo kopurua mugatu gabe.

Clouderak zer berezitasun duen eta nola prestatu

Konfigurazioan, Cloudera Manager SSH bidez konektatuko da zure zerbitzarietara. Puntu interesgarri bat: instalatzerakoan, hobe da zehaztea deitzen denak egingo duela fardelak: pakete bereziak, bakoitzak elkarren artean lan egiteko konfiguratutako beharrezko osagai guztiak ditu. Izan ere, paketeen kudeatzailearen bertsio hobetua da hau.

Instalatu ondoren, kluster kudeatzeko kontsola bat lortzen dugu, non klusterren telemetria ikus dezakezun, instalatutako zerbitzuak, gainera baliabideak gehitu / kendu eta kluster konfigurazioa edita dezakezu.

Clouderak zer berezitasun duen eta nola prestatu

Ondorioz, suziri horren mozketa agertzen da zure aurrean, eta horrek BigDataren etorkizun distiratsura eramango zaitu. Baina "goaz" esan baino lehen, goazen azkar aurrera kaputxa azpian.

hardware-eskakizunak

Euren webgunean, Clouderak konfigurazio posible desberdinak aipatzen ditu. Hauek eraikitzen dituzten printzipio orokorrak ilustrazioan erakusten dira:

Clouderak zer berezitasun duen eta nola prestatu
MapReduce-k irudi baikor hau lausotu dezake. Aurreko ataleko diagrama berriro begiratuz, argi geratzen da ia kasu guztietan, MapReduce lan batek estutu dezakeela diskoko edo sareko datuak irakurtzerakoan. Cloudera blogean ere ageri da hori. Ondorioz, edozein kalkulu azkar egiteko, Spark bidez barne, denbora errealean kalkuluetarako erabili ohi dena, I/O abiadura oso garrantzitsua da. Hori dela eta, Hadoop erabiltzean, oso garrantzitsua da makina orekatuak eta azkarrak klusterrean sartzea, eta hori, nolabait esateko, ez da beti hodeiko azpiegituran eskaintzen.

Karga banaketaren oreka Openstack birtualizazioa erabiliz lortzen da nukleo anitzeko CPU indartsuak dituzten zerbitzarietan. Datu-nodoei beren prozesadore-baliabideak eta zenbait disko esleitzen zaizkie. Gure soluzioan Atos Codex Data Lake Motorra birtualizazio zabala lortzen da, eta horregatik irabazten dugu bai errendimenduan (sare-azpiegituren eragina gutxitu egiten da) bai TCO (zerbitzari fisiko gehigarriak ezabatzen dira).

Clouderak zer berezitasun duen eta nola prestatu
BullSequana S200 zerbitzariak erabiltzearen kasuan, oso karga uniformea ​​lortzen dugu, botila-lepo batzuk gabe. Gutxieneko konfigurazioak 3 BullSequana S200 zerbitzari barne hartzen ditu, bakoitza bi JBODrekin, eta lau datu-nodo dituzten S200 osagarriak aukeran konektatuta daude. Hona hemen TeraGen proba bateko karga adibide bat:

Clouderak zer berezitasun duen eta nola prestatu

Datu-bolumen eta erreplikazio-balio desberdinekin egindako probek emaitza berdinak erakusten dituzte kluster-nodoen karga-banaketari dagokionez. Jarraian, errendimendu proben arabera diskorako sarbidearen banaketaren grafikoa dago.

Clouderak zer berezitasun duen eta nola prestatu

Kalkuluak 3 BullSequana S200 zerbitzariren gutxieneko konfigurazioan oinarritzen dira. 9 datu-nodo eta 3 nodo nagusi biltzen ditu, baita erreserbatutako makina birtualak ere, OpenStack Birtualizazioan oinarritutako babesa zabaltzen bada. TeraSort probaren emaitza: enkriptatutako hiruko erreplikazio-faktore baten 512 MB bloke-tamaina 23,1 minutukoa da.

Nola zabaldu daiteke sistema? Data Lake Engine-rako hainbat luzapen mota daude eskuragarri:

  • Datu-nodoak: erabilgarri dagoen 40 TBko espazio bakoitzeko
  • GPU bat instalatzeko gaitasuna duten nodo analitikoak
  • Negozioaren beharren araberako beste aukera batzuk (adibidez, Kafka eta antzekoak behar badituzu)

Clouderak zer berezitasun duen eta nola prestatu

Atos Codex Data Lake Engine konplexuak zerbitzariak berak eta aurrez instalatutako softwarea barne hartzen ditu, lizentzia duen Cloudera kit-a barne; Hadoop bera, OpenStack RedHat Enterprise Linux nukleoan oinarritutako makina birtualekin, datuen erreplikazioa eta babeskopia sistemak (backup nodo bat eta Cloudera BDR - Backup and Disaster Recovery barne). Atos Codex Data Lake Engine ziurtagiria duen lehen birtualizazio irtenbidea da cloudera.

Xehetasunak interesatzen bazaizkizu, pozik erantzungo ditugu gure galderei iruzkinetan.

Iturria: www.habr.com

Gehitu iruzkin berria