Biltegiratze masiboko industriaren joerak

Gaur bosgarren belaunaldiko sareek, genoma-eskanerrek eta auto gidatzen duten autoek industria-iraultza baino lehen gizateriak baino datu gehiago ekoizten dituzten mundu batean datuak nola gorde behar diren hitz egingo dugu.

Biltegiratze masiboko industriaren joerak

Gure mundua gero eta informazio gehiago sortzen ari da. Zati bat iheskorra da eta bildu bezain azkar galtzen da. Beste bat denbora luzeagoan gorde behar da, eta beste bat "mendeetarako" diseinatuta dago - hori da behintzat gaur egun ikusten duguna. Informazio-fluxuak datu-zentroetan halako abiaduran finkatzen dira, non ikuspegi berri oro, "eskari" amaigabe hori asetzeko diseinatutako edozein teknologia azkar zaharkitzen baita.

Biltegiratze masiboko industriaren joerak

40 urteko biltegiratze sistema banatuen garapena

Ezagutzen dugun formako lehen sare biltegiratzea 1980ko hamarkadan agertu zen. Zuetako askok NFS (Network File System), AFS (Andrew File System) edo Coda topatu dituzue. Hamarkada bat geroago, moda eta teknologia aldatu egin dira, eta banatutako fitxategi-sistemei lekua utzi diete GPFS (General Parallel File System), CFS (Clustered File Systems) eta StorNext-en oinarritutako biltegiratze-sistemei. Arkitektura klasikoaren bloke-biltegiratzea erabili zen oinarri gisa, eta horren gainean fitxategi-sistema bakarra sortu zen software geruza erabiliz. Hauek eta antzeko irtenbideak oraindik erabiltzen dira, beren nitxoa okupatzen dute eta nahiko eskariak dira.

Milurtekoaren amaieran, biltegiratze banatuaren paradigma zertxobait aldatu zen, eta SN (Shared-Nothing) arkitektura zuten sistemak hartu zituzten liderrak. Kluster-biltegiratzetik nodo indibidualetan biltegiratzera igaro da, eta, oro har, zerbitzari klasikoak ziren biltegiratze fidagarria ematen zuen softwarearekin; Printzipio horien arabera, esate baterako, HDFS (Hadoop Distributed File System) eta GFS (Global File System) eraikitzen dira.

2010eko hamarkadatik hurbilago, banatutako biltegiratze sistemen azpian dauden kontzeptuak gero eta gehiago islatzen hasi ziren produktu komertzial osoetan, hala nola VMware vSAN, Dell EMC Isilon eta gure Huawei OceanStor. Aipatutako plataformen atzean jada ez dago zaletuen komunitate bat, produktuaren funtzionaltasunaz, euskarriaz eta zerbitzuaz arduratzen diren saltzaile espezifikoak baizik eta garapena bermatzen dutenak. Horrelako irtenbideak hainbat arlotan eskatzen dira gehien.

Biltegiratze masiboko industriaren joerak

Telekomunikazio-operadoreak

Beharbada, biltegiratze banatuko sistemen kontsumitzaile zaharrenetako bat telekomunikazio-operadoreak dira. Diagramak erakusten du zein aplikazio taldek sortzen duten datu gehiena. OSS (Operations Support Systems), MSS (Management Support Services) eta BSS (Business Support Systems) harpidedunei zerbitzua emateko, hornitzaileari finantza-txostenak eta operadore-ingeniariei laguntza operatiboa emateko behar diren hiru software-geruza osagarri dira.

Sarritan, geruza horien datuak asko nahasten dira elkarren artean, eta beharrezkoak ez diren kopiak pilatzea saihesteko, biltegiratze banatua erabiltzen da, sare eragiletik datorren informazio kopuru osoa pilatzen duena. Trastelekuak igerileku komun batean konbinatzen dira, zerbitzu guztietara sartzeko.

Gure kalkuluek erakusten dute biltegiratze-sistema klasikoetatik bloke-biltegiratze-sistemetara igarotzeak aurrekontuaren % 70 arte aurrezteko aukera ematen duela, goi-end biltegiratze-sistema dedikatuak alde batera utziz eta arkitektura klasikoko ohiko zerbitzariak erabiliz (normalean x86), espezializatuekin batera lan eginez. softwarea. Operadore mugikorrak aspaldi hasi dira horrelako irtenbideak kantitate handietan erosten. Hain zuzen ere, Errusiako operadoreek sei urte baino gehiago daramatzate Huaweiren horrelako produktuak erabiltzen.

Bai, hainbat ataza ezin dira osatu sistema banatuak erabiliz. Adibidez, errendimendu-eskakizunak handitu edo protokolo zaharragoekin bateragarritasuna. Baina operadoreak prozesatutako datuen % 70 gutxienez banatutako igerileku batean egon daiteke.

Biltegiratze masiboko industriaren joerak

Banku sektorea

Edozein bankutan informatika sistema ezberdin asko daude, prozesatutik hasi eta banku sistema automatizatu batekin amaituz. Azpiegitura honek informazio kopuru handiarekin ere funtzionatzen du, eta zeregin gehienek ez dute biltegiratze sistemen errendimendu eta fidagarritasun handitu behar, adibidez, garapena, probak, bulegoko prozesuen automatizazioa, etab. Hemen biltegiratze sistema klasikoak erabiltzea posible da. baina urtero-urtero gero eta errentagarri gutxiago. Horrez gain, kasu honetan ez dago malgutasunik biltegiratze-sistemako baliabideen erabileran, eta horien errendimendua karga gorenaren arabera kalkulatzen da.

Banatutako biltegiratze sistemak erabiltzean, haien nodoak, izatez zerbitzari arruntak direnez, edozein unetan bihur daitezke, adibidez, zerbitzari baserri batean eta informatika-plataforma gisa erabil daitezke.

Biltegiratze masiboko industriaren joerak

Datu-lakuak

Goiko diagraman zerbitzu-kontsumitzaile tipikoen zerrenda erakusten da datu-lakua. Hauek izan litezke administrazio elektronikoko zerbitzuak (adibidez, "Gobernu Zerbitzuak"), digitalizatutako enpresak, finantza-erakundeak... Horiek guztiek informazio heterogeneo-bolumen handiarekin lan egin behar dute.

Arazoak konpontzeko biltegiratze-sistema klasikoak erabiltzea ez da eraginkorra, datu-baseak blokeatzeko errendimendu handiko sarbidea eta objektu gisa gordetako eskaneatutako dokumentuen liburutegietarako ohiko sarbidea behar baitu. Adibidez, web atari baten bidez eskatzeko sistema bat ere esteka daiteke hemen. Hori guztia biltegiratze-plataforma klasiko batean ezartzeko, hainbat zereginetarako ekipamendu multzo handi bat beharko duzu. Biltegiratze sistema unibertsal horizontal batek aurretik zerrendatutako zeregin guztiak bete ditzake: biltegiratze-ezaugarri desberdinak dituzten hainbat igerileku sortu besterik ez duzu behar.

Biltegiratze masiboko industriaren joerak

Informazio berriaren sortzaileak

Munduan gordetako informazio kopurua urtean %30 inguru hazten ari da. Albiste ona da biltegiratze-saltzaileentzat, baina zein da eta izango da datu horien iturri nagusia?

Duela hamar urte, sare sozialak halako sorgailu bihurtu ziren, eta horretarako algoritmo berri, hardware irtenbide eta abar ugari sortu behar ziren. Gaur egun, hiru motor nagusi daude biltegiratze-bolumenak hazteko. Lehenengoa hodeiko informatika da. Gaur egun, enpresen %70 gutxi gorabehera hodeiko zerbitzuak era batera edo bestera erabiltzen ditu. Hauek izan daitezke posta elektronikoko sistemak, babeskopiak eta birtualizatutako beste entitate batzuk.
Bigarren kontrolatzailea bosgarren belaunaldiko sareak dira. Hauek abiadura berriak eta datu-transferentzia-bolumen berriak dira. Gure aurreikuspenen arabera, 5G hedatu izanak flash memoria txartelen eskaeraren beherakada ekarriko du. Telefonoan zenbat memoria dagoen, oraindik agortzen da, eta tramankuluak 100 megabiteko kanala badu, ez dago argazkiak lokalean gorde beharrik.

Biltegiratze sistemen eskaria hazten ari den hirugarren arrazoien multzoa honako hauek dira: adimen artifizialaren garapen azkarra, big data analitikarako trantsizioa eta ahal den guztiaren automatizazio unibertsalerako joera.

"Trafiko berriaren" ezaugarri bat berea da egitura eza. Datu hauek bere formatua inola ere definitu gabe gorde behar ditugu. Ondorengo irakurketarako bakarrik beharrezkoa da. Esaterako, eskuragarri dagoen maileguaren zenbatekoa zehazteko, banku-puntuazio-sistema batek sare sozialetan argitaratzen dituzun argazkiak aztertuko ditu, itsasora eta jatetxeetan sarri joaten zaren zehaztuko du eta, aldi berean, eskuragarri dauden zure mediku dokumentuen laburpenak aztertuko ditu. hari. Datu hauek, batetik, osoak dira, baina, bestetik, homogeneotasunik ez dute.

Biltegiratze masiboko industriaren joerak

Egituratu gabeko datuen ozeanoa

Zer arazo dakar β€œdatu berriak” agertzeak? Horien artean lehena, jakina, informazio-bolumen handia eta biltegiratze-denbora estimatua da. Gidaririk gabeko auto autonomo moderno batek bakarrik 60 terabyte datu sortzen ditu egunero bere sentsore eta mekanismo guztietatik. Mugimendu-algoritmo berriak garatzeko, informazio hori egun berean prozesatu behar da, bestela pilatzen hasiko da. Aldi berean, oso denbora luzez gorde behar da - hamarkadetan. Orduan bakarrik izango da posible etorkizunean ondorioak ateratzea lagin analitiko handietan oinarrituta.

Sekuentzia genetikoak deszifratzeko gailu batek 6 TB inguru sortzen ditu egunean. Eta bere laguntzarekin bildutako datuek ez dute batere ezabatzea suposatzen, hau da, hipotetikoki, betirako gorde beharko lirateke.

Azkenik, bosgarren belaunaldiko sare berdinak. Benetako igorritako informazioaz gain, sare hori bera datu-sortzaile izugarria da: jarduera-erregistroak, deien erregistroak, makina-makina elkarreraginen tarteko emaitzak, etab.

Horrek guztiak informazioa gordetzeko eta prozesatzeko ikuspegi eta algoritmo berriak garatzea eskatzen du. Eta halako planteamenduak sortzen ari dira.

Biltegiratze masiboko industriaren joerak

Garai berrietako teknologiak

Informazioa biltegiratzeko sistemen eskakizun berriei aurre egiteko diseinatutako hiru irtenbide multzo daude: adimen artifizialaren sarrera, biltegiratze euskarrien bilakaera teknikoa eta sistema arkitekturaren alorreko berrikuntzak. Has gaitezen AIarekin.

Biltegiratze masiboko industriaren joerak

Huawei soluzio berrietan, adimen artifiziala biltegiratze mailan erabiltzen da, zeina AI prozesadore batez hornituta baitago, sistemari bere egoera modu independentean aztertzeko eta akatsak aurreikusteko. Biltegiratze-sistema informatika-gaitasun garrantzitsuak dituen zerbitzu-hodei batera konektatuta badago, adimen artifizialak informazio gehiago prozesatu eta bere hipotesien zehaztasuna areagotu ahal izango du.

Porrotez gain, AI horrek etorkizuneko karga gailurra eta edukiera agortu arte geratzen den denbora aurreikus dezake. Horri esker, errendimendua optimizatu eta sistema eskala dezakezu nahi ez diren gertakariak gertatu aurretik.

Biltegiratze masiboko industriaren joerak

Orain biltegiratze euskarrien bilakaerari buruz. Lehenengo flash unitateak SLC (Single-Level Cell) teknologia erabiliz egin ziren. Bertan oinarritutako gailuak azkarrak, fidagarriak, egonkorrak ziren, baina gaitasun txikia zuten eta oso garestiak ziren. Bolumenaren hazkundea eta prezioen murrizketa zenbait emakida teknikoren bidez lortu ziren, eta, ondorioz, diskoen abiadura, fidagarritasuna eta zerbitzu-bizitza murriztu ziren. Dena den, joerak ez zuen biltegiratze-sistemei beraiek eragin, eta, arkitektura-trikimailu ezberdinen ondorioz, orokorrean produktiboagoak eta fidagarriagoak ziren.

Baina zergatik behar zenituen All-Flash biltegiratze sistemak? Ez al zen nahikoa sistema eragile bateko HDD zaharrak forma-faktore bereko SSD berriekin ordezkatzea? Hau beharrezkoa zen egoera solidoko unitate berrien baliabide guztiak eraginkortasunez erabiltzeko, sistema zaharretan ezinezkoa zena.

Huaweik, esaterako, hainbat teknologia garatu ditu arazo hori konpontzeko, horietako bat FlashLink, "disko-kontrolatzailea" elkarrekintzak ahalik eta gehien optimizatzea ahalbidetu zuen.

Identifikazio adimendunak datuak hainbat korrontetan deskonposatu eta fenomeno desiragarri batzuei aurre egitea ahalbidetu zuen, hala nola WA (idatzi anplifikazioa). Aldi berean, berreskuratzeko algoritmo berriak, bereziki RAID 2.0+, berreraikitzeko abiadura handitu zuen, bere denbora kopuru guztiz hutsaletara murriztuz.

Porrotak, jendez gainezka, zabor bilketa - faktore hauek ez dute biltegiratze sistemaren errendimenduan eragiten kontrolagailuen aldaketa bereziei esker.

Biltegiratze masiboko industriaren joerak

Eta bloke-datuen biltegiratzeak ere elkartzeko prestatzen ari dira NVMe. Gogora dezagun datuen sarbidea antolatzeko eskema klasikoak horrela funtzionatzen zuela: prozesadoreak PCI Express busaren bidez RAID kontrolagailura sartzen zuen. Horrek, aldi berean, disko mekanikoekin SCSI edo SAS bidez elkarreragiten zuen. Backend-ean NVMe erabiltzeak prozesu osoa nabarmen azkartu zuen, baina eragozpen bat zuen: unitateak zuzenean prozesadorera konektatu behar ziren memoriarako sarbide zuzena emateko.

Orain ikusten ari garen teknologiaren garapenaren hurrengo fasea NVMe-oF (NVMe over Fabrics) erabiltzea da. Huawei bloke-teknologiei dagokienez, dagoeneko onartzen dute FC-NVMe (NVMe Fibre Channel bidez) eta NVMe over RoCE (RDMA over Converged Ethernet) bidean da. Proba ereduak nahiko funtzionalak dira; hilabete batzuk falta dira aurkezteko ofizialki aurkezteko. Kontuan izan hori guztia sistema banatuetan agertuko dela, non "galerarik gabeko Ethernet" eskaera handia izango den.

Biltegiratze masiboko industriaren joerak

Biltegiratze banatuaren funtzionamendua optimizatzeko beste modu bat datuen ispilua erabat uztea izan zen. Huawei-ren soluzioek jada ez dute n kopia erabiltzen, ohiko RAID 1ean bezala, eta guztiz aldatzen dira EC (Ezabatu kodeketa). Matematika-pakete berezi batek kontrol-blokeak kalkulatzen ditu aldizkakotasun jakin batean, galeraren kasuan tarteko datuak berreskuratzeko aukera ematen dutenak.

Desduplicazio eta konpresio mekanismoak derrigorrezko bihurtzen dira. Biltegiratze sistema klasikoetan kontrolagailuetan instalatutako prozesadore kopuruak mugatzen baditugu, horizontalki eskalagarriak diren biltegiratze sistemetan, nodo bakoitzak beharrezko guztia dauka: diskoak, memoria, prozesadoreak eta interkonexioa. Baliabide hauek nahikoak dira deduplicazioak eta konpresioak errendimenduan eragin minimoa izan dezaten ziurtatzeko.

Eta hardware optimizazio metodoei buruz. Hemen prozesadore zentralen karga murriztea posible zen txip dedikatu gehigarrien (edo prozesadorean bertan bloke dedikatuen) laguntzarekin, zeinek papera betetzen duten. TOE (TCP/IP Offload Engine) edo EC, deduplication eta konpresioaren zeregin matematikoak hartzea.

Biltegiratze masiboko industriaren joerak

Datuak biltegiratzeko ikuspegi berriak arkitektura banatu (banatua) batean jasotzen dira. Biltegiratze zentralizatuko sistemek zerbitzari-fabrika bat dute Fibre Channel bidez konektatuta SAN array askorekin. Ikuspegi honen desabantailak eskalatzeko eta zerbitzu maila bermatzeko zailtasuna dira (errendimendu edo latentziari dagokionez). Hiperkonbergentziako sistemek ostalari berdinak erabiltzen dituzte informazioa gordetzeko eta prozesatzeko. Horrek eskalatzeko esparru ia mugagabea ematen du, baina datuen osotasuna mantentzeko kostu handiak dakartza.

Aurreko biek ez bezala, arkitektura desagregatua dakar sistema informatika ehun batean eta biltegiratze sistema horizontal batean banatuz. Honek bi arkitekturaren onurak eskaintzen ditu eta errendimendua falta duen elementuaren eskalatze ia mugagabea ahalbidetzen du.

Biltegiratze masiboko industriaren joerak

Integraziotik konbergentziara

Zeregin klasiko bat, zeinaren garrantzia azken 15 urteotan hazi baino ez da egin, aldi berean blokeen biltegiratzea, fitxategien sarbidea, objektuetarako sarbidea, big data farm baten funtzionamendua eta abar eskaintzea da. izan, adibidez, zinta magnetikoko babeskopia-sistema.

Lehenengo fasean, zerbitzu horien kudeaketa soilik bateratu ahal izan zen. Datuak biltegiratzeko sistema heterogeneoak software espezializatu batzuetara konektatu ziren, eta horren bidez administratzaileak baliabideak banatzen zituen erabilgarri dauden igerilekuetatik. Baina igerileku hauek hardware desberdina zutenez, haien arteko karga-migrazioa ezinezkoa zen. Integrazio maila altuago batean, agregazioa atebide mailan gertatu da. Fitxategiak partekatzea eskuragarri egongo balitz, protokolo ezberdinen bidez zerbitza liteke.

Gaur egun eskura dugun konbergentzia-metodorik aurreratuenak sistema hibrido unibertsal bat sortzea dakar. Zehazki gurea bihurtu beharko litzatekeena OceanStor 100D. Sarbide unibertsalak hardware baliabide berdinak erabiltzen ditu, logikoki multzo ezberdinetan banatuta, baina karga-migrazioa ahalbidetzen du. Hori guztia kudeaketa kontsola bakar baten bidez egin daiteke. Horrela, "datu zentro bat - biltegiratze sistema bat" kontzeptua ezarri ahal izan dugu.

Biltegiratze masiboko industriaren joerak

Informazioa gordetzearen kostuak erabaki arkitektoniko asko erabakitzen ditu. Eta segurtasunez abangoardian jar daitekeen arren, gaur sarbide aktiboarekin biltegiratze "zuzeneko" eztabaidatzen ari gara, beraz, errendimendua ere kontuan hartu behar da. Hurrengo belaunaldiko sistema banatuen beste propietate garrantzitsu bat bateratzea da. Azken finean, inork ez du nahi hainbat sistema ezberdin kontrolatuta kontsola ezberdinetatik. Kualitate horiek guztiak Huawei produktuen serie berrian jasota daude OceanStor Pazifikoa.

Belaunaldi berriko biltegiratze masiboko sistema

OceanStor Pacific-ek sei-bederatzi fidagarritasun baldintzak betetzen ditu (% 99,9999) eta HyperMetro klaseko datu-zentroak sortzeko erabil daiteke. Gehienez 100 km-ko bi datu-zentroren arteko distantzia izanik, sistemek 2 ms-ko latentzia gehigarria erakusten dute, eta horri esker, hondamendiei aurre egiteko irtenbide guztiak eraiki daitezke, quorum zerbitzariak barne.

Biltegiratze masiboko industriaren joerak

Serieko produktu berriek protokoloaren aldakortasuna erakusten dute. Dagoeneko, OceanStor 100D-k bloke sarbidea, objektuen sarbidea eta Hadoop sarbidea onartzen ditu. Fitxategien sarbidea ere etorkizun hurbilean ezarriko da. Ez dago datuen kopia anitz gorde beharrik protokolo ezberdinen bidez igor daitezke.

Biltegiratze masiboko industriaren joerak

Badirudi, zerikusi du β€œgalerarik gabeko sare” kontzeptuak biltegiratze sistemekin? Kontua da banatutako datuak biltegiratzeko sistemak algoritmo egokiak eta RoCE mekanismoa onartzen dituen sare azkar batean oinarrituta eraikitzen direla. Gure etengailuek onartzen duten adimen artifizialaren sistemak sarearen abiadura areagotzen eta latentzia murrizten laguntzen du. AI ehuna. Biltegiratze-errendimenduaren irabazia AI Fabric aktibatzen denean %20ra irits daiteke.

Biltegiratze masiboko industriaren joerak

Zer da OceanStor Pacific banatutako biltegiratze-nodo berria? 5U forma-faktorearen irtenbideak 120 unitate ditu eta hiru nodo klasiko ordezkatu ditzake, eta horrek bikoitza baino gehiago aurrezten du rack espazioan. Kopiak ez gordeta, unitateen eraginkortasuna nabarmen handitzen da (% +92 arte).

Ohituta gaude softwareak definitutako biltegiratzea zerbitzari klasiko batean instalatutako software berezia dela. Baina orain, parametro optimoak lortzeko, soluzio arkitektoniko honek nodo bereziak ere behar ditu. Hiru hazbeteko unitate sorta bat kudeatzen duten ARM prozesadoreetan oinarritutako bi zerbitzariz osatuta dago.

Biltegiratze masiboko industriaren joerak

Zerbitzari hauek ez dira egokiak soluzio hiperkonbergatuetarako. Lehenik eta behin, ARMrako aplikazio dezente daude, eta, bigarrenik, zaila da karga oreka mantentzea. Biltegiratze bereiztera pasatzea proposatzen dugu: informatika-kluster batek, zerbitzari klasikoek edo rack-ek irudikatuta, bereiz funtzionatzen du, baina OceanStor Pacific biltegiratze-nodoetara konektatuta dago, hauek ere beren zeregin zuzenak betetzen dituzten. Eta bere burua justifikatzen du.

Adibidez, har dezagun datu handiak biltegiratzeko soluzio klasiko bat, 15 zerbitzari rack hartzen dituen sistema hiperkonbergatu batekin. Karga informatika zerbitzari bereizi eta OceanStor Pacific biltegiratze-nodoen artean banatzen baduzu, elkarrengandik bereiziz, beharrezkoak diren rack-kopurua erdira murriztuko da! Horrek datu-zentroaren funtzionamendu-kostuak murrizten ditu eta jabetza-kostu osoa murrizten du. Biltegiratutako informazio-bolumena urtean %30 hazten ari den mundu honetan, horrelako abantailak ez dira botatzen.

***

Huawei soluzioei eta haien aplikazio-egoerei buruzko informazio gehiago lor dezakezu gure webgunean Online edo zuzenean enpresen ordezkariekin harremanetan jarriz.

Iturria: www.habr.com

Gehitu iruzkin berria