Tsjintwurdich sille wy prate oer hoe't jo gegevens it bêste kinne opslaan yn in wrâld wêr't netwurken fan fyfde generaasje, genome scanners en selsridende auto's mear gegevens per dei produsearje dan it heule minskdom generearre foar de yndustriële revolúsje.
Us wrâld genereart hieltyd mear ynformaasje. In part fan it is flechtich en wurdt ferlern sa gau as it wurdt sammele. In oar moat langer wurde opslein, en in oar is sels "foar ieuwen" ûntworpen - teminsten dat is wat wy sjogge út it hjoeddeiske. Ynformaasjestreamen regelje yn datasintra mei sa'n snelheid dat elke nije oanpak, elke technology ûntworpen om te foldwaan oan dizze einleaze "fraach" gau ferâldere wurdt.
40 jier ûntwikkeling fan ferspraat opslachsystemen
De earste netwurk opslach yn 'e foarm dy't wy binne bekend mei ferskynde yn' e jierren 1980. In protte fan jo binne NFS (Network File System), AFS (Andrew File System) of Coda tsjinkaam. In tsien jier letter binne moade en technology feroare, en ferspraat bestânsystemen hawwe plak makke foar klustere opslachsystemen basearre op GPFS (Algemien Parallel File System), CFS (Clustered File Systems) en StorNext. Blok opslach fan klassike arsjitektuer waard brûkt as basis, boppedat waard makke in inkele triem systeem mei help fan in software laach. Dizze en ferlykbere oplossingen wurde noch brûkt, besette har niche en binne frijwat yn 'e fraach.
Oan 'e wiksel fan it millennium feroare it ferspraat opslachparadigma wat, en systemen mei SN (Shared-Nothing) arsjitektuer namen de liedende posysjes. Der is in oergong west fan klusteropslach nei opslach op yndividuele knopen, dy't, yn 'e regel, klassike tsjinners wiene mei software dy't betroubere opslach leveret; Op sokke prinsipes, sizze, binne HDFS (Hadoop Distributed File System) en GFS (Global File System) boud.
Tichter by de 2010's begûnen de konsepten dy't ûnderlizzende distribúsje opslachsystemen hyltyd mear te wjerspegeljen yn folweardige kommersjele produkten, lykas VMware vSAN, Dell EMC Isilon en ús
Telecom operators
Miskien is ien fan 'e âldste konsuminten fan ferdielde opslachsystemen telekomoperators. It diagram lit sjen hokker groepen applikaasjes it grutste part fan gegevens produsearje. OSS (Operations Support Systems), MSS (Management Support Services) en BSS (Business Support Systems) fertsjintwurdigje trije komplemintêre softwarelagen dy't nedich binne om tsjinst te leverjen oan abonnees, finansjele rapportaazje oan 'e provider en operasjonele stipe oan operator-yngenieurs.
Faak wurde de gegevens fan dizze lagen swier mei elkoar mingd, en om it sammeljen fan ûnnedige kopyen te foarkommen, wurdt ferdielde opslach brûkt, dy't de heule hoemannichte ynformaasje sammelt dy't út it bestjoeringsnetwurk komt. De opslach wurdt kombinearre yn in mienskiplik swimbad, dat is tagonklik troch alle tsjinsten.
Us berekkeningen litte sjen dat de oergong fan klassike opslachsystemen nei blokkearjende opslachsystemen jo kinne besparje oant 70% fan it budzjet allinich troch it ferlitten fan tawijde hi-end opslachsystemen en gebrûk fan konvinsjonele klassike arsjitektuerservers (meastentiids x86), wurkje yn gearhing mei spesjalisearre software. Sellulêre operators binne lang lyn begon te keapjen fan sokke oplossingen yn grutte hoemannichten. Benammen Russyske operators brûke sokke produkten fan Huawei foar mear dan seis jier.
Ja, in oantal taken kinne net foltôge wurde mei ferdielde systemen. Bygelyks mei ferhege prestaasjeseasken of kompatibiliteit mei âldere protokollen. Mar op syn minst 70% fan de gegevens ferwurke troch de operator kin lizze yn in ferspraat swimbad.
Banking sektor
Yn elke bank binne d'r in protte ferskillende IT-systemen, begjinnend fan ferwurking en einigje mei in automatisearre banksysteem. Dizze ynfrastruktuer wurket ek mei in enoarme hoemannichte ynformaasje, wylst de measte taken gjin ferhege prestaasjes en betrouberens fan opslachsystemen nedich binne, bygelyks ûntwikkeling, testen, automatisearring fan kantoarprosessen, ensfh. Hjir is it gebrûk fan klassike opslachsystemen mooglik, mar alle jierren is it minder en minder rendabel. Derneist, yn dit gefal is d'r gjin fleksibiliteit yn it brûken fan boarnen fan opslachsysteem, wêrfan de prestaasjes wurde berekkene op basis fan pyklast.
By it brûken fan ferdielde opslachsystemen kinne har knooppunten, dy't yn feite gewoane tsjinners binne, op elk momint omboud wurde, bygelyks yn in serverfarm en brûkt wurde as in kompjûterplatfoarm.
Data lakes
It diagram hjirboppe toant in list mei typyske tsjinstkonsuminten
It brûken fan klassike opslachsystemen om sokke problemen op te lossen is net effektyf, om't it sawol hege prestaasjes tagong fereasket om databases te blokkearjen as reguliere tagong ta biblioteken fan skande dokuminten opslein as objekten. Hjir kin bygelyks ek in bestelsysteem fia in webportaal keppele wurde. Om dit alles op in klassyk opslachplatfoarm út te fieren, sille jo in grutte set apparatuer nedich hawwe foar ferskate taken. Ien horizontaal universele opslachsysteem kin alle earder neamde taken goed dekke: jo moatte gewoan ferskate swimbaden meitsje mei ferskate opslachkarakteristiken deryn.
Generators fan nije ynformaasje
De hoemannichte ynformaasje opslein yn 'e wrâld groeit mei sawat 30% per jier. Dit is goed nijs foar opslachferkeapers, mar wat is en sil de wichtichste boarne fan dizze gegevens wêze?
Tsien jier lyn, sosjale netwurken wurden sokke generators, dit easke de skepping fan in grut oantal nije algoritmen, hardware oplossings, ensfh No binne d'r trije wichtichste driuwfearren foar de groei fan opslach folume. De earste is cloud computing. Op it stuit brûkt sawat 70% fan 'e bedriuwen op ien of oare manier wolktsjinsten. Dit kinne elektroanyske postsystemen, reservekopyen en oare virtualisearre entiteiten wêze.
De twadde stjoerprogramma is fyfde generaasje netwurken. Dit binne nije snelheden en nije gegevensferfiervoluminten. Neffens ús prognosen sil de wiidferspraat oannimmen fan 5G liede ta in daling yn fraach nei flash-ûnthâldkaarten. Gjin saak hoefolle ûnthâld der is yn 'e telefoan, it rint noch út, en as de gadget hat in 100-megabit kanaal, it is net nedich om te bewarjen foto's lokaal.
De tredde groep redenen wêrom't de fraach nei opslachsystemen groeit, omfettet de rappe ûntwikkeling fan keunstmjittige yntelliginsje, de oergong nei analyse fan grutte gegevens en de trend nei universele automatisearring fan alles mooglik.
In skaaimerk fan it "nije ferkear" is har
Oseaan fan unstrukturearre gegevens
Hokker problemen hâldt it ûntstean fan "nije gegevens" mei? De earste ûnder harren, fansels, is it grutte folume fan ynformaasje en de rûsde perioade fan syn opslach. In moderne autonome auto sûnder sjauffeur allinich genereart oant 60 terabytes oan gegevens alle dagen fan al syn sensoren en meganismen. Om nije bewegingsalgoritmen te ûntwikkeljen, moat dizze ynformaasje binnen deselde dei wurde ferwurke, oars sil it begjinne te sammeljen. Tagelyk, it moat wurde opslein foar in hiel lange tiid - desennia. Allinne dan sil it mooglik wêze om yn 'e takomst konklúzjes te lûken op basis fan grutte analytyske samples.
Ien apparaat foar it ûntsiferjen fan genetyske sekwinsjes produseart sawat 6 TB per dei. En de gegevens sammele mei har help betsjuttet hielendal gjin wiskjen, dat is, hypotetysk, se moatte foar altyd wurde opslein.
Ta beslút, deselde fiifde generaasje netwurken. Neist de eigentlike oerdroegen ynformaasje, sa'n netwurk sels is in enoarme generator fan gegevens: aktiviteit logs, oprop records, tuskentiidse resultaten fan masine-to-masine ynteraksjes, ensfh.
Dit alles fereasket de ûntwikkeling fan nije oanpakken en algoritmen foar it opslaan en ferwurkjen fan ynformaasje. En sokke oanpakken komme op.
Nije tiidrek technologyen
D'r binne trije groepen oplossingen ûntworpen om te gean mei nije easken foar systemen foar opslach fan ynformaasje: de ynfiering fan keunstmjittige yntelliginsje, de technyske evolúsje fan opslachmedia en ynnovaasjes op it mêd fan systeemarsjitektuer. Litte wy begjinne mei AI.
Yn nije Huawei-oplossingen wurdt keunstmjittige yntelliginsje brûkt op it nivo fan 'e opslach sels, dy't is foarsjoen fan in AI-prosessor wêrtroch it systeem syn tastân selsstannich kin analysearje en mislearrings foarsizze. As it opslachsysteem ferbûn is mei in tsjinstwolk dy't signifikante komputermooglikheden hat, sil keunstmjittige yntelliginsje mear ynformaasje kinne ferwurkje en de krektens fan har hypotezen ferheegje.
Neist mislearrings kin sa'n AI takomstige pyklast en de oerbleaune tiid foarsizze oant de kapasiteit is útput. Hjirmei kinne jo de prestaasjes optimalisearje en it systeem skaalje foardat der gjin winske barrens foarkomme.
No oer de evolúsje fan opslachmedia. De earste flash-driven waarden makke mei SLC (Single-Level Cell) technology. Apparaten basearre op it wiene fluch, betrouber, stabyl, mar hie in lytse kapasiteit en wiene hiel djoer. Folume groei en priisreduksje waarden berikt troch bepaalde technyske konsesjes, wêrtroch de snelheid, betrouberens en libbensdoer fan driuwfearren waarden fermindere. Dochs hat de trend gjin ynfloed op de opslachsystemen sels, dy't, troch ferskate arsjitektoanyske trúkjes, yn 't algemien produktiver en betrouberder waarden.
Mar wêrom hawwe jo All-Flash opslachsystemen nedich? Wie it net genôch om de âlde HDD's gewoan te ferfangen yn in al bestjoeringssysteem mei nije SSD's fan deselde foarmfaktor? Dit wie nedich om effektyf te brûken alle middels fan de nije solid-state driuwfearren, dat wie gewoan ûnmooglik yn âldere systemen.
Huawei hat bygelyks in oantal technologyen ûntwikkele om dit probleem op te lossen, wêrfan ien is
Intelligente identifikaasje makke it mooglik om gegevens yn ferskate streamen te ûntbinen en om te gean mei in oantal net winske ferskynsels, lykas
Mislearring, oerlêst, garbage sammeljen - dizze faktoaren ek net mear beynfloedzje de prestaasjes fan it opslach systeem tank oan spesjale oanpassings oan de controllers.
En blokgegevensopslaggen meitsje har ek foar om te foldwaan
De folgjende faze fan technologyûntwikkeling dy't wy no sjogge is it gebrûk fan NVMe-oF (NVMe over Fabrics). Wat Huawei-bloktechnologyen oanbelanget, stypje se al FC-NVMe (NVMe oer Fibre Channel), en NVMe oer RoCE (RDMA oer Converged Ethernet) is ûnderweis. De testmodellen binne frij funksjoneel; d'r binne ferskate moannen oer foar har offisjele presintaasje. Tink derom dat dit alles sil ferskine yn ferspraat systemen, dêr't "lossless Ethernet" sil wêze yn grutte fraach.
In ekstra manier om de wurking fan ferdielde opslach te optimalisearjen wie it folsleine ferlitten fan gegevensspegeljen. Huawei-oplossingen brûke net mear n kopyen, lykas yn 'e gewoane RAID 1, en skeakelje folslein oer nei de
Deduplikaasje- en kompresjemeganismen wurde ferplicht. As wy yn klassike opslachsystemen binne beheind troch it oantal yn 'e controllers ynstalleare processors, dan yn ferspraat horizontaal skalberbere opslachsystemen befettet elke knooppunt alles dat nedich is: skiven, ûnthâld, processors en interconnect. Dizze boarnen binne genôch om te soargjen dat deduplikaasje en kompresje minimale ynfloed hawwe op prestaasjes.
En oer metoaden foar hardwareoptimalisaasje. Hjir wie it mooglik om de lading op sintrale processors te ferminderjen mei help fan ekstra tawijde chips (as tawijde blokken yn 'e prosessor sels), dy't in rol spylje
Nije oanpakken foar gegevensopslach binne belichame yn in disaggregearre (ferspraat) arsjitektuer. Sintraal opslach systemen hawwe in tsjinner fabryk ferbûn fia Fibre Channel oan
Oars as beide boppesteande, ymplisearret in disaggregearre arsjitektuer it ferdielen fan it systeem yn in kompjûterstof en in horizontaal opslachsysteem. Dit soarget foar de foardielen fan beide arsjitektueren en lit hast ûnbeheinde skaalfergrutting mooglik meitsje fan allinich it elemint dat gjin prestaasjes hat.
Fan yntegraasje oant konverginsje
In klassike taak, wêrfan de relevânsje yn de ôfrûne 15 jier allinnich mar groeid is, is de needsaak om tagelyk blokopslach, triemtagong, tagong ta objekten, de eksploitaasje fan in big data farm, ensfh. De kers op de taart soe ek wêze, bygelyks, in reservekopy systeem op magnetyske tape.
Yn 'e earste faze wie allinich it behear fan dizze tsjinsten mooglik te ferienigjen. Heterogene gegevens opslach systemen waarden ferbûn oan guon spesjalisearre software, troch dêr't de behearder ferspraat middels út beskikbere puollen. Mar om't dizze swimbaden ferskillende hardware hiene, wie loadmigraasje tusken har ûnmooglik. Op in heger nivo fan yntegraasje barde de aggregaasje op it poartenivo. As triem dielen beskikber wie, koe it wurde tsjinne fia ferskate protokollen.
De meast avansearre konverginsjemetoade dy't op it stuit beskikber is foar ús omfettet it meitsjen fan in universele hybride systeem. Krekt wat ús wurde moat
De kosten foar it opslaan fan ynformaasje bepale no in protte arsjitektoanyske besluten. En hoewol it feilich op 'e foargrûn set wurde kin, prate wy hjoed oer "live" opslach mei aktive tagong, dus moat ek rekken holden wurde mei prestaasjes. In oare wichtige eigenskip fan ferdielde systemen fan folgjende generaasje is ienwurding. Ommers, gjinien wol hawwe ferskate ferskillende systemen bestjoerd út ferskillende konsoles. Al dizze kwaliteiten binne belichame yn 'e nije searje Huawei-produkten
Massa opslach systeem fan de nije generaasje
OceanStor Pacific foldocht oan seis-njoggen betrouberens (99,9999%) en kin brûkt wurde om HyperMetro-klasse datasintra te meitsjen. Mei in ôfstân tusken twa datasintra fan maksimaal 100 km, demonstrearje de systemen in ekstra latency fan 2 ms, wat it mooglik makket om op har basis alle rampbestindige oplossingen te bouwen, ynklusyf dy mei quorumservers.
De nije searjeprodukten bewize protokolfersatile. Al stipet OceanStor 100D blok tagong, objekt tagong en Hadoop tagong. Triemtagong sil ek yn 'e heine takomst ymplementearre wurde. D'r is gjin ferlet om meardere kopyen fan gegevens op te slaan as se kinne wurde útjûn fia ferskate protokollen.
It soe lykje, wat hat it konsept fan in "lossless netwurk" te krijen mei opslachsystemen? It feit is dat ferdielde gegevensopslachsystemen binne boud op basis fan in fluch netwurk dat de passende algoritmen en it RoCE-meganisme stipet. It systeem foar keunstmjittige yntelliginsje stipe troch ús skeakels helpt de netwurksnelheid fierder te ferheegjen en latency te ferminderjen.
Wat is de nije OceanStor Pacific ferdielde opslachknooppunt? De 5U-foarmfaktor-oplossing omfettet 120 driuwfearren en kin trije klassike knooppunten ferfange, dy't mear as dûbele besparring yn rackromte leveret. Troch gjin kopyen op te slaan, nimt de effisjinsje fan driuwfearren signifikant ta (oant +92%).
Wy binne wend oan it feit dat software-definiearre opslach is spesjale software ynstallearre op in klassike tsjinner. Mar no, om optimale parameters te berikken, fereasket dizze arsjitektoanyske oplossing ek spesjale knopen. It bestiet út twa servers basearre op ARM-processors dy't in array fan trije-inch-skiven beheare.
Dizze tsjinners binne net geskikt foar hyperconverged oplossingen. As earste binne d'r nochal wat applikaasjes foar ARM, en as twadde is it lestich om loadbalâns te behâlden. Wy stelle út om te ferpleatsen nei aparte opslach: in kompjûterkluster, fertsjintwurdige troch klassike of rack-tsjinners, wurket apart, mar is ferbûn mei OceanStor Pacific-opslachknooppunten, dy't ek har direkte taken útfiere. En it rjochtfeardiget himsels.
Litte wy bygelyks in klassike oplossing foar grutte gegevensopslach nimme mei in hyperkonvergearre systeem dat 15 serverracks beslacht. As jo fersprieden de lading tusken aparte Computing tsjinners en OceanStor Pacific opslach knopen, skieden se fan elkoar, it oantal fereaske rekken halved! Dit ferleget de bedriuwskosten fan it datasintrum en ferleget de totale eigendomskosten. Yn in wrâld dêr't it folume fan opsleine ynformaasje groeit mei 30% per jier, sokke foardielen wurde net smiten.
***
Jo kinne mear ynformaasje krije oer Huawei-oplossingen en har applikaasjescenario's op ús
Boarne: www.habr.com