Průmyslové trendy ve velkokapacitních úložištích

Dnes si povíme o tom, jak nejlépe ukládat data ve světě, kde sítě páté generace, genomové skenery a samořídící auta produkují za den více dat, než celé lidstvo vygenerovalo před průmyslovou revolucí.

Průmyslové trendy ve velkokapacitních úložištích

Náš svět generuje stále více informací. Některá jeho část je pomíjivá a ztrácí se tak rychle, jak je shromážděna. Jiný by měl být skladován déle a jiný je dokonce navržen „po staletí“ - alespoň to vidíme ze současnosti. Informační toky se v datových centrech usazují takovou rychlostí, že jakýkoli nový přístup, jakákoli technologie navržená k uspokojení této nekonečné „poptávky“ rychle zastará.

Průmyslové trendy ve velkokapacitních úložištích

40 let vývoje distribuovaných úložných systémů

První síťové úložiště v nám známé podobě se objevilo v 1980. letech minulého století. Mnoho z vás se setkalo s NFS (Network File System), AFS (Andrew File System) nebo Coda. O deset let později se móda a technologie změnily a distribuované souborové systémy ustoupily clusterovým úložným systémům založeným na GPFS (General Parallel File System), CFS (Clustered File Systems) a StorNext. Jako základ bylo použito blokové úložiště klasické architektury, nad nímž byl vytvořen jeden souborový systém pomocí softwarové vrstvy. Tato a podobná řešení se stále používají, zabírají své místo a jsou poměrně žádaná.

Na přelomu tisíciletí se paradigma distribuovaného úložiště poněkud změnilo a na přední místa se dostaly systémy s architekturou SN (Shared-Nothing). Došlo k přechodu z clusterového úložiště na úložiště na jednotlivých uzlech, což byly zpravidla klasické servery se softwarem zajišťujícím spolehlivé úložiště; Na takových principech jsou, řekněme, postaveny HDFS (Hadoop Distributed File System) a GFS (Global File System).

Blíže k roku 2010 se koncepty, které jsou základem distribuovaných úložných systémů, začaly stále více odrážet v plnohodnotných komerčních produktech, jako jsou VMware vSAN, Dell EMC Isilon a naše Huawei OceanStor. Za zmíněnými platformami již nestojí komunita nadšenců, ale konkrétní prodejci, kteří zodpovídají za funkčnost, podporu a servis produktu a garantují jeho další rozvoj. Taková řešení jsou nejžádanější v několika oblastech.

Průmyslové trendy ve velkokapacitních úložištích

Telekomunikační operátoři

Snad jedním z nejstarších spotřebitelů distribuovaných úložných systémů jsou telekomunikační operátoři. Diagram ukazuje, které skupiny aplikací produkují většinu dat. OSS (Operations Support Systems), MSS (Management Support Services) a BSS (Business Support Systems) představují tři doplňkové softwarové vrstvy potřebné k poskytování služeb předplatitelům, finančního výkaznictví poskytovateli a provozní podpory operátorům.

Často jsou data těchto vrstev navzájem silně promíchána, a aby se zabránilo hromadění zbytečných kopií, používá se distribuované úložiště, které shromažďuje celé množství informací přicházejících z provozní sítě. Sklady jsou spojeny do společného bazénu, do kterého mají přístup všechny služby.

Naše výpočty ukazují, že přechod z klasických úložných systémů na blokové úložné systémy vám umožňuje ušetřit až 70 % rozpočtu pouze tím, že opustíte specializované hi-end úložné systémy a použijete konvenční servery klasické architektury (obvykle x86), které pracují ve spojení se specializovanými software. Mobilní operátoři již dávno začali nakupovat taková řešení ve velkém. Zejména ruští operátoři používají takové produkty od Huawei již více než šest let.

Ano, řadu úkolů nelze dokončit pomocí distribuovaných systémů. Například se zvýšenými požadavky na výkon nebo kompatibilitou se staršími protokoly. Ale minimálně 70 % dat zpracovávaných operátorem může být umístěno v distribuovaném fondu.

Průmyslové trendy ve velkokapacitních úložištích

Bankovní sektor

V každé bance existuje mnoho různých IT systémů, počínaje zpracováním a konče automatizovaným bankovním systémem. Tato infrastruktura také pracuje s obrovským množstvím informací, přičemž většina úloh nevyžaduje zvýšený výkon a spolehlivost úložných systémů, například vývoj, testování, automatizace kancelářských procesů atd. Zde je možné použití klasických úložných systémů, ale každým rokem je to méně a méně ziskové. Navíc v tomto případě neexistuje žádná flexibilita ve využívání prostředků úložného systému, jejichž výkon se počítá na základě špičkového zatížení.

Při použití distribuovaných úložných systémů lze jejich uzly, které jsou ve skutečnosti obyčejnými servery, kdykoli převést například na serverovou farmu a použít jako výpočetní platformu.

Průmyslové trendy ve velkokapacitních úložištích

Datová jezera

Výše uvedený diagram ukazuje seznam typických spotřebitelů služeb datové jezero. Mohou to být služby e-governmentu (například „služby státní správy“), digitalizované podniky, finanční instituce atd. Všechny potřebují pracovat s velkým objemem heterogenních informací.

Použití klasických úložných systémů k řešení takových problémů je neefektivní, protože vyžaduje jak vysoce výkonný přístup k blokovým databázím, tak pravidelný přístup ke knihovnám naskenovaných dokumentů uložených jako objekty. Lze sem napojit například i objednávkový systém přes webový portál. K realizaci tohoto všeho na klasické úložné platformě budete potřebovat velkou sadu vybavení pro různé úkoly. Jeden horizontální univerzální úložný systém může dobře pokrýt všechny výše uvedené úkoly: stačí v něm vytvořit několik bazénů s různými skladovacími vlastnostmi.

Průmyslové trendy ve velkokapacitních úložištích

Generátory nových informací

Množství informací uložených ve světě roste zhruba o 30 % ročně. To je dobrá zpráva pro dodavatele úložišť, ale co je a bude hlavním zdrojem těchto dat?

Před deseti lety se takovými generátory staly sociální sítě, což si vyžádalo vytvoření velkého množství nových algoritmů, hardwarových řešení atd. Nyní existují tři hlavní hnací síly růstu objemů úložiště. První je cloud computing. V současné době využívá cloudové služby tak či onak přibližně 70 % společností. Mohou to být systémy elektronické pošty, záložní kopie a další virtualizované entity.
Druhým ovladačem jsou sítě páté generace. Jedná se o nové rychlosti a nové objemy přenosu dat. Podle našich předpovědí povede široké přijetí 5G k poklesu poptávky po flash paměťových kartách. Bez ohledu na to, kolik paměti je v telefonu, stále dochází, a pokud má gadget 100megabitový kanál, není třeba ukládat fotografie lokálně.

Do třetí skupiny důvodů, proč poptávka po úložných systémech roste, patří rychlý rozvoj umělé inteligence, přechod na analýzu velkých dat a trend k univerzální automatizaci všeho možného.

Rysem „nového provozu“ je jeho nedostatek struktury. Tato data musíme ukládat, aniž bychom jakkoli definovali jejich formát. Je vyžadován pouze pro následné čtení. Například pro určení dostupné výše půjčky se bankovní bodovací systém podívá na fotografie, které zveřejňujete na sociálních sítích, určí, zda často chodíte k moři a do restaurací, a zároveň prostuduje dostupné výpisy z vašich lékařských dokumentů. k tomu. Tyto údaje jsou na jedné straně komplexní, na druhé straně však postrádají homogenitu.

Průmyslové trendy ve velkokapacitních úložištích

Oceán nestrukturovaných dat

Jaké problémy s sebou nese vznik „nových dat“? První z nich je samozřejmě samotný objem informací a předpokládaná doba jejich uložení. Samotné moderní autonomní auto bez řidiče generuje každý den až 60 terabajtů dat ze všech svých senzorů a mechanismů. Pro vývoj nových pohybových algoritmů musí být tyto informace zpracovány během téhož dne, jinak se začnou hromadit. Přitom se musí skladovat velmi dlouho – desítky let. Jen tak bude možné v budoucnu dělat závěry na základě velkých analytických vzorků.

Jedno zařízení na dešifrování genetických sekvencí vyprodukuje asi 6 TB za den. A data shromážděná s jeho pomocí vůbec neznamenají vymazání, to znamená, že by hypoteticky měla být uložena navždy.

Konečně stejné sítě páté generace. Kromě samotných přenášených informací je taková síť sama o sobě obrovským generátorem dat: protokoly aktivit, záznamy hovorů, mezivýsledky interakcí mezi stroji atd.

To vše vyžaduje vývoj nových přístupů a algoritmů pro ukládání a zpracování informací. A takové přístupy se objevují.

Průmyslové trendy ve velkokapacitních úložištích

Technologie nové éry

Existují tři skupiny řešení navržených tak, aby se vyrovnaly s novými požadavky na systémy pro ukládání informací: zavedení umělé inteligence, technický vývoj paměťových médií a inovace v oblasti systémové architektury. Začněme s AI.

Průmyslové trendy ve velkokapacitních úložištích

V nových řešeních Huawei je umělá inteligence využívána na úrovni samotného úložiště, které je vybaveno AI procesorem, který umožňuje systému nezávisle analyzovat jeho stav a předvídat poruchy. Pokud je úložný systém připojen ke cloudu služeb, který má významné výpočetní možnosti, umělá inteligence bude schopna zpracovat více informací a zvýšit přesnost svých hypotéz.

Kromě poruch může taková AI předvídat budoucí špičkové zatížení a čas zbývající do vyčerpání kapacity. To vám umožní optimalizovat výkon a škálovat systém dříve, než dojde k jakékoli nežádoucí události.

Průmyslové trendy ve velkokapacitních úložištích

Nyní o vývoji paměťových médií. První flash disky byly vyrobeny pomocí technologie SLC (Single-Level Cell). Zařízení na něm založená byla rychlá, spolehlivá, stabilní, ale měla malou kapacitu a byla velmi drahá. Růst objemu a snížení ceny bylo dosaženo určitými technickými ústupky, díky kterým se snížila rychlost, spolehlivost a životnost pohonů. Trend se nicméně nedotkl samotných úložných systémů, které se díky různým architektonickým trikům obecně staly produktivnější a spolehlivější.

Ale proč jste potřebovali úložné systémy All-Flash? Nestačilo jednoduše vyměnit staré HDD v již operačním systému za nové SSD stejného formátu? To bylo nutné pro efektivní využití všech zdrojů nových SSD disků, což bylo ve starších systémech prostě nemožné.

Huawei například vyvinul řadu technologií k vyřešení tohoto problému, jednou z nich je FlashLink, což umožnilo co nejvíce optimalizovat interakce „disk-controller“.

Inteligentní identifikace umožnila rozložit data do více toků a vyrovnat se s řadou nežádoucích jevů, jako např. WA (zesílení zápisu). Zejména nové algoritmy obnovy RAID 2.0+, zvýšil rychlost přestavby a zkrátil její čas na zcela zanedbatelné částky.

Porucha, přeplněnost, svoz odpadu – tyto faktory již také neovlivňují výkon úložného systému díky speciálním úpravám ovladačů.

Průmyslové trendy ve velkokapacitních úložištích

A na setkání se chystají i bloková datová úložiště NVMe. Připomeňme, že klasické schéma organizace přístupu k datům fungovalo takto: procesor přistupoval k RAID řadiči přes sběrnici PCI Express. To zase interagovalo s mechanickými disky přes SCSI nebo SAS. Použití NVMe na backendu celý proces výrazně urychlilo, ale mělo to jednu nevýhodu: disky musely být přímo připojeny k procesoru, aby mu umožnily přímý přístup k paměti.

Další fází technologického vývoje, kterou nyní vidíme, je použití NVMe-oF (NVMe over Fabrics). Pokud jde o blokové technologie Huawei, ty již podporují FC-NVMe (NVMe over Fibre Channel) a NVMe over RoCE (RDMA over Converged Ethernet) je na cestě. Testovací modely jsou vcelku funkční, do oficiálního představení zbývá několik měsíců. Všimněte si, že toto vše se objeví v distribuovaných systémech, kde bude „bezztrátový Ethernet“ velmi žádaný.

Průmyslové trendy ve velkokapacitních úložištích

Dalším způsobem, jak optimalizovat provoz distribuovaného úložiště, bylo úplné opuštění zrcadlení dat. Řešení Huawei již nepoužívají n kopií jako v obvyklém RAID 1 a zcela přecházejí na EC (Kódování výmazu). Speciální matematický balíček s určitou periodicitou vypočítává řídicí bloky, které umožňují obnovit mezilehlá data v případě ztráty.

Deduplikační a kompresní mechanismy se stávají povinnými. Pokud jsme u klasických úložných systémů limitováni počtem procesorů nainstalovaných v řadičích, tak v distribuovaných horizontálně škálovatelných úložných systémech obsahuje každý uzel vše potřebné: disky, paměť, procesory a propojení. Tyto prostředky jsou dostatečné, aby zajistily, že deduplikace a komprese budou mít minimální dopad na výkon.

A o metodách optimalizace hardwaru. Zde bylo možné snížit zatížení centrálních procesorů pomocí dalších dedikovaných čipů (nebo dedikovaných bloků v samotném procesoru), které hrají roli PRST (TCP/IP Offload Engine) nebo převzetí matematických úloh EC, deduplikace a komprese.

Průmyslové trendy ve velkokapacitních úložištích

Nové přístupy k ukládání dat jsou ztělesněny v disagregované (distribuované) architektuře. Centralizované úložné systémy mají serverovou továrnu připojenou přes Fibre Channel SAN se spoustou polí. Nevýhodou tohoto přístupu je obtížnost škálování a zajištění garantované úrovně služeb (z hlediska výkonu nebo latence). Hyperkonvergované systémy používají stejné hostitele pro ukládání i zpracování informací. To poskytuje prakticky neomezený prostor pro škálování, ale vyžaduje vysoké náklady na zachování integrity dat.

Na rozdíl od obou výše uvedených, dezagregovaná architektura implikuje rozdělení systému na výpočetní strukturu a horizontální úložný systém. To poskytuje výhody obou architektur a umožňuje téměř neomezené škálování pouze prvku, který postrádá výkon.

Průmyslové trendy ve velkokapacitních úložištích

Od integrace ke konvergenci

Klasickým úkolem, jehož relevance za posledních 15 let jen narůstá, je potřeba současně zajistit blokové úložiště, přístup k souborům, přístup k objektům, provoz velké datové farmy atd. Třešničkou na dortu by také mohlo být být například záložní systém na magnetické pásce.

V první fázi mohlo být sjednoceno pouze řízení těchto služeb. Heterogenní systémy pro ukládání dat byly napojeny na nějaký specializovaný software, přes který správce distribuoval zdroje z dostupných poolů. Ale protože tyto fondy měly odlišný hardware, migrace zátěže mezi nimi byla nemožná. Na vyšší úrovni integrace došlo k agregaci na úrovni brány. Pokud bylo dostupné sdílení souborů, mohlo by být obsluhováno prostřednictvím různých protokolů.

Nejpokročilejší metoda konvergence, kterou máme v současnosti k dispozici, zahrnuje vytvoření univerzálního hybridního systému. Přesně tím, čím by se ten náš měl stát OceanStor 100D. Univerzální přístup využívá stejné hardwarové prostředky, logicky rozdělené do různých fondů, ale umožňující migraci zátěže. To vše lze provést prostřednictvím jediné konzole pro správu. Tímto způsobem jsme byli schopni implementovat koncept „jedno datové centrum – jeden úložný systém“.

Průmyslové trendy ve velkokapacitních úložištích

Náklady na ukládání informací nyní určují mnoho architektonických rozhodnutí. A ačkoli to lze bezpečně postavit do popředí, dnes diskutujeme o „živém“ úložišti s aktivním přístupem, takže je třeba brát v úvahu i výkon. Další důležitou vlastností distribuovaných systémů nové generace je sjednocení. Nikdo přece nechce mít několik nesourodých systémů ovládaných z různých konzolí. Všechny tyto kvality jsou ztělesněny v nové řadě produktů Huawei OceanStor Pacific.

Mass storage systém nové generace

OceanStor Pacific splňuje požadavky na spolehlivost šest-devítek (99,9999 %) a lze jej použít k vytvoření datových center třídy HyperMetro. Se vzdáleností mezi dvěma datovými centry až 100 km vykazují systémy dodatečnou latenci 2 ms, což umožňuje postavit na jejich základě jakákoli řešení odolná proti katastrofám, včetně těch se servery kvora.

Průmyslové trendy ve velkokapacitních úložištích

Produkty nové řady demonstrují protokolární všestrannost. OceanStor 100D již podporuje blokový přístup, přístup k objektům a přístup Hadoop. V blízké budoucnosti bude implementován také přístup k souborům. Není třeba ukládat více kopií dat, pokud je lze vydávat prostřednictvím různých protokolů.

Průmyslové trendy ve velkokapacitních úložištích

Zdá se, co má koncept „bezztrátové sítě“ společného s úložnými systémy? Faktem je, že distribuované systémy pro ukládání dat jsou postaveny na bázi rychlé sítě, která podporuje příslušné algoritmy a mechanismus RoCE. Systém umělé inteligence podporovaný našimi přepínači pomáhá dále zvyšovat rychlost sítě a snižovat latenci. AI Fabric. Nárůst výkonu úložiště při aktivaci AI Fabric může dosáhnout 20 %.

Průmyslové trendy ve velkokapacitních úložištích

Co je nový uzel distribuovaného úložiště OceanStor Pacific? Řešení s tvarovým faktorem 5U zahrnuje 120 jednotek a může nahradit tři klasické uzly, což poskytuje více než dvojnásobnou úsporu místa v racku. Neukládáním kopií se výrazně zvyšuje efektivita pohonů (až +92 %).

Jsme zvyklí, že softwarově definované úložiště je speciální software nainstalovaný na klasickém serveru. Nyní však pro dosažení optimálních parametrů vyžaduje toto architektonické řešení také speciální uzly. Skládá se ze dvou serverů založených na procesorech ARM, které spravují pole třípalcových disků.

Průmyslové trendy ve velkokapacitních úložištích

Tyto servery nejsou vhodné pro hyperkonvergovaná řešení. Za prvé, aplikací pro ARM je poměrně dost a za druhé je těžké udržet rovnováhu zátěže. Navrhujeme přechod na oddělené úložiště: výpočetní cluster reprezentovaný klasickými nebo rackovými servery funguje samostatně, ale je napojen na storage nody OceanStor Pacific, které také plní své přímé úkoly. A ospravedlňuje se.

Vezměme si například klasické řešení úložiště velkých dat s hyperkonvergovaným systémem, který zabírá 15 serverových racků. Pokud rozložíte zátěž mezi samostatné počítačové servery a uzly úložiště OceanStor Pacific a oddělíte je od sebe, počet požadovaných racků se sníží na polovinu! To snižuje provozní náklady datového centra a snižuje celkové náklady na vlastnictví. Ve světě, kde objem uložených informací roste o 30 % ročně, se takové výhody nezahazují.

***

Více informací o řešeních Huawei a jejich aplikačních scénářích můžete získat na našem webu webové stránky nebo kontaktujte přímo zástupce společnosti.

Zdroj: www.habr.com

Přidat komentář