Priemyselné trendy veľkokapacitných úložných systémov

Dnes si povieme, ako čo najlepšie ukladať dáta vo svete, kde siete piatej generácie, genómové skenery a samojazdiace autá vyprodukujú za deň viac dát, ako celé ľudstvo vyprodukovalo pred priemyselnou revolúciou.

Priemyselné trendy veľkokapacitných úložných systémov

Náš svet generuje stále viac a viac informácií. Niektoré z nich sú pominuteľné a strácajú sa tak rýchlo, ako sa zbierajú. Ten druhý by sa mal skladovať dlhšie a ten druhý je kompletne navrhnutý „na stáročia“ – aspoň tak to vidíme zo súčasnosti. Informačné toky sa usadzujú v dátových centrách takou rýchlosťou, že každý nový prístup, akákoľvek technológia navrhnutá na uspokojenie tohto nekonečného „dopytu“ rýchlo zastaráva.

Priemyselné trendy veľkokapacitných úložných systémov

40 rokov vývoja distribuovaného úložiska

Prvé sieťové úložiská v nám známej podobe sa objavili v 1980. rokoch minulého storočia. Mnohí z vás sa už stretli s NFS (Network File System), AFS (Andrew File System) alebo Coda. O desaťročie neskôr sa móda a technológia zmenili a distribuované súborové systémy ustúpili klastrovým úložným systémom založeným na GPFS (General Parallel File System), CFS (Clustered File Systems) a StorNext. Ako základ boli použité blokové úložiská klasickej architektúry, nad ktorými bol vytvorený jeden súborový systém pomocou softvérovej vrstvy. Tieto a podobné riešenia sa stále používajú, zaberajú svoje miesto a sú dosť žiadané.

Na prelome tisícročí sa paradigma distribuovaného úložiska trochu zmenila a do vedenia sa dostali systémy s architektúrou SN (Shared-Nothing). Došlo k prechodu z klastrového úložiska na úložisko v samostatných uzloch, ktoré boli spravidla klasickými servermi so softvérom, ktorý poskytuje spoľahlivé úložisko; takéto princípy sú postavené, povedzme, HDFS (Hadoop Distributed File System) a GFS (Global File System).

Bližšie k roku 2010 sa koncepty, ktoré sú základom distribuovaných úložných systémov, začali čoraz viac odrážať v plnohodnotných komerčných produktoch, ako sú VMware vSAN, Dell EMC Isilon a naše Huawei OceanStor. Za spomínanými platformami už nestojí komunita nadšencov, ale konkrétni predajcovia, ktorí zodpovedajú za funkčnosť, podporu, servisnú údržbu produktu a garantujú jeho ďalší rozvoj. Takéto riešenia sú najviac žiadané vo viacerých oblastiach.

Priemyselné trendy veľkokapacitných úložných systémov

telekomunikační operátori

Možno jedným z najstarších spotrebiteľov distribuovaných úložných systémov sú telekomunikační operátori. Diagram ukazuje, ktoré skupiny aplikácií produkujú väčšinu údajov. OSS (Operations Support Systems), MSS (Management Support Services) a BSS (Business Support Systems) sú tri doplnkové softvérové ​​vrstvy potrebné na poskytovanie služieb predplatiteľom, finančné výkazníctvo pre poskytovateľa a prevádzkovú podporu inžinierom operátora.

Údaje týchto vrstiev sú často navzájom silne zmiešané a aby sa predišlo hromadeniu zbytočných kópií, používajú sa distribuované úložiská, ktoré akumulujú celé množstvo informácií pochádzajúcich z fungujúcej siete. Sklady sú spojené do spoločného bazéna, do ktorého sú prístupné všetky služby.

Naše výpočty ukazujú, že prechod z klasických úložných systémov na blokové úložné systémy vám umožňuje ušetriť až 70 % rozpočtu iba opustením špecializovaných hi-end úložných systémov a používaním serverov klasickej klasickej architektúry (zvyčajne x86), ktoré spolupracujú so špecializovanými softvér. Mobilní operátori už dávno začali nakupovať takéto riešenia vo veľkých množstvách. Najmä ruskí operátori používajú takéto produkty od Huawei už viac ako šesť rokov.

Áno, množstvo úloh nie je možné vykonať pomocou distribuovaných systémov. Napríklad so zvýšenými požiadavkami na výkon alebo kompatibilitu so staršími protokolmi. Minimálne 70 % údajov, ktoré operátor spracuje, je však možné umiestniť do distribuovaného fondu.

Priemyselné trendy veľkokapacitných úložných systémov

bankovníctvo

V každej banke existuje mnoho rôznych IT systémov, od spracovania až po automatizovaný bankový systém. Táto infraštruktúra tiež pracuje s obrovským množstvom informácií, pričom väčšina úloh nevyžaduje zvýšený výkon a spoľahlivosť úložných systémov, ako je vývoj, testovanie, automatizácia kancelárskych procesov a pod. Tu je možné využitie klasických úložných systémov , no každým rokom je menej a menej zisková. Navyše v tomto prípade neexistuje žiadna flexibilita pri vynakladaní úložných zdrojov, ktorých výkon sa počíta zo špičkového zaťaženia.

Pri použití distribuovaných úložných systémov je možné ich uzly, ktoré sú v skutočnosti obyčajnými servermi, kedykoľvek previesť napríklad na serverovú farmu a použiť ako výpočtovú platformu.

Priemyselné trendy veľkokapacitných úložných systémov

Dátové jazerá

Vyššie uvedený diagram zobrazuje zoznam typických spotrebiteľov služieb. dátové jazero. Môžu to byť služby elektronickej verejnej správy (napríklad „Gosuslugi“), podniky, ktoré prešli digitalizáciou, finančné štruktúry atď. Všetky musia pracovať s veľkými objemami heterogénnych informácií.

Prevádzka klasických úložných systémov na riešenie takýchto problémov je neefektívna, pretože je potrebný vysokovýkonný prístup k blokovým databázam a pravidelný prístup ku knižniciam naskenovaných dokumentov uložených ako objekty. Tu môže byť viazaný napríklad systém objednávok cez webový portál. Na implementáciu tohto všetkého na klasickej úložnej platforme budete potrebovať veľkú sadu zariadení na rôzne úlohy. Jeden horizontálny univerzálny úložný systém ľahko pokryje všetky vyššie uvedené úlohy: stačí v ňom vytvoriť niekoľko bazénov s rôznymi skladovacími vlastnosťami.

Priemyselné trendy veľkokapacitných úložných systémov

Generátory nových informácií

Množstvo informácií uložených vo svete rastie približne o 30 % ročne. Je to dobrá správa pre predajcov úložísk, ale čo je a bude hlavným zdrojom týchto údajov?

Pred desiatimi rokmi sa sociálne siete stali takýmito generátormi, ktoré si vyžadovali vytvorenie veľkého množstva nových algoritmov, hardvérových riešení atď. Teraz existujú tri hlavné hnacie sily rastu úložiska. Prvým je cloud computing. V súčasnosti približne 70 % spoločností využíva cloudové služby tak či onak. Môžu to byť e-mailové systémy, zálohy a iné virtualizované entity.
Siete piatej generácie sa stávajú druhým vodičom. Ide o nové rýchlosti a nové objemy prenosu dát. Podľa našich prognóz povedie rozšírené prijatie 5G k poklesu dopytu po pamäťových kartách flash. Bez ohľadu na to, koľko pamäte je v telefóne, stále končí a ak má gadget 100-megabitový kanál, nie je potrebné ukladať fotografie lokálne.

Treťou skupinou dôvodov, prečo rastie dopyt po úložných systémoch, je rýchly rozvoj umelej inteligencie, prechod na analýzu veľkých dát a trend k univerzálnej automatizácii všetkého, čo je možné.

Charakteristickým rysom „novej premávky“ je jej neštruktúrovaný. Tieto údaje musíme uchovávať bez toho, aby sme akýmkoľvek spôsobom definovali ich formát. Vyžaduje sa len pri ďalšom čítaní. Napríklad bankový bodovací systém na určenie dostupnej veľkosti úveru si prezrie fotografie, ktoré ste zverejnili na sociálnych sieťach, určí, ako často chodíte k moru a do reštaurácií, a zároveň si preštuduje výpisy z vašich lekárskych dokumentov, ktoré má k dispozícii. Tieto údaje sú na jednej strane komplexné a na druhej strane im chýba homogénnosť.

Priemyselné trendy veľkokapacitných úložných systémov

Oceán neštruktúrovaných údajov

Aké problémy so sebou prináša vznik „nových dát“? Prvým z nich je, samozrejme, množstvo samotných informácií a predpokladaná doba ich uchovávania. Samotné moderné autonómne auto bez vodiča generuje každý deň až 60 TB dát zo všetkých svojich senzorov a mechanizmov. Na vývoj nových pohybových algoritmov musia byť tieto informácie spracované v ten istý deň, inak sa začnú hromadiť. Zároveň by sa mal skladovať veľmi dlho - desaťročia. Len tak bude možné v budúcnosti robiť závery na základe veľkých analytických vzoriek.

Jedno zariadenie na dešifrovanie genetických sekvencií vyprodukuje približne 6 terabajtov za deň. A údaje zhromaždené s jeho pomocou vôbec neznamenajú vymazanie, to znamená, že hypoteticky by mali byť uložené navždy.

Nakoniec všetky rovnaké siete piatej generácie. Okrem samotných prenášaných informácií je takáto sieť sama o sebe obrovským generátorom údajov: protokoly aktivít, záznamy hovorov, medzivýsledky interakcií medzi strojmi atď.

To všetko si vyžaduje vývoj nových prístupov a algoritmov na ukladanie a spracovanie informácií. A takéto prístupy sa objavujú.

Priemyselné trendy veľkokapacitných úložných systémov

Technológie novej éry

Je možné rozlíšiť tri skupiny riešení navrhnutých na zvládnutie nových požiadaviek na systémy na ukladanie informácií: zavedenie umelej inteligencie, technický vývoj pamäťových médií a inovácie v oblasti architektúry systémov. Začnime s AI.

Priemyselné trendy veľkokapacitných úložných systémov

V nových riešeniach Huawei sa umelá inteligencia využíva už na úrovni samotného úložiska, ktoré je vybavené AI procesorom, ktorý umožňuje systému samostatne analyzovať jeho stav a predvídať poruchy. Ak je úložný systém pripojený k cloudu služieb, ktorý má významné výpočtové možnosti, umelá inteligencia dokáže spracovať viac informácií a zlepšiť presnosť svojich hypotéz.

Okrem porúch je takáto AI schopná predpovedať budúce špičkové zaťaženie a čas zostávajúci do vyčerpania kapacity. To vám umožňuje optimalizovať výkon a škálovať systém skôr, ako dôjde k nežiaducim udalostiam.

Priemyselné trendy veľkokapacitných úložných systémov

Teraz o vývoji dátových nosičov. Prvé flash disky boli vyrobené pomocou technológie SLC (Single-Level Cell). Zariadenia na ňom založené boli rýchle, spoľahlivé, stabilné, no mali malú kapacitu a boli veľmi drahé. Nárast objemu a pokles ceny bol dosiahnutý určitými technickými ústupkami, vďaka ktorým sa znížila rýchlosť, spoľahlivosť a životnosť pohonov. Tento trend však neovplyvnil samotné úložné systémy, ktoré sa vďaka rôznym architektonickým trikom vo všeobecnosti stali produktívnejšími a spoľahlivejšími.

Prečo ste však potrebovali úložné systémy triedy All-Flash? Nestačilo len vymeniť staré HDD v už spustenom systéme za nové SSD rovnakého tvaru? Bolo to potrebné na efektívne využitie všetkých zdrojov nových SSD, čo bolo v starších systémoch jednoducho nemožné.

Huawei napríklad vyvinul množstvo technológií na vyriešenie tohto problému, jednou z nich je FlashLink, čo umožnilo čo najviac optimalizovať interakcie disk-radič.

Inteligentná identifikácia umožnila rozložiť dáta do viacerých prúdov a vyrovnať sa s množstvom nežiaducich javov, ako napr. WA (zosilnenie zápisu). Zároveň sú to najmä nové algoritmy obnovy RAID 2.0+, zvýšil rýchlosť prestavby, čím skrátil jej čas na úplne nevýznamné hodnoty.

Porucha, preplnenie, odvoz odpadu – tieto faktory už tiež neovplyvňujú výkon úložného systému vďaka špeciálnej prepracovanosti ovládačov.

Priemyselné trendy veľkokapacitných úložných systémov

A blokové dátové úložiská sa pripravujú na stretnutie NVMe. Pripomeňme, že klasická schéma organizácie prístupu k dátam fungovala takto: procesor pristupoval k radiču RAID cez zbernicu PCI Express. To zase interagovalo s mechanickými diskami cez SCSI alebo SAS. Použitie NVMe na backende celý proces výrazne urýchlilo, no prinieslo jednu nevýhodu: disky museli byť priamo pripojené k procesoru, aby mu umožnili priamy prístup do pamäte.

Ďalšou fázou vývoja technológie, ktorú teraz vidíme, je použitie NVMe-oF (NVMe over Fabrics). Čo sa týka blokových technológií Huawei, tie už podporujú FC-NVMe (NVMe cez Fibre Channel) a NVMe over RoCE (RDMA cez konvergovaný Ethernet) je na ceste. Testovacie modely sú celkom funkčné, do ich oficiálneho predstavenia zostáva pár mesiacov. Všimnite si, že toto všetko sa objaví aj v distribuovaných systémoch, kde bude „Ethernet bez straty“ veľký dopyt.

Priemyselné trendy veľkokapacitných úložných systémov

Ďalším spôsobom, ako optimalizovať prácu distribuovaných úložísk, bolo úplné odmietnutie zrkadlenia údajov. Riešenia Huawei už nepoužívajú n kópií ako v bežnom RAID 1 a úplne prechádzajú na mechanizmus EC (Vymazanie kódovania). Špeciálny matematický balík vypočítava riadiace bloky s určitou frekvenciou, čo vám umožňuje obnoviť medziľahlé dáta v prípade straty.

Mechanizmy deduplikácie a kompresie sa stávajú povinnými. Ak sme v klasických úložných systémoch limitovaní počtom procesorov inštalovaných v radičoch, tak v distribuovaných horizontálne škálovateľných úložných systémoch obsahuje každý uzol všetko, čo potrebujete: disky, pamäť, procesory a prepojenie. Tieto prostriedky stačia na to, aby deduplikácia a kompresia mali minimálny vplyv na výkon.

A o metódach optimalizácie hardvéru. Tu bolo možné znížiť zaťaženie centrálnych procesorov pomocou dodatočných vyhradených mikroobvodov (alebo vyhradených blokov v samotnom procesore), ktoré zohrávajú úlohu TOE (TCP/IP Offload Engine) alebo preberanie matematických úloh EC, deduplikácie a kompresie.

Priemyselné trendy veľkokapacitných úložných systémov

Nové prístupy k ukladaniu údajov sú stelesnené v dezagregovanej (distribuovanej) architektúre. V centralizovaných úložných systémoch je serverová továreň pripojená cez Fibre Channel SAN s množstvom polí. Nevýhodou tohto prístupu sú ťažkosti so škálovaním a poskytovaním garantovanej úrovne služieb (v zmysle výkonu alebo latencie). Hyperkonvergované systémy používajú rovnakých hostiteľov na ukladanie aj spracovanie informácií. To poskytuje takmer neobmedzený priestor na škálovanie, ale znamená to vysoké náklady na udržiavanie integrity údajov.

Na rozdiel od oboch vyššie uvedených, dezagregovaná architektúra znamená rozdelenie systému na počítačovú továreň a horizontálny úložný systém. To poskytuje výhody oboch architektúr a umožňuje takmer neobmedzené škálovanie len toho prvku, ktorého výkon nestačí.

Priemyselné trendy veľkokapacitných úložných systémov

Od integrácie ku konvergencii

Klasickou úlohou, ktorej význam za posledných 15 rokov len narástol, je potreba súčasného zabezpečenia blokového úložiska, prístupu k súborom, prístupu k objektom, prevádzky farmy pre veľké dáta atď. Čerešničkou na torte môže byť byť napríklad záložným systémom k magnetickej páske.

V prvej fáze bolo možné zjednotiť len riadenie týchto služieb. Heterogénne systémy na ukladanie dát boli uzavreté na nejaký špecializovaný softvér, cez ktorý správca distribuoval zdroje z dostupných fondov. Keďže sa však tieto oblasti hardvéru líšili, migrácia záťaže medzi nimi bola nemožná. Na vyššej úrovni integrácie prebehla konsolidácia na úrovni brány. Ak by existoval zdieľaný prístup k súborom, mohol by byť poskytnutý prostredníctvom rôznych protokolov.

Najpokročilejšia metóda konvergencie, ktorú máme teraz k dispozícii, zahŕňa vytvorenie univerzálneho hybridného systému. Presne tak, ako by to u nás malo byť OceanStor 100D. Univerzálny prístup využíva rovnaké hardvérové ​​prostriedky, logicky rozdelené do rôznych oblastí, ale umožňujúce migráciu záťaže. To všetko je možné vykonať prostredníctvom jedinej riadiacej konzoly. Týmto spôsobom sme boli schopní implementovať koncept „jedno dátové centrum – jeden úložný systém“.

Priemyselné trendy veľkokapacitných úložných systémov

Náklady na uchovávanie informácií teraz určujú mnohé architektonické rozhodnutia. A hoci ho možno pokojne postaviť do popredia, dnes diskutujeme o „živom“ úložisku s aktívnym prístupom, takže treba brať ohľad aj na výkon. Ďalšou dôležitou vlastnosťou distribuovaných systémov novej generácie je zjednotenie. Nikto predsa nechce mať niekoľko nesúrodých systémov spravovaných z rôznych konzol. Všetky tieto kvality stelesňuje nová séria produktov Huawei. OceanStor Pacific.

Veľkokapacitné úložisko novej generácie

OceanStor Pacific spĺňa požiadavky na spoľahlivosť šiestich deviatok (99,9999 %) a možno ho použiť na vytvorenie dátového centra triedy HyperMetro. So vzdialenosťou medzi dvoma dátovými centrami až 100 km vykazujú systémy dodatočné oneskorenie 2 ms, čo umožňuje zostaviť na nich akékoľvek riešenia odolné voči katastrofe, vrátane riešení s kvórovými servermi.

Priemyselné trendy veľkokapacitných úložných systémov

Produkty novej série demonštrujú všestrannosť z hľadiska protokolov. OceanStor 100D už podporuje blokový prístup, prístup k objektom a prístup Hadoop. Prístup k súborom bude implementovaný v blízkej budúcnosti. Nie je potrebné uchovávať viaceré kópie údajov, ak ich možno vydať prostredníctvom rôznych protokolov.

Priemyselné trendy veľkokapacitných úložných systémov

Zdalo by sa, čo má koncept „bezstratovej siete“ spoločné s úložiskom? Faktom je, že distribuované úložné systémy sú postavené na báze rýchlej siete, ktorá podporuje príslušné algoritmy a mechanizmus RoCE. Systém umelej inteligencie podporovaný našimi prepínačmi pomáha ďalej zvyšovať rýchlosť siete a znižovať latenciu. AI Fabric. Zvýšenie výkonu úložných systémov pri aktivácii AI Fabric môže dosiahnuť 20 %.

Priemyselné trendy veľkokapacitných úložných systémov

Čo je nový distribuovaný úložný uzol OceanStor Pacific? Riešenie s rozmerom 5U obsahuje 120 jednotiek a dokáže nahradiť tri klasické uzly, čím sa priestor v racku viac ako zdvojnásobí. V dôsledku odmietnutia ukladania kópií sa účinnosť pohonov výrazne zvyšuje (až + 92%).

Sme zvyknutí, že softvérovo definované úložisko je špeciálny softvér inštalovaný na klasickom serveri. Ale teraz, aby sa dosiahli optimálne parametre, toto architektonické riešenie vyžaduje aj špeciálne uzly. Pozostáva z dvoch serverov založených na procesoroch ARM, ktoré spravujú pole trojpalcových diskov.

Priemyselné trendy veľkokapacitných úložných systémov

Tieto servery nie sú vhodné pre hyperkonvergované riešenia. Po prvé, pre ARM je málo aplikácií a po druhé je ťažké udržať rovnováhu záťaže. Odporúčame prejsť na samostatné úložisko: výpočtový klaster reprezentovaný klasickými alebo rackovými servermi funguje samostatne, ale je pripojený k úložným uzlom OceanStor Pacific, ktoré tiež vykonávajú svoje priame úlohy. A ospravedlňuje sa.

Vezmime si napríklad klasické hyperkonvergované riešenie ukladania veľkých dát, ktoré zaberá 15 serverových stojanov. Ak rozložíte záťaž medzi jednotlivé výpočtové servery OceanStor Pacific a úložné uzly a oddelíte ich od seba, počet požadovaných stojanov sa zníži na polovicu! To znižuje náklady na prevádzku dátového centra a znižuje celkové náklady na vlastníctvo. Vo svete, kde objem uložených informácií rastie o 30 % ročne, nie sú takéto výhody rozptýlené.

***

Viac informácií o riešeniach Huawei a ich aplikačných scenároch nájdete na našej stránke Online alebo kontaktovaním priamo zástupcov spoločnosti.

Zdroj: hab.com

Pridať komentár