Industrijski trendi v sistemih za množično shranjevanje

Danes bomo govorili o tem, kako najbolje shraniti podatke v svetu, kjer omrežja pete generacije, skenerji genoma in samovozeči avtomobili v enem dnevu proizvedejo več podatkov, kot jih je ustvarilo celotno človeštvo pred industrijsko revolucijo.

Industrijski trendi v sistemih za množično shranjevanje

Naš svet ustvarja vedno več informacij. Nekaj ​​jih je minljivih in se izgubijo tako hitro, kot se zberejo. Drugo bi bilo treba hraniti dlje, drugo pa je popolnoma zasnovano "za stoletja" - vsaj tako vidimo iz sedanjosti. Informacijski tokovi se v podatkovnih centrih usedejo s tako hitrostjo, da vsak nov pristop, katera koli tehnologija, namenjena temu neskončnemu "povpraševanju", hitro zastara.

Industrijski trendi v sistemih za množično shranjevanje

40 let razvoja porazdeljenega shranjevanja

Prvi omrežni pomnilniki v nam znani obliki so se pojavili v osemdesetih letih prejšnjega stoletja. Mnogi od vas so naleteli na NFS (Network File System), AFS (Andrew File System) ali Coda. Desetletje kasneje sta se moda in tehnologija spremenili in porazdeljeni datotečni sistemi so se umaknili sistemom za shranjevanje v gruče, ki temeljijo na GPFS (Splošni vzporedni datotečni sistem), CFS (Gručni datotečni sistemi) in StorNext. Za osnovo so bili uporabljeni blokovni pomnilniki klasične arhitekture, na vrhu pa je bil s programsko plastjo ustvarjen enoten datotečni sistem. Te in podobne rešitve se še vedno uporabljajo, zasedajo svojo nišo in so precej povpraševane.

Na prelomu tisočletja se je paradigma porazdeljenega shranjevanja nekoliko spremenila in vodilno mesto so prevzeli sistemi z arhitekturo SN (Shared-Nothing). Prišlo je do prehoda iz shrambe gruče v shrambo na ločenih vozliščih, ki so bili praviloma klasični strežniki s programsko opremo, ki zagotavlja zanesljivo shrambo; takšna načela so zgrajena recimo HDFS (Hadoop Distributed File System) in GFS (Global File System).

Bliže leta 2010 so se koncepti, na katerih temeljijo porazdeljeni sistemi za shranjevanje, vedno bolj začeli odražati v polnopravnih komercialnih izdelkih, kot so VMware vSAN, Dell EMC Isilon in naši Huawei OceanStor. Za omenjenimi platformami ne stoji več skupnost entuziastov, temveč specifični ponudniki, ki skrbijo za funkcionalnost, podporo, servisno vzdrževanje produkta in jamčijo za njegov nadaljnji razvoj. Takšne rešitve so najbolj iskane na več področjih.

Industrijski trendi v sistemih za množično shranjevanje

Telekom operaterji

Morda so eni najstarejših porabnikov porazdeljenih sistemov za shranjevanje podatkov telekomunikacijski operaterji. Diagram prikazuje, katere skupine aplikacij proizvajajo večino podatkov. OSS (Operations Support Systems), MSS (Management Support Services) in BSS (Business Support Systems) so tri komplementarne plasti programske opreme, potrebne za dostavo storitev naročnikom, finančno poročanje ponudniku in operativno podporo operaterjevim inženirjem.

Pogosto so podatki teh plasti močno pomešani med seboj in da bi se izognili kopičenju nepotrebnih kopij, se uporabljajo porazdeljeni pomnilniki, ki zbirajo celotno količino informacij, ki prihajajo iz delujočega omrežja. Skladišča so združena v skupni bazen, do katerega imajo dostop vse storitve.

Naši izračuni kažejo, da vam prehod s klasičnih na blokovne sisteme za shranjevanje omogoča prihranek do 70% proračuna samo z opustitvijo namenskih hi-end sistemov za shranjevanje in uporabo običajnih strežnikov klasične arhitekture (običajno x86), ki delujejo v povezavi s specializirano programsko opremo. Operaterji mobilne telefonije že dolgo pridobivajo takšne rešitve v velikih količinah. Predvsem ruski operaterji že več kot šest let uporabljajo takšne izdelke Huaweija.

Da, številnih nalog ni mogoče izvesti z uporabo porazdeljenih sistemov. Na primer s povečanimi zahtevami glede zmogljivosti ali združljivostjo s starejšimi protokoli. Toda vsaj 70 % podatkov, ki jih operater obdela, je mogoče postaviti v porazdeljeno zbirko.

Industrijski trendi v sistemih za množično shranjevanje

Bančni sektor

V vsaki banki obstaja veliko različnih informacijskih sistemov, od procesiranja do avtomatiziranega bančnega sistema. Ta infrastruktura deluje tudi z ogromno količino informacij, medtem ko večina nalog ne zahteva povečane zmogljivosti in zanesljivosti pomnilniških sistemov, kot so razvoj, testiranje, avtomatizacija pisarniških procesov itd. Tu je možna uporaba klasičnih pomnilniških sistemov. , vendar je vsako leto manj donosna. Poleg tega v tem primeru ni prožnosti pri porabi virov za shranjevanje, katerih zmogljivost se izračuna iz konične obremenitve.

Pri uporabi porazdeljenih sistemov za shranjevanje je mogoče njihova vozlišča, ki so pravzaprav navadni strežniki, kadar koli pretvoriti, na primer v farmo strežnikov in uporabiti kot računalniško platformo.

Industrijski trendi v sistemih za množično shranjevanje

Podatkovna jezera

Zgornji diagram prikazuje seznam tipičnih porabnikov storitev. podatkovno jezero. To so lahko storitve e-uprave (na primer »Gosuslugi«), podjetja, ki so bila digitalizirana, finančne strukture itd. Vsi morajo delati z velikimi količinami heterogenih informacij.

Delovanje klasičnih pomnilniških sistemov za reševanje tovrstnih problemov je neučinkovito, saj sta potrebna tako visoko zmogljiv dostop do blokovnih podatkovnih baz kot reden dostop do knjižnic skeniranih dokumentov, shranjenih kot objekti. Tukaj je na primer mogoče vezati sistem naročil prek spletnega portala. Za izvedbo vsega tega na klasični skladiščni platformi boste potrebovali velik nabor opreme za različne naloge. En horizontalni univerzalni sistem za shranjevanje lahko zlahka pokrije vse prej naštete naloge: v njem morate le ustvariti več bazenov z različnimi karakteristikami za shranjevanje.

Industrijski trendi v sistemih za množično shranjevanje

Generatorji novih informacij

Količina shranjenih informacij v svetu narašča za približno 30 % letno. To je dobra novica za prodajalce prostora za shranjevanje, toda kaj je in bo glavni vir teh podatkov?

Pred desetimi leti so družbena omrežja postala takšni generatorji, kar je zahtevalo ustvarjanje velikega števila novih algoritmov, strojnih rešitev itd. Zdaj obstajajo trije glavni dejavniki rasti prostora za shranjevanje. Prvi je računalništvo v oblaku. Trenutno približno 70 % podjetij tako ali drugače uporablja storitve v oblaku. To so lahko e-poštni sistemi, varnostne kopije in druge virtualizirane entitete.
Omrežja pete generacije postajajo drugi gonilnik. To so nove hitrosti in nove količine prenosa podatkov. Po naših napovedih bo široko sprejetje 5G povzročilo padec povpraševanja po flash pomnilniških karticah. Ne glede na to, koliko pomnilnika je v telefonu, se še vedno konča, in če ima pripomoček 100-megabitni kanal, fotografij ni treba shranjevati lokalno.

Tretja skupina razlogov za naraščanje povpraševanja po shranjevalnih sistemih je hiter razvoj umetne inteligence, prehod na analitiko velikih podatkov in trend univerzalne avtomatizacije vsega, kar je mogoče.

Značilnost "novega prometa" je njegova nestrukturirano. Te podatke moramo shraniti, ne da bi kakor koli opredelili njihovo obliko. Potreben je le za nadaljnje branje. Na primer, sistem točkovanja banke za določitev razpoložljive velikosti kredita bo na fotografijah, ki ste jih objavili na družbenih omrežjih, ugotavljal, kako pogosto hodite na morje in v restavracije, hkrati pa bo preučeval izvlečke iz vaših zdravstvenih dokumentov, ki so mu na voljo. Ti podatki so po eni strani celoviti, po drugi strani pa premalo homogeni.

Industrijski trendi v sistemih za množično shranjevanje

Ocean nestrukturiranih podatkov

Kakšne so težave, ki jih prinaša pojav »novih podatkov«? Prva med njimi je seveda sama količina informacij in predvideno obdobje njihovega shranjevanja. Samo sodoben avtonomni avtomobil brez voznika ustvari do 60 TB podatkov vsak dan iz vseh svojih senzorjev in mehanizmov. Za razvoj novih algoritmov gibanja morajo biti te informacije obdelane v istem dnevu, sicer se bodo začele kopičiti. Hkrati ga je treba hraniti zelo dolgo - desetletja. Le tako bo v prihodnje mogoče sklepati na podlagi velikih analitskih vzorcev.

Ena naprava za dešifriranje genetskih zaporedij proizvede približno 6 terabajtov na dan. In podatki, zbrani z njegovo pomočjo, sploh ne pomenijo izbrisa, torej hipotetično bi jih bilo treba shraniti za vedno.

Končno, vsa ista omrežja pete generacije. Poleg samih posredovanih informacij je takšno omrežje samo ogromen generator podatkov: dnevniki dejavnosti, zapisi klicev, vmesni rezultati interakcij stroj-stroj itd.

Vse to zahteva razvoj novih pristopov in algoritmov za shranjevanje in obdelavo informacij. In taki pristopi se pojavljajo.

Industrijski trendi v sistemih za množično shranjevanje

Tehnologije nove dobe

Ločimo lahko tri skupine rešitev, namenjenih kos novim zahtevam za sisteme za shranjevanje informacij: uvedba umetne inteligence, tehnični razvoj pomnilniških medijev in inovacije na področju sistemske arhitekture. Začnimo z AI.

Industrijski trendi v sistemih za množično shranjevanje

V novih Huaweijevih rešitvah je umetna inteligenca uporabljena že na ravni samega pomnilnika, ki je opremljen z AI procesorjem, ki sistemu omogoča samostojno analizo stanja in napovedovanje okvar. Če je sistem za shranjevanje povezan s storitvenim oblakom, ki ima pomembne računalniške zmogljivosti, lahko umetna inteligenca obdela več informacij in izboljša natančnost svojih hipotez.

Poleg napak lahko taka umetna inteligenca predvidi prihodnjo konično obremenitev in preostali čas do izčrpanosti zmogljivosti. To vam omogoča, da optimizirate delovanje in prilagodite sistem, preden pride do neželenih dogodkov.

Industrijski trendi v sistemih za množično shranjevanje

Zdaj pa o razvoju podatkovnih nosilcev. Prvi bliskovni diski so bili izdelani s tehnologijo SLC (Single-Level Cell). Naprave na njegovi osnovi so bile hitre, zanesljive, stabilne, vendar so imele majhno zmogljivost in so bile zelo drage. Povečanje obsega in znižanje cene je bilo doseženo z nekaterimi tehničnimi koncesijami, zaradi katerih so se zmanjšale hitrost, zanesljivost in življenjska doba pogonov. Kljub temu trend ni vplival na same sisteme za shranjevanje, ki so zaradi različnih arhitekturnih trikov na splošno postali bolj produktivni in zanesljivejši.

Toda zakaj ste potrebovali sisteme za shranjevanje podatkov razreda All-Flash? Ali ni bilo dovolj le zamenjati stare trde diske v že delujočem sistemu z novimi diski SSD enake oblike? To je bilo potrebno za učinkovito uporabo vseh virov novih SSD diskov, kar je bilo v starejših sistemih preprosto nemogoče.

Huawei je na primer razvil številne tehnologije za rešitev te težave, ena izmed njih je FlashLink, kar je omogočilo čim večjo optimizacijo interakcij med diskom in krmilnikom.

Inteligentna identifikacija je omogočila razgradnjo podatkov v več tokov in spopadanje s številnimi nezaželenimi pojavi, kot je npr. WA (zapiši povečavo). Hkrati pa še posebej novi algoritmi za obnovitev RAID 2.0+, povečala hitrost obnove in skrajšala njen čas na povsem nepomembne vrednosti.

Okvara, prezasedenost, zbiranje smeti - tudi ti dejavniki zaradi posebne izboljšave krmilnikov ne vplivajo več na delovanje sistema za shranjevanje.

Industrijski trendi v sistemih za množično shranjevanje

In blok podatkovne shrambe se pripravljajo na srečanje NVMe. Spomnimo se, da je klasična shema za organizacijo dostopa do podatkov delovala tako: procesor je dostopal do krmilnika RAID prek vodila PCI Express. To pa je sodelovalo z mehanskimi diski prek SCSI ali SAS. Uporaba NVMe na ozadju je bistveno pospešila celoten proces, vendar je imela eno pomanjkljivost: pogoni so morali biti neposredno povezani s procesorjem, da bi mu zagotovili neposreden dostop do pomnilnika.

Naslednja faza tehnološkega razvoja, ki smo ji priča, je uporaba NVMe-oF (NVMe over Fabrics). Kar zadeva blokovne tehnologije Huawei, te že podpirajo FC-NVMe (NVMe prek optičnega kanala), NVMe prek RoCE (RDMA prek konvergentnega Etherneta) pa je na poti. Testni modeli so precej funkcionalni, do njihove uradne predstavitve je še nekaj mesecev. Upoštevajte, da se bo vse to pojavilo tudi v porazdeljenih sistemih, kjer bo "Ethernet brez izgube" veliko povpraševanje.

Industrijski trendi v sistemih za množično shranjevanje

Dodaten način za optimizacijo dela porazdeljenih shramb je bila popolna zavrnitev zrcaljenja podatkov. Rešitve Huawei ne uporabljajo več n kopij, kot v običajnem RAID 1, in popolnoma preidejo na mehanizem EC (Kodiranje izbrisa). Poseben matematični paket z določeno frekvenco izračunava kontrolne bloke, ki vam omogočajo obnovitev vmesnih podatkov v primeru izgube.

Mehanizmi deduplikacije in stiskanja postanejo obvezni. Če smo pri klasičnih pomnilniških sistemih omejeni s številom procesorjev, nameščenih v krmilnikih, potem v porazdeljenih horizontalno razširljivih pomnilniških sistemih vsako vozlišče vsebuje vse, kar potrebujete: diske, pomnilnik, procesorje in interkonekcijo. Ti viri so dovolj, da deduplikacija in stiskanje minimalno vplivata na zmogljivost.

In o metodah optimizacije strojne opreme. Tu je bilo možno zmanjšati obremenitev centralnih procesorjev s pomočjo dodatnih namenskih mikrovezij (oz. namenskih blokov v samem procesorju), ki imajo vlogo TOE (TCP/IP Offload Engine) ali prevzemanje matematičnih nalog EC, deduplikacije in stiskanja.

Industrijski trendi v sistemih za množično shranjevanje

Novi pristopi k shranjevanju podatkov so utelešeni v razčlenjeni (distribuirani) arhitekturi. V centraliziranih sistemih za shranjevanje je tovarna strežnikov povezana prek Fibre Channel SAN z veliko nizi. Slabosti tega pristopa so težave s skaliranjem in zagotavljanjem zajamčene ravni storitve (v smislu zmogljivosti ali zakasnitve). Hiperkonvergirani sistemi uporabljajo iste gostitelje za shranjevanje in obdelavo informacij. To daje skoraj neomejen obseg za skaliranje, vendar vključuje visoke stroške za vzdrževanje celovitosti podatkov.

Za razliko od obeh zgornjih, razčlenjena arhitektura pomeni razdelitev sistema na računalniško tovarno in horizontalni sistem za shranjevanje. To zagotavlja prednosti obeh arhitektur in omogoča skoraj neomejeno skaliranje le elementa, katerega zmogljivost ni dovolj.

Industrijski trendi v sistemih za množično shranjevanje

Od integracije do konvergence

Klasična naloga, katere aktualnost je v zadnjih 15 letih le še naraščala, je potreba po hkratnem zagotavljanju blokovnega shranjevanja, dostopa do datotek, dostopa do objektov, delovanja farme za velike podatke itd. Češnja na torti lahko biti tudi na primer rezervni sistem za magnetni trak.

V prvi fazi bi lahko poenotili le upravljanje teh storitev. Heterogeni sistemi za shranjevanje podatkov so bili zaprti za določeno specializirano programsko opremo, prek katere je skrbnik razdeljeval vire iz razpoložljivih bazenov. Ker pa so bila ta področja različna v strojni opremi, je bilo selitev bremena med njimi nemogoče. Na višji ravni integracije je konsolidacija potekala na nivoju prehoda. Če bi obstajal dostop do datoteke v skupni rabi, bi ga lahko dali prek različnih protokolov.

Najnaprednejša konvergenčna metoda, ki nam je zdaj na voljo, vključuje ustvarjanje univerzalnega hibridnega sistema. Takšna, kot mora biti naša OceanStor 100D. Univerzalni dostop uporablja iste vire strojne opreme, logično razdeljene v različna področja, vendar omogoča selitev obremenitve. Vse to je mogoče storiti prek ene same upravljalne konzole. Na ta način nam je uspelo uveljaviti koncept »en podatkovni center – en sistem za shranjevanje«.

Industrijski trendi v sistemih za množično shranjevanje

Stroški shranjevanja informacij zdaj določajo številne arhitekturne odločitve. In čeprav ga lahko mirno postavljamo v ospredje, danes razpravljamo o »živem« shranjevanju z aktivnim dostopom, zato je treba upoštevati tudi zmogljivost. Druga pomembna lastnost porazdeljenih sistemov naslednje generacije je poenotenje. Navsezadnje si nihče ne želi več različnih sistemov upravljati z različnih konzol. Vse te lastnosti so utelešene v novi seriji izdelkov Huawei. OceanStor Pacific.

Masovni pomnilnik naslednje generacije

OceanStor Pacific izpolnjuje zahteve glede zanesljivosti šestih devet (99,9999 %) in se lahko uporablja za ustvarjanje podatkovnega centra razreda HyperMetro. Z razdaljo med dvema podatkovnima središčema do 100 km sistemi izkazujejo dodatno zakasnitev 2 ms, kar omogoča izgradnjo kakršnih koli disaster-proof rešitev, ki temeljijo na njih, vključno s tistimi s kvorumskimi strežniki.

Industrijski trendi v sistemih za množično shranjevanje

Izdelki nove serije dokazujejo vsestranskost v smislu protokolov. OceanStor 100D že podpira dostop do blokov, dostop do objektov in dostop Hadoop. Dostop do datotek bo uveden v bližnji prihodnosti. Ni treba hraniti več kopij podatkov, če jih je mogoče izdati prek različnih protokolov.

Industrijski trendi v sistemih za množično shranjevanje

Zdi se, kaj ima koncept "omrežje brez izgub" s shranjevanjem? Dejstvo je, da so porazdeljeni pomnilniški sistemi zgrajeni na osnovi hitrega omrežja, ki podpira ustrezne algoritme in mehanizem RoCE. Sistem umetne inteligence, ki ga podpirajo naša stikala, pomaga dodatno povečati hitrost omrežja in zmanjšati zakasnitev. Tkanina AI. Povečanje zmogljivosti sistemov za shranjevanje, ko je aktivirana AI Fabric, lahko doseže 20 %.

Industrijski trendi v sistemih za množično shranjevanje

Kaj je novo porazdeljeno pomnilniško vozlišče OceanStor Pacific? Rešitev s faktorjem oblike 5U vključuje 120 diskov in lahko nadomesti tri klasična vozlišča, kar več kot podvoji prostor v omari. Zaradi zavrnitve shranjevanja kopij se učinkovitost pogonov znatno poveča (do + 92%).

Navajeni smo, da je programsko določena shramba posebna programska oprema, nameščena na klasičnem strežniku. Zdaj pa ta arhitekturna rešitev za doseganje optimalnih parametrov zahteva tudi posebna vozlišča. Sestavljen je iz dveh strežnikov, ki temeljita na procesorjih ARM, ki upravljata niz tripalčnih pogonov.

Industrijski trendi v sistemih za množično shranjevanje

Ti strežniki niso najbolj primerni za hiperkonvergirane rešitve. Prvič, malo je aplikacij za ARM, in drugič, težko je vzdrževati ravnovesje obremenitve. Predlagamo prehod na ločeno shranjevanje: računalniška gruča, ki jo predstavljajo klasični ali regalni strežniki, deluje ločeno, vendar je povezana s skladiščnimi vozlišči OceanStor Pacific, ki prav tako opravljajo svoje neposredne naloge. In se opravičuje.

Za primer vzemimo klasično hiperkonvergirano rešitev za shranjevanje velikih podatkov, ki zaseda 15 strežniških omaric. Če obremenitev porazdelite med posamezne računalniške strežnike in pomnilniška vozlišča OceanStor Pacific, tako da jih ločite med seboj, se bo število potrebnih omaric prepolovilo! To zmanjša stroške delovanja podatkovnega centra in zniža skupne stroške lastništva. V svetu, kjer obseg shranjenih informacij raste za 30 % na leto, te koristi niso razpršene.

***

Za več informacij o rešitvah Huawei in njihovih scenarijih uporabe obiščite našo Online ali pa se neposredno obrnete na predstavnike podjetja.

Vir: www.habr.com

Dodaj komentar