Branchendenser inden for masselagringssystemer

I dag vil vi tale om, hvordan man bedst opbevarer data i en verden, hvor femte generations netværk, genomscannere og selvkørende biler producerer flere data om dagen, end hele menneskeheden genererede før den industrielle revolution.

Branchendenser inden for masselagringssystemer

Vores verden genererer mere og mere information. Noget af det er flygtigt og går tabt lige så hurtigt, som det bliver samlet. En anden skal opbevares længere, og en anden er endda designet "i århundreder" - det er i hvert fald, hvad vi ser fra nutiden. Informationsstrømme afvikles i datacentre med en sådan hastighed, at enhver ny tilgang, enhver teknologi designet til at imødekomme denne endeløse "efterspørgsel" hurtigt bliver forældet.

Branchendenser inden for masselagringssystemer

40 års udvikling af distribuerede lagersystemer

Den første netværkslagring i den form, vi er bekendt med, dukkede op i 1980'erne. Mange af jer er stødt på NFS (Network File System), AFS (Andrew File System) eller Coda. Et årti senere har mode og teknologi ændret sig, og distribuerede filsystemer har givet plads til clustered storage-systemer baseret på GPFS (General Parallel File System), CFS (Clustered File Systems) og StorNext. Bloklagring af klassisk arkitektur blev brugt som grundlag, hvorpå der blev oprettet et enkelt filsystem ved hjælp af et softwarelag. Disse og lignende løsninger bruges stadig, optager deres niche og er ret efterspurgte.

Ved årtusindskiftet ændrede det distribuerede lagringsparadigme sig noget, og systemer med SN (Shared-Nothing) arkitektur indtog de førende positioner. Der er sket en overgang fra cluster storage til storage på individuelle noder, som som regel var klassiske servere med software, der gav pålidelig lagring; På sådanne principper er f.eks. HDFS (Hadoop Distributed File System) og GFS (Global File System) bygget.

Tættere på 2010'erne begyndte koncepterne bag distribuerede lagersystemer i stigende grad at blive afspejlet i fuldgyldige kommercielle produkter, såsom VMware vSAN, Dell EMC Isilon og vores Huawei OceanStor. Bag de nævnte platforme er der ikke længere et fællesskab af entusiaster, men specifikke leverandører, som er ansvarlige for produktets funktionalitet, support og service og garanterer dets videre udvikling. Sådanne løsninger er mest efterspurgte på flere områder.

Branchendenser inden for masselagringssystemer

Teleoperatører

Måske er en af ​​de ældste forbrugere af distribuerede lagersystemer teleoperatører. Diagrammet viser, hvilke grupper af applikationer der producerer hovedparten af ​​data. OSS (Operations Support Systems), MSS (Management Support Services) og BSS (Business Support Systems) repræsenterer tre komplementære softwarelag, der kræves for at levere service til abonnenter, økonomisk rapportering til udbyderen og driftsstøtte til operatøringeniører.

Ofte er dataene i disse lag stærkt blandet med hinanden, og for at undgå ophobning af unødvendige kopier, bruges distribueret lagring, som akkumulerer hele mængden af ​​information, der kommer fra driftsnetværket. Lagrene er samlet til en fælles pool, som alle tjenester har adgang til.

Vores beregninger viser, at overgangen fra klassiske lagringssystemer til bloklagringssystemer giver dig mulighed for at spare op til 70 % af budgettet kun ved at opgive dedikerede hi-end-lagringssystemer og bruge konventionelle klassiske arkitekturservere (normalt x86), der arbejder sammen med specialiserede software. Mobiloperatører er for længst begyndt at købe sådanne løsninger i store mængder. Især russiske operatører har brugt sådanne produkter fra Huawei i mere end seks år.

Ja, en række opgaver kan ikke udføres ved hjælp af distribuerede systemer. For eksempel med øgede ydeevnekrav eller kompatibilitet med ældre protokoller. Men mindst 70 % af de data, der behandles af operatøren, kan findes i en distribueret pulje.

Branchendenser inden for masselagringssystemer

Banksektoren

I enhver bank er der mange forskellige it-systemer, der starter fra behandling og slutter med et automatiseret banksystem. Denne infrastruktur arbejder også med en enorm mængde information, mens de fleste opgaver ikke kræver øget ydeevne og pålidelighed af lagersystemer, for eksempel udvikling, test, automatisering af kontorprocesser osv. Her er brugen af ​​klassiske lagersystemer mulig, men hvert år er det mindre og mindre rentabelt. Derudover er der i dette tilfælde ingen fleksibilitet i brugen af ​​lagersystemressourcer, hvis ydeevne beregnes baseret på spidsbelastning.

Ved brug af distribuerede lagersystemer kan deres noder, som i virkeligheden er almindelige servere, til enhver tid konverteres til for eksempel en serverfarm og bruges som computerplatform.

Branchendenser inden for masselagringssystemer

Datasøer

Diagrammet ovenfor viser en liste over typiske serviceforbrugere data sø. Det kan være e-forvaltningstjenester (f.eks. "Government Services"), digitaliserede virksomheder, finansielle institutioner osv. Alle skal de arbejde med store mængder af heterogen information.

At bruge klassiske lagersystemer til at løse sådanne problemer er ineffektivt, da det kræver både højtydende adgang til blokdatabaser og regelmæssig adgang til biblioteker af scannede dokumenter, der er gemt som objekter. Eksempelvis kan et bestillingssystem via en webportal også linkes her. For at implementere alt dette på en klassisk lagerplatform skal du bruge et stort sæt udstyr til forskellige opgaver. Et horisontalt universelt opbevaringssystem kan godt dække alle de tidligere nævnte opgaver: du skal bare oprette flere pools med forskellige opbevaringsegenskaber i det.

Branchendenser inden for masselagringssystemer

Generatorer af ny information

Mængden af ​​information, der lagres i verden, vokser med omkring 30 % om året. Dette er gode nyheder for lagerleverandører, men hvad er og bliver hovedkilden til disse data?

For ti år siden blev sociale netværk sådanne generatorer, hvilket krævede skabelsen af ​​et stort antal nye algoritmer, hardwareløsninger osv. Nu er der tre hoveddrivere for væksten i lagervolumen. Den første er cloud computing. I øjeblikket bruger cirka 70 % af virksomhederne cloud-tjenester på den ene eller anden måde. Disse kan være elektroniske postsystemer, sikkerhedskopier og andre virtualiserede enheder.
Den anden driver er femte generations netværk. Det er nye hastigheder og nye dataoverførselsmængder. Ifølge vores prognoser vil den udbredte anvendelse af 5G føre til et fald i efterspørgslen efter flash-hukommelseskort. Uanset hvor meget hukommelse der er i telefonen, løber den stadig tør, og hvis gadgetten har en 100 megabit kanal, er der ingen grund til at gemme billeder lokalt.

Den tredje gruppe af årsager til, at efterspørgslen efter lagersystemer vokser, omfatter den hurtige udvikling af kunstig intelligens, overgangen til big data-analyse og tendensen til universel automatisering af alt muligt.

Et træk ved den "nye trafik" er dens mangel på struktur. Vi er nødt til at gemme disse data uden at definere deres format på nogen måde. Det er kun påkrævet til efterfølgende læsning. For at bestemme det tilgængelige lånebeløb vil et bankscoringssystem for eksempel se på de billeder, du poster på sociale netværk, afgøre, om du ofte går til havet og på restauranter, og samtidig studere uddragene fra dine tilgængelige medicinske dokumenter til det. Disse data er på den ene side omfattende, men mangler på den anden side homogenitet.

Branchendenser inden for masselagringssystemer

Ocean af ustrukturerede data

Hvilke problemer medfører fremkomsten af ​​"nye data"? Den første blandt dem er selvfølgelig den store mængde information og den anslåede opbevaringsperiode. En moderne førerløs autonom bil alene genererer op til 60 terabyte data hver dag fra alle dens sensorer og mekanismer. For at udvikle nye bevægelsesalgoritmer skal disse oplysninger behandles inden for samme dag, ellers vil de begynde at akkumulere. Samtidig skal den opbevares i meget lang tid – årtier. Først da vil det i fremtiden være muligt at drage konklusioner baseret på store analytiske stikprøver.

En enhed til at dechifrere genetiske sekvenser producerer omkring 6 TB om dagen. Og de data, der er indsamlet med dens hjælp, indebærer slet ikke sletning, det vil sige hypotetisk, at de skal opbevares for evigt.

Endelig de samme femte generations netværk. Ud over den faktiske overførte information er et sådant netværk i sig selv en enorm generator af data: aktivitetslogfiler, opkaldsregistreringer, mellemresultater af interaktioner mellem maskine og maskine osv.

Alt dette kræver udvikling af nye tilgange og algoritmer til lagring og behandling af information. Og sådanne tilgange dukker op.

Branchendenser inden for masselagringssystemer

Ny æra teknologier

Der er tre grupper af løsninger designet til at klare nye krav til informationslagringssystemer: introduktionen af ​​kunstig intelligens, den tekniske udvikling af lagermedier og innovationer inden for systemarkitektur. Lad os starte med AI.

Branchendenser inden for masselagringssystemer

I nye Huawei-løsninger bruges kunstig intelligens på niveau med selve lageret, som er udstyret med en AI-processor, der gør det muligt for systemet selvstændigt at analysere sin tilstand og forudsige fejl. Hvis lagersystemet er forbundet med en servicesky, der har betydelige computeregenskaber, vil kunstig intelligens kunne behandle mere information og øge nøjagtigheden af ​​dens hypoteser.

Ud over fejl kan en sådan AI forudsige fremtidig spidsbelastning og den resterende tid, indtil kapaciteten er opbrugt. Dette giver dig mulighed for at optimere ydeevnen og skalere systemet, før der opstår uønskede hændelser.

Branchendenser inden for masselagringssystemer

Nu om udviklingen af ​​lagermedier. De første flashdrev blev lavet ved hjælp af SLC (Single-Level Cell) teknologi. Enheder baseret på det var hurtige, pålidelige, stabile, men havde en lille kapacitet og var meget dyre. Mængdevækst og prisreduktion blev opnået gennem visse tekniske indrømmelser, som medførte, at frekvensomformernes hastighed, pålidelighed og levetid blev reduceret. Ikke desto mindre påvirkede tendensen ikke selve lagersystemerne, som på grund af forskellige arkitektoniske tricks generelt blev både mere produktive og mere pålidelige.

Men hvorfor havde du brug for All-Flash-lagringssystemer? Var det ikke nok blot at erstatte de gamle HDD'er i et allerede operativsystem med nye SSD'er af samme formfaktor? Dette var nødvendigt for effektivt at kunne bruge alle ressourcerne i de nye solid-state-drev, hvilket simpelthen var umuligt i ældre systemer.

Huawei har for eksempel udviklet en række teknologier til at løse dette problem, hvoraf den ene er FlashLink, hvilket gjorde det muligt at optimere "disk-controller"-interaktionerne så meget som muligt.

Intelligent identifikation gjorde det muligt at dekomponere data i flere strømme og håndtere en række uønskede fænomener, som f.eks. WA (skriv forstærkning). Samtidig er der især nye recovery-algoritmer RAID 2.0+, øgede genopbygningshastigheden, hvilket reducerede dens tid til helt ubetydelige mængder.

Fejl, overfyldning, affaldsopsamling - disse faktorer påvirker heller ikke længere lagersystemets ydeevne takket være specielle ændringer af controllerne.

Branchendenser inden for masselagringssystemer

Og blokdatalagre forbereder sig også på at mødes NVMe. Lad os huske, at den klassiske ordning til organisering af dataadgang fungerede sådan: processoren fik adgang til RAID-controlleren via PCI Express-bussen. Det interagerede til gengæld med mekaniske diske via SCSI eller SAS. Brugen af ​​NVMe på backend fremskyndede hele processen markant, men det havde én ulempe: drevene skulle være direkte forbundet til processoren for at give den direkte adgang til hukommelsen.

Den næste fase af teknologiudviklingen, som vi ser nu, er brugen af ​​NVMe-oF (NVMe over Fabrics). Hvad angår Huawei-blokteknologier, understøtter de allerede FC-NVMe (NVMe over Fibre Channel), og NVMe over RoCE (RDMA over Converged Ethernet) er på vej. Testmodellerne er ret funktionelle, og der er flere måneder tilbage til deres officielle præsentation. Bemærk, at alt dette vil dukke op i distribuerede systemer, hvor "tabsfrit Ethernet" vil være meget efterspurgt.

Branchendenser inden for masselagringssystemer

En yderligere måde at optimere driften af ​​distribueret lagring på var den fuldstændige opgivelse af dataspejling. Huawei-løsninger bruger ikke længere n kopier, som i den sædvanlige RAID 1, og skifter helt til EC (Sletning af kodning). En speciel matematisk pakke beregner kontrolblokke med en vis periodicitet, som giver dig mulighed for at gendanne mellemliggende data i tilfælde af tab.

Deduplikation og kompressionsmekanismer bliver obligatoriske. Hvis vi i klassiske lagersystemer er begrænset af antallet af processorer installeret i controllerne, så indeholder hver node i distribuerede horisontalt skalerbare lagersystemer alt nødvendigt: diske, hukommelse, processorer og sammenkobling. Disse ressourcer er tilstrækkelige til at sikre, at deduplikering og komprimering har minimal indvirkning på ydeevnen.

Og om hardwareoptimeringsmetoder. Her var det muligt at reducere belastningen på centrale processorer ved hjælp af yderligere dedikerede chips (eller dedikerede blokke i selve processoren), som spiller en rolle TOE (TCP/IP Offload Engine) eller påtage sig de matematiske opgaver som EC, deduplikering og komprimering.

Branchendenser inden for masselagringssystemer

Nye tilgange til datalagring er inkorporeret i en disaggregeret (distribueret) arkitektur. Centraliserede lagersystemer har en serverfabrik forbundet via Fibre Channel til SAN med mange arrays. Ulemperne ved denne tilgang er vanskeligheden ved at skalere og sikre et garanteret serviceniveau (i form af ydeevne eller latens). Hyperkonvergerede systemer bruger de samme værter til både lagring og behandling af information. Dette giver stort set ubegrænsede muligheder for skalering, men medfører høje omkostninger til at vedligeholde dataintegriteten.

I modsætning til begge ovenstående indebærer en adskilt arkitektur opdeling af systemet i et computerstof og et horisontalt lagersystem. Dette giver fordelene ved begge arkitekturer og tillader næsten ubegrænset skalering af kun det element, der mangler ydeevne.

Branchendenser inden for masselagringssystemer

Fra integration til konvergens

En klassisk opgave, hvis relevans kun er vokset i løbet af de sidste 15 år, er behovet for samtidig at sørge for bloklagring, filadgang, adgang til objekter, drift af en big data farm osv. Prikken over i'et kunne også være fx et backup-system på magnetbånd.

I første fase kunne kun forvaltningen af ​​disse tjenester forenes. Heterogene datalagringssystemer var forbundet med noget specialiseret software, hvorigennem administratoren distribuerede ressourcer fra tilgængelige puljer. Men da disse pools havde forskellig hardware, var belastningsmigrering mellem dem umulig. På et højere integrationsniveau skete aggregeringen på gateway-niveau. Hvis fildeling var tilgængelig, kunne den betjenes via forskellige protokoller.

Den mest avancerede konvergensmetode, der i øjeblikket er tilgængelig for os, involverer skabelsen af ​​et universelt hybridsystem. Præcis hvad vores skal blive OceanStor 100D. Universel adgang bruger de samme hardwareressourcer, logisk opdelt i forskellige puljer, men giver mulighed for belastningsmigrering. Alt dette kan gøres gennem en enkelt administrationskonsol. På denne måde var vi i stand til at implementere konceptet "et datacenter - et lagersystem."

Branchendenser inden for masselagringssystemer

Omkostningerne ved at opbevare information bestemmer nu mange arkitektoniske beslutninger. Og selvom det trygt kan sættes på spidsen, så diskuterer vi i dag “live” lagring med aktiv adgang, så ydeevne skal også tages i betragtning. En anden vigtig egenskab ved næste generations distribuerede systemer er ensretning. Der er jo ingen, der ønsker at have flere forskellige systemer styret fra forskellige konsoller. Alle disse kvaliteter er inkorporeret i den nye serie af Huawei-produkter OceanStor Stillehavet.

Masselagringssystem af den nye generation

OceanStor Pacific opfylder seks-ni-pålidelighedskravene (99,9999%) og kan bruges til at skabe HyperMetro-datacentre. Med en afstand mellem to datacentre på op til 100 km, demonstrerer systemerne en ekstra latenstid på 2 ms, hvilket gør det muligt at bygge på deres basis alle katastrofebestandige løsninger, inklusive dem med quorum-servere.

Branchendenser inden for masselagringssystemer

Den nye serie produkter demonstrerer protokol alsidighed. OceanStor 100D understøtter allerede blokadgang, objektadgang og Hadoop-adgang. Filadgang vil også blive implementeret i den nærmeste fremtid. Der er ingen grund til at gemme flere kopier af data, hvis de kan udstedes gennem forskellige protokoller.

Branchendenser inden for masselagringssystemer

Det ser ud til, hvad begrebet "tabsfrit netværk" har at gøre med lagersystemer? Faktum er, at distribuerede datalagringssystemer er bygget på basis af et hurtigt netværk, der understøtter de passende algoritmer og RoCE-mekanismen. Det kunstige intelligenssystem, der understøttes af vores switches, hjælper med at øge netværkshastigheden yderligere og reducere latens. AI stof. Gevinsten i lagerydeevne ved aktivering af AI Fabric kan nå op på 20 %.

Branchendenser inden for masselagringssystemer

Hvad er den nye OceanStor Pacific distribuerede lagringsknude? 5U formfaktorløsningen omfatter 120 drev og kan erstatte tre klassiske noder, hvilket giver mere end dobbelt besparelse i rackplads. Ved ikke at gemme kopier øges effektiviteten af ​​drev betydeligt (op til +92%).

Vi er vant til, at softwaredefineret lagring er speciel software installeret på en klassisk server. Men nu, for at opnå optimale parametre, kræver denne arkitektoniske løsning også specielle knudepunkter. Den består af to servere baseret på ARM-processorer, der administrerer en række tre-tommers drev.

Branchendenser inden for masselagringssystemer

Disse servere er ikke egnede til hyperkonvergerede løsninger. For det første er der en del applikationer til ARM, og for det andet er det svært at opretholde belastningsbalancen. Vi foreslår flytning til separat lagring: en computerklynge, repræsenteret ved klassiske eller rack-servere, fungerer separat, men er forbundet med OceanStor Pacific-lagernoder, som også udfører deres direkte opgaver. Og det retfærdiggør sig selv.

Lad os for eksempel tage en klassisk big data-lagringsløsning med et hyperkonvergeret system, der optager 15 serverracks. Hvis du fordeler belastningen mellem separate computerservere og OceanStor Pacific-lagernoder og adskiller dem fra hinanden, vil antallet af nødvendige racks blive halveret! Dette reducerer datacenterets driftsomkostninger og reducerer de samlede ejeromkostninger. I en verden, hvor mængden af ​​lagret information vokser med 30 % om året, bliver sådanne fordele ikke kastet rundt.

***

Du kan få mere information om Huawei-løsninger og deres applikationsscenarier på vores Online eller ved at kontakte virksomhedens repræsentanter direkte.

Kilde: www.habr.com

Tilføj en kommentar