Bransjetrender innen masselagringssystemer

I dag skal vi snakke om hvordan man best kan lagre data i en verden der femte generasjons nettverk, genomskannere og selvkjørende biler produserer mer data per dag enn hele menneskeheten genererte før den industrielle revolusjonen.

Bransjetrender innen masselagringssystemer

Vår verden genererer mer og mer informasjon. En del av den er flyktig og går tapt like raskt som den blir samlet. En annen bør lagres lenger, og en annen er til og med designet "i århundrer" - i det minste er det det vi ser fra nåtiden. Informasjonsstrømmer legger seg i datasentre med en slik hastighet at enhver ny tilnærming, enhver teknologi designet for å tilfredsstille denne endeløse "etterspørselen" raskt blir foreldet.

Bransjetrender innen masselagringssystemer

40 års utvikling av distribuerte lagringssystemer

Den første nettverkslagringen i den formen vi er kjent med dukket opp på 1980-tallet. Mange av dere har vært borti NFS (Network File System), AFS (Andrew File System) eller Coda. Et tiår senere har mote og teknologi endret seg, og distribuerte filsystemer har viket for klyngelagringssystemer basert på GPFS (General Parallel File System), CFS (Clustered File Systems) og StorNext. Blokklagring av klassisk arkitektur ble brukt som grunnlag, på toppen av dette ble et enkelt filsystem opprettet ved hjelp av et programvarelag. Disse og lignende løsninger brukes fortsatt, okkuperer deres nisje og er ganske etterspurt.

Ved årtusenskiftet endret det distribuerte lagringsparadigmet seg noe, og systemer med SN-arkitektur (Shared-Nothing) tok de ledende posisjonene. Det har vært en overgang fra klyngelagring til lagring på individuelle noder, som som regel var klassiske servere med programvare som ga pålitelig lagring; På slike prinsipper er for eksempel HDFS (Hadoop Distributed File System) og GFS (Global File System) bygget.

Nærmere 2010-tallet begynte konseptene som ligger til grunn for distribuerte lagringssystemer i økende grad å bli reflektert i fullverdige kommersielle produkter, som VMware vSAN, Dell EMC Isilon og vår Huawei OceanStor. Bak de nevnte plattformene er det ikke lenger et fellesskap av entusiaster, men spesifikke leverandører som er ansvarlige for funksjonaliteten, støtten og servicen til produktet og garanterer dets videre utvikling. Slike løsninger er mest etterspurt på flere områder.

Bransjetrender innen masselagringssystemer

Telekomoperatører

Kanskje en av de eldste forbrukerne av distribuerte lagringssystemer er teleoperatører. Diagrammet viser hvilke grupper av applikasjoner som produserer hovedtyngden av data. OSS (Operations Support Systems), MSS (Management Support Services) og BSS (Business Support Systems) representerer tre komplementære programvarelag som kreves for å yte service til abonnenter, finansiell rapportering til leverandøren og driftsstøtte til operatøringeniører.

Ofte er dataene til disse lagene sterkt blandet med hverandre, og for å unngå akkumulering av unødvendige kopier, brukes distribuert lagring, som samler hele mengden informasjon som kommer fra driftsnettverket. Lagrene er kombinert til et felles basseng, som er tilgjengelig for alle tjenester.

Våre beregninger viser at overgangen fra klassiske lagringssystemer til blokklagringssystemer lar deg spare opptil 70 % av budsjettet bare ved å forlate dedikerte hi-end-lagringssystemer og bruke konvensjonelle klassiske arkitekturservere (vanligvis x86), som arbeider sammen med spesialiserte programvare. Mobiloperatører har for lenge siden begynt å kjøpe slike løsninger i store mengder. Spesielt russiske operatører har brukt slike produkter fra Huawei i mer enn seks år.

Ja, en rekke oppgaver kan ikke utføres ved hjelp av distribuerte systemer. For eksempel med økte ytelseskrav eller kompatibilitet med eldre protokoller. Men minst 70 % av dataene som behandles av operatøren kan være plassert i en distribuert pool.

Bransjetrender innen masselagringssystemer

Banksektoren

I enhver bank er det mange forskjellige IT-systemer, fra behandling og slutter med et automatisert banksystem. Denne infrastrukturen fungerer også med en enorm mengde informasjon, mens de fleste oppgaver ikke krever økt ytelse og pålitelighet av lagringssystemer, for eksempel utvikling, testing, automatisering av kontorprosesser osv. Her er bruk av klassiske lagringssystemer mulig, men hvert år er det mindre og mindre lønnsomt. I tillegg er det i dette tilfellet ingen fleksibilitet i bruken av lagringssystemressurser, hvis ytelse beregnes basert på toppbelastning.

Ved bruk av distribuerte lagringssystemer kan nodene deres, som faktisk er vanlige servere, konverteres når som helst, for eksempel til en serverfarm og brukes som en dataplattform.

Bransjetrender innen masselagringssystemer

Datainnsjøer

Diagrammet ovenfor viser en liste over typiske tjenesteforbrukere data innsjø. Dette kan være e-forvaltningstjenester (for eksempel «Government Services»), digitaliserte virksomheter, finansinstitusjoner osv. Alle av dem må jobbe med store mengder heterogen informasjon.

Å bruke klassiske lagringssystemer for å løse slike problemer er ineffektivt, siden det krever både høyytelsestilgang til blokkdatabaser og regelmessig tilgang til biblioteker med skannede dokumenter lagret som objekter. Her kan for eksempel også kobles et bestillingssystem via en nettportal. For å implementere alt dette på en klassisk lagringsplattform, trenger du et stort sett med utstyr for ulike oppgaver. Ett horisontalt universelt lagringssystem kan godt dekke alle de tidligere oppførte oppgavene: du trenger bare å lage flere bassenger med forskjellige lagringsegenskaper.

Bransjetrender innen masselagringssystemer

Generatorer av ny informasjon

Mengden informasjon som lagres i verden vokser med omtrent 30 % per år. Dette er gode nyheter for lagringsleverandører, men hva er og vil være hovedkilden til disse dataene?

For ti år siden ble sosiale nettverk slike generatorer, dette krevde opprettelsen av et stort antall nye algoritmer, maskinvareløsninger osv. Nå er det tre hoveddrivere for veksten av lagringsvolumer. Den første er cloud computing. For tiden bruker omtrent 70 % av bedriftene skytjenester på en eller annen måte. Disse kan være elektroniske postsystemer, sikkerhetskopier og andre virtualiserte enheter.
Den andre driveren er femte generasjons nettverk. Dette er nye hastigheter og nye dataoverføringsvolumer. I følge våre prognoser vil den utbredte bruken av 5G føre til et fall i etterspørselen etter flash-minnekort. Uansett hvor mye minne det er i telefonen går det fortsatt tomt, og har dingsen en 100 megabit kanal er det ikke nødvendig å lagre bilder lokalt.

Den tredje gruppen av grunner til at etterspørselen etter lagringssystemer vokser inkluderer den raske utviklingen av kunstig intelligens, overgangen til big data-analyse og trenden mot universell automatisering av alt mulig.

Et trekk ved den "nye trafikken" er dens mangel på struktur. Vi må lagre disse dataene uten å definere formatet på noen måte. Det er kun nødvendig for påfølgende lesing. For å fastslå det tilgjengelige lånebeløpet, vil et bankscoringssystem for eksempel se på bildene du legger ut på sosiale nettverk, avgjøre om du ofte går til sjøen og på restauranter, og samtidig studere utdragene fra dine medisinske dokumenter som er tilgjengelige. til det. Disse dataene er på den ene siden omfattende, men mangler på den andre siden homogenitet.

Bransjetrender innen masselagringssystemer

Havet av ustrukturerte data

Hvilke problemer innebærer fremveksten av «nye data»? Den første blant dem er selvfølgelig den store mengden informasjon og den estimerte lagringsperioden. En moderne førerløs autonom bil alene genererer opptil 60 terabyte med data hver dag fra alle sensorene og mekanismene. For å utvikle nye bevegelsesalgoritmer må denne informasjonen behandles innen samme dag, ellers vil den begynne å samle seg. Samtidig må den lagres i svært lang tid - tiår. Først da vil det i fremtiden være mulig å trekke konklusjoner basert på store analytiske prøver.

En enhet for å dechiffrere genetiske sekvenser produserer omtrent 6 TB per dag. Og dataene som er samlet inn med dens hjelp, innebærer ikke sletting i det hele tatt, det vil si hypotetisk sett bør de lagres for alltid.

Til slutt, de samme femte generasjonsnettene. I tillegg til den faktiske overførte informasjonen, er et slikt nettverk i seg selv en enorm generator av data: aktivitetslogger, samtaleposter, mellomresultater av maskin-til-maskin-interaksjoner, etc.

Alt dette krever utvikling av nye tilnærminger og algoritmer for lagring og behandling av informasjon. Og slike tilnærminger dukker opp.

Bransjetrender innen masselagringssystemer

Ny æra teknologier

Det er tre grupper av løsninger designet for å takle nye krav til informasjonslagringssystemer: introduksjonen av kunstig intelligens, den tekniske utviklingen av lagringsmedier og innovasjoner innen systemarkitektur. La oss starte med AI.

Bransjetrender innen masselagringssystemer

I nye Huawei-løsninger brukes kunstig intelligens på nivået av selve lagringen, som er utstyrt med en AI-prosessor som lar systemet uavhengig analysere tilstanden og forutsi feil. Hvis lagringssystemet er koblet til en tjenestesky som har betydelige databehandlingsmuligheter, vil kunstig intelligens kunne behandle mer informasjon og øke nøyaktigheten av hypotesene.

I tillegg til feil kan slik AI forutsi fremtidig toppbelastning og tiden som gjenstår til kapasiteten er oppbrukt. Dette lar deg optimere ytelsen og skalere systemet før uønskede hendelser inntreffer.

Bransjetrender innen masselagringssystemer

Nå om utviklingen av lagringsmedier. De første flash-stasjonene ble laget ved hjelp av SLC-teknologi (Single-Level Cell). Enheter basert på den var raske, pålitelige, stabile, men hadde liten kapasitet og var veldig dyre. Volumvekst og prisreduksjon ble oppnådd gjennom visse tekniske innrømmelser, noe som gjorde at hastigheten, påliteligheten og levetiden til frekvensomformere ble redusert. Likevel påvirket ikke trenden selve lagringssystemene, som på grunn av ulike arkitektoniske triks generelt ble både mer produktive og mer pålitelige.

Men hvorfor trengte du All-Flash-lagringssystemer? Var det ikke nok å bare erstatte de gamle harddiskene i et allerede operativsystem med nye SSD-er med samme formfaktor? Dette var nødvendig for å effektivt bruke alle ressursene til de nye solid-state-stasjonene, noe som rett og slett var umulig i eldre systemer.

Huawei har for eksempel utviklet en rekke teknologier for å løse dette problemet, en av dem er FlashLink, som gjorde det mulig å optimalisere "disk-kontroller"-interaksjonene så mye som mulig.

Intelligent identifikasjon gjorde det mulig å dekomponere data i flere strømmer og takle en rekke uønskede fenomener, som f.eks. WA (skriv forsterkning). Samtidig, spesielt nye gjenopprettingsalgoritmer RAID 2.0+, økte hastigheten på gjenoppbyggingen, og reduserte tiden til helt ubetydelige mengder.

Feil, overbefolkning, søppelinnsamling - disse faktorene påvirker heller ikke lenger ytelsen til lagringssystemet takket være spesielle modifikasjoner av kontrollerene.

Bransjetrender innen masselagringssystemer

Og blokkdatalagringer forbereder seg også på å møtes NVMe. La oss huske at den klassiske ordningen for å organisere datatilgang fungerte slik: prosessoren fikk tilgang til RAID-kontrolleren via PCI Express-bussen. Det på sin side samhandlet med mekaniske disker via SCSI eller SAS. Bruken av NVMe på backend fremskyndet hele prosessen betydelig, men det hadde en ulempe: stasjonene måtte kobles direkte til prosessoren for å gi den direkte tilgang til minnet.

Den neste fasen av teknologiutviklingen som vi ser nå er bruken av NVMe-oF (NVMe over Fabrics). Når det gjelder Huawei-blokkteknologier, støtter de allerede FC-NVMe (NVMe over Fibre Channel), og NVMe over RoCE (RDMA over Converged Ethernet) er på vei. Testmodellene er ganske funksjonelle, det er flere måneder igjen før den offisielle presentasjonen. Merk at alt dette vil dukke opp i distribuerte systemer, hvor "tapsfritt Ethernet" vil være etterspurt.

Bransjetrender innen masselagringssystemer

En ekstra måte å optimalisere driften av distribuert lagring på var fullstendig forlatelse av dataspeiling. Huawei-løsninger bruker ikke lenger n kopier, som i vanlig RAID 1, og bytter fullstendig til EC (Slettekoding). En spesiell matematisk pakke beregner kontrollblokker med en viss periodisitet, som lar deg gjenopprette mellomliggende data i tilfelle tap.

Deduplisering og kompresjonsmekanismer blir obligatoriske. Hvis vi i klassiske lagringssystemer er begrenset av antall prosessorer installert i kontrollerene, så i distribuerte horisontalt skalerbare lagringssystemer, inneholder hver node alt nødvendig: disker, minne, prosessorer og interconnect. Disse ressursene er tilstrekkelige til å sikre at deduplisering og komprimering har minimal innvirkning på ytelsen.

Og om maskinvareoptimaliseringsmetoder. Her var det mulig å redusere belastningen på sentrale prosessorer ved hjelp av ekstra dedikerte brikker (eller dedikerte blokker i selve prosessoren), som spiller en rolle TOE (TCP/IP Offload Engine) eller ta på seg de matematiske oppgavene EC, deduplisering og komprimering.

Bransjetrender innen masselagringssystemer

Nye tilnærminger til datalagring er nedfelt i en disaggregert (distribuert) arkitektur. Sentraliserte lagringssystemer har en serverfabrikk koblet via Fibre Channel til SAN med mange arrays. Ulempene med denne tilnærmingen er vanskeligheten med å skalere og sikre et garantert servicenivå (i form av ytelse eller latens). Hyperkonvergerte systemer bruker de samme vertene for både lagring og behandling av informasjon. Dette gir tilnærmet ubegrenset omfang for skalering, men medfører høye kostnader for å opprettholde dataintegriteten.

I motsetning til begge de ovennevnte, innebærer en disaggregert arkitektur dele systemet inn i et datamateriale og et horisontalt lagringssystem. Dette gir fordelene med begge arkitekturene og tillater nesten ubegrenset skalering av kun elementet som mangler ytelse.

Bransjetrender innen masselagringssystemer

Fra integrasjon til konvergens

En klassisk oppgave, hvis relevans bare har vokst i løpet av de siste 15 årene, er behovet for samtidig å gi blokklagring, filtilgang, tilgang til objekter, drift av en stor datafarm osv. Prikken over i-en kan også være for eksempel et backup-system på magnetbånd.

På den første fasen var det kun forvaltningen av disse tjenestene som var mulig å forene. Heterogene datalagringssystemer ble koblet til noe spesialisert programvare, der administratoren distribuerte ressurser fra tilgjengelige bassenger. Men siden disse bassengene hadde forskjellig maskinvare, var lastmigrering mellom dem umulig. På et høyere integrasjonsnivå skjedde aggregeringen på gatewaynivå. Hvis fildeling var tilgjengelig, kunne den serveres gjennom forskjellige protokoller.

Den mest avanserte konvergensmetoden som for tiden er tilgjengelig for oss, innebærer å lage et universelt hybridsystem. Akkurat det vår skal bli OceanStor 100D. Universell tilgang bruker de samme maskinvareressursene, logisk delt inn i forskjellige bassenger, men tillater lastmigrering. Alt dette kan gjøres gjennom én enkelt administrasjonskonsoll. På denne måten var vi i stand til å implementere konseptet "ett datasenter - ett lagringssystem."

Bransjetrender innen masselagringssystemer

Kostnaden for å lagre informasjon bestemmer nå mange arkitektoniske beslutninger. Og selv om det trygt kan settes på spissen, diskuterer vi i dag «live» lagring med aktiv tilgang, så ytelsen må også tas i betraktning. En annen viktig egenskap ved neste generasjons distribuerte systemer er forening. Tross alt er det ingen som ønsker å ha flere forskjellige systemer kontrollert fra forskjellige konsoller. Alle disse egenskapene er nedfelt i den nye serien med Huawei-produkter OceanStor Stillehavet.

Masselagringssystem av den nye generasjonen

OceanStor Pacific oppfyller seks-ni-pålitelighetskravene (99,9999%) og kan brukes til å lage HyperMetro-datasentre. Med en avstand mellom to datasentre på opptil 100 km, demonstrerer systemene en ekstra latens på 2 ms, noe som gjør det mulig å bygge på deres basis eventuelle katastrofebestandige løsninger, inkludert de med quorum-servere.

Bransjetrender innen masselagringssystemer

De nye serieproduktene viser protokollallsidighet. Allerede støtter OceanStor 100D blokktilgang, objekttilgang og Hadoop-tilgang. Filtilgang vil også bli implementert i nær fremtid. Det er ikke nødvendig å lagre flere kopier av data hvis de kan utstedes gjennom forskjellige protokoller.

Bransjetrender innen masselagringssystemer

Det ser ut til, hva har konseptet med et "tapfritt nettverk" å gjøre med lagringssystemer? Faktum er at distribuerte datalagringssystemer er bygget på grunnlag av et raskt nettverk som støtter de riktige algoritmene og RoCE-mekanismen. Det kunstige intelligenssystemet som støttes av svitsjene våre bidrar til å øke nettverkshastigheten ytterligere og redusere ventetiden. AI stoff. Gevinsten i lagringsytelse når du aktiverer AI Fabric kan nå 20 %.

Bransjetrender innen masselagringssystemer

Hva er den nye OceanStor Pacific-distribuerte lagringsnoden? 5U formfaktorløsningen inkluderer 120 stasjoner og kan erstatte tre klassiske noder, noe som gir mer enn doble besparelser i rackplass. Ved ikke å lagre kopier øker effektiviteten til stasjoner betydelig (opptil +92%).

Vi er vant til at programvaredefinert lagring er spesiell programvare installert på en klassisk server. Men nå, for å oppnå optimale parametere, krever denne arkitektoniske løsningen også spesielle noder. Den består av to servere basert på ARM-prosessorer som administrerer en rekke tre-tommers stasjoner.

Bransjetrender innen masselagringssystemer

Disse serverne er ikke egnet for hyperkonvergerte løsninger. For det første er det ganske mange applikasjoner for ARM, og for det andre er det vanskelig å opprettholde belastningsbalansen. Vi foreslår å flytte til separat lagring: en dataklynge, representert av klassiske eller rack-servere, opererer separat, men er koblet til OceanStor Pacific-lagringsnoder, som også utfører sine direkte oppgaver. Og det rettferdiggjør seg selv.

La oss for eksempel ta en klassisk stordatalagringsløsning med et hyperkonvergert system som opptar 15 serverrack. Hvis du fordeler belastningen mellom separate dataservere og OceanStor Pacific-lagringsnoder, og skiller dem fra hverandre, vil antallet nødvendige rack halveres! Dette reduserer driftskostnadene for datasenteret og reduserer de totale eierkostnadene. I en verden der volumet av lagret informasjon vokser med 30 % per år, blir slike fordeler ikke kastet rundt.

***

Du kan få mer informasjon om Huawei-løsninger og deres applikasjonsscenarier på vår nettsted eller ved å kontakte selskapets representanter direkte.

Kilde: www.habr.com

Legg til en kommentar