Branschtrender inom masslagringssystem

Idag ska vi prata om hur man bäst lagrar data i en värld där femte generationens nätverk, genomskannrar och självkörande bilar producerar mer data på en dag än vad hela mänskligheten genererade före den industriella revolutionen.

Branschtrender inom masslagringssystem

Vår värld genererar mer och mer information. En del av det är flyktigt och går förlorat lika snabbt som det samlas in. Den andra ska förvaras längre, och den andra är helt designad "i århundraden" - det är åtminstone så vi ser det från nuet. Informationsflöden sätter sig i datacenter med en sådan hastighet att alla nya tillvägagångssätt, vilken teknik som helst som utformats för att möta denna oändliga "efterfrågan" snabbt blir föråldrad.

Branschtrender inom masslagringssystem

40 år av distribuerad lagringsutveckling

De första nätverkslagringarna i den form som vi känner till dök upp på 1980-talet. Många av er har stött på NFS (Network File System), AFS (Andrew File System) eller Coda. Ett decennium senare har mode och teknik förändrats, och distribuerade filsystem har gett vika för klustrade lagringssystem baserade på GPFS (General Parallel File System), CFS (Clustered File Systems) och StorNext. Som grund användes blocklagringar av klassisk arkitektur, ovanpå vilka ett enda filsystem skapades med hjälp av mjukvarulagret. Dessa och liknande lösningar används fortfarande, upptar sin nisch och är ganska efterfrågade.

Vid millennieskiftet förändrades det distribuerade lagringsparadigmet något, och system med arkitekturen SN (Shared-Nothing) tog täten. Det skedde en övergång från klusterlagring till lagring på separata noder, som i regel var klassiska servrar med mjukvara som ger tillförlitlig lagring; sådana principer är byggda, säg, HDFS (Hadoop Distributed File System) och GFS (Global File System).

Närmare 2010 började koncepten bakom distribuerade lagringssystem alltmer återspeglas i fullfjädrade kommersiella produkter, såsom VMware vSAN, Dell EMC Isilon och vår Huawei OceanStor. Bakom de nämnda plattformarna finns inte längre en gemenskap av entusiaster, utan specifika leverantörer som ansvarar för funktionalitet, support, serviceunderhåll av produkten och garanterar dess vidareutveckling. Sådana lösningar är mest efterfrågade inom flera områden.

Branschtrender inom masslagringssystem

Operatörer i världen

En av de äldsta konsumenterna av distribuerade lagringssystem är kanske telekomoperatörer. Diagrammet visar vilka grupper av applikationer som producerar huvuddelen av datan. OSS (Operations Support Systems), MSS (Management Support Services) och BSS (Business Support Systems) är tre kompletterande mjukvarulager som krävs för leverans av tjänster till abonnenter, ekonomisk rapportering till leverantören och driftstöd till operatörens ingenjörer.

Ofta blandas data från dessa lager kraftigt med varandra, och för att undvika ansamling av onödiga kopior används distribuerade lagringar som samlar hela mängden information som kommer från ett fungerande nätverk. Förråden kombineras till en gemensam pool, dit alla tjänster har tillgång till.

Våra beräkningar visar att övergången från klassiska till blocklagringssystem tillåter dig att spara upp till 70 % av budgeten endast genom att överge dedikerade hi-end-lagringssystem och använda konventionella klassiska arkitekturservrar (vanligtvis x86), som arbetar tillsammans med specialiserad programvara. Mobiloperatörer har förvärvat sådana lösningar i betydande volymer under ganska lång tid. I synnerhet har ryska operatörer använt sådana produkter från Huawei i mer än sex år.

Ja, ett antal uppgifter kan inte utföras med distribuerade system. Till exempel med ökade prestandakrav eller kompatibilitet med äldre protokoll. Men minst 70 % av den data som operatören bearbetar kan placeras i en distribuerad pool.

Branschtrender inom masslagringssystem

Bankverksamhet

I alla banker finns det många olika IT-system, allt från bearbetning till ett automatiserat banksystem. Denna infrastruktur fungerar också med en enorm mängd information, samtidigt som de flesta av uppgifterna inte kräver ökad prestanda och tillförlitlighet av lagringssystem, såsom utveckling, testning, automatisering av kontorsprocesser etc. Här är användningen av klassiska lagringssystem möjlig , men varje år är det mindre och mindre lönsamt. Dessutom, i det här fallet, finns det ingen flexibilitet i att spendera lagringsresurser, vars prestanda beräknas från toppbelastningen.

När man använder distribuerade lagringssystem kan deras noder, som i själva verket är vanliga servrar, konverteras när som helst, till exempel till en serverfarm och användas som en datorplattform.

Branschtrender inom masslagringssystem

Datasjöar

Diagrammet ovan visar en lista över typiska tjänstekonsumenter. datasjön. Det kan vara e-förvaltningstjänster (till exempel "Gosuslugi"), företag som genomgått digitalisering, finansiella strukturer etc. Alla behöver arbeta med stora mängder heterogen information.

Driften av klassiska lagringssystem för att lösa sådana problem är ineffektiv, eftersom både högpresterande åtkomst till blockdatabaser och regelbunden åtkomst till bibliotek med skannade dokument lagrade som objekt krävs. Här kan till exempel ett system med beställningar via en webbportal knytas. För att implementera allt detta på en klassisk lagringsplattform behöver du en stor uppsättning utrustning för olika uppgifter. Ett horisontellt universellt lagringssystem kan enkelt täcka alla tidigare listade uppgifter: du behöver bara skapa flera pooler i det med olika lagringsegenskaper.

Branschtrender inom masslagringssystem

Generatorer av ny information

Mängden information som lagras i världen växer med cirka 30 % per år. Detta är goda nyheter för lagringsleverantörer, men vad är och kommer att vara huvudkällan till denna data?

För tio år sedan blev sociala nätverk sådana generatorer, vilket krävde skapandet av ett stort antal nya algoritmer, hårdvarulösningar etc. Nu finns det tre huvudsakliga drivkrafter för lagringstillväxt. Den första är cloud computing. För närvarande använder cirka 70 % av företagen molntjänster på ett eller annat sätt. Dessa kan vara e-postsystem, säkerhetskopior och andra virtualiserade enheter.
Femte generationens nätverk håller på att bli den andra drivkraften. Dessa är nya hastigheter och nya volymer av dataöverföring. Enligt våra prognoser kommer den utbredda användningen av 5G att leda till en minskning av efterfrågan på flashminneskort. Oavsett hur mycket minne det finns i telefonen så tar det fortfarande slut, och om prylen har en 100-megabit-kanal behöver du inte lagra bilder lokalt.

Den tredje gruppen av anledningar till att efterfrågan på lagringssystem växer inkluderar den snabba utvecklingen av artificiell intelligens, övergången till big data-analys och trenden mot universell automatisering av allt som är möjligt.

En egenskap hos "ny trafik" är dess ostrukturerad. Vi måste lagra denna data utan att definiera dess format på något sätt. Det krävs endast för efterföljande läsning. Till exempel kommer ett bankpoängsystem för att bestämma den tillgängliga lånestorleken att titta på bilderna du publicerade på sociala nätverk, bestämma hur ofta du går till havet och restauranger, och samtidigt studera utdrag från dina medicinska dokument som är tillgängliga för det. Dessa data är å ena sidan heltäckande och å andra sidan saknar de homogenitet.

Branschtrender inom masslagringssystem

En ocean av ostrukturerad data

Vilka är problemen som uppkomsten av "ny data" innebär? Den första bland dem är naturligtvis själva mängden information och den beräknade lagringsperioden. En modern autonom förarlös bil genererar ensam upp till 60 TB data varje dag från alla dess sensorer och mekanismer. För att utveckla nya rörelsealgoritmer måste denna information bearbetas inom samma dag, annars kommer den att börja ackumuleras. Samtidigt ska det lagras väldigt länge - decennier. Först då kommer man i framtiden att kunna dra slutsatser utifrån stora analysprov.

En enhet för att dechiffrera genetiska sekvenser producerar cirka 6 terabyte per dag. Och data som samlas in med dess hjälp innebär inte radering alls, det vill säga hypotetiskt sett bör de lagras för alltid.

Slutligen, alla samma nätverk av den femte generationen. Förutom själva informationen som överförs är ett sådant nätverk i sig en enorm datagenerator: aktivitetsloggar, samtalsregister, mellanresultat av interaktioner mellan maskin och maskin, etc.

Allt detta kräver utveckling av nya tillvägagångssätt och algoritmer för att lagra och bearbeta information. Och sådana tillvägagångssätt dyker upp.

Branschtrender inom masslagringssystem

Teknik från den nya eran

Tre grupper av lösningar utformade för att klara nya krav på informationslagringssystem kan särskiljas: införandet av artificiell intelligens, den tekniska utvecklingen av lagringsmedier och innovationer inom systemarkitekturen. Låt oss börja med AI.

Branschtrender inom masslagringssystem

I de nya Huawei-lösningarna används artificiell intelligens redan på nivån för själva lagringen, som är utrustad med en AI-processor som gör att systemet självständigt kan analysera sitt tillstånd och förutsäga fel. Om lagringssystemet är kopplat till ett tjänstemoln som har betydande beräkningsmöjligheter kan artificiell intelligens bearbeta mer information och förbättra noggrannheten i dess hypoteser.

Förutom misslyckanden kan sådan AI förutsäga den framtida toppbelastningen och den tid som återstår tills kapaciteten är slut. Detta gör att du kan optimera prestanda och skala systemet innan några oönskade händelser inträffar.

Branschtrender inom masslagringssystem

Nu om utvecklingen av databärare. De första flash-enheterna gjordes med hjälp av SLC-teknik (Single-Level Cell). Enheterna baserade på den var snabba, pålitliga, stabila, men hade en liten kapacitet och var mycket dyra. Volymökningen och prisminskningen uppnåddes genom vissa tekniska eftergifter, på grund av vilka hastigheten, tillförlitligheten och livslängden för frekvensomriktarna minskade. Ändå påverkade trenden inte själva lagringssystemen, som på grund av olika arkitektoniska knep i allmänhet blev både mer produktiva och mer tillförlitliga.

Men varför behövde du lagringssystem i All-Flash-klassen? Räckte det inte bara att ersätta gamla hårddiskar i ett redan kört system med nya SSD:er av samma formfaktor? Detta krävdes för att effektivt kunna använda alla resurser från nya SSD-enheter, vilket helt enkelt var omöjligt i äldre system.

Huawei har till exempel utvecklat ett antal tekniker för att lösa detta problem, varav en är FlashLink, vilket gjorde det möjligt att optimera interaktionerna mellan disk-kontrollern så mycket som möjligt.

Intelligent identifiering gjorde det möjligt att dekomponera data i flera strömmar och klara av en rad oönskade fenomen, som t.ex. WA (skrivförstärkning). Samtidigt, i synnerhet nya återställningsalgoritmer RAID 2.0+, ökade hastigheten på ombyggnaden, vilket minskade tiden till helt obetydliga värden.

Misslyckande, överbeläggning, sophämtning - dessa faktorer påverkar inte längre lagringssystemets prestanda tack vare speciell förfining av kontrollerna.

Branschtrender inom masslagringssystem

Och blockdatalager förbereder sig för att mötas NVMe. Kom ihåg att det klassiska schemat för att organisera dataåtkomst fungerade så här: processorn fick åtkomst till RAID-styrenheten via PCI Express-bussen. Det i sin tur interagerade med mekaniska diskar via SCSI eller SAS. Användningen av NVMe på backend påskyndade hela processen avsevärt, men hade en nackdel: enheterna måste anslutas direkt till processorn för att ge den direkt minnesåtkomst.

Nästa fas av teknikutvecklingen som vi ser nu är användningen av NVMe-oF (NVMe over Fabrics). När det gäller Huawei-blockteknologier stöder de redan FC-NVMe (NVMe over Fibre Channel), och NVMe over RoCE (RDMA over Converged Ethernet) är på väg. Testmodellerna är ganska funktionella, några månader kvar innan deras officiella presentation. Observera att allt detta också kommer att visas i distribuerade system, där "Ethernet utan förlust" kommer att vara mycket efterfrågad.

Branschtrender inom masslagringssystem

Ett ytterligare sätt att optimera arbetet med distribuerade lagringar var att fullständigt avvisa dataspegling. Huawei-lösningar använder inte längre n kopior, som i den vanliga RAID 1, och byter helt till mekanismen EC (Radera kodning). Ett speciellt matematiskt paket beräknar kontrollblock med en viss frekvens, vilket gör att du kan återställa mellanliggande data vid förlust.

Deduplicering och kompressionsmekanismer blir obligatoriska. Om vi ​​i klassiska lagringssystem är begränsade av antalet processorer installerade i styrenheter, så i distribuerade horisontellt skalbara lagringssystem, innehåller varje nod allt du behöver: diskar, minne, processorer och interconnect. Dessa resurser räcker till för att deduplicering och komprimering ska ha en minimal inverkan på prestanda.

Och om hårdvaruoptimeringsmetoder. Här var det möjligt att minska belastningen på de centrala processorerna med hjälp av ytterligare dedikerade mikrokretsar (eller dedikerade block i själva processorn), som spelar rollen (TCP/IP Offload Engine) eller ta sig an de matematiska uppgifterna EC, deduplicering och komprimering.

Branschtrender inom masslagringssystem

Nya tillvägagångssätt för datalagring är förkroppsligade i en disaggregerad (distribuerad) arkitektur. I centraliserade lagringssystem finns en serverfabrik kopplad via Fibre Channel till SAN med många arrayer. Nackdelarna med detta tillvägagångssätt är svårigheter med att skala och tillhandahålla en garanterad servicenivå (när det gäller prestanda eller latens). Hyperkonvergerade system använder samma värdar för både lagring och bearbetning av information. Detta ger nästan obegränsat utrymme för skalning, men medför höga kostnader för att upprätthålla dataintegritet.

Till skillnad från båda ovanstående, innebär en disaggregerad arkitektur uppdelning av systemet i en datorfabrik och ett horisontellt lagringssystem. Detta ger fördelarna med båda arkitekturerna och tillåter nästan obegränsad skalning av endast det element vars prestanda inte räcker till.

Branschtrender inom masslagringssystem

Från integration till konvergens

En klassisk uppgift, vars relevans bara har vuxit under de senaste 15 åren, är behovet av att samtidigt tillhandahålla blocklagring, filåtkomst, tillgång till objekt, drift av en gård för big data, etc. Glasyren på moset kan även vara till exempel ett backupsystem till magnetband.

I det första skedet kunde endast förvaltningen av dessa tjänster förenas. Heterogena datalagringssystem stängdes för viss specialiserad programvara, genom vilken administratören distribuerade resurser från de tillgängliga poolerna. Men eftersom dessa pooler var olika i hårdvara var det omöjligt att migrera belastningen mellan dem. På en högre integrationsnivå skedde konsolideringen på gatewaynivå. Om det fanns en delad filåtkomst kunde den ges genom olika protokoll.

Den mest avancerade konvergensmetoden som är tillgänglig för oss nu innebär skapandet av ett universellt hybridsystem. Precis som vår ska vara OceanStor 100D. Universell åtkomst använder samma hårdvaruresurser, logiskt uppdelade i olika pooler, men tillåter lastmigrering. Allt detta kan göras genom en enda hanteringskonsol. På så sätt lyckades vi implementera konceptet "ett datacenter - ett lagringssystem."

Branschtrender inom masslagringssystem

Kostnaden för att lagra information avgör nu många arkitektoniska beslut. Och även om det säkert kan sättas på spetsen diskuterar vi "live" lagring med aktiv åtkomst idag, så prestanda måste också beaktas. En annan viktig egenskap hos nästa generations distribuerade system är enande. När allt kommer omkring vill ingen ha flera olika system som hanteras från olika konsoler. Alla dessa egenskaper förkroppsligas i den nya serien av Huawei-produkter. OceanStor Stilla havet.

Nästa generations masslagring

OceanStor Pacific uppfyller sex nior (99,9999%) tillförlitlighetskrav och kan användas för att skapa ett HyperMetro-klassdatacenter. Med ett avstånd mellan två datacenter på upp till 100 km uppvisar systemen en ytterligare fördröjning på 2 ms, vilket gör det möjligt att bygga alla katastrofsäkra lösningar baserade på dem, inklusive de med kvorumservrar.

Branschtrender inom masslagringssystem

Produkterna i den nya serien visar mångsidighet när det gäller protokoll. OceanStor 100D stöder redan blockåtkomst, objektåtkomst och Hadoop-åtkomst. Filåtkomst kommer att implementeras inom en snar framtid. Det finns inget behov av att behålla flera kopior av uppgifterna om de kan utfärdas genom olika protokoll.

Branschtrender inom masslagringssystem

Det verkar, vad har begreppet "förlustfritt nätverk" att göra med lagring? Faktum är att distribuerade lagringssystem är byggda på basis av ett snabbt nätverk som stöder lämpliga algoritmer och RoCE-mekanismen. Det artificiella intelligenssystemet som stöds av våra switchar hjälper till att ytterligare öka nätverkshastigheten och minska latensen. AI tyg. Prestandavinsten för lagringssystem när AI Fabric är aktiverad kan nå 20 %.

Branschtrender inom masslagringssystem

Vad är den nya OceanStor Pacific distribuerade lagringsnoden? 5U formfaktorlösningen inkluderar 120 enheter och kan ersätta tre klassiska noder, vilket mer än fördubblar rackutrymmet. På grund av vägran att lagra kopior ökar effektiviteten hos enheter avsevärt (upp till + 92%).

Vi är vana vid att mjukvarudefinierad lagring är en speciell programvara installerad på en klassisk server. Men nu, för att uppnå optimala parametrar, kräver denna arkitektoniska lösning också speciella noder. Den består av två servrar baserade på ARM-processorer som hanterar en uppsättning tre-tums enheter.

Branschtrender inom masslagringssystem

Dessa servrar är inte väl lämpade för hyperkonvergerade lösningar. För det första finns det få applikationer för ARM, och för det andra är det svårt att upprätthålla en lastbalans. Vi föreslår att du byter till separat lagring: ett datorkluster, representerat av klassiska eller rackservrar, fungerar separat, men är anslutet till OceanStor Pacific-lagringsnoder, som också utför sina direkta uppgifter. Och det rättfärdigar sig självt.

Låt oss till exempel ta en klassisk hyperkonvergerad big data-lagringslösning som upptar 15 serverrack. Om du fördelar belastningen mellan enskilda OceanStor Pacific-datorservrar och lagringsnoder, och separerar dem från varandra, kommer antalet nödvändiga rack att halveras! Detta minskar kostnaderna för att driva datacentret och sänker den totala ägandekostnaden. I en värld där volymen lagrad information växer med 30 % per år är sådana fördelar inte utspridda.

***

För mer information om Huaweis lösningar och deras applikationsscenarier, besök vår Online eller genom att kontakta företagets representanter direkt.

Källa: will.com

Lägg en kommentar