Trends in de branche in systemen voor massaopslag

Vandaag zullen we het hebben over de beste manier om gegevens op te slaan in een wereld waarin netwerken van de vijfde generatie, genoomscanners en zelfrijdende auto’s meer gegevens per dag produceren dan de hele mensheid vóór de industriële revolutie heeft gegenereerd.

Trends in de branche in systemen voor massaopslag

Onze wereld genereert steeds meer informatie. Een deel ervan is vluchtig en gaat net zo snel verloren als het wordt verzameld. Een ander zou langer bewaard moeten worden, en een ander is zelfs ‘eeuwenlang’ ontworpen – tenminste dat is wat we nu zien. Informatiestromen nestelen zich zo snel in datacentra dat elke nieuwe aanpak, elke technologie die is ontworpen om aan deze eindeloze ‘vraag’ te voldoen, snel achterhaald raakt.

Trends in de branche in systemen voor massaopslag

40 jaar ontwikkeling van gedistribueerde opslagsystemen

De eerste netwerkopslag in de vorm die we kennen verscheen in de jaren tachtig. Velen van jullie zijn NFS (Network File System), AFS (Andrew File System) of Coda tegengekomen. Tien jaar later zijn mode en technologie veranderd en hebben gedistribueerde bestandssystemen plaatsgemaakt voor geclusterde opslagsystemen op basis van GPFS (General Parallel File System), CFS (Clustered File Systems) en StorNext. Als basis werd blokopslag uit de klassieke architectuur gebruikt, waarbovenop met behulp van een softwarelaag één enkel bestandssysteem werd gecreëerd. Deze en soortgelijke oplossingen worden nog steeds gebruikt, bezetten hun niche en er is veel vraag naar.

Rond de millenniumwisseling veranderde het gedistribueerde opslagparadigma enigszins en namen systemen met SN-architectuur (Shared-Nothing) de leidende posities in. Er heeft een overgang plaatsgevonden van clusteropslag naar opslag op individuele knooppunten, wat in de regel klassieke servers waren met software die betrouwbare opslag bood; Op dergelijke principes zijn bijvoorbeeld HDFS (Hadoop Distributed File System) en GFS (Global File System) gebouwd.

Dichter bij de jaren 2010 begonnen de concepten die ten grondslag liggen aan gedistribueerde opslagsystemen steeds meer weerspiegeld te worden in volwaardige commerciële producten, zoals VMware vSAN, Dell EMC Isilon en onze Huawei OceanStor. Achter de genoemde platforms schuilt niet langer een gemeenschap van enthousiastelingen, maar specifieke leveranciers die verantwoordelijk zijn voor de functionaliteit, ondersteuning en service van het product en de verdere ontwikkeling ervan garanderen. Dergelijke oplossingen zijn op verschillende gebieden het meest gevraagd.

Trends in de branche in systemen voor massaopslag

operagezelschappen

Misschien wel een van de oudste consumenten van gedistribueerde opslagsystemen zijn telecomoperatoren. Het diagram laat zien welke groepen applicaties het grootste deel van de gegevens produceren. OSS (Operations Support Systems), MSS (Management Support Services) en BSS (Business Support Systems) vertegenwoordigen drie complementaire softwarelagen die nodig zijn om service aan abonnees, financiële rapportage aan de provider en operationele ondersteuning aan operatoringenieurs te bieden.

Vaak zijn de gegevens van deze lagen sterk met elkaar vermengd, en om de opeenstapeling van onnodige kopieën te voorkomen, wordt gedistribueerde opslag gebruikt, die de volledige hoeveelheid informatie verzamelt die uit het operationele netwerk komt. De bergingen zijn samengevoegd tot een gemeenschappelijk zwembad, waar alle diensten toegang toe hebben.

Uit onze berekeningen blijkt dat de overgang van klassieke opslagsystemen naar blokopslagsystemen u in staat stelt tot 70% van het budget te besparen, alleen al door het verlaten van speciale high-end opslagsystemen en het gebruik van conventionele klassieke architectuurservers (meestal x86), in samenwerking met gespecialiseerde software. Mobiele operators zijn al lang geleden begonnen dergelijke oplossingen in grote hoeveelheden aan te schaffen. Met name Russische operators gebruiken dergelijke producten van Huawei al meer dan zes jaar.

Ja, een aantal taken kunnen niet worden uitgevoerd met behulp van gedistribueerde systemen. Bijvoorbeeld bij hogere prestatie-eisen of compatibiliteit met oudere protocollen. Maar minstens 70% van de gegevens die door de operator worden verwerkt, kunnen zich in een gedistribueerde pool bevinden.

Trends in de branche in systemen voor massaopslag

Banken sector

In elke bank zijn er veel verschillende IT-systemen, beginnend bij de verwerking en eindigend met een geautomatiseerd banksysteem. Deze infrastructuur werkt ook met een enorme hoeveelheid informatie, terwijl de meeste taken geen verhoogde prestaties en betrouwbaarheid van opslagsystemen vereisen, bijvoorbeeld ontwikkeling, testen, automatisering van kantoorprocessen, enz. Hier is het gebruik van klassieke opslagsystemen mogelijk, maar elk jaar wordt het steeds minder winstgevend. Bovendien is er in dit geval geen flexibiliteit in het gebruik van de bronnen van het opslagsysteem, waarvan de prestaties worden berekend op basis van de piekbelasting.

Bij gebruik van gedistribueerde opslagsystemen kunnen hun knooppunten, die in feite gewone servers zijn, op elk moment worden omgezet in bijvoorbeeld een serverfarm en worden gebruikt als computerplatform.

Trends in de branche in systemen voor massaopslag

Datameren

Het bovenstaande diagram toont een lijst met typische serviceconsumenten data lake. Dit kunnen e-overheidsdiensten zijn (bijvoorbeeld “overheidsdiensten”), gedigitaliseerde ondernemingen, financiële instellingen, enz. Ze moeten allemaal werken met grote hoeveelheden heterogene informatie.

Het gebruik van klassieke opslagsystemen om dergelijke problemen op te lossen is niet effectief, omdat het zowel krachtige toegang vereist om databases te blokkeren als regelmatige toegang tot bibliotheken met gescande documenten die als objecten zijn opgeslagen. Hier kan bijvoorbeeld ook een bestelsysteem via een webportaal aan gekoppeld worden. Om dit alles op een klassiek opslagplatform te implementeren, heb je een grote set apparatuur nodig voor verschillende taken. Eén horizontaal universeel opslagsysteem kan heel goed alle eerder genoemde taken dekken: u hoeft er alleen maar meerdere zwembaden met verschillende opslagkenmerken in te creëren.

Trends in de branche in systemen voor massaopslag

Generatoren van nieuwe informatie

De hoeveelheid informatie die in de wereld wordt opgeslagen groeit met ongeveer 30% per jaar. Dit is goed nieuws voor opslagleveranciers, maar wat is en zal de belangrijkste bron van deze gegevens zijn?

Tien jaar geleden werden sociale netwerken dergelijke generatoren; hiervoor was de creatie van een groot aantal nieuwe algoritmen, hardwareoplossingen, enz. vereist. Nu zijn er drie belangrijke drijfveren voor de groei van opslagvolumes. De eerste is cloudcomputing. Momenteel maakt ongeveer 70% van de bedrijven op de een of andere manier gebruik van clouddiensten. Dit kunnen elektronische postsystemen, back-upkopieën en andere gevirtualiseerde entiteiten zijn.
De tweede drijvende kracht zijn netwerken van de vijfde generatie. Dit zijn nieuwe snelheden en nieuwe volumes voor gegevensoverdracht. Volgens onze prognoses zal de wijdverbreide adoptie van 5G leiden tot een daling van de vraag naar flash-geheugenkaarten. Hoeveel geheugen er ook in de telefoon zit, het raakt nog steeds op, en als de gadget een kanaal van 100 megabit heeft, is het niet nodig om foto's lokaal op te slaan.

De derde groep redenen waarom de vraag naar opslagsystemen groeit, omvat de snelle ontwikkeling van kunstmatige intelligentie, de overgang naar big data-analyse en de trend naar universele automatisering van al het mogelijke.

Een kenmerk van het ‘nieuwe verkeer’ is het gebrek aan structuur. We moeten deze gegevens opslaan zonder het formaat ervan op enigerlei wijze te definiëren. Het is alleen nodig voor later lezen. Om bijvoorbeeld het beschikbare leenbedrag te bepalen, zal een bankscoresysteem kijken naar de foto’s die u op sociale netwerken plaatst, bepalen of u vaak naar de zee en in restaurants gaat, en tegelijkertijd de uittreksels van uw beschikbare medische documenten bestuderen. ernaar. Deze gegevens zijn enerzijds alomvattend, maar missen anderzijds homogeniteit.

Trends in de branche in systemen voor massaopslag

Een oceaan van ongestructureerde data

Welke problemen brengt de opkomst van ‘nieuwe data’ met zich mee? De eerste daarvan is natuurlijk de enorme hoeveelheid informatie en de geschatte opslagduur. Alleen al een moderne zelfrijdende auto zonder bestuurder genereert dagelijks tot 60 terabyte aan gegevens uit al zijn sensoren en mechanismen. Om nieuwe bewegingsalgoritmen te ontwikkelen, moet deze informatie binnen dezelfde dag worden verwerkt, anders begint deze zich op te stapelen. Tegelijkertijd moet het heel lang worden bewaard - tientallen jaren. Alleen dan zal het in de toekomst mogelijk zijn om conclusies te trekken op basis van grote analytische monsters.

Eén apparaat voor het ontcijferen van genetische sequenties produceert ongeveer 6 TB per dag. En de gegevens die met zijn hulp worden verzameld, impliceren helemaal geen verwijdering, dat wil zeggen dat ze hypothetisch voor altijd moeten worden bewaard.

Eindelijk dezelfde netwerken van de vijfde generatie. Naast de daadwerkelijk verzonden informatie is zo’n netwerk zelf een enorme generator van gegevens: activiteitenlogboeken, oproepregistraties, tussenresultaten van machine-tot-machine-interacties, enz.

Dit alles vereist de ontwikkeling van nieuwe benaderingen en algoritmen voor het opslaan en verwerken van informatie. En dergelijke benaderingen zijn in opkomst.

Trends in de branche in systemen voor massaopslag

Technologieën uit het nieuwe tijdperk

Er zijn drie groepen oplossingen die zijn ontworpen om te voldoen aan de nieuwe eisen voor informatieopslagsystemen: de introductie van kunstmatige intelligentie, de technische evolutie van opslagmedia en innovaties op het gebied van systeemarchitectuur. Laten we beginnen met AI.

Trends in de branche in systemen voor massaopslag

In nieuwe Huawei-oplossingen wordt kunstmatige intelligentie gebruikt op het niveau van de opslag zelf, die is uitgerust met een AI-processor waarmee het systeem onafhankelijk de toestand ervan kan analyseren en storingen kan voorspellen. Als het opslagsysteem is verbonden met een servicecloud die aanzienlijke rekenmogelijkheden heeft, zal kunstmatige intelligentie meer informatie kunnen verwerken en de nauwkeurigheid van zijn hypothesen kunnen vergroten.

Naast storingen kan dergelijke AI toekomstige piekbelasting voorspellen en de resterende tijd totdat de capaciteit is uitgeput. Hierdoor kunt u de prestaties optimaliseren en het systeem schalen voordat zich ongewenste gebeurtenissen voordoen.

Trends in de branche in systemen voor massaopslag

Nu over de evolutie van opslagmedia. De eerste flashdrives werden gemaakt met behulp van SLC-technologie (Single-Level Cell). Apparaten die daarop waren gebaseerd, waren snel, betrouwbaar, stabiel, maar hadden een kleine capaciteit en waren erg duur. Volumegroei en prijsverlaging werden bereikt door bepaalde technische concessies, waardoor de snelheid, betrouwbaarheid en levensduur van aandrijvingen werden verminderd. Niettemin had de trend geen invloed op de opslagsystemen zelf, die door verschillende architecturale trucs over het algemeen zowel productiever als betrouwbaarder werden.

Maar waarom had u All-Flash-opslagsystemen nodig? Was het niet genoeg om simpelweg de oude HDD’s in een reeds besturingssysteem te vervangen door nieuwe SSD’s met dezelfde vormfactor? Dit was nodig om alle bronnen van de nieuwe SSD-schijven effectief te kunnen gebruiken, wat in oudere systemen eenvoudigweg onmogelijk was.

Huawei heeft bijvoorbeeld een aantal technologieën ontwikkeld om dit probleem op te lossen, waarvan er één is FlashLink, waardoor het mogelijk werd om de “schijf-controller”-interacties zoveel mogelijk te optimaliseren.

Intelligente identificatie maakte het mogelijk om gegevens in verschillende stromen op te splitsen en een aantal ongewenste verschijnselen het hoofd te bieden, zoals WA (schrijfversterking). Tegelijkertijd zijn er vooral nieuwe herstelalgoritmen RAID2.0+, verhoogde de snelheid van de wederopbouw, waardoor de tijd tot volkomen onbeduidende hoeveelheden werd teruggebracht.

Storingen, overbevolking, afvalinzameling - deze factoren hebben ook geen invloed meer op de prestaties van het opslagsysteem dankzij speciale aanpassingen aan de controllers.

Trends in de branche in systemen voor massaopslag

En blokgegevensopslag bereidt zich ook voor om te voldoen NVMe. Laten we niet vergeten dat het klassieke schema voor het organiseren van gegevenstoegang als volgt werkte: de processor had via de PCI Express-bus toegang tot de RAID-controller. Dat stond op zijn beurt in wisselwerking met mechanische schijven via SCSI of SAS. Het gebruik van NVMe op de backend versnelde het hele proces aanzienlijk, maar had één nadeel: de schijven moesten rechtstreeks op de processor worden aangesloten om deze directe toegang tot het geheugen te geven.

De volgende fase van technologieontwikkeling die we nu zien is het gebruik van NVMe-oF (NVMe over Fabrics). Wat Huawei-bloktechnologieën betreft, deze ondersteunen al FC-NVMe (NVMe over Fibre Channel), en NVMe over RoCE (RDMA over Converged Ethernet) is onderweg. De testmodellen zijn behoorlijk functioneel; het duurt nog enkele maanden voordat ze officieel worden gepresenteerd. Merk op dat dit allemaal zal verschijnen in gedistribueerde systemen, waar er veel vraag zal zijn naar “lossless Ethernet”.

Trends in de branche in systemen voor massaopslag

Een extra manier om de werking van gedistribueerde opslag te optimaliseren was het volledig afschaffen van dataspiegeling. Huawei-oplossingen gebruiken niet langer n-kopieën, zoals in de gebruikelijke RAID 1, en schakelen volledig over naar de EC (Wiscodering). Een speciaal wiskundig pakket berekent controleblokken met een bepaalde periodiciteit, waardoor u tussentijdse gegevens kunt herstellen in geval van verlies.

Deduplicatie- en compressiemechanismen worden verplicht. Als we in klassieke opslagsystemen beperkt zijn door het aantal processors dat in de controllers is geïnstalleerd, dan bevat elk knooppunt in gedistribueerde horizontaal schaalbare opslagsystemen alles wat nodig is: schijven, geheugen, processors en interconnectie. Deze middelen zijn voldoende om ervoor te zorgen dat deduplicatie en compressie een minimale impact hebben op de prestaties.

En over hardware-optimalisatiemethoden. Hier was het mogelijk om de belasting van centrale processors te verminderen met behulp van extra speciale chips (of speciale blokken in de processor zelf), die een rol spelen TOE (TCP/IP Offload Engine) of het op zich nemen van de wiskundige taken van EC, deduplicatie en compressie.

Trends in de branche in systemen voor massaopslag

Nieuwe benaderingen van gegevensopslag worden belichaamd in een gedesaggregeerde (gedistribueerde) architectuur. Bij gecentraliseerde opslagsystemen is een serverfabriek aangesloten via Fibre Channel SAN met veel arrays. De nadelen van deze aanpak zijn de moeilijkheid van het schalen en het garanderen van een gegarandeerd serviceniveau (in termen van prestaties of latentie). Hypergeconvergeerde systemen gebruiken dezelfde hosts voor zowel het opslaan als verwerken van informatie. Dit geeft vrijwel onbeperkte mogelijkheden voor opschaling, maar brengt hoge kosten met zich mee voor het behoud van de data-integriteit.

In tegenstelling tot beide bovenstaande impliceert een gedesaggregeerde architectuur het systeem verdelen in een computerweefsel en een horizontaal opslagsysteem. Dit biedt de voordelen van beide architecturen en maakt vrijwel onbeperkte schaling mogelijk van alleen het element dat onvoldoende prestaties levert.

Trends in de branche in systemen voor massaopslag

Van integratie naar convergentie

Een klassieke taak, waarvan de relevantie de afgelopen vijftien jaar alleen maar is toegenomen, is de noodzaak om tegelijkertijd blokopslag, bestandstoegang, toegang tot objecten, de exploitatie van een big data farm, enz. te bieden. De kers op de taart kan ook bijvoorbeeld een back-upsysteem op magneetband zijn.

In de eerste fase kon alleen het beheer van deze diensten worden verenigd. Heterogene gegevensopslagsystemen waren verbonden met gespecialiseerde software, waarmee de beheerder bronnen uit beschikbare pools verdeelde. Maar omdat deze pools over verschillende hardware beschikten, was migratie van de belasting daartussen onmogelijk. Op een hoger integratieniveau vond de aggregatie plaats op gatewayniveau. Als het delen van bestanden beschikbaar zou zijn, zou dit via verschillende protocollen kunnen worden aangeboden.

De meest geavanceerde convergentiemethode die momenteel voor ons beschikbaar is, omvat de creatie van een universeel hybride systeem. Precies wat de onze zou moeten worden OceanStor 100D. Universele toegang maakt gebruik van dezelfde hardwarebronnen, logisch verdeeld in verschillende groepen, maar maakt migratie van de belasting mogelijk. Dit alles kan worden gedaan via één enkele beheerconsole. Op deze manier konden we het concept van ‘één datacenter – één opslagsysteem’ implementeren.

Trends in de branche in systemen voor massaopslag

De kosten voor het opslaan van informatie bepalen nu veel architectonische beslissingen. En hoewel dit veilig op de voorgrond kan worden geplaatst, hebben we het vandaag over ‘live’ opslag met actieve toegang, dus er moet ook rekening worden gehouden met de prestaties. Een andere belangrijke eigenschap van gedistribueerde systemen van de volgende generatie is unificatie. Niemand wil immers dat verschillende, ongelijksoortige systemen vanaf verschillende consoles worden bestuurd. Al deze kwaliteiten zijn belichaamd in de nieuwe serie Huawei-producten OceanStor Pacific.

Massaopslagsysteem van de nieuwe generatie

OceanStor Pacific voldoet aan zes-negens betrouwbaarheidseisen (99,9999%) en kan worden gebruikt om datacenters van HyperMetro-klasse te creëren. Met een afstand tussen twee datacenters van maximaal 100 km demonstreren de systemen een extra latentie van 2 ms, waardoor het mogelijk is om op hun basis rampbestendige oplossingen te bouwen, inclusief die met quorumservers.

Trends in de branche in systemen voor massaopslag

De producten uit de nieuwe serie demonstreren de veelzijdigheid van protocollen. OceanStor 100D ondersteunt al bloktoegang, objecttoegang en Hadoop-toegang. Bestandstoegang zal in de nabije toekomst ook worden geïmplementeerd. Het is niet nodig om meerdere kopieën van gegevens op te slaan als deze via verschillende protocollen kunnen worden uitgegeven.

Trends in de branche in systemen voor massaopslag

Het lijkt erop dat wat het concept van een ‘verliesvrij netwerk’ te maken heeft met opslagsystemen? Feit is dat gedistribueerde dataopslagsystemen worden gebouwd op basis van een snel netwerk dat de juiste algoritmen en het RoCE-mechanisme ondersteunt. Het kunstmatige intelligentiesysteem dat door onze switches wordt ondersteund, helpt de netwerksnelheid verder te verhogen en de latentie te verminderen. AI-stof. De winst in opslagprestaties bij het activeren van AI Fabric kan oplopen tot 20%.

Trends in de branche in systemen voor massaopslag

Wat is het nieuwe gedistribueerde opslagknooppunt OceanStor Pacific? De 5U-vormfactoroplossing omvat 120 schijven en kan drie klassieke knooppunten vervangen, wat een meer dan tweevoudige besparing aan rackruimte oplevert. Door geen kopieën op te slaan, neemt de efficiëntie van schijven aanzienlijk toe (tot +92%).

We zijn eraan gewend dat softwaregedefinieerde opslag speciale software is die op een klassieke server wordt geïnstalleerd. Maar om optimale parameters te bereiken, vereist deze architectonische oplossing nu ook speciale knooppunten. Het bestaat uit twee servers op basis van ARM-processors die een reeks drie-inch schijven beheren.

Trends in de branche in systemen voor massaopslag

Deze servers zijn niet geschikt voor hyperconverged oplossingen. Ten eerste zijn er nogal wat toepassingen voor ARM, en ten tweede is het moeilijk om de belastingsbalans te behouden. We stellen voor om over te stappen op afzonderlijke opslag: een computercluster, vertegenwoordigd door klassieke of rackservers, werkt afzonderlijk, maar is verbonden met OceanStor Pacific-opslagknooppunten, die ook hun directe taken uitvoeren. En het rechtvaardigt zichzelf.

Laten we bijvoorbeeld een klassieke oplossing voor big data-opslag nemen met een hypergeconvergeerd systeem dat 15 serverracks beslaat. Als u de belasting verdeelt over afzonderlijke computerservers en OceanStor Pacific-opslagknooppunten en deze van elkaar scheidt, wordt het aantal benodigde racks gehalveerd! Dit verlaagt de bedrijfskosten van het datacenter en verlaagt de totale eigendomskosten. In een wereld waar de hoeveelheid opgeslagen informatie met 30% per jaar groeit, zijn dergelijke voordelen niet weg te denken.

***

U kunt meer informatie krijgen over Huawei-oplossingen en hun toepassingsscenario's op onze Online of door rechtstreeks contact op te nemen met bedrijfsvertegenwoordigers.

Bron: www.habr.com

Voeg een reactie