Branchentrends im Bereich Massenspeicher

Heute sprechen wir darüber, wie man Daten am besten speichert in einer Welt, in der Netzwerke der fünften Generation, Genomscanner und selbstfahrende Autos an einem Tag mehr Daten produzieren, als die gesamte Menschheit vor der industriellen Revolution erzeugt hat.

Branchentrends im Bereich Massenspeicher

Unsere Welt generiert immer mehr Informationen. Manches davon ist flüchtig und geht genauso schnell verloren, wie es eingesammelt wird. Das andere soll länger gelagert werden, und das andere ist komplett „auf Jahrhunderte“ ausgelegt – so sehen wir es zumindest aus der Gegenwart. Der Informationsfluss läuft in Rechenzentren mit einer solchen Geschwindigkeit ab, dass jeder neue Ansatz und jede Technologie, die darauf ausgelegt ist, diesen endlosen „Bedarf“ zu decken, schnell obsolet wird.

Branchentrends im Bereich Massenspeicher

40 Jahre verteilte Speicherentwicklung

Die ersten Netzwerkspeicher in der uns bekannten Form erschienen in den 1980er Jahren. Viele von Ihnen sind auf NFS (Network File System), AFS (Andrew File System) oder Coda gestoßen. Ein Jahrzehnt später haben sich Mode und Technologie geändert und verteilte Dateisysteme sind Cluster-Speichersystemen gewichen, die auf GPFS (General Parallel File System), CFS (Clustered File Systems) und StorNext basieren. Als Basis kamen Blockspeicher klassischer Architektur zum Einsatz, auf denen mithilfe der Softwareschicht ein einzelnes Dateisystem erstellt wurde. Diese und ähnliche Lösungen werden immer noch verwendet, besetzen ihre Nische und sind sehr gefragt.

Um die Jahrtausendwende änderte sich das Paradigma der verteilten Speicherung etwas, und Systeme mit der SN-Architektur (Shared-Nothing) übernahmen die Führung. Es gab einen Übergang vom Cluster-Speicher zum Speicher auf separaten Knoten, bei denen es sich in der Regel um klassische Server mit Software handelte, die zuverlässigen Speicher bereitstellt; Solche Prinzipien sind beispielsweise HDFS (Hadoop Distributed File System) und GFS (Global File System) aufgebaut.

Gegen Ende des Jahres 2010 spiegelten sich die Konzepte, die verteilten Speichersystemen zugrunde liegen, zunehmend in vollwertigen kommerziellen Produkten wie VMware vSAN, Dell EMC Isilon und unserem wider Huawei OceanStor. Hinter den genannten Plattformen steht nicht mehr eine Community von Enthusiasten, sondern konkrete Anbieter, die für die Funktionalität, den Support, die Servicepflege des Produkts verantwortlich sind und dessen Weiterentwicklung garantieren. Solche Lösungen sind in mehreren Bereichen am gefragtesten.

Branchentrends im Bereich Massenspeicher

Betreiber in der Welt

Zu den vielleicht ältesten Verbrauchern verteilter Speichersysteme gehören Telekommunikationsbetreiber. Das Diagramm zeigt, welche Anwendungsgruppen den Großteil der Daten produzieren. OSS (Operations Support Systems), MSS (Management Support Services) und BSS (Business Support Systems) sind drei komplementäre Softwareschichten, die für die Servicebereitstellung an Abonnenten, die Finanzberichterstattung an den Anbieter und die operative Unterstützung der Ingenieure des Betreibers erforderlich sind.

Oft sind die Daten dieser Schichten stark miteinander vermischt, und um die Ansammlung unnötiger Kopien zu vermeiden, werden verteilte Speicher verwendet, die die gesamte Informationsmenge aus einem funktionierenden Netzwerk sammeln. Die Speicher werden in einem gemeinsamen Pool zusammengefasst, auf den alle Dienste zugreifen.

Unsere Berechnungen zeigen, dass Sie durch den Übergang von klassischen zu Blockspeichersystemen bis zu 70 % des Budgets einsparen können, indem Sie auf dedizierte High-End-Speichersysteme verzichten und herkömmliche Server mit klassischer Architektur (normalerweise x86) in Verbindung mit spezieller Software verwenden. Mobilfunkbetreiber erwerben solche Lösungen schon seit geraumer Zeit in großen Mengen. Insbesondere russische Betreiber nutzen solche Produkte von Huawei seit mehr als sechs Jahren.

Ja, eine Reihe von Aufgaben können nicht mit verteilten Systemen erledigt werden. Beispielsweise bei erhöhten Leistungsanforderungen oder der Kompatibilität mit älteren Protokollen. Aber mindestens 70 % der Daten, die der Betreiber verarbeitet, können in einem verteilten Pool abgelegt werden.

Branchentrends im Bereich Massenspeicher

Bankensektor

In jeder Bank gibt es viele verschiedene IT-Systeme, von der Abwicklung bis hin zu einem automatisierten Banksystem. Diese Infrastruktur arbeitet auch mit einer großen Menge an Informationen, während die meisten Aufgaben keine erhöhte Leistung und Zuverlässigkeit von Speichersystemen erfordern, wie z. B. Entwicklung, Tests, Automatisierung von Büroprozessen usw. Hier ist der Einsatz klassischer Speichersysteme möglich , aber jedes Jahr ist es immer weniger profitabel. Darüber hinaus besteht in diesem Fall keine Flexibilität bei der Verwendung von Speicherressourcen, deren Leistung sich aus der Spitzenlast errechnet.

Beim Einsatz verteilter Speichersysteme können deren Knoten, bei denen es sich eigentlich um gewöhnliche Server handelt, jederzeit beispielsweise in eine Serverfarm umgewandelt und als Rechenplattform genutzt werden.

Branchentrends im Bereich Massenspeicher

Datenseen

Das obige Diagramm zeigt eine Liste typischer Servicekonsumenten. Daten See. Dabei kann es sich um E-Government-Dienste (z. B. „Gosuslugi“), digitalisierte Unternehmen, Finanzstrukturen usw. handeln. Sie alle müssen mit großen Mengen heterogener Informationen arbeiten.

Der Betrieb klassischer Speichersysteme zur Lösung solcher Probleme ist ineffizient, da sowohl ein leistungsstarker Zugriff auf Blockdatenbanken als auch ein regelmäßiger Zugriff auf Bibliotheken gescannter Dokumente, die als Objekte gespeichert sind, erforderlich sind. Hier kann beispielsweise ein Bestellsystem über ein Webportal angebunden werden. Um dies alles auf einer klassischen Speicherplattform umzusetzen, benötigen Sie eine große Ausstattung für unterschiedliche Aufgaben. Ein horizontales Universallagersystem kann problemlos alle zuvor aufgeführten Aufgaben abdecken: Sie müssen darin lediglich mehrere Pools mit unterschiedlichen Lagereigenschaften erstellen.

Branchentrends im Bereich Massenspeicher

Generatoren neuer Informationen

Die Menge der weltweit gespeicherten Informationen wächst jährlich um etwa 30 %. Das sind gute Nachrichten für Speicheranbieter, aber was ist und bleibt die Hauptquelle dieser Daten?

Vor zehn Jahren wurden soziale Netzwerke zu solchen Generatoren, was die Entwicklung einer Vielzahl neuer Algorithmen, Hardwarelösungen usw. erforderte. Jetzt gibt es drei Haupttreiber für das Speicherwachstum. Das erste ist Cloud Computing. Derzeit nutzen etwa 70 % der Unternehmen Cloud-Dienste auf die eine oder andere Weise. Dies können E-Mail-Systeme, Backups und andere virtualisierte Einheiten sein.
Zum zweiten Treiber werden die Netze der fünften Generation. Das sind neue Geschwindigkeiten und neue Datenmengen. Unseren Prognosen zufolge wird die flächendeckende Einführung von 5G zu einem Rückgang der Nachfrage nach Flash-Speicherkarten führen. Egal wie viel Speicher im Telefon vorhanden ist, es endet immer noch, und wenn das Gadget über einen 100-Megabit-Kanal verfügt, müssen Fotos nicht lokal gespeichert werden.

Die dritte Gruppe von Gründen, warum die Nachfrage nach Speichersystemen wächst, sind die rasante Entwicklung der künstlichen Intelligenz, der Übergang zur Big-Data-Analyse und der Trend zur durchgängigen Automatisierung alles Möglichen.

Ein Merkmal des „neuen Verkehrs“ ist seine unstrukturiert. Wir müssen diese Daten speichern, ohne ihr Format in irgendeiner Weise zu definieren. Es wird nur für die spätere Lektüre benötigt. Beispielsweise prüft ein Bankenbewertungssystem zur Ermittlung der verfügbaren Kredithöhe die von Ihnen in sozialen Netzwerken geposteten Fotos, ermittelt, wie oft Sie ans Meer und in Restaurants gehen, und studiert gleichzeitig Auszüge aus Ihren ihm vorliegenden medizinischen Unterlagen. Diese Daten sind einerseits umfassend, andererseits mangelt es ihnen an Homogenität.

Branchentrends im Bereich Massenspeicher

Ein Ozean unstrukturierter Daten

Welche Probleme bringt die Entstehung „neuer Daten“ mit sich? Die erste davon ist natürlich die Menge der Informationen selbst und die geschätzte Dauer ihrer Speicherung. Allein ein modernes autonomes fahrerloses Auto generiert täglich bis zu 60 TB Daten von all seinen Sensoren und Mechanismen. Um neue Bewegungsalgorithmen zu entwickeln, müssen diese Informationen noch am selben Tag verarbeitet werden, da sie sich sonst anhäufen. Gleichzeitig sollte es sehr lange – Jahrzehnte – gelagert werden. Nur dann wird es in Zukunft möglich sein, auf Basis großer Analyseproben Rückschlüsse zu ziehen.

Ein Gerät zur Entschlüsselung genetischer Sequenzen produziert etwa 6 Terabyte pro Tag. Und die damit gesammelten Daten bedeuten überhaupt keine Löschung, das heißt hypothetisch sollten sie für immer gespeichert werden.

Endlich alle gleichen Netzwerke der fünften Generation. Zusätzlich zu den übertragenen Informationen selbst ist ein solches Netzwerk selbst ein riesiger Datengenerator: Aktivitätsprotokolle, Anrufaufzeichnungen, Zwischenergebnisse von Maschine-zu-Maschine-Interaktionen usw.

All dies erfordert die Entwicklung neuer Ansätze und Algorithmen zur Speicherung und Verarbeitung von Informationen. Und solche Ansätze entstehen.

Branchentrends im Bereich Massenspeicher

Technologien der neuen Ära

Drei Gruppen von Lösungen zur Bewältigung neuer Anforderungen an Informationsspeichersysteme lassen sich unterscheiden: die Einführung künstlicher Intelligenz, die technische Weiterentwicklung von Speichermedien und Innovationen im Bereich der Systemarchitektur. Beginnen wir mit KI.

Branchentrends im Bereich Massenspeicher

Bei den neuen Huawei-Lösungen kommt künstliche Intelligenz bereits auf der Ebene des Speichers selbst zum Einsatz, der mit einem KI-Prozessor ausgestattet ist, der es dem System ermöglicht, seinen Zustand selbstständig zu analysieren und Ausfälle vorherzusagen. Wenn das Speichersystem mit einer Service-Cloud verbunden ist, die über erhebliche Rechenkapazitäten verfügt, kann künstliche Intelligenz mehr Informationen verarbeiten und die Genauigkeit ihrer Hypothesen verbessern.

Neben Ausfällen ist eine solche KI in der Lage, die zukünftige Spitzenlast und die verbleibende Zeit bis zur Erschöpfung der Kapazität vorherzusagen. Dadurch können Sie die Leistung optimieren und das System skalieren, bevor unerwünschte Ereignisse auftreten.

Branchentrends im Bereich Massenspeicher

Nun zur Entwicklung der Datenträger. Die ersten Flash-Laufwerke wurden mit der SLC-Technologie (Single-Level Cell) hergestellt. Die darauf basierenden Geräte waren schnell, zuverlässig, stabil, hatten aber eine geringe Kapazität und waren sehr teuer. Die Volumensteigerung und Preissenkung wurde durch bestimmte technische Zugeständnisse erreicht, wodurch Geschwindigkeit, Zuverlässigkeit und Lebensdauer der Antriebe verringert wurden. Der Trend hatte jedoch keine Auswirkungen auf die Speichersysteme selbst, die aufgrund verschiedener architektonischer Tricks im Allgemeinen sowohl produktiver als auch zuverlässiger wurden.

Aber warum brauchten Sie Speichersysteme der All-Flash-Klasse? Reichte es nicht, nur alte Festplatten in einem bereits laufenden System durch neue SSDs mit demselben Formfaktor zu ersetzen? Dies war erforderlich, um alle Ressourcen neuer SSDs effizient zu nutzen, was bei älteren Systemen schlichtweg unmöglich war.

Huawei beispielsweise hat eine Reihe von Technologien entwickelt, um dieses Problem zu lösen, darunter: FlashLink, was es ermöglichte, die Interaktionen zwischen Festplatte und Controller so weit wie möglich zu optimieren.

Die intelligente Identifizierung ermöglichte es, Daten in mehrere Ströme zu zerlegen und eine Reihe unerwünschter Phänomene zu bewältigen, wie z WA (Schreibverstärkung). Gleichzeitig insbesondere neue Wiederherstellungsalgorithmen RAID 2.0+, erhöhte die Geschwindigkeit des Wiederaufbaus und reduzierte seine Zeit auf völlig unbedeutende Werte.

Ausfall, Überfüllung, Garbage Collection – auch diese Faktoren haben dank spezieller Weiterentwicklung der Controller keinen Einfluss mehr auf die Leistung des Speichersystems.

Branchentrends im Bereich Massenspeicher

Und Blockdatenspeicher bereiten sich auf ein Treffen vor NVMe. Denken Sie daran, dass das klassische Schema zur Organisation des Datenzugriffs folgendermaßen funktionierte: Der Prozessor griff über den PCI-Express-Bus auf den RAID-Controller zu. Diese wiederum interagierten über SCSI oder SAS mit mechanischen Festplatten. Der Einsatz von NVMe im Backend beschleunigte den gesamten Prozess erheblich, hatte jedoch einen Nachteil: Die Laufwerke mussten direkt an den Prozessor angeschlossen werden, um ihm direkten Speicherzugriff zu ermöglichen.

Die nächste Phase der Technologieentwicklung, die wir derzeit erleben, ist der Einsatz von NVMe-oF (NVMe over Fabrics). Die Huawei-Blocktechnologien unterstützen bereits FC-NVMe (NVMe over Fibre Channel) und NVMe over RoCE (RDMA over Converged Ethernet) ist in Vorbereitung. Die Testmodelle sind durchaus funktionsfähig, bis zur offiziellen Präsentation vergehen noch einige Monate. Beachten Sie, dass all dies auch in verteilten Systemen auftreten wird, in denen „Ethernet ohne Verlust“ sehr gefragt sein wird.

Branchentrends im Bereich Massenspeicher

Eine weitere Möglichkeit, die Arbeit verteilter Speicher zu optimieren, war der vollständige Verzicht auf Datenspiegelung. Huawei-Lösungen nutzen nicht mehr n Kopien wie beim üblichen RAID 1 und stellen komplett auf den Mechanismus um EC (Löschcodierung). Ein spezielles Mathematikpaket berechnet Kontrollblöcke mit einer bestimmten Häufigkeit, die es Ihnen ermöglichen, Zwischendaten im Falle eines Verlusts wiederherzustellen.

Deduplizierungs- und Komprimierungsmechanismen werden obligatorisch. Während wir in klassischen Speichersystemen durch die Anzahl der in Controllern installierten Prozessoren begrenzt sind, enthält in verteilten, horizontal skalierbaren Speichersystemen jeder Knoten alles, was Sie benötigen: Festplatten, Speicher, Prozessoren und Verbindungen. Diese Ressourcen reichen aus, damit Deduplizierung und Komprimierung nur minimale Auswirkungen auf die Leistung haben.

Und über Methoden zur Hardwareoptimierung. Hier konnte die Belastung der Zentralprozessoren mithilfe zusätzlicher dedizierter Mikroschaltungen (oder dedizierter Blöcke im Prozessor selbst) reduziert werden, die die Rolle übernehmen EVA (TCP/IP Offload Engine) oder die Übernahme der mathematischen Aufgaben von EC, Deduplizierung und Komprimierung.

Branchentrends im Bereich Massenspeicher

Neue Ansätze zur Datenspeicherung werden in einer disaggregierten (verteilten) Architektur verkörpert. In zentralisierten Speichersystemen gibt es eine Serverfabrik, die über Fibre Channel mit verbunden ist SAN mit vielen Arrays. Die Nachteile dieses Ansatzes sind Schwierigkeiten bei der Skalierung und der Bereitstellung eines garantierten Serviceniveaus (in Bezug auf Leistung oder Latenz). Hyperkonvergente Systeme verwenden dieselben Hosts sowohl für die Speicherung als auch für die Verarbeitung von Informationen. Dies bietet nahezu unbegrenzte Skalierungsspielräume, ist jedoch mit hohen Kosten für die Aufrechterhaltung der Datenintegrität verbunden.

Im Gegensatz zu den beiden oben genannten Fällen impliziert eine disaggregierte Architektur Aufteilung des Systems in eine Rechenfabrik und ein horizontales Speichersystem. Dies bietet die Vorteile beider Architekturen und ermöglicht eine nahezu unbegrenzte Skalierung nur des Elements, dessen Leistung nicht ausreicht.

Branchentrends im Bereich Massenspeicher

Von der Integration zur Konvergenz

Eine klassische Aufgabe, deren Relevanz erst in den letzten 15 Jahren zugenommen hat, ist die Notwendigkeit, gleichzeitig Blockspeicher, Dateizugriff, Zugriff auf Objekte, den Betrieb einer Farm für Big Data usw. bereitzustellen. Das Tüpfelchen auf dem i kann sein B. auch ein Backup-System auf Magnetband sein.

Im ersten Schritt konnte lediglich die Verwaltung dieser Dienste vereinheitlicht werden. Heterogene Datenspeichersysteme wurden für eine spezielle Software geschlossen, über die der Administrator Ressourcen aus den verfügbaren Pools verteilte. Da diese Pools jedoch unterschiedliche Hardware hatten, war eine Migration der Last zwischen ihnen unmöglich. Auf einer höheren Integrationsebene erfolgte die Konsolidierung auf der Gateway-Ebene. Wenn es einen gemeinsamen Dateizugriff gäbe, könnte dieser über verschiedene Protokolle erfolgen.

Die fortschrittlichste Konvergenzmethode, die uns derzeit zur Verfügung steht, besteht in der Schaffung eines universellen Hybridsystems. Genau so, wie unseres sein sollte OceanStor 100D. Der universelle Zugriff nutzt dieselben Hardwareressourcen, die logisch in verschiedene Pools unterteilt sind, jedoch eine Lastmigration ermöglichen. All dies kann über eine einzige Verwaltungskonsole erfolgen. Auf diese Weise ist es uns gelungen, das Konzept „ein Rechenzentrum – ein Speichersystem“ umzusetzen.

Branchentrends im Bereich Massenspeicher

Die Kosten für die Speicherung von Informationen bestimmen mittlerweile viele Architekturentscheidungen. Und obwohl es getrost in den Vordergrund gestellt werden kann, diskutieren wir heute über „Live“-Speicher mit aktivem Zugriff, sodass auch die Leistung berücksichtigt werden muss. Eine weitere wichtige Eigenschaft verteilter Systeme der nächsten Generation ist die Vereinheitlichung. Schließlich möchte niemand mehrere unterschiedliche Systeme von verschiedenen Konsolen aus verwalten. All diese Eigenschaften sind in der neuen Huawei-Produktserie verkörpert. OceanStor Pacific.

Massenspeicher der nächsten Generation

OceanStor Pacific erfüllt die Zuverlässigkeitsanforderungen von sechs Neunen (99,9999 %) und kann zum Aufbau eines Rechenzentrums der HyperMetro-Klasse verwendet werden. Bei einer Entfernung zwischen zwei Rechenzentren von bis zu 100 km weisen die Systeme eine zusätzliche Verzögerung von 2 ms auf, was es ermöglicht, darauf basierend beliebige katastrophensichere Lösungen aufzubauen, auch solche mit Quorum-Servern.

Branchentrends im Bereich Massenspeicher

Die Produkte der neuen Serie beweisen ihre Vielseitigkeit hinsichtlich der Protokolle. OceanStor 100D unterstützt bereits Blockzugriff, Objektzugriff und Hadoop-Zugriff. Der Dateizugriff wird in naher Zukunft implementiert. Es besteht keine Notwendigkeit, mehrere Kopien der Daten aufzubewahren, wenn diese über unterschiedliche Protokolle ausgegeben werden können.

Branchentrends im Bereich Massenspeicher

Es scheint, was hat das Konzept des „verlustfreien Netzwerks“ mit der Speicherung zu tun? Tatsache ist, dass verteilte Speichersysteme auf der Grundlage eines schnellen Netzwerks aufgebaut sind, das die entsprechenden Algorithmen und den RoCE-Mechanismus unterstützt. Das von unseren Switches unterstützte System der künstlichen Intelligenz trägt dazu bei, die Netzwerkgeschwindigkeit weiter zu erhöhen und die Latenz zu reduzieren. KI-Stoff. Der Leistungsgewinn von Speichersystemen bei Aktivierung von AI Fabric kann bis zu 20 % betragen.

Branchentrends im Bereich Massenspeicher

Was ist der neue verteilte Speicherknoten von OceanStor Pacific? Die 5U-Formfaktorlösung umfasst 120 Laufwerke und kann drei klassische Knoten ersetzen, wodurch der Rackraum mehr als verdoppelt wird. Durch die Verweigerung der Speicherung von Kopien steigt die Effizienz von Laufwerken deutlich (bis zu + 92 %).

Wir sind es gewohnt, dass Software Defined Storage eine spezielle Software ist, die auf einem klassischen Server installiert wird. Um optimale Parameter zu erreichen, erfordert diese Architekturlösung nun jedoch auch spezielle Knoten. Es besteht aus zwei Servern auf Basis von ARM-Prozessoren, die eine Reihe von Drei-Zoll-Laufwerken verwalten.

Branchentrends im Bereich Massenspeicher

Diese Server eignen sich nicht gut für hyperkonvergente Lösungen. Erstens gibt es nur wenige Anwendungen für ARM und zweitens ist es schwierig, einen Lastausgleich aufrechtzuerhalten. Wir empfehlen die Umstellung auf separaten Speicher: Ein Rechencluster, dargestellt durch klassische Server oder Rack-Server, arbeitet separat, ist jedoch mit Speicherknoten von OceanStor Pacific verbunden, die ebenfalls ihre direkten Aufgaben ausführen. Und es rechtfertigt sich.

Nehmen wir zum Beispiel eine klassische hyperkonvergente Big-Data-Speicherlösung, die 15 Server-Racks belegt. Wenn Sie die Last auf einzelne Rechenserver und Speicherknoten von OceanStor Pacific verteilen und diese voneinander trennen, halbiert sich die Anzahl der benötigten Racks! Dies reduziert die Betriebskosten des Rechenzentrums und senkt die Gesamtbetriebskosten. In einer Welt, in der die Menge der gespeicherten Informationen jährlich um 30 % wächst, sind diese Vorteile nicht verstreut.

***

Weitere Informationen zu Huawei-Lösungen und deren Einsatzszenarien finden Sie auf unserer Seite Webseite oder indem Sie sich direkt an die Vertreter des Unternehmens wenden.

Source: habr.com

Kommentar hinzufügen