Reduzieren Sie Ausfallrisiken mit der Shared Nothing-Architektur

Das Thema Fehlertoleranz in Datenspeichersystemen ist immer relevant, da Speichersysteme in unserem Zeitalter der weit verbreiteten Virtualisierung und Konsolidierung von Ressourcen das Bindeglied sind, dessen Ausfall nicht nur zu einem gewöhnlichen Unfall, sondern zu langfristigen Ausfallzeiten von Diensten führt. Daher enthalten moderne Speichersysteme viele doppelte Komponenten (sogar Controller). Aber reicht ein solcher Schutz aus?

Reduzieren Sie Ausfallrisiken mit der Shared Nothing-Architektur

Absolut alle Anbieter erwähnen bei der Auflistung der Eigenschaften von Speichersystemen stets die hohe Fehlertoleranz ihrer Lösungen und fügen stets den Begriff „ohne Single Point of Failure“ hinzu. Schauen wir uns ein typisches Speichersystem genauer an. Um Ausfallzeiten bei der Wartung zu vermeiden, dupliziert das Speichersystem Netzteile, Kühlmodule, Ein-/Ausgabeanschlüsse, Laufwerke (wir meinen RAID) und natürlich Controller. Wenn Sie sich diese Architektur genau ansehen, werden Sie mindestens zwei potenzielle Fehlerquellen bemerken, die bescheiden verschwiegen werden:

  1. Verfügbarkeit einer einzelnen Backplane
  2. Eine Kopie der Daten haben

Die Backplane ist ein technisch komplexes Gerät, das während der Produktion ernsthaften Tests unterzogen werden muss. Und deshalb gibt es äußerst seltene Fälle, in denen es völlig fehlschlägt. Aber auch bei Teilproblemen, wie etwa einem nicht funktionierenden Laufwerkssteckplatz, ist ein Austausch mit einer kompletten Abschaltung des Speichersystems erforderlich.

Auch das Erstellen mehrerer Kopien von Daten ist auf den ersten Blick kein Problem. Weit verbreitet ist beispielsweise die Clone-Funktionalität in Speichersystemen, die es ermöglicht, in bestimmten Abständen eine vollständige Kopie der Daten zu aktualisieren. Bei Problemen mit der gleichen Wiedergabe ist die Kopie jedoch genauso wenig verfügbar wie das Original.

Eine völlig naheliegende Lösung zur Behebung dieser Mängel ist die Replikation auf ein anderes Speichersystem. Wenn wir unsere Augen vor der erwarteten Verdoppelung der Hardwarekosten verschließen (wir gehen immer noch davon aus, dass Menschen, die sich für eine solche Entscheidung entscheiden, angemessen nachdenken und diese Tatsache im Voraus akzeptieren), fallen möglicherweise noch zusätzliche Kosten für die Organisation der Replikation in Form von Lizenzen an Software und Hardware. Und am wichtigsten ist, dass Sie irgendwie die Konsistenz der replizierten Daten sicherstellen müssen. Diese. Erstellen Sie einen Speichervirtualisierung/vSAN/etc., was ebenfalls Geld und Zeitressourcen erfordert.

AccelStor Bei der Erstellung unserer Hochverfügbarkeitssysteme haben wir uns zum Ziel gesetzt, die oben genannten Mängel zu beseitigen. So entstand die Interpretation der Shared Nothing-Technologie, die frei übersetzt „ohne Nutzung gemeinsam genutzter Geräte“ bedeutet.

Konzept Nichts geteilt Architektur stellt die Verwendung von zwei unabhängigen Knoten (Controllern) dar, von denen jeder über einen eigenen Datensatz verfügt. Die synchrone Replikation erfolgt zwischen Knoten über die InfiniBand 56G-Schnittstelle, völlig transparent für die Software, die auf dem Speichersystem läuft. Dadurch ist der Einsatz von Speichervirtualisierungen, Softwareagenten etc. nicht erforderlich.

Physikalisch kann die Zwei-Knoten-Lösung von AccelStor in zwei Modellen implementiert werden:

  • H510 — basierend auf Twin-Servern in einem 2U-Gehäuse, wenn moderate Leistung und Kapazität bis zu 22 TB erforderlich sind;
  • H710 — basierend auf einzelnen 2U-Servern, wenn hohe Leistung und große Kapazität (bis zu 57 TB) erforderlich sind.

Reduzieren Sie Ausfallrisiken mit der Shared Nothing-Architektur

Modell H510 basierend auf Twin-Server

Reduzieren Sie Ausfallrisiken mit der Shared Nothing-Architektur

Modell H710 basierend auf einzelnen Servern

Die Verwendung unterschiedlicher Formfaktoren ist darauf zurückzuführen, dass eine unterschiedliche Anzahl von SSDs erforderlich ist, um ein bestimmtes Volumen und eine bestimmte Leistung zu erreichen. Außerdem ist die Twin-Plattform günstiger und ermöglicht es Ihnen, günstigere Lösungen anzubieten, allerdings mit einem bedingten „Nachteil“ in Form einer einzelnen Backplane. Alles andere, auch die Funktionsweise, ist bei beiden Modellen völlig identisch.

Der Datensatz für jeden Knoten besteht aus zwei Gruppen FlexiRemap, plus 2 Ersatzlaufwerke. Jede Gruppe kann den Ausfall einer SSD überstehen. Alle eingehenden Anfragen zur Aufnahme eines Knotens gem Ideologie FlexiRemap baut 4-KB-Blöcke in sequentielle Ketten um, die dann im für sie bequemsten Modus (sequentielle Aufzeichnung) auf die SSD geschrieben werden. Darüber hinaus erhält der Host eine Aufzeichnungsbestätigung erst, nachdem die Daten physisch auf der SSD abgelegt wurden, d. h. ohne Caching im RAM. Das Ergebnis ist eine beeindruckende Leistung von bis zu 600 IOPS beim Schreiben und über 1 Mio. IOPS beim Lesen (Modell H710).

Wie bereits erwähnt, werden Datensätze in Echtzeit über die InfiniBand 56G-Schnittstelle synchronisiert, die einen hohen Durchsatz und eine geringe Latenz aufweist. Um den Kommunikationskanal bei der Übertragung kleiner Pakete möglichst effizient zu nutzen. Weil Es gibt nur einen Kommunikationskanal; eine dedizierte 1-GbE-Verbindung wird für die zusätzliche Herzfrequenzmessung verwendet. Es wird nur der Herzschlag übertragen, daher gibt es keine Anforderungen an die Geschwindigkeitseigenschaften.

Im Falle einer Erhöhung der Systemkapazität (bis zu 400+TB) aufgrund von Erweiterungsregale Sie sind außerdem paarweise miteinander verbunden, um das Konzept „Kein einziger Fehlerpunkt“ aufrechtzuerhalten.

Für zusätzlichen Datenschutz (zusätzlich zu der Tatsache, dass AccelStor bereits über zwei Kopien verfügt) wird ein spezieller Verhaltensalgorithmus bei Ausfall einer SSD verwendet. Wenn die SSD ausfällt, beginnt der Knoten mit der Wiederherstellung der Daten auf einem der Hot-Spare-Laufwerke. Die FlexiRemap-Gruppe, die sich im herabgestuften Zustand befindet, wechselt in den schreibgeschützten Modus. Dies geschieht, um Interferenzen zwischen Schreib- und Wiederherstellungsvorgängen auf der Sicherungsfestplatte zu vermeiden, was letztendlich den Wiederherstellungsprozess beschleunigt und die Zeit verkürzt, in der das System potenziell anfällig ist. Nach Abschluss des Neuaufbaus kehrt der Knoten in den normalen Lese-/Schreibmodus zurück.

Reduzieren Sie Ausfallrisiken mit der Shared Nothing-Architektur

Natürlich nimmt, wie bei anderen Systemen auch, während des Neuaufbaus die Gesamtleistung ab (schließlich funktioniert eine der FlexiRemap-Gruppen nicht für die Aufzeichnung). Der Wiederherstellungsprozess selbst erfolgt jedoch so schnell wie möglich, was AccelStor-Systeme von Lösungen anderer Anbieter unterscheidet.

Eine weitere nützliche Eigenschaft der Nothing Shared-Architekturtechnologie ist der Betrieb von Knoten im sogenannten True Active-Active-Modus. Im Gegensatz zur „klassischen“ Architektur, bei der in Systemen nur ein Controller ein bestimmtes Volume/Pool besitzt und der zweite lediglich I/O-Vorgänge ausführt AccelStor Jeder Knoten arbeitet mit seinem eigenen Datensatz und übermittelt keine Anfragen an seinen „Nachbarn“. Dadurch wird die Gesamtsystemleistung durch die parallele Verarbeitung von I/O-Anfragen durch Knoten und Zugriff auf Laufwerke verbessert. Es gibt auch praktisch kein Failover, da im Falle eines Ausfalls einfach keine Notwendigkeit besteht, die Kontrolle über die Volumes an einen anderen Knoten zu übertragen.

Wenn wir die Technologie der Nothing Shared-Architektur mit der vollständigen Duplizierung von Speichersystemen vergleichen, ist sie auf den ersten Blick der vollständigen Implementierung von Disaster Recovery in puncto Flexibilität etwas unterlegen. Dies gilt insbesondere für die Organisation einer Kommunikationsleitung zwischen Speichersystemen. So ist es beim H710-Modell möglich, Knoten über eine Entfernung von bis zu 100 m zu verteilen, indem nicht ganz billige aktive optische InfiniBand-Kabel verwendet werden. Aber selbst im Vergleich zur üblichen Implementierung der synchronen Replikation anderer Anbieter über einen verfügbaren FibreChannel ist die Lösung von AccelStor auch über größere Entfernungen günstiger und einfacher zu installieren/betreiben, denn Es besteht keine Notwendigkeit, Speichervirtualisierungen zu installieren und/oder in Software zu integrieren (was grundsätzlich nicht immer möglich ist). Vergessen Sie außerdem nicht, dass es sich bei AccelStor-Lösungen um All-Flash-Arrays handelt, deren Leistung höher ist als die von „klassischen“ Speichersystemen nur mit SSD.

Reduzieren Sie Ausfallrisiken mit der Shared Nothing-Architektur

Durch den Einsatz der Nothing Shared-Architektur von AccelStor ist es möglich, eine Speichersystemverfügbarkeit von 99.9999 % zu sehr vernünftigen Kosten zu erreichen. Hinzu kommt die hohe Zuverlässigkeit der Lösung, unter anderem durch die Verwendung von zwei Datenkopien, und die beeindruckende Leistung dank proprietärer Algorithmen FlexiRemap, Lösungen von AccelStor sind hervorragende Kandidaten für Schlüsselpositionen beim Aufbau eines modernen Rechenzentrums.

Source: habr.com

Kommentar hinzufügen