Warum es wichtig ist, Software auf Ihrem Hochverfügbarkeitsspeicher zu validieren (99,9999 %)

Warum es wichtig ist, Software auf Ihrem Hochverfügbarkeitsspeicher zu validieren (99,9999 %)

Welche Firmware-Version ist die „richtigste“ und „funktionierendste“? Wenn ein Speichersystem eine Fehlertoleranz von 99,9999 % garantiert, heißt das dann, dass es auch ohne Software-Update unterbrechungsfrei funktioniert? Oder im Gegenteil, um maximale Fehlertoleranz zu erreichen, sollte man immer die neueste Firmware installieren? Wir werden versuchen, diese Fragen anhand unserer Erfahrung zu beantworten.

Eine kurze Einführung

Wir alle verstehen, dass jede Softwareversion, sei es ein Betriebssystem oder ein Treiber für ein Gerät, häufig Mängel/Bugs und andere „Funktionen“ enthält, die möglicherweise erst am Ende der Lebensdauer des Geräts „erscheinen“ oder „offen“ sind. nur unter bestimmten Voraussetzungen. Die Anzahl und Bedeutung solcher Nuancen hängt von der Komplexität (Funktionalität) der Software und von der Qualität der Tests während ihrer Entwicklung ab. 

Häufig bleiben Benutzer bei der „Firmware ab Werk“ (das berühmte „Es funktioniert, also leg dich nicht damit an“) oder installieren immer die neueste Version (nach ihrem Verständnis bedeutet die neueste Version die am besten funktionierende). Wir verfolgen einen anderen Ansatz – wir schauen uns für alles, was wir verwenden, die Versionshinweise an in der mClouds-Cloud Geräte und wählen Sie sorgfältig die passende Firmware für jedes Gerät aus.

Zu diesem Schluss sind wir, wie man so sagt, aus Erfahrung gekommen. Anhand unseres Betriebsbeispiels erklären wir Ihnen, warum die versprochene 99,9999-prozentige Zuverlässigkeit von Speichersystemen nichts bedeutet, wenn Sie Software-Updates und -Beschreibungen nicht zeitnah überwachen. Unser Fall ist für Benutzer von Speichersystemen aller Hersteller geeignet, da eine ähnliche Situation bei Hardware aller Hersteller auftreten kann.

Auswahl eines neuen Speichersystems

Ende letzten Jahres wurde unsere Infrastruktur um ein interessantes Datenspeichersystem erweitert: ein Junior-Modell aus der IBM FlashSystem 5000-Reihe, das zum Zeitpunkt des Kaufs Storwize V5010e hieß. Jetzt wird es unter dem Namen FlashSystem 5010 verkauft, tatsächlich handelt es sich jedoch um dieselbe Hardwarebasis mit demselben Spectrum Virtualize im Inneren. 

Das Vorhandensein eines einheitlichen Managementsystems ist übrigens der Hauptunterschied zwischen IBM FlashSystem. Bei Modellen der jüngeren Baureihe unterscheidet es sich praktisch nicht von Modellen produktiverer Baureihen. Durch die Auswahl eines bestimmten Modells wird lediglich die entsprechende Hardwarebasis bereitgestellt, deren Eigenschaften die Nutzung der einen oder anderen Funktionalität ermöglichen oder ein höheres Maß an Skalierbarkeit bieten. Die Software identifiziert die Hardware und stellt die notwendige und ausreichende Funktionalität für diese Plattform bereit.

Warum es wichtig ist, Software auf Ihrem Hochverfügbarkeitsspeicher zu validieren (99,9999 %)IBM FlashSystem 5010

Kurz zu unserem Modell 5010. Dabei handelt es sich um ein Dual-Controller-Blockspeichersystem der Einstiegsklasse. Es kann NLSAS-, SAS- und SSD-Festplatten aufnehmen. Eine NVMe-Platzierung ist darin nicht verfügbar, da dieses Speichermodell so positioniert ist, dass es Probleme löst, die nicht die Leistung von NVMe-Laufwerken erfordern.

Das Speichersystem wurde gekauft, um Archivinformationen oder Daten unterzubringen, auf die nicht häufig zugegriffen wird. Daher reichten uns die Standardfunktionen aus: Tiering (Easy Tier), Thin Provision. Auch die Leistung auf NLSAS-Festplatten auf dem Niveau von 1000-2000 IOPS war für uns durchaus zufriedenstellend.

Unsere Erfahrung – wie wir die Firmware nicht rechtzeitig aktualisiert haben

Nun zum Software-Update selbst. Zum Zeitpunkt des Kaufs verfügte das System bereits über eine etwas veraltete Version der Spectrum Virtualize-Software, nämlich 8.2.1.3

Wir haben die Firmware-Beschreibungen studiert und ein Update geplant 8.2.1.9. Wenn wir etwas effizienter vorgegangen wären, hätte es diesen Artikel nicht gegeben – der Fehler wäre bei einer neueren Firmware nicht aufgetreten. Aus bestimmten Gründen wurde die Aktualisierung dieses Systems jedoch verschoben.

Dadurch ergab sich durch eine leichte Update-Verzögerung ein äußerst unschönes Bild, wie in der Beschreibung unter dem Link: https://www.ibm.com/support/pages/node/6172341

Ja, in der Firmware dieser Version war der sogenannte APAR (Authorized Program Analysis Report) HU02104 relevant. Es erscheint wie folgt. Unter Last kommt es unter bestimmten Umständen zu einem Überlauf des Caches, dann wechselt das System in den Schutzmodus, in dem es I/O für den Pool deaktiviert. In unserem Fall sah es so aus, als würden 3 Festplatten für eine RAID-Gruppe im RAID 6-Modus getrennt. Die Trennung dauert 6 Minuten. Als nächstes wird der Zugriff auf die Volumes im Pool wiederhergestellt.

Falls sich jemand mit dem Aufbau und der Benennung logischer Entitäten im Kontext von IBM Spectrum Virtualize nicht auskennt, erkläre ich es jetzt kurz.

Warum es wichtig ist, Software auf Ihrem Hochverfügbarkeitsspeicher zu validieren (99,9999 %)Struktur der logischen Elemente des Speichersystems

Festplatten werden in Gruppen namens MDisk (Managed Disk) zusammengefasst. MDisk kann ein klassisches RAID (0,1,10,5,6) oder ein virtualisiertes RAID (Distributed RAID) sein. Durch die Verwendung von DRAID können Sie die Leistung des Arrays steigern, weil... Alle Festplatten in der Gruppe werden verwendet und die Wiederherstellungszeit wird verkürzt, da nur bestimmte Blöcke wiederhergestellt werden müssen und nicht alle Daten von der ausgefallenen Festplatte.

Warum es wichtig ist, Software auf Ihrem Hochverfügbarkeitsspeicher zu validieren (99,9999 %)Verteilung von Datenblöcken auf Festplatten bei Verwendung von Distributed RAID (DRAID) im RAID-5-Modus.

Und dieses Diagramm zeigt die Logik, wie ein DRAID-Neuaufbau im Falle eines Festplattenausfalls funktioniert:

Warum es wichtig ist, Software auf Ihrem Hochverfügbarkeitsspeicher zu validieren (99,9999 %)Logik des DRAID-Neuaufbaus, wenn eine Festplatte ausfällt

Anschließend bilden eine oder mehrere MDisks einen sogenannten Pool. Innerhalb desselben Pools wird nicht empfohlen, MDisk mit unterschiedlichen RAID/DRAID-Stufen auf Festplatten desselben Typs zu verwenden. Wir werden nicht zu tief darauf eingehen, denn... Wir planen, dies in einem der folgenden Artikel zu behandeln. Tatsächlich ist der Pool in Volumes unterteilt, die den Hosts über das eine oder andere Blockzugriffsprotokoll bereitgestellt werden.

Also, wir, als Ergebnis der beschriebenen Situation APAR HU02104Aufgrund des logischen Ausfalls von drei Festplatten war MDisk nicht mehr funktionsfähig, was wiederum zum Ausfall des Pools und der entsprechenden Volumes führte.

Da diese Systeme recht intelligent sind, können sie mit dem cloudbasierten Überwachungssystem IBM Storage Insights verbunden werden, das bei Auftreten eines Problems automatisch eine Serviceanfrage an den IBM Support sendet. Eine Anwendung wird erstellt und IBM-Spezialisten führen aus der Ferne Diagnosen durch und kontaktieren den Systembenutzer. 

Dank dessen wurde das Problem recht schnell behoben und wir erhielten umgehend eine Empfehlung vom Support, unser System auf die zuvor ausgewählte Firmware 8.2.1.9 zu aktualisieren, die zu diesem Zeitpunkt bereits behoben war. Es bestätigt entsprechende Versionshinweis.

Ergebnisse und unsere Empfehlungen

Wie das Sprichwort sagt: „Ende gut, alles gut.“ Der Fehler in der Firmware verursachte keine ernsthaften Probleme – die Server wurden schnellstmöglich und ohne Datenverlust wiederhergestellt. Einige Kunden mussten virtuelle Maschinen neu starten, aber im Allgemeinen waren wir auf negativere Folgen vorbereitet, da wir täglich Backups aller Infrastrukturelemente und Client-Maschinen erstellen. 

Wir haben die Bestätigung erhalten, dass selbst zuverlässige Systeme mit einer versprochenen Verfügbarkeit von 99,9999 % Aufmerksamkeit und rechtzeitige Wartung erfordern. Aus der Situation ziehen wir für uns eine Reihe von Schlussfolgerungen und geben unsere Empfehlungen weiter:

  • Es ist unbedingt erforderlich, die Veröffentlichung von Updates zu überwachen, die Versionshinweise auf Korrekturen potenziell kritischer Probleme zu prüfen und geplante Updates rechtzeitig durchzuführen.

    Dies ist ein organisatorischer und sogar ganz offensichtlicher Punkt, auf den es sich scheinbar nicht zu konzentrieren lohnt. Allerdings kann man auf diesem „ebenen Untergrund“ recht leicht stolpern. Tatsächlich war es dieser Moment, der die oben beschriebenen Probleme hinzufügte. Seien Sie bei der Erstellung der Aktualisierungsordnung sehr sorgfältig und überwachen Sie deren Einhaltung nicht minder sorgfältig. Dieser Punkt bezieht sich eher auf das Konzept der „Disziplin“.

  • Es ist immer besser, das System auf der neuesten Softwareversion zu halten. Zudem handelt es sich bei dem aktuellen nicht um dasjenige mit der größeren Ziffernbezeichnung, sondern um dasjenige mit einem späteren Erscheinungsdatum. 

    Beispielsweise hält IBM für seine Speichersysteme mindestens zwei Software-Releases auf dem neuesten Stand. Zum Zeitpunkt des Verfassens dieses Artikels sind dies 8.2 und 8.3. Updates für 8.2 erscheinen früher. Ein ähnliches Update für 8.3 wird normalerweise mit einer leichten Verzögerung veröffentlicht.

    Version 8.3 bietet eine Reihe funktionaler Vorteile, beispielsweise die Möglichkeit, MDisk (im DRAID-Modus) durch Hinzufügen einer oder mehrerer neuer Festplatten zu erweitern (diese Funktion ist seit Version 8.3.1 verfügbar). Dies ist eine ziemlich grundlegende Funktionalität, aber in 8.2 gibt es eine solche Funktion leider nicht.

  • Wenn ein Update aus irgendeinem Grund nicht möglich ist, empfiehlt der technische Support von IBM für Versionen der Spectrum Virtualize-Software vor den Versionen 8.2.1.9 und 8.3.1.0 (bei denen der oben beschriebene Fehler relevant ist), das Risiko seines Auftretens zu verringern Einschränkung der Systemleistung auf Poolebene, wie in der Abbildung unten gezeigt (das Bild wurde in der russifizierten Version der GUI aufgenommen). Der Wert von 10000 IOPS ist beispielhaft dargestellt und wird entsprechend den Eigenschaften Ihres Systems ausgewählt.

Warum es wichtig ist, Software auf Ihrem Hochverfügbarkeitsspeicher zu validieren (99,9999 %)Beschränkung der IBM-Speicherleistung

  • Es ist notwendig, die Belastung der Speichersysteme richtig zu berechnen und eine Überlastung zu vermeiden. Dazu können Sie entweder den IBM Sizer nutzen (sofern Sie Zugriff darauf haben) oder die Hilfe von Partnern oder Ressourcen von Drittanbietern nutzen. Es ist zwingend erforderlich, das Lastprofil des Speichersystems zu verstehen, denn Die Leistung in MB/s und IOPS variiert stark und hängt mindestens von den folgenden Parametern ab:

    • Operationstyp: Lesen oder Schreiben,

    • Operationsblockgröße,

    • Prozentsatz der Lese- und Schreibvorgänge im gesamten I/O-Stream.

    Außerdem wird die Geschwindigkeit der Vorgänge davon beeinflusst, wie Datenblöcke gelesen werden: sequentiell oder in zufälliger Reihenfolge. Bei der Durchführung mehrerer Datenzugriffsvorgänge auf der Anwendungsseite gibt es das Konzept abhängiger Vorgänge. Es empfiehlt sich auch, dies zu berücksichtigen. All dies kann dazu beitragen, die Gesamtheit der Daten aus den Leistungsindikatoren des Betriebssystems, des Speichersystems, der Server/Hypervisoren zu sehen und die Betriebsfunktionen von Anwendungen, DBMS und anderen „Verbrauchern“ von Festplattenressourcen zu verstehen.

  • Und schließlich stellen Sie sicher, dass die Backups aktuell und funktionsfähig sind. Der Backup-Zeitplan sollte auf der Grundlage akzeptabler RPO-Werte für das Unternehmen konfiguriert werden und regelmäßige Integritätsprüfungen der Backups sollten überprüft werden (nicht wenige Anbieter von Backup-Software haben in ihren Produkten eine automatisierte Überprüfung implementiert), um einen akzeptablen RTO-Wert sicherzustellen.

Vielen Dank, dass Sie bis zum Ende gelesen haben.
Gerne beantworten wir Ihre Fragen und Kommentare in den Kommentaren. Auch Wir laden Sie ein, unseren Telegram-Kanal zu abonnieren, in dem wir regelmäßig Aktionen durchführen (Rabatte auf IaaS und Giveaways für Aktionscodes bis zu 100 % auf VPS), interessante Neuigkeiten schreiben und neue Artikel im Habr-Blog ankündigen.

Source: habr.com

Kommentar hinzufügen