So entscheiden Sie sich für die Aufbewahrung, ohne sich selbst ins Bein zu schießen

Einführung

Es ist Zeit, Speicher zu kaufen. Welches soll man nehmen, wem soll man zuhören? Anbieter A spricht über Anbieter B, und dann ist da noch Integrator C, der das Gegenteil sagt und Anbieter D rät. In einer solchen Situation wird selbst einem erfahrenen Speicherarchitekten der Kopf schwirren, insbesondere angesichts all der neuen Anbieter und SDS und Hyperkonvergenz, die in Mode sind Heute.

Wie also kann man das alles herausfinden, ohne am Ende ein Narr zu sein? Wir (AntonVirtual Anton Zhbankov und Korp Evgeniy Elizarov) versuchen wir, darüber in einfachem Russisch zu sprechen.
Der Artikel hat viele Ähnlichkeiten und ist eigentlich eine Erweiterung von „Virtualisiertes Rechenzentrumsdesign” in Bezug auf die Auswahl von Speichersystemen und die Überprüfung von Speichertechnologien. Wir gehen kurz auf die allgemeine Theorie ein, empfehlen Ihnen aber auch die Lektüre dieses Artikels.

Warum

Es kommt oft vor, dass eine neue Person in ein Forum oder einen speziellen Chat kommt, beispielsweise bei Storage Discussions, und die Frage stellt: „Hier werden mir zwei Speicheroptionen angeboten – ABC SuperStorage S600 und XYZ HyperOcean 666v4. Was empfehlen Sie?“ ?“

Und es beginnt Verwirrung darüber, wer welche Merkmale der Umsetzung schrecklicher und unverständlicher Merkmale hat, die für eine unvorbereitete Person völlig chinesisch sind.

Die wichtigste und allererste Frage, die Sie sich lange vor dem Vergleich der Spezifikationen in kommerziellen Angeboten stellen müssen, lautet also: WARUM? Warum wird dieses Speichersystem benötigt?

So entscheiden Sie sich für die Aufbewahrung, ohne sich selbst ins Bein zu schießen

Die Antwort wird unerwartet und ganz im Stil von Tony Robbins sein – Daten zu speichern. Danke, Kapitän! Und doch vertiefen wir uns manchmal so sehr in den Vergleich von Details, dass wir vergessen, warum wir das alles überhaupt tun.

Die Aufgabe eines Datenspeichersystems besteht also darin, DATEN mit einer bestimmten Leistung zu speichern und den Zugriff darauf bereitzustellen. Wir beginnen mit den Daten.

Daten

Datentyp

Welche Art von Daten wollen wir speichern? Eine sehr wichtige Frage, die dazu führen kann, dass viele Speichersysteme gar nicht erst in Betracht gezogen werden. Sie planen beispielsweise, Videos und Fotos zu speichern. Sie können Systeme, die für den wahlfreien Zugriff in kleinen Blöcken ausgelegt sind, oder Systeme mit proprietären Funktionen bei Komprimierung/Deduplizierung sofort streichen. Das können einfach hervorragende Systeme sein, wir wollen nichts Schlechtes sagen. Aber in diesem Fall werden ihre Stärken entweder schwächer (Videos und Fotos werden nicht komprimiert) oder sie erhöhen einfach die Kosten des Systems erheblich.

Umgekehrt sind hervorragende Multimedia-Streaming-Systeme, die Gigabyte pro Sekunde liefern können, eine schlechte Wahl, wenn es sich bei der beabsichtigten Verwendung um ein ausgelastetes Transaktions-DBMS handelt.

Datenvolumen

Wie viele Daten wollen wir speichern? Quantität entwickelt sich immer zu Qualität, das sollte gerade in unserer Zeit des exponentiellen Wachstums der Datenmengen nie vergessen werden. Systeme der Petabyte-Klasse sind keine Seltenheit mehr, aber je größer die Petabyte-Kapazität, desto spezifischer das System, desto weniger zugänglich ist die übliche Funktionalität kleiner und mittlerer Direktzugriffssysteme. Dies ist trivial, da allein die Blockzugriffsstatistiktabellen größer werden als die verfügbare RAM-Menge auf den Controllern. Ganz zu schweigen von Komprimierung/Tiering. Nehmen wir an, wir möchten den Komprimierungsalgorithmus auf einen leistungsfähigeren umstellen und 20 Petabyte Daten komprimieren. Wie lange wird es dauern: sechs Monate, ein Jahr?

Warum sollten Sie sich andererseits die Mühe machen, wenn Sie 500 GB Daten speichern und verarbeiten müssen? Nur 500. Haushalts-SSDs (mit niedrigem DWPD) dieser Größe kosten nichts. Warum eine Fibre-Channel-Fabrik bauen und hochwertige externe Speichersysteme kaufen, die das Äquivalent einer gusseisernen Brücke kosten?

Wie viel Prozent der Gesamtmenge sind Hot Data? Wie ungleichmäßig ist die Belastung hinsichtlich des Datenvolumens? Hier kann die Tiered-Storage-Technologie oder der Flash-Cache sehr hilfreich sein, wenn die Menge an wichtigen Daten im Vergleich zur Gesamtmenge winzig ist. Oder umgekehrt, bei einer gleichmäßigen Belastung über das gesamte Volumen, was häufig bei Streaming-Systemen (Videoüberwachung, einige Analysesysteme) vorkommt, bringen solche Technologien nichts und erhöhen nur die Kosten/Komplexität des Systems.

IST

Die andere Seite der Daten ist das Informationssystem, das die Daten nutzt. Ein IS hat eine Reihe von Anforderungen, die Daten erben. Weitere Informationen zum IS finden Sie unter „Design virtueller Rechenzentren“.

Ausfallsicherheits-/Verfügbarkeitsanforderungen

Anforderungen an Fehlertoleranz/Datenverfügbarkeit werden vom sie verwendenden IS geerbt und in drei Zahlen ausgedrückt: RPO, RTO, Verfügbarkeit.

Verfügbarkeit — der Anteil für einen bestimmten Zeitraum, in dem Daten für die Arbeit mit ihnen verfügbar sind. Wird normalerweise als Zahl von 9 ausgedrückt. Beispielsweise bedeuten zwei Neunen pro Jahr, dass die Verfügbarkeit 99 % beträgt, andernfalls sind 95 Stunden Nichtverfügbarkeit pro Jahr zulässig. Drei Neuner – 9,5 Stunden pro Jahr.

RPO/RTO sind im Gegensatz zur Verfügbarkeit keine Gesamtindikatoren, sondern pro Vorfall (Unfall).

RPO — die Menge der während eines Unfalls verlorenen Daten (in Stunden). Wenn Sicherungen beispielsweise einmal am Tag erfolgen, beträgt der RPO 24 Stunden. Diese. Im Falle einer Katastrophe und einem vollständigen Ausfall des Speichersystems können Daten bis zu 24 Stunden (ab dem Zeitpunkt der Sicherung) verloren gehen. Basierend auf dem für den IS vorgegebenen RPO werden beispielsweise Backup-Regelungen geschrieben. Anhand des RPO können Sie außerdem erkennen, wie viel synchrone/asynchrone Datenreplikation erforderlich ist.

RTO — Zeit zur Wiederherstellung des Dienstes (Datenzugriff) nach einer Katastrophe. Anhand des angegebenen RTO-Werts können wir erkennen, ob ein Metrocluster erforderlich ist oder ob eine unidirektionale Replikation ausreichend ist. Benötigen Sie ein Multi-Controller-Speichersystem der Spitzenklasse?

So entscheiden Sie sich für die Aufbewahrung, ohne sich selbst ins Bein zu schießen

Leistungsanforderungen

Obwohl dies eine sehr offensichtliche Frage ist, entstehen hier die meisten Schwierigkeiten. Abhängig davon, ob Sie bereits über eine Infrastruktur verfügen oder nicht, werden Möglichkeiten zur Erfassung der erforderlichen Statistiken entwickelt.

Sie verfügen bereits über ein Speichersystem und suchen Ersatz oder möchten ein weiteres zur Erweiterung erwerben. Hier ist alles einfach. Sie wissen, über welche Services Sie bereits verfügen und welche Sie in naher Zukunft implementieren möchten. Basierend auf aktuellen Leistungen haben Sie die Möglichkeit, Leistungsstatistiken zu erheben. Entscheiden Sie sich für die aktuelle IOPS-Zahl und die aktuelle Latenz – was sind das für Indikatoren und reichen sie für Ihre Aufgaben aus? Dies kann sowohl auf dem Datenspeichersystem selbst als auch von den daran angeschlossenen Hosts aus erfolgen.

Darüber hinaus müssen Sie nicht nur die aktuelle Auslastung betrachten, sondern einen bestimmten Zeitraum (vorzugsweise einen Monat). Sehen Sie, wie hoch die maximalen Spitzen im Laufe des Tages sind, welche Last das Backup verursacht usw. Wenn Ihr Speichersystem oder seine Software Ihnen keinen vollständigen Satz dieser Daten liefert, können Sie das kostenlose RRDtool verwenden, das mit den meisten der gängigsten Speichersysteme und Switches funktioniert und Ihnen detaillierte Leistungsstatistiken liefert. Es lohnt sich auch, einen Blick auf die Auslastung der Hosts zu werfen, die mit diesem Speichersystem arbeiten, auf bestimmte virtuelle Maschinen oder darauf, was genau auf diesem Host läuft.

So entscheiden Sie sich für die Aufbewahrung, ohne sich selbst ins Bein zu schießen

Es ist gesondert zu beachten, dass Sie, wenn sich die Verzögerungen auf dem Volume und dem darauf befindlichen Datenspeicher erheblich unterscheiden, mit hoher Wahrscheinlichkeit auf Ihr SAN-Netzwerk achten sollten, bevor Sie ein neues kaufen Es lohnt sich, sich mit diesem Thema zu befassen, da die Wahrscheinlichkeit einer Leistungssteigerung des aktuellen Systems sehr hoch ist.

Sie bauen eine Infrastruktur von Grund auf auf oder kaufen ein System für einen neuen Dienst, dessen Belastungen Ihnen nicht bewusst sind. Es gibt mehrere Möglichkeiten: Kommunizieren Sie mit Kollegen über spezielle Ressourcen, um die Auslastung herauszufinden und vorherzusagen, wenden Sie sich an einen Integrator, der Erfahrung in der Implementierung ähnlicher Dienste hat und die Auslastung für Sie berechnen kann. Und die dritte Option (normalerweise die schwierigste, insbesondere wenn es sich um selbst geschriebene oder seltene Anwendungen handelt) besteht darin, die Leistungsanforderungen von den Systementwicklern herauszufinden.

Und bitte beachten Sie, dass die korrekteste Option aus Sicht der praktischen Anwendung ein Pilotversuch mit aktueller Ausrüstung oder Ausrüstung ist, die von einem Anbieter/Integrator zum Testen bereitgestellt wird.

Besondere Anforderungen

Besondere Anforderungen sind alles, was nicht unter die Anforderungen an Leistung, Fehlertoleranz und Funktionalität zur direkten Verarbeitung und Bereitstellung von Daten fällt.

Eine der einfachsten Sonderanforderungen an ein Datenspeichersystem kann als „veräußerliches Speichermedium“ bezeichnet werden. Und es wird sofort klar, dass dieses Datenspeichersystem eine Bandbibliothek oder einfach ein Bandlaufwerk enthalten muss, auf das die Sicherungskopie kopiert wird. Anschließend unterschreibt eine speziell geschulte Person das Band und trägt es stolz zu einem speziellen Safe.
Ein weiteres Beispiel für eine besondere Anforderung ist eine geschützte stoßfeste Ausführung.

Wo

Der zweite Hauptbestandteil bei der Auswahl eines bestimmten Speichersystems sind Informationen darüber, wo sich dieses Speichersystem befinden wird. Angefangen bei der Geographie oder den klimatischen Bedingungen bis hin zum Personal.

Kunde

Für wen ist dieses Speichersystem geplant? Die Frage hat folgende Gründe:

Regierungskunde/gewerblich.
Für den gewerblichen Kunden bestehen keinerlei Einschränkungen und er ist auch nicht zur Durchführung von Ausschreibungen verpflichtet, außer im Rahmen seiner eigenen internen Regelungen.

Ein Regierungskunde ist eine andere Sache. 44 Bundesgesetz und andere begeistern mit anfechtbaren Ausschreibungen und technischen Spezifikationen.

Der Kunde steht unter Sanktionen
Nun, die Frage hier ist ganz einfach: Die Auswahl wird nur durch die Angebote begrenzt, die einem bestimmten Kunden zur Verfügung stehen.

Interne Vorschriften / Anbieter / Modelle, die zum Kauf zugelassen sind
Die Frage ist auch äußerst einfach, aber Sie müssen sie sich merken.

Wo physisch

In diesem Teil betrachten wir alle Fragen der Geographie, der Kommunikationskanäle und des Mikroklimas in den Unterkunftsräumen.

Personal

Wer wird mit diesem Speichersystem arbeiten? Dies ist nicht weniger wichtig als die Leistung des Speichersystems selbst.
Egal wie vielversprechend, cool und wunderbar das Speichersystem von Anbieter A ist, es macht wahrscheinlich wenig Sinn, es zu installieren, wenn die Mitarbeiter nur wissen, wie man mit Anbieter B zusammenarbeitet, und keine Pläne für weitere Anschaffungen und eine fortlaufende Zusammenarbeit mit A bestehen.

Und natürlich ist die andere Seite der Frage, wie verfügbar ausgebildetes Personal an einem bestimmten geografischen Standort direkt im Unternehmen und möglicherweise auf dem Arbeitsmarkt ist. Für Regionen kann die Wahl von Speichersystemen mit einfachen Schnittstellen oder der Möglichkeit, die Verwaltung aus der Ferne zu zentralisieren, sehr sinnvoll sein. Ansonsten kann es irgendwann zu unerträglichen Schmerzen kommen. Das Internet ist voll von Geschichten darüber, wie ein neu angekommener Mitarbeiter, der Student von gestern, so etwas konfiguriert hat, dass das gesamte Büro zerstört wurde.

So entscheiden Sie sich für die Aufbewahrung, ohne sich selbst ins Bein zu schießen

Umgebung

Und natürlich ist eine wichtige Frage, in welcher Umgebung dieses Speichersystem betrieben werden soll.

  • Wie sieht es mit der Stromversorgung/Kühlung aus?
  • Welche Verbindung
  • Wo wird es installiert?
  • Usw.

Oft werden diese Fragen als selbstverständlich angesehen und nicht besonders berücksichtigt, aber manchmal sind es sie, die alles ändern können.

Dass

Verkäufer

Stand heute (Mitte 2019) lässt sich der russische Speichermarkt in 5 Kategorien einteilen:

  1. Die höchste Abteilung besteht aus etablierten Unternehmen mit einer breiten Palette an Festplattenregalen von den einfachsten bis hin zu High-End-Geräten (HPE, DellEMC, Hitachi, NetApp, IBM / Lenovo).
  2. Zweite Division – Unternehmen mit einem begrenzten Angebot, Nischenanbieter, seriöse SDS-Anbieter oder aufstrebende Newcomer (Fujitsu, Datacore, Infinidat, Huawei, Pure usw.)
  3. Dritte Abteilung – Nischenlösungen im unteren Preissegment, günstiges SDS, fortschrittliche Produkte auf Basis von Ceph und anderen offenen Projekten (Infortrend, Starwind usw.)
  4. SOHO-Segment – ​​kleine und kleinste Speichersysteme für den Heim-/Kleinbürobereich (Synology, QNAP usw.)
  5. Importsubstituierte Speichersysteme – dazu gehören sowohl Hardware der ersten Division mit neu beschrifteten Etiketten als auch seltene Vertreter der zweiten (RAIDIX, die zweite nennen wir ihnen vorab), vor allem aber handelt es sich um die dritte Division (Aerodisk, Baum, Depot usw.)

Die Aufteilung ist recht willkürlich und bedeutet keineswegs, dass das dritte oder SOHO-Segment schlecht ist und nicht verwendet werden kann. In konkreten Projekten mit einem klar definierten Datensatz und Lastprofil können sie sehr gut funktionieren und in Bezug auf das Preis-Leistungs-Verhältnis die erste Liga weit übertreffen. Es ist wichtig, sich zunächst über Ihre Ziele, Wachstumsaussichten und erforderliche Funktionalität zu entscheiden – dann wird Synology Ihnen treue Dienste leisten und Ihr Haar wird weich und seidig.

Einer der wichtigen Faktoren bei der Auswahl eines Anbieters ist das aktuelle Umfeld. Wie viele Speichersysteme Sie bereits haben und mit welchen Speichersystemen Ihre Ingenieure arbeiten können. Benötigen Sie einen anderen Anbieter, einen anderen Ansprechpartner? Werden Sie die gesamte Last schrittweise von Anbieter A auf Anbieter B migrieren?

Man sollte keine Einheiten produzieren, die über das Notwendige hinausgehen.

iSCSI/FC/Datei

Unter Ingenieuren besteht kein Konsens über die Frage der Zugriffsprotokolle, und die Debatte ähnelt eher theologischen als ingenieurwissenschaftlichen Diskussionen. Generell lassen sich aber folgende Punkte festhalten:

FCoE mehr tot als lebendig.

FC vs. iSCSI. Einer der Hauptvorteile von FC im Jahr 2019 gegenüber IP-Speicher, einer dedizierten Fabrik für den Datenzugriff, wird durch ein dediziertes IP-Netzwerk ausgeglichen. FC hat keine globalen Vorteile gegenüber IP-Netzwerken und IP kann zum Aufbau von Speichersystemen jeder Laststufe verwendet werden, bis hin zu Systemen für schwere DBMS für das Kernbankensystem einer großen Bank. Andererseits wird seit einigen Jahren der Tod des FC prophezeit, doch irgendetwas hält ihn ständig davon ab. Heute entwickeln beispielsweise einige Akteure auf dem Speichermarkt aktiv den NVMEoF-Standard weiter. Ob er das Schicksal von FCoE teilen wird – die Zeit wird zeigen.

Dateizugriff ist auch nichts Unwürdiges der Aufmerksamkeit. NFS/CIFS funktioniert in Produktivitätsumgebungen gut und weist bei korrektem Design nicht mehr Kritikpunkte auf als Blockprotokolle.

Hybrid-/All-Flash-Array

Klassische Speichersysteme gibt es in zwei Ausführungen:

  1. AFA (All Flash Array) – für den SSD-Einsatz optimierte Systeme.
  2. Hybrid – ermöglicht die Verwendung von HDD und SSD oder einer Kombination davon.

Ihr Hauptunterschied besteht in den unterstützten Speichereffizienztechnologien und dem maximalen Leistungsniveau (hohe IOPS und niedrige Latenz). Beide Systeme (in den meisten ihrer Modelle, das Low-End-Segment nicht mitgerechnet) können sowohl als Block- als auch als Dateigeräte betrieben werden. Die unterstützte Funktionalität hängt von der Systemstufe ab und ist bei jüngeren Modellen meist auf ein Minimum reduziert. Darauf sollten Sie achten, wenn Sie die Eigenschaften eines bestimmten Modells untersuchen und nicht nur die Fähigkeiten der gesamten Produktlinie als Ganzes. Natürlich hängen auch seine technischen Eigenschaften wie Prozessor, Speichergröße, Cache, Anzahl und Art der Ports usw. vom Level des Systems ab. Aus Managementsicht unterscheiden sich AFAs von Hybrid-(Festplatten-)Systemen nur durch die Implementierung von Mechanismen für die Arbeit mit SSD-Laufwerken, und selbst wenn Sie eine SSD in einem Hybridsystem verwenden, bedeutet dies keineswegs, dass Sie dazu in der Lage sind das Leistungsniveau auf dem Niveau eines AFA-Systems zu erreichen. Außerdem sind in Hybridsystemen in den meisten Fällen effiziente Inline-Speichermechanismen deaktiviert, und ihre Einbeziehung führt zu einem Leistungsverlust.

Spezielle Lagersysteme

Neben Allzweck-Speichersystemen, die sich hauptsächlich auf die betriebliche Datenverarbeitung konzentrieren, gibt es spezielle Speichersysteme, deren Schlüsselprinzipien sich grundlegend von den üblichen unterscheiden (geringe Latenz, hohe IOPS):

Medien.

Diese Systeme sind für die Speicherung und Verarbeitung großer Mediendateien konzipiert. Bzw. Die Verzögerung wird praktisch unwichtig und die Fähigkeit, Daten breitbandig in vielen parallelen Streams zu senden und zu empfangen, tritt in den Vordergrund.

Deduplizierung von Speichersystemen für Backups.

Da sich Sicherungskopien durch ihre Ähnlichkeit zueinander auszeichnen, was unter normalen Bedingungen selten vorkommt (die durchschnittliche Sicherungskopie unterscheidet sich von der gestrigen Kopie um 1-2 %), verpackt diese Systemklasse die darauf aufgezeichneten Daten äußerst effizient in einem relativ kleinen Format Anzahl der physischen Medien. In einigen Fällen können die Datenkomprimierungsverhältnisse beispielsweise 200 zu 1 erreichen.

Objektspeichersysteme.

Diese Speichersysteme verfügen nicht über die üblichen Blockzugriffsvolumes und Dateifreigaben und ähneln vor allem einer riesigen Datenbank. Der Zugriff auf ein in einem solchen System gespeichertes Objekt erfolgt über eine eindeutige Kennung oder über Metadaten (z. B. alle Objekte im JPEG-Format mit einem Erstellungsdatum zwischen XX-XX-XXXX und JJ-JJ-JJJJ).

Compliance-System.

Sie sind heute in Russland nicht mehr so ​​verbreitet, aber sie sind erwähnenswert. Der Zweck solcher Speichersysteme ist die garantierte Datenspeicherung zur Einhaltung von Sicherheitsrichtlinien oder behördlichen Anforderungen. Einige Systeme (z. B. EMC Centera) haben eine Funktion implementiert, die das Löschen von Daten verbietet. Sobald der Schlüssel gedreht wird und das System in diesen Modus wechselt, können weder der Administrator noch andere Personen bereits aufgezeichnete Daten physisch löschen.

Proprietäre Technologien

Flash-Cache

Flash Cache ist eine gebräuchliche Bezeichnung für alle proprietären Technologien zur Nutzung von Flash-Speicher als Second-Level-Cache. Bei Verwendung eines Flash-Cache ist das Speichersystem normalerweise so ausgelegt, dass es eine konstante Last von Magnetplatten bereitstellt, während die Spitzenlast vom Cache abgedeckt wird.

In diesem Fall ist es notwendig, das Lastprofil und den Grad der Lokalisierung des Zugriffs auf Blöcke von Speichervolumina zu verstehen. Flash-Cache ist eine Technologie für Workloads mit stark lokalisierten Abfragen und praktisch nicht für gleichmäßig geladene Volumes (z. B. für Analysesysteme) anwendbar.

Auf dem Markt sind zwei Flash-Cache-Implementierungen verfügbar:

  • Schreibgeschützt. In diesem Fall werden nur gelesene Daten zwischengespeichert und das Schreiben erfolgt direkt auf die Festplatten. Einige Hersteller wie NetApp glauben, dass das Schreiben auf ihre Speichersysteme bereits optimal ist und der Cache überhaupt nicht hilft.
  • Lesen Schreiben. Nicht nur das Lesen, sondern auch das Schreiben wird zwischengespeichert, wodurch Sie den Stream puffern und die Auswirkungen von RAID Penalty reduzieren und dadurch die Gesamtleistung für Speichersysteme mit einem weniger optimalen Schreibmechanismus erhöhen können.

Abstufung

Multi-Level-Storage (Tiring) ist eine Technologie zur Kombination von Ebenen mit unterschiedlichen Leistungsniveaus, wie z. B. SSD und HDD, in einem einzigen Festplattenpool. Bei ausgeprägter Ungleichmäßigkeit beim Zugriff auf Datenblöcke ist das System in der Lage, Datenblöcke automatisch auszugleichen, indem es geladene auf ein Hochleistungsniveau und kalte im Gegenteil auf ein langsameres Niveau verschiebt.

Hybridsysteme der unteren und mittleren Klassen verwenden mehrstufige Speicherung, wobei Daten nach einem Zeitplan zwischen den Ebenen verschoben werden. Gleichzeitig beträgt die Größe des mehrstufigen Speicherblocks bei den besten Modellen 256 MB. Diese Merkmale erlauben es uns nicht, die Tiered-Storage-Technologie als Technologie zur Steigerung der Produktivität zu betrachten, wie viele Menschen fälschlicherweise glauben. Die Mehrebenenspeicherung in Systemen der unteren und mittleren Klasse ist eine Technologie zur Optimierung der Speicherkosten für Systeme mit ausgeprägter Lastungleichmäßigkeit.

Schnappschuss

Egal wie viel wir über die Zuverlässigkeit von Speichersystemen reden, es gibt viele Möglichkeiten, Daten zu verlieren, die nicht von Hardwareproblemen abhängen. Dies können Viren, Hacker oder andere unbeabsichtigte Löschungen/Beschädigungen von Daten sein. Aus diesem Grund ist die Sicherung von Produktionsdaten ein wesentlicher Bestandteil der Arbeit eines Ingenieurs.

Ein Snapshot ist ein Snapshot eines Volumes zu einem bestimmten Zeitpunkt. Bei der Arbeit mit den meisten Systemen wie Virtualisierung, Datenbanken usw. Wir müssen einen solchen Snapshot erstellen, von dem wir die Daten in eine Sicherungskopie kopieren, während unser IS mit diesem Volume sicher weiterarbeiten kann. Bedenken Sie jedoch, dass nicht alle Schnappschüsse gleichermaßen nützlich sind. Verschiedene Anbieter verfolgen unterschiedliche Ansätze zur Erstellung von Snapshots in Bezug auf ihre Architektur.

CoW (Copy-On-Write). Wenn Sie versuchen, einen Datenblock zu schreiben, wird sein ursprünglicher Inhalt in einen speziellen Bereich kopiert, woraufhin der Schreibvorgang normal fortgesetzt wird. Dies verhindert eine Datenbeschädigung innerhalb des Snapshots. Natürlich führen all diese „parasitären“ Datenmanipulationen zu einer zusätzlichen Belastung des Speichersystems. Aus diesem Grund empfehlen Anbieter mit ähnlichen Implementierungen nicht, mehr als ein Dutzend Snapshots zu verwenden und diese bei stark ausgelasteten Volumes überhaupt nicht zu verwenden.

RoW (Redirect-on-Write). In diesem Fall friert das ursprüngliche Volume natürlich ein und beim Versuch, einen Datenblock zu schreiben, schreibt das Speichersystem Daten in einen speziellen Bereich im freien Speicherplatz und ändert so die Position dieses Blocks in der Metadatentabelle. Dadurch können Sie die Anzahl der Umschreibevorgänge reduzieren, was letztendlich den Leistungsabfall beseitigt und Einschränkungen für Snapshots und deren Anzahl aufhebt.

Es gibt auch zwei Arten von Snapshots in Bezug auf Anwendungen:

Anwendungskonsistenz. Beim Erstellen eines Snapshots ruft das Speichersystem einen Agenten im Betriebssystem des Verbrauchers ab, der Festplatten-Caches zwangsweise aus dem Speicher auf die Festplatte löscht und die Anwendung dazu zwingt. In diesem Fall sind die Daten bei der Wiederherstellung aus einem Snapshot konsistent.

Absturzbeständig. In diesem Fall passiert nichts dergleichen und der Snapshot wird unverändert erstellt. Im Falle einer Wiederherstellung aus einem solchen Snapshot ist das Bild identisch mit dem, was passieren würde, wenn der Strom plötzlich ausgeschaltet würde und ein gewisser Datenverlust möglich wäre, der im Cache stecken bleibt und nie auf die Festplatte gelangt. Solche Snapshots sind einfacher zu implementieren und verursachen keine Leistungseinbußen in Anwendungen, sind jedoch weniger zuverlässig.

Warum werden Snapshots auf Speichersystemen benötigt?

  • Agentenloses Backup direkt vom Speichersystem
  • Erstellen Sie Testumgebungen basierend auf echten Daten
  • Im Falle von Dateispeichersystemen können damit VDI-Umgebungen mithilfe von Speichersystem-Snapshots anstelle eines Hypervisors erstellt werden
  • Stellen Sie niedrige RPOs sicher, indem Sie geplante Snapshots mit einer Häufigkeit erstellen, die deutlich über der Sicherungshäufigkeit liegt

Das Klonen

Volume-Klonen – funktioniert nach einem ähnlichen Prinzip wie Snapshots, dient jedoch nicht nur dem Lesen von Daten, sondern der vollständigen Arbeit damit. Wir können eine exakte Kopie unseres Volumes mit allen darauf befindlichen Daten erhalten, ohne eine physische Kopie erstellen zu müssen, was Platz spart. Typischerweise wird das Klonen von Volumes entweder in Test&Dev verwendet oder wenn Sie die Funktionalität einiger Updates auf Ihrem IS überprüfen möchten. Durch das Klonen können Sie dies im Hinblick auf die Festplattenressourcen so schnell und wirtschaftlich wie möglich tun, denn Es werden nur geänderte Datenblöcke geschrieben.

Replikation / Journaling

Bei der Replikation handelt es sich um einen Mechanismus zum Erstellen einer Kopie von Daten auf einem anderen physischen Speichersystem. Normalerweise verfügt jeder Anbieter über eine proprietäre Technologie, die nur innerhalb seiner eigenen Produktlinie funktioniert. Es gibt aber auch Lösungen von Drittanbietern, auch solche, die auf Hypervisor-Ebene arbeiten, wie beispielsweise VMware vSphere Replication.

Die Funktionalität proprietärer Technologien und ihre Benutzerfreundlichkeit sind den universellen Technologien in der Regel weit überlegen, sie erweisen sich jedoch als nicht anwendbar, wenn beispielsweise eine Replik von NetApp auf HP MSA erstellt werden muss.

Die Replikation ist in zwei Untertypen unterteilt:

Synchron. Bei der synchronen Replikation wird der Schreibvorgang sofort an das zweite Speichersystem gesendet und die Ausführung erst bestätigt, wenn das Remote-Speichersystem dies bestätigt. Dadurch erhöht sich die Zugriffsverzögerung, wir verfügen jedoch über eine exakte Spiegelkopie der Daten. Diese. RPO = 0 bei Ausfall des Hauptspeichersystems.

asynchron. Schreibvorgänge werden nur auf dem Hauptspeichersystem ausgeführt und sofort bestätigt, während sie gleichzeitig in einem Puffer für die Stapelübertragung an das Remote-Speichersystem gesammelt werden. Diese Art der Replikation ist für weniger wertvolle Daten oder für Kanäle mit geringer Bandbreite oder hoher Latenz (typisch für Entfernungen über 100 km) relevant. Dementsprechend ist RPO = Paketsendefrequenz.

Oftmals gibt es neben der Replikation auch einen Mechanismus Protokollierung Festplattenoperationen. In diesem Fall wird ein spezieller Bereich für die Protokollierung reserviert und Aufzeichnungsvorgänge mit einer bestimmten zeitlichen Tiefe oder begrenzt durch das Protokollvolumen gespeichert. Für bestimmte proprietäre Technologien wie EMC RecoverPoint gibt es eine Integration mit Systemsoftware, die es Ihnen ermöglicht, bestimmte Lesezeichen mit einem bestimmten Protokolleintrag zu verknüpfen. Dadurch ist es möglich, den Status eines Volumes nicht nur auf den 23. April, 11 Stunden, 59 Sekunden und 13 Millisekunden zurückzusetzen (oder einen Klon zu erstellen), sondern auf den Moment vor „ALLE TABELLEN DROP; BEGEHEN."

Metro-Cluster

Metro-Cluster ist eine Technologie, mit der Sie eine bidirektionale synchrone Replikation zwischen zwei Speichersystemen erstellen können, sodass dieses Paar von außen wie ein einziges Speichersystem aussieht. Es wird verwendet, um Cluster mit geografisch getrennten Armen in U-Bahn-Entfernungen (weniger als 100 km) zu erstellen.

Basierend auf dem Beispiel des Einsatzes in einer Virtualisierungsumgebung ermöglicht Ihnen der Metrocluster die Erstellung eines Datenspeichers mit virtuellen Maschinen, auf den von zwei Rechenzentren gleichzeitig aus zugegriffen werden kann. In diesem Fall wird auf Hypervisor-Ebene ein Cluster erstellt, der aus Hosts in verschiedenen physischen Rechenzentren besteht, die mit diesem Datenspeicher verbunden sind. Damit können Sie Folgendes tun:

  • Vollständige Automatisierung des Wiederherstellungsprozesses nach dem Ausfall eines der Rechenzentren. Ohne zusätzliche Mittel werden alle VMs, die im verstorbenen Rechenzentrum ausgeführt werden, automatisch im verbleibenden Rechenzentrum neu gestartet. RTO = Hochverfügbarkeits-Cluster-Timeout (15 Sekunden für VMware) + Zeit zum Laden des Betriebssystems und zum Starten von Diensten.
  • Katastrophenvermeidung oder, auf Russisch, Katastrophenvermeidung. Sind Stromversorgungsarbeiten im Rechenzentrum 1 geplant, dann haben wir die Möglichkeit, vor Beginn der Arbeiten die gesamte wichtige Last ohne Unterbrechung in das Rechenzentrum 2 zu migrieren.

Virtualisierung

Unter Speichervirtualisierung versteht man technisch gesehen die Nutzung von Volumes aus einem anderen Speichersystem als Festplatten. Ein Speichervirtualisierer kann einfach das Volume einer anderen Person als sein eigenes an den Verbraucher übertragen und es gleichzeitig auf ein anderes Speichersystem spiegeln oder sogar ein RAID aus externen Volumes erstellen.
Klassische Vertreter in der Klasse der Speichervirtualisierung sind EMC VPLEX und IBM SVC. Und natürlich Speichersysteme mit Virtualisierungsfunktionalität – NetApp, Hitachi, IBM / Lenovo Storwize.

Warum könnte es nötig sein?

  • Redundanz auf Speichersystemebene. Zwischen den Volumes wird ein Spiegel erstellt, wobei sich eine Hälfte auf HP 3Par und die andere auf NetApp befinden kann. Und der Virtualisierer ist von EMC.
  • Verschieben Sie Daten mit minimaler Ausfallzeit zwischen Speichersystemen verschiedener Hersteller. Nehmen wir an, dass Daten vom alten 3Par, das abgeschrieben wird, auf das neue Dell migriert werden müssen. In diesem Fall werden die Verbraucher von 3Par getrennt, die Volumina werden unter VPLEX übertragen und den Verbrauchern erneut präsentiert. Da sich an der Lautstärke nichts geändert hat, geht die Arbeit weiter. Der Vorgang der Spiegelung des Volumes auf den neuen Dell beginnt im Hintergrund. Nach Abschluss wird die Spiegelung unterbrochen und 3Par deaktiviert.
  • Organisation von Metroclustern.

Komprimierung/Deduplizierung

Komprimierung und Deduplizierung sind Technologien, mit denen Sie Speicherplatz auf Ihrem Speichersystem sparen können. Es sollte gleich erwähnt werden, dass grundsätzlich nicht alle Daten einer Komprimierung und/oder Deduplizierung unterliegen, während einige Datentypen besser komprimiert und dedupliziert werden können und andere umgekehrt.

Es gibt zwei Arten der Komprimierung und Deduplizierung:

In der Reihe — Die Komprimierung und Deduplizierung von Datenblöcken erfolgt vor dem Schreiben dieser Daten auf die Festplatte. Das System berechnet also nur den Hash des Blocks und vergleicht ihn in der Tabelle mit den vorhandenen. Erstens ist es schneller als nur auf die Festplatte zu schreiben, und zweitens verschwenden wir keinen zusätzlichen Speicherplatz.

Post - wenn diese Vorgänge an bereits aufgezeichneten Daten auf Datenträgern ausgeführt werden. Dementsprechend werden die Daten zunächst auf die Festplatte geschrieben, erst dann wird der Hash berechnet, unnötige Blöcke gelöscht und Festplattenressourcen freigegeben.

Es ist erwähnenswert, dass die meisten Anbieter beide Arten verwenden, was ihnen ermöglicht, diese Prozesse zu optimieren und dadurch ihre Effizienz zu steigern. Die meisten Speicheranbieter verfügen über Dienstprogramme, mit denen Sie Ihre Datensätze analysieren können. Diese Dienstprogramme arbeiten nach der gleichen Logik, die im Speichersystem implementiert ist, sodass der geschätzte Wirkungsgrad gleich ist. Bedenken Sie außerdem, dass viele Anbieter über Leistungsgarantieprogramme verfügen, die für bestimmte (oder alle) Datentypen eine mindestens ebenso gute Leistung versprechen. Und Sie sollten dieses Programm nicht vernachlässigen, denn durch die Berechnung des Systems für Ihre Aufgaben unter Berücksichtigung des Effizienzkoeffizienten eines bestimmten Systems können Sie Volumen einsparen. Es ist auch zu bedenken, dass diese Programme für AFA-Systeme konzipiert sind, aber dank des Kaufs einer kleineren Menge an SSDs als an HDDs in klassischen Systemen werden ihre Kosten gesenkt, und wenn nicht sogar die Kosten eines Festplattensystems erreicht werden ganz nahe dran kommen.

Modell

Und hier kommen wir zur richtigen Frage.

„Sie bieten mir zwei Speicheroptionen an – ABC SuperStorage S600 und XYZ HyperOcean 666v4. Was empfehlen Sie?“

Wird zu „Hier bieten sie mir zwei Speicheroptionen an – ABC SuperStorage S600 und XYZ HyperOcean 666v4, was empfehlen Sie?“

Die Ziellast sind gemischte virtuelle VMware-Maschinen mit Produktions-/Test-/Entwicklungsschleifen. Test = produktiv. Jeweils 150 TB mit einer Spitzenleistung von 80 IOPS, 000 KB Block, 8 % Direktzugriff, 50/80 Lese-/Schreibzugriff. 20 TB für die Entwicklung, 300 IOPS reichen aus, 50 zufällig, 000 schreibend.

Produktivität vermutlich im Metrocluster RPO = 15 Minuten RTO = 1 Stunde, Entwicklung in der asynchronen Replikation RPO = 3 Stunden, Test an einem Standort.

Es wird ein 50-TB-DBMS geben, Protokollierung wäre für sie schön.

Wir haben überall Dell-Server, alte Hitachi-Speichersysteme, die kommen kaum zurecht, wir planen, die Auslastung hinsichtlich Volumen und Leistung um 50 % zu erhöhen.“

Wie man so schön sagt, enthält eine richtig formulierte Frage 80 % der Antwort.

Weitere Informationen

Was Sie laut den Autoren zusätzlich lesen sollten

Bücher

  • Olifer und Olifer „Computernetzwerke“. Das Buch wird dazu beitragen, die Funktionsweise des Datenübertragungsmediums für IP/Ethernet-Speichersysteme zu systematisieren und vielleicht besser zu verstehen
  • „EMC-Informationsspeicherung und -verwaltung.“ Ein ausgezeichnetes Buch über die Grundlagen von Speichersystemen, das Warum, Wie und Warum.

Foren und Chats

Allgemeine Empfehlungen

Preise

Nun zu den Preisen: Wenn es Preise für Speichersysteme gibt, handelt es sich in der Regel um Listenpreise, auf die jeder Kunde einen individuellen Rabatt erhält. Die Höhe des Rabatts setzt sich aus einer Vielzahl von Parametern zusammen, sodass es einfach unmöglich ist, vorherzusagen, welchen Endpreis Ihr Unternehmen erhalten wird, ohne den Händler zu fragen. Aber gleichzeitig tauchen in letzter Zeit auch Low-End-Modelle in regulären Computergeschäften auf, wie zum Beispiel nix.ru oder xcom-shop.ru. Hier können Sie das gewünschte System, wie alle Computerkomponenten, sofort zum Festpreis erwerben.

Ich möchte aber gleich anmerken, dass ein direkter Vergleich nach TB/$ nicht korrekt ist. Wenn wir es unter diesem Gesichtspunkt angehen, wäre die günstigste Lösung ein einfacher JBOD+-Server, der weder die Flexibilität noch die Zuverlässigkeit bietet, die ein vollwertiges Speichersystem mit zwei Controllern bietet. Das bedeutet keineswegs, dass JBOD ekelhaft und ein übler Trick ist, Sie müssen sich nur noch einmal ganz klar darüber im Klaren sein, wie und für welche Zwecke Sie diese Lösung nutzen werden. Man hört oft, dass es bei JBOD nichts zu beschädigen gibt, es gibt nur eine Backplane. Allerdings fallen auch Backplanes manchmal aus. Alles geht früher oder später kaputt.

Insgesamt

Es ist notwendig, Systeme nicht nur nach Preis oder nicht nur nach Leistung, sondern nach der Gesamtheit aller Indikatoren miteinander zu vergleichen.

Kaufen Sie eine Festplatte nur, wenn Sie sicher sind, dass Sie eine Festplatte benötigen. Bei geringer Auslastung und inkomprimierbaren Datentypen lohnt es sich andernfalls, sich an SSD-Speichereffizienz-Garantieprogramme zu wenden, die die meisten Anbieter mittlerweile haben (und die auch in Russland wirklich funktionieren), aber alles hängt von den Anwendungen und Daten ab, die sich befinden auf diesem Speichersystem.

Gehen Sie nicht zu billig. Manchmal verbergen sich hinter ihnen viele unangenehme Momente, von denen Evgeniy Elizarov in seinen Artikeln einen beschrieb Infotrend. Und dass diese Billigkeit am Ende nach hinten losgehen kann. Vergessen Sie nicht: „Der Geizhals zahlt doppelt.“

Quelle: www.habr.com

Kommentar hinzufügen