Comment choisir le rangement sans se tirer une balle dans le pied

introduction

Il est temps d'acheter du stockage. Lequel prendre, qui écouter ? Le fournisseur A parle du fournisseur B, puis il y a l'intégrateur C, qui dit le contraire et conseille le fournisseur D. Dans une telle situation, même un architecte de stockage expérimenté aura la tête qui tourne, surtout avec tous les nouveaux fournisseurs et les SDS et l'hyperconvergence qui sont à la mode. aujourd'hui.

Alors, comment comprendre tout cela et ne pas devenir un imbécile ? Nous (AntonVirtuel Anton Zhbankov et corps Evgeniy Elizarov), essayons d'en parler en russe simple.
L’article présente de nombreuses similitudes et est en fait une extension de «Conception de centre de données virtualisé" en termes de choix des systèmes de stockage et d'examen des technologies de stockage. Nous examinerons brièvement la théorie générale, mais nous vous recommandons de lire également cet article.

Pourquoi

Vous pouvez souvent voir une situation où une nouvelle personne vient sur un forum ou une discussion spécialisée, telle que Storage Discussions, et pose la question : « ici, ils me proposent deux options de stockage - ABC SuperStorage S600 et XYZ HyperOcean 666v4, que recommandez-vous ? ?"

Et la confusion commence quant à savoir qui a quelles caractéristiques de la mise en œuvre de caractéristiques terribles et incompréhensibles, qui pour une personne non préparée sont complètement chinoises.

Ainsi, la toute première question clé que vous devez vous poser bien avant de comparer les spécifications des propositions commerciales est POURQUOI ? Pourquoi ce système de stockage est-il nécessaire ?

Comment choisir le rangement sans se tirer une balle dans le pied

La réponse sera inattendue, et très à la manière de Tony Robbins : stocker des données. Merci, capitaine ! Et pourtant, parfois, nous nous plongeons tellement dans la comparaison des détails que nous oublions pourquoi nous faisons tout cela en premier lieu.

Ainsi, la tâche d'un système de stockage de données est de stocker et de fournir un accès aux DONNÉES avec une performance donnée. Nous commencerons par les données.

Données

Type de données

Quel type de données prévoyons-nous de stocker ? Une question très importante qui peut éliminer de nombreux systèmes de stockage. Par exemple, vous envisagez de stocker des vidéos et des photos. Vous pouvez immédiatement rayer les systèmes conçus pour un accès aléatoire par petits blocs, ou les systèmes dotés de fonctionnalités propriétaires en compression/déduplication. Il s’agit peut-être simplement d’excellents systèmes, nous ne voulons rien dire de négatif. Mais dans ce cas, leurs atouts vont soit s'affaiblir (la vidéo et les photos ne sont pas compressées), soit simplement augmenter considérablement le coût du système.

À l’inverse, si l’utilisation prévue est un SGBD transactionnel très chargé, alors d’excellents systèmes de streaming multimédia capables de fournir des gigaoctets par seconde seront un mauvais choix.

Volume de données

Quelle quantité de données prévoyons-nous de stocker ? La quantité évolue toujours en qualité ; cela ne doit jamais être oublié, surtout à notre époque de croissance exponentielle du volume de données. Les systèmes de classe pétaoctet ne sont plus rares, mais plus la capacité en pétaoctets est grande, plus le système devient spécifique, moins les fonctionnalités habituelles des systèmes à accès aléatoire de petite et moyenne taille seront accessibles. C’est trivial car les tableaux de statistiques d’accès aux blocs deviennent à eux seuls plus grands que la quantité de RAM disponible sur les contrôleurs. Sans parler de la compression/hiérarchisation. Supposons que nous souhaitions passer à l'algorithme de compression pour un algorithme plus puissant et compresser 20 pétaoctets de données. Combien de temps cela prendra-t-il : six mois, un an ?

D’un autre côté, pourquoi s’embêter si vous devez stocker et traiter 500 Go de données ? Seulement 500. Les SSD domestiques (avec un faible DWPD) de cette taille ne coûtent rien. Pourquoi construire une usine Fibre Channel et acheter des systèmes de stockage externes haut de gamme qui coûtent l’équivalent d’un pont en fonte ?

Quel pourcentage du total est constitué de données chaudes ? Dans quelle mesure la charge est-elle inégale en termes de volume de données ? C’est là que la technologie de stockage hiérarchisé ou Flash Cache peut s’avérer très utile si la quantité de données chaudes est minime par rapport au total. Ou vice versa, avec une charge uniforme sur tout le volume, que l'on retrouve souvent dans les systèmes de streaming (vidéosurveillance, certains systèmes d'analyse), de telles technologies n'apporteront rien et ne feront qu'augmenter le coût/la complexité du système.

IP

L’autre face des données est le système d’information qui utilise les données. Un SI possède un ensemble d’exigences qui héritent des données. Pour plus d'informations sur le SI, voir « Conception de centre de données virtualisé ».

Exigences de résilience/disponibilité

Les exigences de tolérance aux pannes / disponibilité des données sont héritées du SI qui les utilise et s'expriment en trois chiffres - RPO, RTO, disponibilité.

Disponibilité — la part pendant une période de temps donnée pendant laquelle les données sont disponibles pour travailler avec elles. Généralement exprimé sous la forme d'un nombre de 9. Par exemple, deux neuf par an signifient que la disponibilité est de 99 %, ou sinon 95 heures d'indisponibilité par an sont autorisées. Trois neuf - 9,5 heures par an.

Les RPO/RTO ne sont pas des indicateurs globaux, mais pour chaque incident (accident), par opposition à la disponibilité.

RPO — la quantité de données perdues lors d'un accident (en heures). Par exemple, si les sauvegardes ont lieu une fois par jour, alors RPO = 24 heures. Ceux. En cas de sinistre et de perte totale du système de stockage, des données peuvent être perdues jusqu'à 24 heures (à partir du moment de la sauvegarde). A partir du RPO précisé pour le SI par exemple, des règles de sauvegarde sont rédigées. De plus, sur la base du RPO, vous pouvez comprendre combien de réplication de données synchrones/asynchrones est nécessaire.

RTO — délai de restauration du service (accès aux données) après un sinistre. Sur la base de la valeur RTO donnée, nous pouvons comprendre si un métrocluster est nécessaire ou si une réplication unidirectionnelle est suffisante. Avez-vous besoin d'un système de stockage multicontrôleur haut de gamme ?

Comment choisir le rangement sans se tirer une balle dans le pied

Exigences de performances

Bien que cette question soit très évidente, c’est là que surgissent la plupart des difficultés. Selon que vous disposez déjà d'une infrastructure ou non, des moyens de collecter les statistiques nécessaires seront mis en place.

Vous possédez déjà un système de stockage et recherchez un remplacement ou souhaitez en acheter un autre pour l’étendre. Tout est simple ici. Vous comprenez de quels services vous disposez déjà et que vous envisagez de mettre en œuvre dans un avenir proche. Sur la base des services actuels, vous avez la possibilité de collecter des statistiques de performances. Décidez du nombre actuel d'IOPS et de la latence actuelle - quels sont ces indicateurs et sont-ils suffisants pour vos tâches ? Cela peut être fait à la fois sur le système de stockage de données lui-même et à partir des hôtes qui y sont connectés.

De plus, vous devez examiner non seulement la charge actuelle, mais aussi sur une certaine période (de préférence un mois). Voyez quels sont les pics maximaux pendant la journée, quelle charge crée la sauvegarde, etc. Si votre système de stockage ou ses logiciels ne vous fournissent pas un ensemble complet de ces données, vous pouvez utiliser le RRDtool gratuit, qui peut fonctionner avec la plupart des systèmes de stockage et des commutateurs les plus populaires et peut vous fournir des statistiques de performances détaillées. Il convient également d'examiner la charge sur les hôtes qui fonctionnent avec ce système de stockage, pour des machines virtuelles spécifiques, ou sur ce qui s'exécute exactement sur cet hôte.

Comment choisir le rangement sans se tirer une balle dans le pied

Il convient de noter séparément que si les délais sur le volume et la banque de données située sur ce volume diffèrent de manière assez significative, vous devez faire attention à votre réseau SAN, il y a une forte probabilité qu'il y ait des problèmes avec celui-ci et avant d'en acheter un nouveau. système, cela vaut la peine d'examiner cette question , car il existe une très forte probabilité d'augmenter les performances du système actuel.

Vous construisez une infrastructure à partir de zéro ou achetez un système pour un nouveau service dont vous n'êtes pas conscient des charges. Plusieurs options s'offrent à vous : communiquer avec des collègues sur des ressources spécialisées pour tenter de connaître et de prévoir la charge, contacter un intégrateur qui a de l'expérience dans la mise en œuvre de services similaires et qui pourra calculer la charge pour vous. Et la troisième option (généralement la plus difficile, surtout s'il s'agit d'applications écrites à la maison ou rares) consiste à essayer de connaître les exigences de performances auprès des développeurs du système.

Et, veuillez noter que l'option la plus correcte du point de vue de l'application pratique est un pilote sur un équipement actuel ou un équipement fourni pour test par un fournisseur/intégrateur.

Besoins spéciaux

Les exigences particulières sont tout ce qui ne relève pas des exigences de performance, de tolérance aux pannes et de fonctionnalité pour le traitement direct et la mise à disposition des données.

L’une des exigences particulières les plus simples pour un système de stockage de données peut être appelée « supports de stockage aliénables ». Et il devient immédiatement clair que ce système de stockage de données doit inclure une bibliothèque de bandes ou simplement un lecteur de bande sur lequel la copie de sauvegarde est sauvegardée. Après quoi, une personne spécialement formée signe la bande et la transporte fièrement dans un coffre-fort spécial.
Un autre exemple d'exigence particulière est une conception protégée contre les chocs.

Le deuxième élément principal dans le choix d'un système de stockage particulier est l'information sur OÙ ce système de stockage sera situé. En commençant par la géographie ou les conditions climatiques et en terminant par le personnel.

Client

Pour qui ce système de stockage est-il prévu ? La question a les raisons suivantes :

Client gouvernemental/commercial.
Le client commercial n'a aucune restriction et n'est même pas obligé de procéder à des appels d'offres, sauf conformément à son propre règlement intérieur.

Un client gouvernemental est une autre affaire. 44 Loi fédérale et autres plaisirs avec des offres et des spécifications techniques susceptibles d'être contestées.

Le client est sous sanctions
Eh bien, la question ici est très simple : le choix n'est limité que par les offres disponibles pour un client donné.

Règlement intérieur / vendeurs / modèles autorisés à l'achat
La question est également extrêmement simple, mais il faut s'en souvenir.

Où physiquement

Dans cette partie, nous examinons toutes les questions liées à la géographie, aux canaux de communication et au microclimat dans les locaux d'hébergement.

personnel

Qui travaillera avec ce système de stockage ? Ce n’est pas moins important que ce que le système de stockage lui-même peut faire.
Aussi prometteur, cool et merveilleux que soit le système de stockage du fournisseur A, il ne sert probablement à rien de l'installer si le personnel ne sait comment travailler qu'avec le fournisseur B et qu'il n'est pas prévu d'acheter davantage ni de coopérer de manière continue avec A.

Et bien sûr, l’autre aspect de la question est de savoir dans quelle mesure le personnel formé est disponible dans une zone géographique donnée, directement dans l’entreprise et potentiellement sur le marché du travail. Pour les régions, choisir des systèmes de stockage dotés d’interfaces simples ou offrant la possibilité de centraliser la gestion à distance peut s’avérer très judicieux. Sinon, à un moment donné, cela peut devenir extrêmement douloureux. Internet regorge d'histoires sur la façon dont un nouvel employé arrivé, l'étudiant d'hier, a configuré une telle chose que tout le bureau a été tué.

Comment choisir le rangement sans se tirer une balle dans le pied

Environs

Et bien sûr, une question importante est de savoir dans quel environnement ce système de stockage fonctionnera.

  • Qu'en est-il de l'alimentation/refroidissement ?
  • Quelle connexion
  • Où sera-t-il installé ?
  • Et ainsi de suite.

Souvent, ces questions sont considérées comme allant de soi et ne sont pas particulièrement prises en compte, mais ce sont parfois elles qui peuvent tout renverser.

Que

Fournisseur

À l'heure actuelle (mi-2019), le marché russe du stockage peut être divisé en 5 catégories :

  1. La division la plus élevée est constituée d'entreprises bien établies proposant une large gamme d'étagères de disques, du plus simple au haut de gamme (HPE, DellEMC, Hitachi, NetApp, IBM/Lenovo).
  2. Deuxième division - entreprises avec une gamme limitée, acteurs de niche, fournisseurs SDS sérieux ou nouveaux arrivants émergents (Fujitsu, Datacore, Infinidat, Huawei, Pure, etc.)
  3. Troisième division - solutions de niche bas de gamme, SDS bon marché, produits avancés basés sur ceph et autres projets ouverts (Infortrend, Starwind, etc.)
  4. Segment SOHO - petits et ultra-petits systèmes de stockage pour la maison/le petit bureau (Synology, QNAP, etc.)
  5. Systèmes de stockage substitués aux importations - cela comprend à la fois le matériel de la première division avec des étiquettes ré-étiquetées, et de rares représentants de la seconde (RAIDIX, nous leur donnerons la seconde à l'avance), mais il s'agit principalement de la troisième division (Aerodisk, Baum, Dépo, etc.)

La division est assez arbitraire et ne signifie pas du tout que le troisième segment ou SOHO est mauvais et ne peut pas être utilisé. Dans des projets spécifiques avec un ensemble de données et un profil de charge clairement définis, ils peuvent très bien fonctionner, dépassant de loin la première division en termes de rapport qualité/prix. Il est important de décider d'abord de vos objectifs, de vos perspectives de croissance et des fonctionnalités requises - et ensuite Synology vous servira fidèlement et vos cheveux deviendront doux et soyeux.

L’environnement actuel est l’un des facteurs importants lors du choix d’un fournisseur. De combien de systèmes de stockage vous disposez déjà et avec quels systèmes de stockage vos ingénieurs peuvent travailler. Avez-vous besoin d'un autre fournisseur, d'un autre point de contact, allez-vous progressivement migrer l'intégralité de la charge du fournisseur A vers le fournisseur B ?

Il ne faut pas produire d’entités au-delà de ce qui est nécessaire.

iSCSI/FC/Fichier

Il n’existe pas de consensus parmi les ingénieurs sur la question des protocoles d’accès, et le débat ressemble davantage à des discussions théologiques qu’à des discussions d’ingénierie. Mais de manière générale, on peut noter les points suivants :

FCoE plus mort que vivant.

FC contre iSCSI. L'un des principaux avantages du FC en 2019 par rapport au stockage IP, une usine dédiée à l'accès aux données, est compensé par un réseau IP dédié. FC n'a aucun avantage global par rapport aux réseaux IP, et IP peut être utilisé pour construire des systèmes de stockage de n'importe quel niveau de charge, jusqu'à des systèmes pour SGBD lourds pour le système bancaire de base d'une grande banque. En revanche, la mort du FC est prophétisée depuis plusieurs années, mais quelque chose l'empêche constamment. Aujourd’hui par exemple, certains acteurs du marché du stockage développent activement la norme NVMEoF. S'il partagera le sort du FCoE, le temps nous le dira.

Accès aux fichiers n'est pas non plus quelque chose qui mérite l'attention. NFS/CIFS fonctionne bien dans les environnements de productivité et, s'il est conçu correctement, n'a pas plus de plaintes que les protocoles de blocage.

Baie hybride/XNUMX % Flash

Les systèmes de stockage classiques se déclinent en 2 types :

  1. AFA (All Flash Array) - systèmes optimisés pour l'utilisation de SSD.
  2. Hybride - vous permettant d'utiliser à la fois un disque dur et un SSD ou une combinaison des deux.

Leur principale différence réside dans les technologies d'efficacité de stockage prises en charge et le niveau de performances maximal (IOPS élevé et faible latence). Les deux systèmes (dans la plupart de leurs modèles, sans compter le segment bas de gamme) peuvent fonctionner à la fois comme périphériques de bloc et de fichiers. La fonctionnalité prise en charge dépend du niveau du système et pour les modèles plus jeunes, elle est le plus souvent réduite au niveau minimum. Cela mérite d'être pris en compte lorsque vous étudiez les caractéristiques d'un modèle particulier, et pas seulement les capacités de l'ensemble de la gamme. Bien entendu, ses caractéristiques techniques, telles que le processeur, la quantité de mémoire, le cache, le nombre et les types de ports, etc., dépendent également du niveau du système. Du point de vue de la gestion, les AFA ne diffèrent des systèmes hybrides (à disque) que par la mise en œuvre de mécanismes permettant de travailler avec des disques SSD, et même si vous utilisez un SSD dans un système hybride, cela ne signifie pas du tout que vous pourrez pour atteindre le niveau de performance au niveau d'un système AFA. De plus, dans la plupart des cas, les mécanismes de stockage efficaces en ligne sont désactivés sur les systèmes hybrides et leur inclusion entraîne une perte de performances.

Systèmes de stockage spéciaux

Outre les systèmes de stockage à usage général, axés principalement sur le traitement des données opérationnelles, il existe des systèmes de stockage particuliers dont les principes clés sont fondamentalement différents des principes habituels (faible latence, IOPS élevées) :

Médias.

Ces systèmes sont conçus pour stocker et traiter des fichiers multimédias volumineux. Rép. le délai devient pratiquement sans importance et la capacité d'envoyer et de recevoir des données sur une large bande dans de nombreux flux parallèles apparaît.

Déduplication des systèmes de stockage pour les sauvegardes.

Étant donné que les copies de sauvegarde se distinguent par leur similitude, ce qui est rare dans des conditions normales (la copie de sauvegarde moyenne diffère de la copie d'hier de 1 à 2 %), cette classe de systèmes regroupe extrêmement efficacement les données qui y sont enregistrées dans un format assez petit. nombre de supports physiques. Par exemple, dans certains cas, les taux de compression des données peuvent atteindre 200 : 1.

Systèmes de stockage d'objets.

Ces systèmes de stockage ne disposent pas des volumes d'accès en bloc et des partages de fichiers habituels, et surtout ils ressemblent à une énorme base de données. L'accès à un objet stocké dans un tel système s'effectue par un identifiant unique ou par des métadonnées (par exemple, tous les objets au format JPEG ayant une date de création comprise entre XX-XX-XXXX et AA-AA-AAAA).

Système de conformité.

Ils ne sont pas si courants en Russie aujourd'hui, mais ils méritent d'être mentionnés. Le but de ces systèmes de stockage est de garantir un stockage des données conforme aux politiques de sécurité ou aux exigences réglementaires. Certains systèmes (par exemple EMC Centera) ont implémenté une fonction pour interdire la suppression des données - dès que la clé est tournée et que le système entre dans ce mode, ni l'administrateur ni personne d'autre ne peut physiquement supprimer les données déjà enregistrées.

Technologies propriétaires

cache flash

Flash Cache est un nom commun pour toutes les technologies propriétaires permettant d'utiliser la mémoire flash comme cache de deuxième niveau. Lors de l'utilisation d'un cache flash, le système de stockage est généralement calculé pour fournir une charge constante à partir de disques magnétiques, tandis que le pic est assuré par le cache.

Dans ce cas, il est nécessaire de comprendre le profil de charge et le degré de localisation de l'accès aux blocs de volumes de stockage. Le cache Flash est une technologie destinée aux charges de travail avec des requêtes hautement localisées et est pratiquement inapplicable aux volumes chargés de manière uniforme (comme pour les systèmes d'analyse).

Il existe deux implémentations de cache Flash disponibles sur le marché :

  • Lecture seulement. Dans ce cas, seules les données lues sont mises en cache et l'écriture est directement transférée sur les disques. Certains fabricants, comme NetApp, estiment que l'écriture sur leurs systèmes de stockage est déjà optimale et que le cache n'aidera pas du tout.
  • Lire écrire. Non seulement la lecture, mais aussi l'écriture sont mises en cache, ce qui vous permet de mettre le flux en mémoire tampon et de réduire l'impact de la pénalité RAID, et par conséquent d'augmenter les performances globales des systèmes de stockage dotés d'un mécanisme d'écriture moins optimal.

Hiérarchisation

Le stockage multiniveau (fatiguant) est une technologie permettant de combiner des niveaux avec différents niveaux de performances, tels que SSD et HDD, dans un seul pool de disques. En cas d'inégalité prononcée dans l'accès aux blocs de données, le système pourra équilibrer automatiquement les blocs de données, en déplaçant ceux chargés vers un niveau performant, et les froids, au contraire, vers un niveau plus lent.

Les systèmes hybrides des classes inférieures et moyennes utilisent un stockage à plusieurs niveaux avec des données se déplaçant entre les niveaux selon un calendrier. Dans le même temps, la taille du bloc de stockage multiniveau pour les meilleurs modèles est de 256 Mo. Ces fonctionnalités ne nous permettent pas de considérer la technologie de stockage hiérarchisé comme une technologie permettant d’augmenter la productivité, comme beaucoup le croient à tort. Le stockage à plusieurs niveaux dans les systèmes de classe basse et moyenne est une technologie permettant d'optimiser les coûts de stockage pour les systèmes présentant des irrégularités de charge prononcées.

Instantané

Même si nous parlons de la fiabilité des systèmes de stockage, il existe de nombreuses possibilités de perdre des données qui ne dépendent pas de problèmes matériels. Il peut s’agir de virus, de pirates informatiques ou de toute autre suppression/corruption involontaire de données. C'est pour cette raison que la sauvegarde des données de production fait partie intégrante du travail d'un ingénieur.

Un instantané est un instantané d'un volume à un moment donné. Lorsque vous travaillez avec la plupart des systèmes, tels que la virtualisation, les bases de données, etc. nous devons prendre un tel instantané à partir duquel nous copierons les données sur une copie de sauvegarde, tandis que notre SI pourra continuer à travailler en toute sécurité avec ce volume. Mais il ne faut pas oublier que tous les instantanés ne sont pas également utiles. Différents fournisseurs ont des approches différentes pour créer des instantanés liés à leur architecture.

CoW (copie sur écriture). Lorsque vous essayez d'écrire un bloc de données, son contenu original est copié dans une zone spéciale, après quoi l'écriture se déroule normalement. Cela empêche la corruption des données dans l'instantané. Naturellement, toutes ces manipulations de données « parasites » entraînent une charge supplémentaire sur le système de stockage et pour cette raison, les fournisseurs ayant des implémentations similaires ne recommandent pas d'utiliser plus d'une douzaine d'instantanés, et de ne pas les utiliser du tout sur des volumes très chargés.

RoW (redirection sur écriture). Dans ce cas, le volume d'origine se bloque naturellement et lors de la tentative d'écriture d'un bloc de données, le système de stockage écrit les données dans une zone spéciale de l'espace libre, modifiant ainsi l'emplacement de ce bloc dans la table de métadonnées. Cela vous permet de réduire le nombre d'opérations de réécriture, ce qui élimine finalement la baisse des performances et supprime les restrictions sur les instantanés et leur nombre.

Les instantanés sont également de deux types par rapport aux applications :

Cohérence des applications. Au moment de créer un instantané, le système de stockage extrait un agent dans le système d'exploitation du consommateur, qui vide de force les caches disque de la mémoire vers le disque et force l'application à le faire. Dans ce cas, lors d'une restauration à partir d'un instantané, les données seront cohérentes.

Crash cohérent. Dans ce cas, rien de tel ne se produit et l'instantané est créé tel quel. Dans le cas d'une récupération à partir d'un tel instantané, l'image est identique à ce qui se passerait si l'alimentation était soudainement coupée et qu'une certaine perte de données était possible, bloquées dans les caches et n'atteignant jamais le disque. De tels instantanés sont plus faciles à mettre en œuvre et n'entraînent pas de dégradation des performances des applications, mais sont moins fiables.

Pourquoi les instantanés sont-ils nécessaires sur les systèmes de stockage ?

  • Sauvegarde sans agent directement depuis le système de stockage
  • Créez des environnements de test basés sur des données réelles
  • Dans le cas des systèmes de stockage de fichiers, il peut être utilisé pour créer des environnements VDI grâce à l'utilisation d'instantanés du système de stockage au lieu d'un hyperviseur.
  • Garantissez de faibles RPO en créant des instantanés planifiés à une fréquence nettement supérieure à la fréquence de sauvegarde

Clonage

Clonage de volume - fonctionne sur un principe similaire à celui des instantanés, mais est utilisé non seulement pour lire des données, mais aussi pour les utiliser pleinement. Nous pouvons obtenir une copie exacte de notre volume, avec toutes les données qu'il contient, sans faire de copie physique, ce qui permettra d'économiser de l'espace. Typiquement, le clonage de volumes est utilisé soit en Test&Dev, soit si vous souhaitez vérifier la fonctionnalité de certaines mises à jour de votre SI. Le clonage vous permettra de le faire le plus rapidement et le plus économiquement possible en termes de ressources disque, car Seuls les blocs de données modifiés seront écrits.

Réplication / Journalisation

La réplication est un mécanisme permettant de créer une copie de données sur un autre système de stockage physique. En règle générale, chaque fournisseur dispose d’une technologie propriétaire qui ne fonctionne qu’au sein de sa propre gamme. Mais il existe également des solutions tierces, notamment celles qui fonctionnent au niveau de l'hyperviseur, comme VMware vSphere Replication.

La fonctionnalité des technologies propriétaires et leur facilité d'utilisation sont généralement bien supérieures aux technologies universelles, mais elles s'avèrent inapplicables lorsque, par exemple, il est nécessaire de faire une réplique de NetApp vers HP MSA.

La réplication est divisée en deux sous-types :

Synchrone. Dans le cas d'une réplication synchrone, l'opération d'écriture est immédiatement envoyée au deuxième système de stockage et l'exécution n'est confirmée qu'après confirmation du système de stockage distant. De ce fait, le délai d'accès augmente, mais nous disposons d'une copie miroir exacte des données. Ceux. RPO = 0 en cas de perte du système de stockage principal.

asynchrone. Les opérations d'écriture sont exécutées uniquement sur le système de stockage principal et sont confirmées immédiatement, tout en s'accumulant simultanément dans un tampon pour la transmission par lots au système de stockage distant. Ce type de réplication est pertinent pour les données de moindre valeur ou pour les canaux à faible bande passante ou à latence élevée (typiques pour des distances supérieures à 100 km). En conséquence, RPO = fréquence d'envoi de paquets.

Souvent, en plus de la réplication, il existe un mécanisme enregistrement opérations sur disque. Dans ce cas, une zone spéciale est allouée à la journalisation et les opérations d'enregistrement d'une certaine profondeur dans le temps, ou limitées par le volume du journal, sont stockées. Pour certaines technologies propriétaires, telles qu'EMC RecoverPoint, il existe une intégration avec le logiciel système qui vous permet de lier certains signets à une entrée de journal spécifique. Grâce à cela, il est possible de restaurer l'état d'un volume (ou de créer un clone) non seulement jusqu'au 23 avril, 11 heures 59 secondes 13 millisecondes, mais jusqu'au moment précédant « DROP ALL TABLES ; COMMETTRE."

Cluster métropolitain

Metro Cluster est une technologie qui vous permet de créer une réplication synchrone bidirectionnelle entre deux systèmes de stockage de telle sorte que, de l'extérieur, cette paire ressemble à un seul système de stockage. Il est utilisé pour créer des clusters avec des bras géographiquement séparés à des distances métropolitaines (moins de 100 km).

Basé sur l'exemple d'utilisation dans un environnement de virtualisation, le metrocluster permet de créer une banque de données avec des machines virtuelles, accessible pour l'enregistrement depuis deux centres de données à la fois. Dans ce cas, un cluster est créé au niveau de l'hyperviseur, composé d'hôtes dans différents centres de données physiques, connectés à cette banque de données. Ce qui vous permet de faire ce qui suit :

  • Automatisation complète du processus de récupération après la mort de l'un des centres de données. Sans aucun fonds supplémentaire, toutes les machines virtuelles exécutées dans le centre de données décédé seront automatiquement redémarrées dans le centre de données restant. RTO = délai d'expiration du cluster haute disponibilité (15 secondes pour VMware) + temps de chargement du système d'exploitation et de démarrage des services.
  • Éviter les catastrophes ou, en russe, éviter les catastrophes. Si des travaux d'alimentation électrique sont prévus dans le centre de données 1, nous avons alors la possibilité de migrer l'intégralité de la charge importante vers le centre de données 2 sans interruption, avant le début des travaux.

La virtualisation

La virtualisation du stockage consiste techniquement à utiliser des volumes d'un autre système de stockage comme disques. Un virtualiseur de stockage peut simplement transférer le volume de quelqu'un d'autre vers le consommateur, le mettre en miroir simultanément sur un autre système de stockage, ou même créer un RAID à partir de volumes externes.
Les représentants classiques de la classe de virtualisation du stockage sont EMC VPLEX et IBM SVC. Et bien sûr, des systèmes de stockage dotés de fonctionnalités de virtualisation - NetApp, Hitachi, IBM / Lenovo Storwize.

Pourquoi cela pourrait-il être nécessaire ?

  • Redondance au niveau du système de stockage. Un miroir est créé entre les volumes, et une moitié peut être sur HP 3Par et l'autre sur NetApp. Et le virtualiseur vient d'EMC.
  • Déplacez les données avec un temps d'arrêt minimal entre les systèmes de stockage de différents fabricants. Supposons que les données doivent être migrées de l'ancien 3Par, qui sera radié, vers le nouveau Dell. Dans ce cas, les consommateurs sont déconnectés de 3Par, les volumes sont transférés sous VPLEX et sont à nouveau présentés aux consommateurs. Comme le volume n’a pas changé, le travail continue. Le processus de mise en miroir du volume sur le nouveau Dell démarre en arrière-plan et, une fois terminé, le miroir est brisé et 3Par est désactivé.
  • Organisation de métroclusters.

Compression/déduplication

La compression et la déduplication sont des technologies qui vous permettent d'économiser de l'espace disque sur votre système de stockage. Il convient de mentionner d'emblée que toutes les données ne sont pas en principe soumises à la compression et/ou à la déduplication, tandis que certains types de données sont mieux compressés et dédupliqués, et d'autres vice versa.

Il existe 2 types de compression et de déduplication :

En ligne — la compression et la déduplication des blocs de données ont lieu avant d'écrire ces données sur le disque. Ainsi, le système calcule uniquement le hachage du bloc et le compare dans le tableau avec ceux existants. Premièrement, c'est plus rapide que la simple écriture sur le disque, et deuxièmement, nous ne gaspillons pas d'espace disque supplémentaire.

Post - lorsque ces opérations sont effectuées sur des données déjà enregistrées situées sur des disques. En conséquence, les données sont d'abord écrites sur le disque, puis le hachage est calculé, les blocs inutiles sont supprimés et les ressources du disque sont libérées.

Il convient de dire que la plupart des fournisseurs utilisent les deux types, ce qui leur permet d'optimiser ces processus et ainsi d'augmenter leur efficacité. La plupart des fournisseurs de stockage disposent d'utilitaires qui vous permettent d'analyser vos ensembles de données. Ces utilitaires fonctionnent selon la même logique que celle mise en œuvre dans le système de stockage, le niveau d'efficacité estimé sera donc le même. Gardez également à l’esprit que de nombreux fournisseurs proposent des programmes de garantie de performances qui promettent des performances au moins aussi bonnes pour certains (ou tous) types de données. Et vous ne devez pas négliger ce programme, car en calculant le système pour vos tâches, en tenant compte du coefficient d'efficacité d'un système particulier, vous pouvez économiser sur le volume. Il convient également de considérer que ces programmes sont conçus pour les systèmes AFA, mais grâce à l'achat d'un volume de disques SSD inférieur à celui des disques durs dans les systèmes classiques, cela réduira leur coût, et s'il n'est pas égal au coût d'un système de disques, alors s'en approcher assez.

Modèle

Et nous arrivons ici à la bonne question.

"Ils me proposent deux options de stockage : ABC SuperStorage S600 et XYZ HyperOcean 666v4, que recommandez-vous ?"

Se transforme en « Ici, ils me proposent deux options de stockage – ABC SuperStorage S600 et XYZ HyperOcean 666v4, que recommandez-vous ?

La charge cible est constituée de machines virtuelles VMware mixtes avec des boucles de production/test/développement. Test = productif. 150 To chacun avec une performance maximale de 80 000 IOPS Bloc de 8 Ko 50 % d'accès aléatoire 80/20 lecture-écriture. 300 To pour le développement, 50 000 IOPS suffisent, 80 aléatoires, 80 en écriture.

Productivité vraisemblablement dans le métrocluster RPO = 15 minutes RTO = 1 heure, développement en réplication asynchrone RPO = 3 heures, test sur un site.

Il y aura un SGBD de 50 To, la journalisation serait bien pour eux.

Nous avons des serveurs Dell partout, de vieux systèmes de stockage Hitachi, ils tiennent à peine, nous prévoyons d'augmenter la charge de 50 % en termes de volume et de performances.

Comme on dit, une question correctement formulée contient 80 % de la réponse.

Informations supplémentaires

Ce qu'il faut lire en plus selon les auteurs

Livres

  • Olifer et Olifer « Réseaux informatiques ». Le livre aidera à systématiser et peut-être mieux comprendre le fonctionnement du support de transmission de données pour les systèmes de stockage IP/Ethernet.
  • « Stockage et gestion des informations EMC. » Un excellent livre sur les bases des systèmes de stockage, le pourquoi, le comment et le comment.

Forums et discussions

Recommandations générales

Prix

Quant aux prix, en général, s'il existe des prix pour les systèmes de stockage, il s'agit généralement de prix catalogue, à partir desquels chaque client bénéficie d'une remise individuelle. L'ampleur de la remise se compose d'un grand nombre de paramètres, il est donc tout simplement impossible de prédire quel prix final votre entreprise recevra sans en parler au distributeur. Mais dans le même temps, des modèles bas de gamme ont récemment commencé à apparaître dans les magasins d'informatique classiques, comme par exemple nix.ru ou xcom-shop.ru. Ici, vous pouvez acheter immédiatement le système qui vous intéresse à un prix fixe, comme n'importe quel composant informatique.

Mais je voudrais d’emblée souligner qu’une comparaison directe par TB/$ n’est pas correcte. Si nous l'abordons de ce point de vue, la solution la moins chère sera un simple serveur JBOD +, qui n'offrira ni la flexibilité ni la fiabilité qu'offre un système de stockage à part entière à double contrôleur. Cela ne veut pas du tout dire que JBOD est dégoûtant et un vilain sale tour, il vous suffit de comprendre encore une fois très clairement comment et à quelles fins vous allez utiliser cette solution. On entend souvent dire qu'il n'y a rien à casser dans JBOD, il n'y a qu'un seul fond de panier. Cependant, les fonds de panier échouent aussi parfois. Tout se brise tôt ou tard.

En tout

Il est nécessaire de comparer les systèmes entre eux non seulement par le prix, ou pas seulement par les performances, mais par l'ensemble de tous les indicateurs.

Achetez un disque dur uniquement si vous êtes sûr d'avoir besoin d'un disque dur. Pour les faibles charges et les types de données incompressibles, sinon, il vaut la peine de se tourner vers les programmes de garantie d'efficacité du stockage SSD, dont disposent désormais la plupart des fournisseurs (et ils fonctionnent vraiment, même en Russie), mais tout dépend des applications et des données qui seront localisées. sur ce système de stockage.

N'allez pas pour pas cher. Parfois, ceux-ci cachent de nombreux moments désagréables, dont Evgeniy Elizarov a décrit dans ses articles sur Tendance d'information. Et qu’en fin de compte, cette bon marché peut se retourner contre vous. N'oubliez pas : « l'avare paie deux fois ».

Source : www.habr.com

Ajouter un commentaire