Tendances de l'industrie du stockage de masse

Aujourd’hui, nous allons parler de la meilleure façon de stocker les données dans un monde où les réseaux de cinquième génération, les scanners génomiques et les voitures autonomes produisent plus de données par jour que l’ensemble de l’humanité n’en produisait avant la révolution industrielle.

Tendances de l'industrie du stockage de masse

Notre monde génère de plus en plus d’informations. Une partie est éphémère et se perd aussi vite qu’elle est collectée. Un autre devrait être stocké plus longtemps, et un autre est même conçu « pour des siècles » - du moins c'est ce que nous voyons aujourd'hui. Les flux d’informations s’installent dans les datacenters à une telle vitesse que toute nouvelle approche, toute technologie conçue pour satisfaire cette « demande » sans fin devient vite obsolète.

Tendances de l'industrie du stockage de masse

40 ans de développement de systèmes de stockage distribués

Le premier stockage en réseau sous la forme que nous connaissons est apparu dans les années 1980. Vous êtes nombreux à avoir croisé NFS (Network File System), AFS (Andrew File System) ou encore Coda. Une décennie plus tard, la mode et la technologie ont changé et les systèmes de fichiers distribués ont cédé la place aux systèmes de stockage en cluster basés sur GPFS (General Parallel File System), CFS (Clustered File Systems) et StorNext. Le stockage par blocs de l'architecture classique a été utilisé comme base, sur laquelle un système de fichiers unique a été créé à l'aide d'une couche logicielle. Ces solutions et d’autres similaires sont toujours utilisées, occupent leur niche et sont très demandées.

Au tournant du millénaire, le paradigme du stockage distribué a quelque peu changé et les systèmes dotés d'une architecture SN (Shared-Nothing) ont pris les devants. Il y a eu une transition du stockage en cluster vers le stockage sur des nœuds individuels, qui étaient, en règle générale, des serveurs classiques dotés d'un logiciel fournissant un stockage fiable ; Sur de tels principes, par exemple, HDFS (Hadoop Distributed File System) et GFS (Global File System) sont construits.

Plus près des années 2010, les concepts sous-jacents aux systèmes de stockage distribués ont commencé à se refléter de plus en plus dans des produits commerciaux à part entière, tels que VMware vSAN, Dell EMC Isilon et notre Huawei OceanStor. Derrière les plateformes mentionnées, il n'y a plus une communauté de passionnés, mais des fournisseurs spécifiques qui sont responsables de la fonctionnalité, du support et du service du produit et garantissent son développement ultérieur. De telles solutions sont les plus demandées dans plusieurs domaines.

Tendances de l'industrie du stockage de masse

Opérateurs télécoms

Les opérateurs de télécommunications sont peut-être l'un des plus anciens consommateurs de systèmes de stockage distribués. Le diagramme montre quels groupes d'applications produisent la majeure partie des données. OSS (Operations Support Systems), MSS (Management Support Services) et BSS (Business Support Systems) représentent trois couches logicielles complémentaires nécessaires pour fournir le service aux abonnés, le reporting financier au fournisseur et le support opérationnel aux ingénieurs des opérateurs.

Souvent, les données de ces couches sont fortement mélangées les unes aux autres et afin d'éviter l'accumulation de copies inutiles, un stockage distribué est utilisé, qui accumule la totalité des informations provenant du réseau d'exploitation. Les stockages sont regroupés dans un pool commun, accessible à tous les services.

Nos calculs montrent que le passage des systèmes de stockage classiques aux systèmes de stockage en bloc permet d'économiser jusqu'à 70 % du budget uniquement en abandonnant les systèmes de stockage dédiés haut de gamme et en utilisant des serveurs d'architecture classique classiques (généralement x86), travaillant en collaboration avec des serveurs spécialisés. logiciel. Les opérateurs de téléphonie mobile ont depuis longtemps commencé à acheter de telles solutions en grande quantité. En particulier, les opérateurs russes utilisent ces produits de Huawei depuis plus de six ans.

Oui, un certain nombre de tâches ne peuvent pas être réalisées à l'aide de systèmes distribués. Par exemple, avec des exigences de performances accrues ou une compatibilité avec des protocoles plus anciens. Mais au moins 70 % des données traitées par l'opérateur peuvent être localisées dans un pool distribué.

Tendances de l'industrie du stockage de masse

Domaine bancaire

Dans toute banque, il existe de nombreux systèmes informatiques différents, du traitement au système bancaire automatisé. Cette infrastructure fonctionne également avec une énorme quantité d'informations, alors que la plupart des tâches ne nécessitent pas de performances et de fiabilité accrues des systèmes de stockage, par exemple le développement, les tests, l'automatisation des processus bureautiques, etc. Ici, l'utilisation de systèmes de stockage classiques est possible, mais chaque année c'est de moins en moins rentable. De plus, dans ce cas, il n'y a aucune flexibilité dans l'utilisation des ressources du système de stockage, dont les performances sont calculées en fonction de la charge de pointe.

Lors de l'utilisation de systèmes de stockage distribués, leurs nœuds, qui sont en fait des serveurs ordinaires, peuvent être convertis à tout moment, par exemple en une batterie de serveurs et utilisés comme plate-forme informatique.

Tendances de l'industrie du stockage de masse

Lacs de données

Le diagramme ci-dessus montre une liste de consommateurs de services typiques lac de données. Il peut s'agir de services d'administration électronique (par exemple, les « services gouvernementaux »), d'entreprises numérisées, d'institutions financières, etc. Tous doivent travailler avec de grands volumes d'informations hétérogènes.

L'utilisation de systèmes de stockage classiques pour résoudre de tels problèmes est inefficace, car elle nécessite à la fois un accès performant aux bases de données de blocs et un accès régulier aux bibliothèques de documents numérisés stockés sous forme d'objets. Par exemple, un système de commande via un portail Web peut également être lié ici. Pour mettre en œuvre tout cela sur une plateforme de stockage classique, vous aurez besoin d'un large éventail d'équipements pour diverses tâches. Un système de stockage universel horizontal peut très bien couvrir toutes les tâches énumérées précédemment : il vous suffit de créer plusieurs pools avec des caractéristiques de stockage différentes.

Tendances de l'industrie du stockage de masse

Générateurs de nouvelles informations

La quantité d’informations stockées dans le monde augmente d’environ 30 % par an. C’est une bonne nouvelle pour les fournisseurs de stockage, mais quelle est et sera la principale source de ces données ?

Il y a dix ans, les réseaux sociaux devenaient de tels générateurs, ce qui nécessitait la création d'un grand nombre de nouveaux algorithmes, solutions matérielles, etc. Il existe désormais trois principaux moteurs de croissance des volumes de stockage. Le premier est le cloud computing. Actuellement, environ 70 % des entreprises utilisent les services cloud d'une manière ou d'une autre. Il peut s'agir de systèmes de messagerie électronique, de copies de sauvegarde et d'autres entités virtualisées.
Le deuxième moteur concerne les réseaux de cinquième génération. Ce sont de nouvelles vitesses et de nouveaux volumes de transfert de données. Selon nos prévisions, l’adoption généralisée de la 5G entraînera une baisse de la demande de cartes mémoire flash. Quelle que soit la quantité de mémoire disponible dans le téléphone, elle s'épuise toujours et si le gadget dispose d'un canal de 100 mégabits, il n'est pas nécessaire de stocker des photos localement.

Le troisième groupe de raisons pour lesquelles la demande en systèmes de stockage augmente comprend le développement rapide de l'intelligence artificielle, la transition vers l'analyse du Big Data et la tendance à l'automatisation universelle de tout ce qui est possible.

Une des caractéristiques du « nouveau trafic » est manque de structure. Nous devons stocker ces données sans définir en aucune façon leur format. Il n'est requis que pour une lecture ultérieure. Par exemple, pour déterminer le montant du prêt disponible, un système de notation bancaire va regarder les photos que vous postez sur les réseaux sociaux, déterminer si vous allez souvent à la mer et au restaurant, et étudier en même temps les extraits de vos documents médicaux disponibles. à cela. Ces données, d’une part, sont complètes, mais d’autre part, manquent d’homogénéité.

Tendances de l'industrie du stockage de masse

Océan de données non structurées

Quels problèmes pose l’émergence de « nouvelles données » ? Le premier d’entre eux, bien entendu, est le volume d’informations et la durée estimée de leur stockage. Une voiture autonome sans conducteur moderne génère à elle seule jusqu’à 60 téraoctets de données chaque jour à partir de tous ses capteurs et mécanismes. Pour développer de nouveaux algorithmes de mouvement, ces informations doivent être traitées dans la même journée, sinon elles commenceront à s'accumuler. En même temps, il doit être stocké pendant très longtemps - des décennies. Ce n’est qu’alors qu’il sera possible à l’avenir de tirer des conclusions basées sur de grands échantillons analytiques.

Un appareil permettant de déchiffrer les séquences génétiques produit environ 6 To par jour. Et les données collectées avec son aide n'impliquent pas du tout une suppression, c'est-à-dire qu'elles devraient hypothétiquement être stockées pour toujours.

Enfin, les mêmes réseaux de cinquième génération. En plus des informations réellement transmises, un tel réseau lui-même est un énorme générateur de données : journaux d'activité, enregistrements d'appels, résultats intermédiaires d'interactions de machine à machine, etc.

Tout cela nécessite le développement de nouvelles approches et algorithmes de stockage et de traitement de l’information. Et de telles approches émergent.

Tendances de l'industrie du stockage de masse

Technologies de la nouvelle ère

Il existe trois groupes de solutions conçues pour faire face aux nouvelles exigences des systèmes de stockage d'informations : l'introduction de l'intelligence artificielle, l'évolution technique des supports de stockage et les innovations dans le domaine de l'architecture des systèmes. Commençons par l'IA.

Tendances de l'industrie du stockage de masse

Dans les nouvelles solutions Huawei, l'intelligence artificielle est utilisée au niveau du stockage lui-même, qui est équipé d'un processeur d'IA qui permet au système d'analyser indépendamment son état et de prédire les pannes. Si le système de stockage est connecté à un service cloud doté de capacités informatiques importantes, l’intelligence artificielle pourra traiter davantage d’informations et augmenter la précision de ses hypothèses.

En plus des pannes, une telle IA peut prédire les futurs pics de charge et le temps restant jusqu’à épuisement de la capacité. Cela vous permet d'optimiser les performances et de faire évoluer le système avant que des événements indésirables ne se produisent.

Tendances de l'industrie du stockage de masse

Parlons maintenant de l’évolution des supports de stockage. Les premières clés USB ont été fabriquées à l'aide de la technologie SLC (Single-Level Cell). Les appareils basés sur celui-ci étaient rapides, fiables, stables, mais avaient une petite capacité et étaient très coûteux. La croissance des volumes et la réduction des prix ont été obtenues grâce à certaines concessions techniques, grâce auxquelles la vitesse, la fiabilité et la durée de vie des entraînements ont été réduites. Néanmoins, cette tendance n'a pas affecté les systèmes de stockage eux-mêmes, qui, grâce à diverses astuces architecturales, sont généralement devenus à la fois plus productifs et plus fiables.

Mais pourquoi aviez-vous besoin de systèmes de stockage XNUMX % Flash ? N'était-il pas suffisant de simplement remplacer les anciens disques durs d'un système d'exploitation déjà existant par de nouveaux SSD du même facteur de forme ? Cela était nécessaire pour utiliser efficacement toutes les ressources des nouveaux disques SSD, ce qui était tout simplement impossible dans les systèmes plus anciens.

Huawei, par exemple, a développé un certain nombre de technologies pour résoudre ce problème, dont l'une est Lien Flash, ce qui a permis d'optimiser au maximum les interactions « disque-contrôleur ».

L'identification intelligente a permis de décomposer les données en plusieurs flux et de faire face à un certain nombre de phénomènes indésirables, tels que WA (écrire amplification). Parallèlement, de nouveaux algorithmes de récupération, notamment RAID2.0+, a augmenté la vitesse de reconstruction, réduisant son temps à des quantités totalement insignifiantes.

Panne, surpopulation, garbage collection - ces facteurs n'affectent plus non plus les performances du système de stockage grâce à des modifications spéciales apportées aux contrôleurs.

Tendances de l'industrie du stockage de masse

Et les stockages de données en bloc se préparent également à répondre NVMe. Rappelons que le schéma classique d'organisation de l'accès aux données fonctionnait ainsi : le processeur accédait au contrôleur RAID via le bus PCI Express. Celui-ci, à son tour, interagissait avec les disques mécaniques via SCSI ou SAS. L'utilisation de NVMe sur le backend accélérait considérablement l'ensemble du processus, mais elle présentait un inconvénient : les disques devaient être directement connectés au processeur afin de lui fournir un accès direct à la mémoire.

La prochaine phase de développement technologique à laquelle nous assistons actuellement est l’utilisation de NVMe-oF (NVMe over Fabrics). Quant aux technologies de bloc Huawei, elles prennent déjà en charge FC-NVMe (NVMe sur Fibre Channel), et NVMe sur RoCE (RDMA sur Converged Ethernet) est en route. Les modèles de test sont tout à fait fonctionnels, il reste plusieurs mois avant leur présentation officielle. A noter que tout cela apparaîtra dans les systèmes distribués, où « l'Ethernet sans perte » sera très demandé.

Tendances de l'industrie du stockage de masse

Un autre moyen d'optimiser le fonctionnement du stockage distribué était l'abandon complet de la mise en miroir des données. Les solutions Huawei n'utilisent plus n copies, comme dans le RAID 1 habituel, et passent complètement au EC (Effacement du codage). Un progiciel mathématique spécial calcule les blocs de contrôle à une certaine périodicité, ce qui vous permet de restaurer les données intermédiaires en cas de perte.

Les mécanismes de déduplication et de compression deviennent obligatoires. Si dans les systèmes de stockage classiques nous sommes limités par le nombre de processeurs installés dans les contrôleurs, alors dans les systèmes de stockage distribués évolutifs horizontalement, chaque nœud contient tout le nécessaire : disques, mémoire, processeurs et interconnexion. Ces ressources sont suffisantes pour garantir que la déduplication et la compression ont un impact minimal sur les performances.

Et sur les méthodes d'optimisation matérielle. Ici, il a été possible de réduire la charge sur les processeurs centraux à l'aide de puces dédiées supplémentaires (ou de blocs dédiés dans le processeur lui-même), qui jouent un rôle TOE (TCP/IP Offload Engine) ou en prenant en charge les tâches mathématiques d'EC, de déduplication et de compression.

Tendances de l'industrie du stockage de masse

Les nouvelles approches du stockage de données sont incarnées dans une architecture désagrégée (distribuée). Les systèmes de stockage centralisés disposent d'une usine de serveurs connectée via Fibre Channel à SAN avec beaucoup de tableaux. Les inconvénients de cette approche sont la difficulté de faire évoluer et d'assurer un niveau de service garanti (en termes de performances ou de latence). Les systèmes hyperconvergés utilisent les mêmes hôtes pour stocker et traiter les informations. Cela offre des possibilités d'évolutivité pratiquement illimitées, mais entraîne des coûts élevés pour maintenir l'intégrité des données.

Contrairement aux deux solutions ci-dessus, une architecture désagrégée implique diviser le système en une structure informatique et un système de stockage horizontal. Cela offre les avantages des deux architectures et permet une mise à l'échelle presque illimitée uniquement de l'élément qui manque de performances.

Tendances de l'industrie du stockage de masse

De l'intégration à la convergence

Une tâche classique, dont la pertinence n'a fait que croître au cours des 15 dernières années, est la nécessité d'assurer simultanément le stockage en bloc, l'accès aux fichiers, l'accès aux objets, le fonctionnement d'une ferme big data, etc. La cerise sur le gâteau pourrait également être, par exemple, un système de sauvegarde sur bande magnétique.

Dans un premier temps, seule la gestion de ces services pourrait être unifiée. Les systèmes de stockage de données hétérogènes étaient connectés à des logiciels spécialisés, à travers lesquels l'administrateur distribuait les ressources des pools disponibles. Mais comme ces pools disposaient de matériels différents, la migration de charge entre eux était impossible. À un niveau d'intégration plus élevé, l'agrégation s'est produite au niveau de la passerelle. Si le partage de fichiers était disponible, il pourrait être servi via différents protocoles.

La méthode de convergence la plus avancée dont nous disposons actuellement implique la création d’un système hybride universel. Exactement ce que le nôtre devrait devenir OcéanStor 100D. L'accès universel utilise les mêmes ressources matérielles, logiquement réparties en différents pools, mais permettant la migration des charges. Tout cela peut être fait via une seule console de gestion. De cette manière, nous avons pu mettre en œuvre le concept « un centre de données, un système de stockage ».

Tendances de l'industrie du stockage de masse

Le coût du stockage des informations détermine désormais de nombreuses décisions architecturales. Et bien qu'il puisse être mis au premier plan en toute sécurité, nous parlons aujourd'hui de stockage « en direct » avec accès actif, les performances doivent donc également être prises en compte. Une autre propriété importante des systèmes distribués de nouvelle génération est l’unification. Après tout, personne ne souhaite avoir plusieurs systèmes disparates contrôlés à partir de différentes consoles. Toutes ces qualités sont incarnées dans la nouvelle série de produits Huawei OcéanStor Pacifique.

Système de stockage de masse de nouvelle génération

OceanStor Pacific répond aux exigences de fiabilité de six-neuf (99,9999 %) et peut être utilisé pour créer des centres de données de classe HyperMetro. Avec une distance entre deux centres de données allant jusqu'à 100 km, les systèmes démontrent une latence supplémentaire de 2 ms, ce qui permet de construire sur leur base toutes solutions résistantes aux catastrophes, y compris celles avec serveurs de quorum.

Tendances de l'industrie du stockage de masse

Les produits de la nouvelle série démontrent la polyvalence des protocoles. Déjà, OceanStor 100D prend en charge l'accès aux blocs, l'accès aux objets et l'accès Hadoop. L'accès aux fichiers sera également mis en œuvre dans un avenir proche. Il n'est pas nécessaire de stocker plusieurs copies de données si elles peuvent être émises via différents protocoles.

Tendances de l'industrie du stockage de masse

Il semblerait, qu'est-ce que le concept de « réseau sans perte » a à voir avec les systèmes de stockage ? Le fait est que les systèmes de stockage de données distribués sont construits sur la base d'un réseau rapide prenant en charge les algorithmes appropriés et le mécanisme RoCE. Le système d'intelligence artificielle pris en charge par nos commutateurs contribue à augmenter encore la vitesse du réseau et à réduire la latence. Tissu IA. Le gain en performances de stockage lors de l’activation d’AI Fabric peut atteindre 20 %.

Tendances de l'industrie du stockage de masse

Qu'est-ce que le nouveau nœud de stockage distribué OceanStor Pacific ? La solution au facteur de forme 5U comprend 120 disques et peut remplacer trois nœuds classiques, ce qui permet de multiplier par deux les économies d'espace rack. En ne stockant pas de copies, l'efficacité des disques augmente considérablement (jusqu'à +92 %).

Nous sommes habitués au fait que le stockage défini par logiciel est un logiciel spécial installé sur un serveur classique. Mais désormais, pour atteindre des paramètres optimaux, cette solution architecturale nécessite également des nœuds spéciaux. Il se compose de deux serveurs basés sur des processeurs ARM qui gèrent une gamme de disques de trois pouces.

Tendances de l'industrie du stockage de masse

Ces serveurs ne sont pas adaptés aux solutions hyperconvergées. Premièrement, il existe de nombreuses applications pour ARM et, deuxièmement, il est difficile de maintenir l'équilibre des charges. Nous proposons de passer à un stockage séparé : un cluster informatique, représenté par des serveurs classiques ou rackables, fonctionne séparément, mais est connecté aux nœuds de stockage OceanStor Pacific, qui effectuent également leurs tâches directes. Et cela se justifie.

Par exemple, prenons une solution de stockage Big Data classique avec un système hyperconvergé qui occupe 15 racks de serveurs. Si vous répartissez la charge entre des serveurs informatiques distincts et des nœuds de stockage OceanStor Pacific, en les séparant les uns des autres, le nombre de racks requis sera réduit de moitié ! Cela réduit les coûts d’exploitation du centre de données et réduit le coût total de possession. Dans un monde où le volume d’informations stockées augmente de 30 % par an, de tels avantages ne sont pas perdus.

***

Vous pouvez obtenir plus d'informations sur les solutions Huawei et leurs scénarios d'application sur notre En ligne ou en contactant directement les représentants de l'entreprise.

Source: habr.com

Ajouter un commentaire