Nouvelles métriques de stockage d’objets

Nouvelles métriques de stockage d’objetsForteresse volante de Nele-Diel

Commande de stockage d'objets S3 Stockage cloud Mail.ru a traduit un article sur les critères importants lors du choix d'un stockage objet. Ce qui suit est le texte du point de vue de l'auteur.

Lorsqu’il s’agit de stockage objet, les gens ne pensent généralement qu’à une seule chose : le prix par To/Go. Bien sûr, cette mesure est importante, mais elle rend l’approche unilatérale et assimile le stockage objet à un outil de stockage d’archives. De plus, cette approche réduit l’importance du stockage objet pour la pile technologique de l’entreprise.

Lorsque vous choisissez le stockage objet, vous devez prêter attention à cinq caractéristiques :

  • la performance;
  • évolutivité ;
  • Compatible S3 ;
  • réponse aux échecs;
  • intégrité.

Ces cinq caractéristiques constituent de nouvelles mesures pour le stockage objet, ainsi que le coût. Regardons-les tous.

Performance

Les magasins d'objets traditionnels manquent de performances. Les prestataires de services l’ont constamment sacrifié à la recherche de prix bas. Cependant, avec le stockage objet moderne, les choses sont différentes.

Divers systèmes de stockage approchent, voire dépassent, la vitesse de Hadoop. Exigences modernes en matière de vitesses de lecture et d'écriture : de 10 Go/s pour les disques durs, jusqu'à 35 Go/s pour NVMe. 

Ce débit est suffisant pour Spark, Presto, Tensorflow, Teradata, Vertica, Splunk et d'autres frameworks informatiques modernes de la pile analytique. Le fait que les bases de données MPP soient configurées pour le stockage d'objets suggère qu'elles sont de plus en plus utilisées comme stockage principal.

Si votre système de stockage ne fournit pas la vitesse dont vous avez besoin, vous ne pouvez pas utiliser les données et en extraire de la valeur. Même si vous récupérez des données du stockage objet vers une structure de traitement en mémoire, vous aurez toujours besoin de bande passante pour transférer les données vers et depuis la mémoire. Les magasins d'objets existants n'en ont pas assez.

C’est le point clé : la nouvelle mesure de performance est le débit, et non la latence. Il est nécessaire pour les données à grande échelle et constitue la norme dans les infrastructures de données modernes.

Même si les tests de performances constituent un bon moyen de déterminer les performances, elles ne peuvent pas être mesurées avec précision avant d'exécuter l'application dans l'environnement. Ce n'est qu'après cela que vous pourrez dire où se situe exactement le goulot d'étranglement : au niveau des logiciels, des disques, du réseau ou au niveau informatique.

Évolutivité

L'évolutivité fait référence au nombre de pétaoctets pouvant tenir dans un espace de noms. Ce que les fournisseurs prétendent est une évolutivité facile, ce qu'ils ne disent pas, c'est qu'à mesure qu'ils évoluent, les systèmes monolithiques massifs deviennent fragiles, complexes, instables et coûteux.

La nouvelle mesure d'évolutivité est le nombre d'espaces de noms ou de clients que vous pouvez servir. La métrique est tirée directement des hyperscalers, où les éléments de stockage sont petits mais s'étendent à des milliards d'unités. En général, il s'agit d'une métrique cloud.

Lorsque les éléments de base sont petits, ils sont plus faciles à optimiser pour la sécurité, le contrôle d’accès, la gestion des politiques, la gestion du cycle de vie et les mises à jour sans interruption. Et finalement garantir la productivité. La taille de l’élément de base dépend de la contrôlabilité de la région de défaillance, qui correspond au degré de résilience élevé des systèmes.

La multilocation présente de nombreuses caractéristiques. Si cette dimension traite de la manière dont les organisations fournissent l'accès aux données et aux applications, elle fait également référence aux applications elles-mêmes et à la logique qui sous-tend leur isolement les unes des autres.

Caractéristiques d’une approche moderne du multi-client :

  • En peu de temps, le nombre de clients peut passer de plusieurs centaines à plusieurs millions.
  • Les clients sont complètement isolés les uns des autres. Cela leur permet d'exécuter différentes versions du même logiciel et de stocker des objets avec différentes configurations, autorisations, fonctionnalités, niveaux de sécurité et de maintenance. Cela est nécessaire lors de la mise à l’échelle vers de nouveaux serveurs, mises à jour et zones géographiques.
  • Le stockage est évolutif de manière élastique, les ressources sont fournies à la demande.
  • Chaque opération est contrôlée par une API et est automatisée sans intervention humaine.
  • Les logiciels peuvent être hébergés dans des conteneurs et utiliser des systèmes d'orchestration standards tels que Kubernetes.

Compatible S3

L'API Amazon S3 est la norme de facto pour le stockage d'objets. Chaque fournisseur de logiciels de stockage d'objets revendique une compatibilité avec celui-ci. La compatibilité avec S3 est binaire : soit elle est entièrement implémentée, soit elle ne l'est pas.

En pratique, il existe des centaines, voire des milliers de scénarios extrêmes dans lesquels un problème se produit lors de l’utilisation du stockage objet. Surtout de la part des fournisseurs de logiciels et de services propriétaires. Ses principaux cas d’usage sont l’archivage direct ou la sauvegarde, il y a donc peu de raisons de faire appel à l’API, les cas d’usage sont homogènes.

Les logiciels open source présentent des avantages significatifs. Il couvre la plupart des scénarios de pointe, compte tenu de la taille et de la variété des applications, des systèmes d'exploitation et des architectures matérielles.

Tout cela est important pour les développeurs d'applications, il vaut donc la peine de tester l'application auprès des fournisseurs de stockage. L'Open Source facilite le processus : il est plus facile de comprendre quelle plate-forme convient à votre application. Le fournisseur peut être utilisé comme point d’entrée unique dans le stockage, ce qui signifie qu’il répondra à vos besoins. 

Open source signifie : les applications ne sont pas liées à un fournisseur et sont plus transparentes. Cela garantit un long cycle de vie des applications.

Et quelques notes supplémentaires sur l'open source et S3. 

Si vous exécutez une application Big Data, S3 SELECT améliore les performances et l'efficacité d'un ordre de grandeur. Pour ce faire, il utilise SQL pour récupérer uniquement les objets dont vous avez besoin du stockage.

Le point clé est la prise en charge des notifications de compartiment. Les notifications de compartiment facilitent l'informatique sans serveur, un composant important de toute architecture de microservice fournie en tant que service. Étant donné que le stockage objet est en fait un stockage cloud, cette fonctionnalité devient critique lorsque le stockage objet est utilisé par des applications basées sur le cloud.

Enfin, l'implémentation S3 doit prendre en charge les API de chiffrement côté serveur Amazon S3 : SSE-C, SSE-S3, SSE-KMS. Mieux encore, S3 prend en charge une protection contre les falsifications véritablement sécurisée. 

Réponse aux échecs

Une mesure qui est probablement souvent négligée est la façon dont le système gère les pannes. Les pannes se produisent pour diverses raisons et le stockage objet doit toutes les gérer.

Par exemple, il existe un point de défaillance unique, dont la métrique est nulle.

Malheureusement, de nombreux systèmes de stockage d'objets utilisent des nœuds spéciaux qui doivent être activés pour que le cluster fonctionne correctement. Ceux-ci incluent des nœuds de noms ou des serveurs de métadonnées – cela crée un point de défaillance unique.

Même lorsqu’il existe plusieurs points de défaillance, la capacité à résister à une défaillance catastrophique est primordiale. Les disques tombent en panne, les serveurs tombent en panne. La clé est de créer un logiciel conçu pour gérer les échecs comme une condition normale. Si un disque ou un nœud tombe en panne, ce logiciel continuera à fonctionner sans modification.

La protection intégrée contre l'effacement et la dégradation des données garantit que vous pouvez perdre autant de disques ou de nœuds que vous disposez de blocs de parité, généralement la moitié des disques. Ce n'est qu'alors que le logiciel ne pourra pas renvoyer de données.

La défaillance est rarement testée sous charge, mais de tels tests sont nécessaires. La simulation d'une panne de charge affichera le total des coûts encourus après la panne.

Cohérence

Un score de cohérence de 100 % est également appelé cohérence stricte. La cohérence est un élément clé de tout système de stockage, mais une cohérence forte est rare. Par exemple, Amazon S3 ListObject n'est pas strictement cohérent, il ne l'est qu'à la fin.

Qu’entend-on par cohérence stricte ? Pour toutes les opérations suivant une opération PUT confirmée, les événements suivants doivent se produire :

  • La valeur mise à jour est visible lors de la lecture à partir de n'importe quel nœud.
  • La mise à jour est protégée contre la redondance en cas de panne de nœud.

Cela signifie que si vous débranchez la fiche au milieu d’un enregistrement, rien ne sera perdu. Le système ne renvoie jamais de données corrompues ou obsolètes. Il s'agit d'une barre haute qui compte dans de nombreux scénarios, depuis les applications transactionnelles jusqu'à la sauvegarde et la restauration.

Conclusion

Il s'agit de nouvelles mesures de stockage objet qui reflètent les modèles d'utilisation dans les organisations d'aujourd'hui, où les performances, la cohérence, l'évolutivité, les domaines de pannes et la compatibilité S3 sont les éléments constitutifs des applications cloud et de l'analyse du Big Data. Je recommande d'utiliser cette liste en plus du prix lors de la création de piles de données modernes. 

À propos du stockage d'objets Mail.ru Cloud Solutions : Architecture S3. 3 ans d'évolution de Mail.ru Cloud Storage.

Quoi lire d'autre :

  1. Un exemple d'application basée sur des événements basée sur des webhooks dans le stockage d'objets S3 Mail.ru Cloud Solutions.
  2. Plus que Ceph : stockage en bloc cloud MCS 
  3. Travailler avec le stockage d'objets Mail.ru Cloud Solutions S3 en tant que système de fichiers.
  4. Notre chaîne Telegram avec des informations sur les mises à jour du stockage S3 et d'autres produits

Source: habr.com

Ajouter un commentaire