Huawei Dorado V6 : la chaleur du Sichuan

Huawei Dorado V6 : la chaleur du Sichuan
L'été à Moscou cette année n'a pas été, pour être honnête, très bon. Cela a commencé trop tôt et trop vite, tout le monde n’a pas eu le temps de réagir et cela s’est terminé fin juin. Ainsi, lorsque Huawei m'a invité à me rendre en Chine, dans la ville de Chengdu, où se trouve leur centre RnD, après avoir regardé les prévisions météorologiques de +34 degrés à l'ombre, j'ai immédiatement accepté. Après tout, je n’ai plus le même âge et j’ai besoin de me réchauffer un peu les os. Mais je voudrais noter qu'il était possible de réchauffer non seulement les os, mais aussi l'intérieur, car la province du Sichuan, dans laquelle se trouve réellement Chengdu, est célèbre pour son amour de la nourriture épicée. Mais ce n'est pas encore un blog sur les voyages, revenons donc à l'objectif principal de notre voyage - une nouvelle gamme de systèmes de stockage - Huawei Dorado V6. Cet article vous rappellera un peu le passé, car... il a été écrit avant l'annonce officielle, mais publié seulement après la sortie. Et donc, aujourd'hui, nous examinerons de plus près tout ce qui est intéressant et savoureux que Huawei nous a préparé.

Huawei Dorado V6 : la chaleur du Sichuan
Il y aura 5 modèles dans la nouvelle gamme. Tous les modèles, à l'exception du 3000V6, peuvent être disponibles en deux versions : SAS et NVMe. Le choix détermine l'interface des disques que vous pouvez utiliser dans ce système, les ports Back-End et le nombre de lecteurs de disque que vous pouvez installer dans le système. Pour NVMe, on utilise des SSD de la taille d'une paume, qui sont plus fins que les SSD SAS classiques de 2.5" et peuvent être installés en 36 pièces maximum. La nouvelle ligne est All Flash et il n'y a aucune configuration avec des disques.

Huawei Dorado V6 : la chaleur du Sichuan
Disque SSD Palm NVMe

À mon avis, les modèles les plus intéressants semblent être les Dorado 8000 et 18000. Huawei les positionne comme des systèmes haut de gamme et, grâce à la politique de prix de Huawei, contraste ces modèles de milieu de gamme avec le segment concurrent. Ce sont ces modèles sur lesquels je me concentrerai dans ma revue d'aujourd'hui. Je noterai tout de suite qu'en raison de leurs caractéristiques de conception, les systèmes junior à double contrôleur ont une architecture légèrement différente, différente de celle des Dorado 8000 et 18000, donc tout ce dont je vais parler aujourd'hui n'est pas applicable aux modèles junior.

L’une des principales caractéristiques des nouveaux systèmes était l’utilisation de plusieurs puces développées en interne, chacune permettant de répartir la charge logique du processeur central du contrôleur et d’ajouter des fonctionnalités aux différents composants.
Huawei Dorado V6 : la chaleur du Sichuan

Le cœur des nouveaux systèmes sont les processeurs Kunpeng 920, développés sur les technologies ARM et fabriqués indépendamment par Huawei. Selon le modèle, le nombre de cœurs, leur fréquence et le nombre de processeurs installés dans chaque contrôleur varient :
Huawei Dorado V6 8000 – 2 processeurs, 64 cœurs
Huawei Dorado V6 18000 – 4 processeurs, 48 cœurs
Huawei Dorado V6 : la chaleur du Sichuan

Huawei a développé ce processeur sur l'architecture ARM et, pour autant que je sache, avait initialement prévu de l'installer uniquement dans les anciens modèles Dorado 8000 et 18000, comme c'était déjà le cas avec certains modèles V5, mais les sanctions ont apporté des ajustements à cette idée. Bien sûr, ARM a également parlé de son refus de coopérer avec Huawei lors de l'imposition de sanctions, mais ici la situation est différente de celle d'Intel. Huawei produit ces puces de manière indépendante et aucune sanction ne peut arrêter ce processus. La rupture des relations avec ARM ne fait que menacer la perte de l'accès aux nouveaux développements. Quant aux performances, il ne sera possible d'en juger qu'après avoir effectué des tests indépendants. Même si j'ai vu comment 18000 million d'IOPS ont été supprimés du système Dorado 1 sans aucun problème, jusqu'à ce que je le répète de mes propres mains dans mon rack, je ne le croirai pas. Mais les contrôleurs ont vraiment beaucoup de puissance. Les modèles plus anciens sont équipés de 4 contrôleurs, chacun doté de 4 processeurs, soit un total de 768 cœurs.
Huawei Dorado V6 : la chaleur du Sichuan

Mais je parlerai des cœurs encore plus tard, lorsque nous examinerons l'architecture des nouveaux systèmes, mais pour l'instant revenons à une autre puce installée dans le système. La puce semble être une solution extrêmement intéressante Ascend 310 (D'après ce que je comprends, le frère cadet de l'Ascend 910, récemment présenté au public). Sa tâche est d'analyser les blocs de données entrant dans le système pour augmenter le taux de lecture. Il est difficile de dire comment il se comportera au travail, car... Aujourd’hui, il ne fonctionne que selon un modèle donné et n’a pas la capacité d’apprendre en mode intelligent. L'apparition d'un mode intelligent est promise dans le futur firmware, très probablement au début de l'année prochaine.

Passons à l'architecture. Huawei a continué à développer sa propre technologie Smart Matrix, qui met en œuvre une approche entièrement maillée pour connecter les composants. Mais si dans la V5, cela ne concernait que l'accès des contrôleurs aux disques, désormais tous les contrôleurs ont accès à tous les ports du Back-End et du Front-End.
Huawei Dorado V6 : la chaleur du Sichuan

Grâce à la nouvelle architecture de microservices, cela permet également d'équilibrer la charge entre tous les contrôleurs, même s'il n'y a qu'un seul LUN. Le système d'exploitation de cette gamme de baies a été développé à partir de zéro et n'est pas simplement optimisé pour l'utilisation de lecteurs Flash. Du fait que tous nos contrôleurs ont accès aux mêmes ports, en cas de panne ou de redémarrage du contrôleur, l'hôte ne perd pas un seul chemin vers le système de stockage et la commutation de chemin s'effectue au niveau du système de stockage. Toutefois, l’utilisation d’UltraPath sur l’hôte n’est pas strictement nécessaire. Une autre « économie » lors de l’installation du système est le plus petit nombre de liens nécessaires. Et si avec l'approche "classique" pour 4 contrôleurs, nous avons besoin de 8 liens provenant de 2 usines, alors dans le cas de Huawei, même 2 suffiront (je ne parle pas maintenant de la suffisance du débit d'un lien).
Huawei Dorado V6 : la chaleur du Sichuan

Comme dans la version précédente, un cache global avec mise en miroir est utilisé. Cela vous permet de perdre jusqu'à deux contrôleurs simultanément ou trois contrôleurs séquentiellement sans affecter la disponibilité. Mais il convient de noter que nous n'avons pas constaté d'équilibrage complet de la charge entre les 3 contrôleurs restants en cas de panne sur le stand de démonstration. La charge du contrôleur défaillant a été entièrement prise en charge par l'un des contrôleurs restants. Il est possible que pour cela il soit nécessaire de laisser le système fonctionner plus longtemps dans cette configuration. Dans tous les cas, je vérifierai cela plus en détail à l'aide de mes propres tests.
Huawei positionne les nouveaux systèmes comme des systèmes NVMe de bout en bout, mais aujourd'hui, NVMeOF n'est pas encore pris en charge sur le front-end, uniquement FC, iSCSI ou NFS. À la fin ou au début de la suivante, comme pour d’autres fonctionnalités, on nous promet le support RoCE.
Huawei Dorado V6 : la chaleur du Sichuan

Les étagères sont également connectées aux contrôleurs via RoCE, ce qui présente un inconvénient : l'absence de connexion « bouclage » des étagères, comme c'était le cas avec SAS. À mon avis, cela reste un inconvénient assez important si vous envisagez un système assez grand. Le fait est que toutes les étagères sont connectées en série, et la défaillance de l'une des étagères entraîne l'inaccessibilité totale de toutes les autres qui la suivent. Dans ce cas, pour garantir la tolérance aux pannes, nous devrons connecter toutes les étagères aux contrôleurs, ce qui entraînera une augmentation du nombre requis de ports backend dans le système.

Et une autre chose qui mérite d’être mentionnée est la mise à jour sans interruption (NDU). Comme je l'ai dit ci-dessus, Huawei a mis en œuvre une approche conteneur pour faire fonctionner le système d'exploitation de la nouvelle gamme Dorado, cela vous permet de mettre à jour et de redémarrer les services sans avoir besoin de redémarrer complètement le contrôleur. Précisons d'emblée que certaines mises à jour contiendront des mises à jour du noyau, et dans ce cas un redémarrage classique des contrôleurs sera parfois encore nécessaire lors de la mise à jour, mais pas toujours. Cela réduira l’impact de cette opération sur le système productif.

Dans notre arsenal, la grande majorité des baies proviennent de NetApp. Je pense donc qu'il serait tout à fait logique de faire une petite comparaison avec des systèmes avec lesquels je dois beaucoup travailler. Il ne s’agit pas ici de déterminer qui est le meilleur et qui est le pire, ni quelle architecture est la plus avantageuse. J'essaierai de comparer sobrement et sans fanatisme deux approches différentes pour résoudre le même problème provenant de différents fournisseurs. Oui, bien sûr, dans ce cas, nous considérerons les systèmes Huawei en « théorie » et je noterai également séparément les points qui devraient être implémentés dans les futures versions du firmware. Quels avantages je vois en ce moment :

  1. Nombre de lecteurs NVMe pris en charge. NetApp en compte actuellement 288, tandis que Huawei en compte entre 1600 6400 et 32 31.64, selon le modèle. Dans le même temps, la capacité maximale utilisable de Huawei est de 15 PBe, tout comme les systèmes NetApp (pour être plus précis, ils ont 24 PBe). Et ce malgré le fait que les disques du même volume soient pris en charge (jusqu'à 2 To). Huawei explique ce fait ainsi : ils n'ont pas eu la possibilité de monter un stand plus grand. En théorie, ils n’ont pas de limitation de volume, mais ils n’ont tout simplement pas encore pu tester ce fait. Mais ici, il convient de noter que les capacités des lecteurs flash sont aujourd'hui très élevées et, dans le cas des systèmes NVMe, nous sommes confrontés au fait que 4 lecteurs suffisent pour utiliser un système haut de gamme à 8000 contrôleurs. Par conséquent, une nouvelle augmentation du nombre de disques dans le système non seulement n’améliorera pas les performances, mais aura également un effet néfaste sur le rapport IOPS/To. Bien sûr, il vaut la peine de voir combien de disques les systèmes à 16000 contrôleurs 920 et XNUMX peuvent gérer, car... Les capacités et le potentiel du Kunpeng XNUMX ne sont pas encore tout à fait clairs.
  2. La présence de Lun en tant que propriétaire des systèmes NetApp. Ceux. Un seul contrôleur peut effectuer des opérations avec la lune, tandis que le second ne transmet que les IO à travers lui-même. Les systèmes Huawei, au contraire, n'ont aucun propriétaire et les opérations avec des blocs de données (compression, déduplication) peuvent être effectuées par n'importe lequel des contrôleurs, ainsi que écrites sur des disques.
  3. Aucun port n'est abandonné en cas de panne de l'un des contrôleurs. Pour certains, ce moment semble extrêmement critique. L’essentiel est que la commutation à l’intérieur du système de stockage devrait se produire plus rapidement que du côté hôte. Et si dans le cas du même NetApp, nous constations en pratique un gel d'environ 5 secondes lors du retrait du contrôleur et du changement de chemin, alors avec le passage à Huawei, nous devons encore nous entraîner.
  4. Pas besoin de redémarrer le contrôleur lors de la mise à jour. Cela a particulièrement commencé à m'inquiéter avec la publication assez fréquente de nouvelles versions et branches de firmware pour NetApps. Oui, certaines mises à jour pour Huawei nécessiteront toujours un redémarrage, mais pas toutes.
  5. 4 contrôleurs Huawei pour le prix de deux contrôleurs NetApp. Comme je l’ai dit plus haut, grâce à la politique tarifaire de Huawei, il peut rivaliser avec le Milieu de gamme avec ses modèles Haut de gamme.
  6. La présence de puces supplémentaires dans les contrôleurs d'étagère et les cartes de port, qui sont potentiellement destinées à améliorer l'efficacité du système.

Inconvénients et préoccupations en général :

  1. Connexion directe des étagères aux contrôleurs ou nécessité d'un grand nombre de ports back-end pour connecter toutes les étagères aux contrôleurs.
  2. Architecture ARM et présence d'un grand nombre de puces - avec quelle efficacité cela fonctionnera-t-il et les performances seront-elles suffisantes ?

La plupart des inquiétudes et des craintes peuvent être dissipées par des tests personnels de la nouvelle gamme. J'espère que peu de temps après leur sortie, ils apparaîtront à Moscou et qu'ils seront suffisamment nombreux pour en obtenir rapidement un pour vos propres tests. Jusqu’à présent, nous pouvons dire qu’en général, l’approche de l’entreprise semble intéressante et que la nouvelle ligne semble très bonne par rapport à ses concurrents. La mise en œuvre finale soulève beaucoup de questions, car Nous verrons beaucoup de choses seulement à la fin de l’année, et peut-être seulement en 2020.

Source: habr.com

Ajouter un commentaire