La principale cause d'accidents dans les centres de données est le joint entre l'ordinateur et la chaise

Le sujet des accidents majeurs dans les centres de données modernes soulève des questions auxquelles le premier article n'a pas répondu - nous avons décidé de le développer.

La principale cause d'accidents dans les centres de données est le joint entre l'ordinateur et la chaise

Selon les statistiques de l'Uptime Institute, la majorité des incidents dans les centres de données sont liés à des pannes du système d'alimentation électrique : ils représentent 39 % des incidents. Viennent ensuite le facteur humain, qui représente encore 24 % des accidents. La troisième raison la plus importante (15 %) était la panne du système de climatisation, et en quatrième position (12 %) les catastrophes naturelles. La part totale des autres problèmes n'est que de 10 %. Sans remettre en question les données d'une organisation respectée, nous mettrons en évidence quelque chose de commun dans différents accidents et tenterons de comprendre s'ils auraient pu être évités. Spoiler : c’est possible dans la plupart des cas.

La science des contacts

Pour faire simple, il n'y a que deux problèmes avec l'alimentation : soit il n'y a pas de contact là où il devrait être, soit il y a un contact là où il ne devrait pas y avoir de contact. On peut parler longtemps de la fiabilité des systèmes d'alimentation sans interruption modernes, mais ils ne vous sauvent pas toujours. Prenons le cas très médiatisé du centre de données utilisé par British Airways, qui appartient à la société mère International Airlines Group. Il existe deux propriétés de ce type situées près de l’aéroport d’Heathrow : Boadicea House et Comet House. Dans le premier cas, le 27 mai 2017, une panne de courant accidentelle s'est produite, entraînant une surcharge et une panne du système UPS. En conséquence, une partie du matériel informatique a été physiquement endommagée et la dernière catastrophe a mis trois jours à être résolue.

La compagnie aérienne a dû annuler ou reprogrammer plus d'un millier de vols, environ 75 128 passagers n'ont pas pu voler à temps - XNUMX millions de dollars ont été dépensés en indemnisation, sans compter les coûts nécessaires au rétablissement de la fonctionnalité des centres de données. L’historique des raisons de la panne n’est pas clair. Si l’on en croit les résultats de l’enquête interne annoncés par le PDG d’International Airlines Group, Willie Walsh, cela serait dû à une erreur des ingénieurs. Cependant, le système d’alimentation sans interruption a dû résister à un tel arrêt – c’est pourquoi il a été installé. Le centre de données étant géré par des spécialistes de la société d'externalisation CBRE Managed Services, British Airways a tenté de récupérer le montant des dommages auprès d'un tribunal de Londres.

La principale cause d'accidents dans les centres de données est le joint entre l'ordinateur et la chaise

Les pannes de courant se produisent dans des scénarios similaires : il y a d'abord une panne de courant due à la faute du fournisseur d'électricité, parfois en raison des intempéries ou de problèmes internes (y compris des erreurs humaines), puis le système d'alimentation sans interruption ne peut pas faire face à la charge ou à un court-circuit. L'interruption à long terme de l'onde sinusoïdale provoque des pannes de nombreux services, dont la restauration prend beaucoup de temps et d'argent. Est-il possible d'éviter de tels accidents ? Indubitablement. Si le système est correctement conçu, même les créateurs de grands centres de données ne sont pas à l’abri d’erreurs.

Facteur humain

Lorsque la cause immédiate d'un incident réside dans les actions incorrectes du personnel du centre de données, les problèmes affectent le plus souvent (mais pas toujours) la partie logicielle de l'infrastructure informatique. De tels accidents surviennent même dans les grandes entreprises. En février 2017, en raison d'un membre mal recruté du groupe d'exploitation technique de l'un des centres de données, une partie des serveurs Amazon Web Services a été désactivée. Une erreur s'est produite lors du débogage du processus de facturation pour les clients de stockage cloud Amazon Simple Storage Service (S3). Un employé a tenté de supprimer un certain nombre de serveurs virtuels utilisés par le système de facturation, mais il a touché un cluster plus grand.

La principale cause d'accidents dans les centres de données est le joint entre l'ordinateur et la chaise

À la suite d'une erreur d'ingénieur, les serveurs exécutant d'importants modules logiciels de stockage cloud Amazon ont été supprimés. Le premier concerné a été le sous-système d'indexation, qui contient des informations sur les métadonnées et l'emplacement de tous les objets S3 dans la région américaine US-EAST-1. L'incident a également affecté le sous-système utilisé pour héberger les données et gérer l'espace disponible pour le stockage. Après la suppression des machines virtuelles, ces deux sous-systèmes ont nécessité un redémarrage complet, puis les ingénieurs d'Amazon ont été surpris : pendant longtemps, le stockage dans le cloud public n'a pas été en mesure de répondre aux demandes des clients.

L'impact a été généralisé, car de nombreuses ressources importantes utilisent Amazon S3. Les pannes ont affecté Trello, Coursera, IFTTT et, ce qui est le plus désagréable, les services des principaux partenaires d'Amazon de la liste S&P 500. Les dégâts dans de tels cas sont difficiles à calculer, mais ils s'élèvent à des centaines de millions de dollars américains. Comme vous pouvez le constater, une seule mauvaise commande suffit à désactiver le service de la plus grande plateforme cloud. Ce n'est pas un cas isolé : le 16 mai 2019, lors de travaux de maintenance, le service Yandex.Cloud supprimé machines virtuelles des utilisateurs de la zone ru-central1-c qui étaient au moins une fois à l'état SUSPENDÉ. Les données des clients ont déjà été endommagées ici, dont certaines ont été irrémédiablement perdues. Bien sûr, les gens sont imparfaits, mais les systèmes modernes de sécurité de l’information sont depuis longtemps capables de surveiller les actions des utilisateurs privilégiés avant d’exécuter les commandes qu’ils ont saisies. Si de telles solutions sont mises en œuvre dans Yandex ou Amazon, de tels incidents peuvent être évités.

La principale cause d'accidents dans les centres de données est le joint entre l'ordinateur et la chaise

Refroidissement gelé

En janvier 2017, un accident majeur s'est produit dans le centre de données Dmitrov de la société Megafon. Ensuite, la température dans la région de Moscou est tombée à −35 °C, ce qui a entraîné une panne du système de refroidissement de l’installation. Le service de presse de l'opérateur n'a pas particulièrement évoqué les raisons de l'incident - les entreprises russes sont extrêmement réticentes à parler des accidents survenus dans leurs installations et nous sommes loin derrière l'Occident en termes de publicité. Une version circulait sur les réseaux sociaux concernant le gel du liquide de refroidissement dans les canalisations posées le long de la rue et les fuites d'éthylène glycol. Selon elle, le service d'exploitation n'a pas pu obtenir rapidement 30 tonnes de liquide de refroidissement en raison de longues vacances et s'en est sorti avec des moyens improvisés, organisant un free-cooling improvisé en violation des règles d'exploitation du système. Le froid intense a aggravé le problème : en janvier, l'hiver a soudainement frappé la Russie, alors que personne ne s'y attendait. En conséquence, le personnel a dû couper l’alimentation d’une partie des racks de serveurs, raison pour laquelle certains services des opérateurs ont été indisponibles pendant deux jours.

La principale cause d'accidents dans les centres de données est le joint entre l'ordinateur et la chaise

On peut probablement parler ici d'une anomalie météorologique, mais de telles gelées ne sont pas inhabituelles pour la région de la capitale. Les températures en hiver dans la région de Moscou peuvent descendre à des niveaux plus bas, c'est pourquoi les centres de données sont construits dans l'attente d'un fonctionnement stable à −42°C. Le plus souvent, les systèmes de refroidissement tombent en panne par temps froid en raison d'une concentration insuffisamment élevée de glycols et d'un excès d'eau dans la solution de refroidissement. Il existe également des problèmes liés à l'installation des canalisations ou à des erreurs de calcul dans la conception et les tests du système, principalement liés au désir d'économiser de l'argent. En conséquence, un accident grave se produit à l’improviste, qui aurait pu être évité.

Catastrophes naturelles

Le plus souvent, les orages et/ou les ouragans perturbent l’infrastructure technique d’un centre de données, entraînant des interruptions de service et/ou des dommages physiques aux équipements. Les incidents causés par le mauvais temps se produisent assez souvent. En 2012, l’ouragan Sandy a balayé la côte ouest des États-Unis avec de fortes pluies. Situé dans un immeuble de grande hauteur du Lower Manhattan, le centre de données Peer 1 perte d'alimentation externe, après que l'eau de mer salée ait inondé les sous-sols. Les générateurs de secours de l'installation étaient situés au 18e étage et leur approvisionnement en carburant était limité : les règles introduites à New York après les attentats terroristes du 9 septembre interdisent de stocker de grandes quantités de carburant aux étages supérieurs.

La pompe à carburant est également tombée en panne, de sorte que le personnel a passé plusieurs jours à transporter manuellement du diesel jusqu'aux générateurs. L’héroïsme de l’équipe a sauvé le centre de données d’un grave accident, mais était-ce vraiment nécessaire ? Nous vivons sur une planète avec une atmosphère d’azote et d’oxygène et beaucoup d’eau. Les orages et les ouragans sont fréquents ici (surtout dans les zones côtières). Les concepteurs feraient probablement bien de prendre en compte les risques encourus et de construire un système d'alimentation électrique sans coupure approprié. Ou du moins, choisissez un emplacement plus approprié pour le centre de données qu'un gratte-ciel sur une île.

Tout le reste

L'Uptime Institute identifie une variété d'incidents dans cette catégorie, parmi lesquels il est difficile d'en choisir un typique. Vols de câbles en cuivre, collisions de voitures contre des centres de données, des supports de lignes électriques et des postes de transformation, incendies, opérateurs d'excavatrices endommageant les optiques, rongeurs (rats, lapins et même wombats, qui sont en réalité des marsupiaux), ainsi que ceux qui aiment s'entraîner au tir. fils - le menu est vaste. Les pannes de courant peuvent même causer vol plantation illégale de marijuana à l'électricité. Dans la plupart des cas, les coupables de l'incident sont des personnes spécifiques, c'est-à-dire que nous avons à nouveau affaire au facteur humain, lorsque le problème a un nom et un prénom. Même si, à première vue, l'accident est associé à un dysfonctionnement technique ou à une catastrophe naturelle, il peut être évité à condition que l'installation soit correctement conçue et exploitée correctement. Les seules exceptions sont les cas de dommages critiques à l'infrastructure du centre de données ou de destruction de bâtiments et de structures dus à une catastrophe naturelle. Il s'agit véritablement de circonstances de force majeure, et tous les autres problèmes sont causés par le joint entre l'ordinateur et la chaise - c'est peut-être la partie la plus peu fiable de tout système complexe.

Source: habr.com

Ajouter un commentaire