Accidents majeurs dans les datacenters : causes et conséquences

Les centres de données modernes sont fiables, mais tout équipement tombe en panne de temps en temps. Dans ce court article, nous avons rassemblé les incidents les plus marquants de 2018.

Accidents majeurs dans les datacenters : causes et conséquences

L'influence des technologies numériques sur l'économie s'accroît, le volume d'informations traitées augmente, de nouvelles installations sont construites, et c'est tant mieux tant que tout fonctionne. Malheureusement, l’impact économique des pannes des centres de données s’est également accru depuis que les gens ont commencé à héberger des infrastructures informatiques critiques pour l’entreprise, conséquence inévitable de la numérisation. Nous publions une petite sélection des accidents les plus notables survenus dans différents pays l'année dernière.

Etats-Unis

Ce pays est un leader reconnu dans le domaine de la construction de centres de données. Les États-Unis comptent le plus grand nombre de grands centres de données commerciaux et d'entreprise desservant des services mondiaux, les conséquences des incidents y sont donc les plus importantes. Début mars, quatre installations d'Equinix ont connu des pannes de courant en raison d'un puissant cyclone. L'espace était utilisé pour les équipements Amazon Web Services (AWS) ; l'accident a entraîné l'indisponibilité de nombreux services populaires : GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio et mCapital One, ainsi que l'assistant virtuel Amazon Alexa, ont été touchés.

En septembre, des anomalies météorologiques ont frappé les centres de données Microsoft situés au Texas. Puis, en raison d'un orage, le système d'alimentation électrique de toute la région a été perturbé et dans le centre de données qui a été alimenté par un groupe électrogène diesel, on ne sait pas pourquoi. le refroidissement s'est éteint. Il a fallu plusieurs jours pour éliminer les conséquences de l'accident, et bien que, grâce à l'équilibrage de charge, cette panne ne soit pas devenue critique, un léger ralentissement du fonctionnement des services cloud Microsoft a été constaté par les utilisateurs du monde entier.

Russie

L’accident le plus grave s’est produit le 20 août dans l’un des centres de données de Rostelecom. À cause de cela, les serveurs du Registre d'État unifié de l'immobilier se sont arrêtés pendant 66 heures et ont donc dû être transférés vers un site de sauvegarde. Rosreestr n'a pu rétablir le traitement des candidatures reçues par tous les canaux que le 3 septembre - l'organisation gouvernementale tente de récupérer une somme importante auprès de Rostelecom pour violation de l'accord de niveau de service.

Le 16 février, en raison de problèmes dans les réseaux de Lenenergo, le système d'alimentation électrique de secours du centre de données de Xelnet (Saint-Pétersbourg) a été activé. Une interruption à court terme de l'onde sinusoïdale a entraîné des perturbations dans le fonctionnement de nombreux services : le grand fournisseur de cloud 1cloud a été particulièrement touché, mais le problème le plus visible pour le public Internet russe a été l'impossibilité d'accéder au site de réseau social VKontakte. . Le plus intéressant est qu'il a fallu environ 12 heures pour éliminer complètement les conséquences d'une panne de courant à court terme.

UE

Plusieurs incidents graves ont été enregistrés dans l'UE en 2018. En mars, une panne s'est produite au centre de données de la compagnie aérienne KLM : l'alimentation électrique a été coupée pendant 10 minutes et la puissance des groupes électrogènes diesel était insuffisante pour faire fonctionner les équipements. Certains serveurs sont tombés en panne et la compagnie aérienne a dû annuler ou reprogrammer plusieurs dizaines de vols.

Ce n'est pas le seul incident lié au transport aérien : déjà en avril, une panne s'est produite dans le système d'alimentation électrique du centre de données d'Eurocontrol. L'organisation contrôle le mouvement des avions dans l'Union européenne, et tandis que les spécialistes ont passé 5 heures à éliminer les conséquences de l'accident, les passagers ont de nouveau dû subir des retards et des vols reprogrammés.

Des problèmes très graves surviennent en raison d'accidents dans les centres de données desservant le secteur financier. Le coût des interruptions de transactions ici est généralement élevé et le niveau de fiabilité des installations est approprié, mais cela n'empêche pas les incidents. Le 18 avril, la bourse nordique NASDAQ (Helsinki, Finlande) n'a pas pu négocier dans toute l'Europe du Nord pendant la journée en raison de l'activation non autorisée d'un système d'extinction d'incendie à gaz dans le centre de données commercial DigiPlex, qui a été soudainement mis hors tension.

Le 7 juin, des pannes dans les centres de données ont contraint la Bourse de Londres (LSE) à retarder d'une heure le début des négociations. De plus, en juin, en Europe, en raison d'une panne dans un centre de données, les services du système de paiement international VISA ont été désactivés pendant toute la journée et les détails de l'incident n'ont jamais été divulgués.

Japon

À l'été 2018, un incendie s'est déclaré dans les sous-sols d'un centre de données Amazon en construction dans la banlieue de Tokyo, tuant 5 travailleurs et en blessant au moins 50. L'incendie a endommagé environ 5000 2 mXNUMX de l'installation. L'enquête a montré que la cause de l'incendie était une erreur humaine : en raison d'une manipulation imprudente des chalumeaux à acétylène, l'isolation s'est enflammée.

Raisons des échecs

La liste d'incidents ci-dessus est loin d'être complète : en raison d'accidents dans les centres de données, les clients des banques et des opérateurs de télécommunications souffrent, les services des fournisseurs de cloud sont hors ligne et même le travail des services d'urgence est perturbé. Une petite panne de service peut entraîner des pertes importantes, et la majorité des pannes (39 %) sont liées au système électrique, selon l'Uptime Institute. En deuxième position (24 %) se trouve le facteur humain et en troisième (15 %) le système de climatisation. Seuls 12 % des accidents dans les centres de données peuvent être attribués à des phénomènes naturels, et seulement 10 % d'entre eux surviennent pour des raisons autres que celles énumérées.

Malgré des normes strictes de fiabilité et de sécurité, aucune installation n’est à l’abri des incidents. La plupart d’entre eux sont dus à des pannes de courant ou à des erreurs humaines. Les propriétaires de centres de données et de salles de serveurs doivent avant tout prêter attention à ces deux facteurs, et les clients doivent comprendre : même les leaders du marché ne peuvent garantir une fiabilité absolue. Si un équipement ou un service cloud sert des processus critiques pour l'entreprise, vous devriez penser à un site de sauvegarde.

Source photo : telecombloger.ru

Source: habr.com

Ajouter un commentaire