Die Hauptursache für Unfälle in Rechenzentren ist die Dichtung zwischen Computer und Stuhl

Das Thema schwere Unfälle in modernen Rechenzentren wirft Fragen auf, die im ersten Artikel nicht beantwortet wurden – wir haben uns entschieden, ihn weiterzuentwickeln.

Die Hauptursache für Unfälle in Rechenzentren ist die Dichtung zwischen Computer und Stuhl

Laut Statistiken des Uptime Institute stehen die meisten Vorfälle in Rechenzentren im Zusammenhang mit Ausfällen des Stromversorgungssystems – sie machen 39 % der Vorfälle aus. Dahinter folgt der Faktor Mensch, der für weitere 24 % der Unfälle verantwortlich ist. Der drittwichtigste Grund (15 %) war der Ausfall der Klimaanlage, an vierter Stelle (12 %) standen Naturkatastrophen. Der Gesamtanteil anderer Probleme beträgt nur 10 %. Ohne die Daten einer angesehenen Organisation in Frage zu stellen, werden wir Gemeinsamkeiten bei verschiedenen Unfällen hervorheben und versuchen zu verstehen, ob sie hätten vermieden werden können. Spoiler: In den meisten Fällen ist es möglich.

Die Wissenschaft der Kontakte

Vereinfacht gesagt gibt es bei der Stromversorgung nur zwei Probleme: Entweder gibt es keinen Kontakt, wo er sein sollte, oder es gibt Kontakt, wo kein Kontakt sein sollte. Über die Zuverlässigkeit moderner unterbrechungsfreier Stromversorgungssysteme kann man lange reden, aber sie retten nicht immer. Nehmen wir den aufsehenerregenden Fall des von British Airways genutzten Rechenzentrums, das der Muttergesellschaft International Airlines Group gehört. Es gibt zwei solcher Immobilien in der Nähe des Flughafens Heathrow – Boadicea House und Comet House. Im ersten Fall kam es am 27. Mai 2017 zu einem versehentlichen Stromausfall, der zu einer Überlastung und einem Ausfall der USV-Anlage führte. Dadurch wurde ein Teil der IT-Ausrüstung physisch beschädigt und die Behebung der jüngsten Katastrophe dauerte drei Tage.

Die Fluggesellschaft musste mehr als tausend Flüge stornieren oder verschieben, etwa 75 Passagiere konnten nicht pünktlich fliegen – 128 Millionen US-Dollar wurden für die Zahlung von Entschädigungen ausgegeben, die Kosten für die Wiederherstellung der Funktionalität von Rechenzentren nicht eingerechnet. Die Vorgeschichte der Gründe für den Stromausfall ist unklar. Glaubt man den Ergebnissen der internen Untersuchung, die Willie Walsh, CEO der International Airlines Group, bekannt gegeben hat, war dies auf einen Fehler von Ingenieuren zurückzuführen. Allerdings musste die unterbrechungsfreie Stromversorgung einer solchen Abschaltung standhalten – deshalb wurde sie installiert. Das Rechenzentrum wurde von Spezialisten des Outsourcing-Unternehmens CBRE Managed Services verwaltet, sodass British Airways versuchte, die Schadenshöhe vor einem Londoner Gericht geltend zu machen.

Die Hauptursache für Unfälle in Rechenzentren ist die Dichtung zwischen Computer und Stuhl

Stromausfälle treten in ähnlichen Szenarien auf: Zuerst kommt es zu einem Blackout aufgrund eines Verschuldens des Stromversorgers, manchmal aufgrund von schlechtem Wetter oder internen Problemen (einschließlich menschlichem Versagen), und dann wird das unterbrechungsfreie Stromversorgungssystem der Last nicht gewachsen oder es kommt zu einem Kurzschluss Eine längerfristige Unterbrechung der Sinuswelle führt zu Ausfällen vieler Dienste, deren Wiederherstellung viel Zeit und Geld kostet. Können solche Unfälle vermieden werden? Zweifellos. Wenn Sie das System richtig entwerfen, sind auch die Entwickler großer Rechenzentren nicht vor Fehlern gefeit.

Der menschliche Faktor

Wenn die unmittelbare Ursache eines Vorfalls das Fehlverhalten des Rechenzentrumspersonals ist, betreffen die Probleme am häufigsten (jedoch nicht immer) den Softwareteil der IT-Infrastruktur. Selbst in großen Konzernen kommt es zu solchen Unfällen. Im Februar 2017 wurde aufgrund eines falsch rekrutierten Teammitglieds der technischen Betriebsgruppe eines der Rechenzentren ein Teil der Amazon Web Services-Server deaktiviert. Beim Debuggen des Abrechnungsprozesses für Cloud-Speicherkunden des Amazon Simple Storage Service (S3) ist ein Fehler aufgetreten. Ein Mitarbeiter versuchte, eine Reihe virtueller Server zu löschen, die vom Abrechnungssystem verwendet wurden, stieß dabei jedoch auf einen größeren Cluster.

Die Hauptursache für Unfälle in Rechenzentren ist die Dichtung zwischen Computer und Stuhl

Aufgrund eines Ingenieurfehlers wurden Server gelöscht, auf denen wichtige Amazon-Cloud-Storage-Softwaremodule ausgeführt wurden. Als erstes war das Indexierungssubsystem betroffen, das Informationen über die Metadaten und den Standort aller S3-Objekte in der amerikanischen Region US-EAST-1 enthält. Der Vorfall wirkte sich auch auf das Subsystem aus, das zum Hosten von Daten und zur Verwaltung des für die Speicherung verfügbaren Speicherplatzes verwendet wird. Nach dem Löschen der virtuellen Maschinen mussten diese beiden Subsysteme komplett neu gestartet werden, und dann erlebten die Amazon-Ingenieure eine Überraschung: Der öffentliche Cloud-Speicher war lange Zeit nicht in der Lage, Kundenanfragen zu bedienen.

Die Auswirkungen waren weitreichend, da viele große Ressourcen Amazon S3 nutzen. Betroffen von den Ausfällen waren Trello, Coursera, IFTTT und, was am unangenehmsten war, die Dienste der großen Amazon-Partner aus der S&P 500-Liste. Der Schaden in solchen Fällen ist schwer zu beziffern, lag aber im Bereich von Hunderten Millionen US-Dollar. Wie Sie sehen, reicht ein falscher Befehl aus, um den Dienst der größten Cloud-Plattform zu deaktivieren. Dies ist kein Einzelfall; am 16. Mai 2019 wurde während Wartungsarbeiten der Yandex.Cloud-Dienst gelöscht virtuelle Maschinen von Benutzern in der Zone ru-central1-c, die sich mindestens einmal im Status SUSPENDED befanden. Hier kam es bereits zu Schäden an Kundendaten, die zum Teil unwiederbringlich verloren gingen. Natürlich sind Menschen unvollkommen, aber moderne Informationssicherheitssysteme sind seit langem in der Lage, die Aktionen privilegierter Benutzer zu überwachen, bevor sie die von ihnen eingegebenen Befehle ausführen. Wenn solche Lösungen in Yandex oder Amazon implementiert werden, können solche Vorfälle vermieden werden.

Die Hauptursache für Unfälle in Rechenzentren ist die Dichtung zwischen Computer und Stuhl

Gefrorene Kühlung

Im Januar 2017 ereignete sich im Dmitrov-Rechenzentrum der Firma Megafon ein schwerer Unfall. Dann sank die Temperatur in der Region Moskau auf −35 °C, was zum Ausfall des Kühlsystems der Anlage führte. Der Pressedienst des Betreibers äußerte sich nicht besonders zu den Gründen für den Vorfall – russische Unternehmen sprechen äußerst zurückhaltend über Unfälle in ihren eigenen Anlagen; in puncto Publizität liegen wir weit hinter dem Westen zurück. In sozialen Netzwerken kursierte eine Version über das Einfrieren von Kühlmittel in entlang der Straße verlegten Rohren und das Austreten von Ethylenglykol. Ihrer Aussage zufolge konnte der Betriebsdienst wegen der langen Urlaubstage nicht schnell 30 Tonnen Kühlmittel beschaffen und musste mit improvisierten Mitteln aussteigen, indem er unter Verstoß gegen die Regeln für den Betrieb der Anlage eine improvisierte freie Kühlung organisierte. Starke Kälte verschärfte das Problem – im Januar kam in Russland plötzlich der Winter, obwohl niemand damit gerechnet hatte. Infolgedessen mussten die Mitarbeiter einen Teil der Server-Racks von der Stromversorgung abschalten, weshalb einige Betreiberdienste zwei Tage lang nicht verfügbar waren.

Die Hauptursache für Unfälle in Rechenzentren ist die Dichtung zwischen Computer und Stuhl

Wahrscheinlich kann man hier von einer Wetteranomalie sprechen, aber solche Fröste sind für die Hauptstadtregion nichts Ungewöhnliches. Im Winter können die Temperaturen in der Region Moskau auf niedrigere Werte sinken, daher werden Rechenzentren mit der Erwartung eines stabilen Betriebs bei –42 °C gebaut. Am häufigsten fallen Kühlsysteme bei kaltem Wetter aus, weil die Glykolkonzentration nicht ausreichend hoch ist und die Kühlmittellösung zu viel Wasser enthält. Es gibt auch Probleme bei der Installation von Rohren oder bei Fehleinschätzungen bei der Auslegung und Prüfung des Systems, die hauptsächlich mit dem Wunsch verbunden sind, Geld zu sparen. Dadurch kommt es aus heiterem Himmel zu einem schweren Unfall, der hätte verhindert werden können.

Naturkatastrophen

Am häufigsten stören Gewitter und/oder Hurrikane die technische Infrastruktur eines Rechenzentrums und führen zu Betriebsunterbrechungen und/oder physischen Schäden an der Ausrüstung. Unfälle durch schlechtes Wetter kommen häufig vor. Im Jahr 2012 fegte Hurrikan Sandy mit heftigen Regenfällen über die Westküste der Vereinigten Staaten. Das Peer 1-Rechenzentrum befindet sich in einem Hochhaus in Lower Manhattan externe Stromversorgung verloren, nachdem salziges Meerwasser die Keller überschwemmt hatte. Die Notstromaggregate der Anlage befanden sich im 18. Stock und ihr Treibstoffvorrat war begrenzt – die in New York nach den Terroranschlägen vom 9. September 11 eingeführten Vorschriften verbieten die Lagerung großer Treibstoffmengen in den oberen Stockwerken.

Da auch die Kraftstoffpumpe ausfiel, verbrachten die Mitarbeiter mehrere Tage damit, Diesel per Hand zu den Generatoren zu transportieren. Der Heldenmut des Teams rettete das Rechenzentrum vor einem schweren Unfall, aber war das wirklich notwendig? Wir leben auf einem Planeten mit einer Stickstoff-Sauerstoff-Atmosphäre und viel Wasser. Gewitter und Hurrikane sind hier häufig (vor allem in Küstengebieten). Planer täten wahrscheinlich gut daran, die damit verbundenen Risiken zu berücksichtigen und ein geeignetes unterbrechungsfreies Stromversorgungssystem zu bauen. Oder wählen Sie zumindest einen geeigneteren Standort für das Rechenzentrum als ein Hochhaus auf einer Insel.

Alles andere

Das Uptime Institute identifiziert eine Vielzahl von Vorfällen in dieser Kategorie, von denen es schwierig ist, einen typischen auszuwählen. Diebstahl von Kupferkabeln, Autos, die in Rechenzentren, Stromleitungsstützen und Umspannwerke krachen, Brände, Baggerfahrer, die Optiken beschädigen, Nagetiere (Ratten, Kaninchen und sogar Wombats, die eigentlich Beuteltiere sind) sowie diejenigen, die gerne das Schießen üben Drähte – die Speisekarte ist umfangreich. Stromausfälle können sogar dazu führen stehlen Strom illegale Marihuana-Plantage. In den meisten Fällen werden bestimmte Personen zu den Schuldigen des Vorfalls, d. h. wir haben es wieder mit dem menschlichen Faktor zu tun, wenn das Problem einen Vor- und Nachnamen hat. Auch wenn der Unfall auf den ersten Blick mit einer technischen Störung oder einer Naturkatastrophe verbunden ist, kann er vermieden werden, sofern die Anlage ordnungsgemäß konzipiert und ordnungsgemäß betrieben wird. Ausnahmen bilden lediglich Fälle schwerwiegender Schäden an der Infrastruktur des Rechenzentrums oder die Zerstörung von Gebäuden und Bauwerken aufgrund einer Naturkatastrophe. Dabei handelt es sich tatsächlich um Umstände höherer Gewalt, und alle anderen Probleme werden durch die Dichtung zwischen Computer und Stuhl verursacht – vielleicht ist dies der unzuverlässigste Teil eines komplexen Systems.

Source: habr.com

Kommentar hinzufügen