Schwere Unfälle in Rechenzentren: Ursachen und Folgen

Moderne Rechenzentren sind zuverlässig, dennoch fallen Geräte von Zeit zu Zeit aus. In diesem kurzen Artikel haben wir die bedeutendsten Vorfälle des Jahres 2018 zusammengestellt.

Schwere Unfälle in Rechenzentren: Ursachen und Folgen

Der Einfluss digitaler Technologien auf die Wirtschaft wächst, die Menge der verarbeiteten Informationen nimmt zu, neue Anlagen werden gebaut und das ist gut, solange alles funktioniert. Leider nehmen auch die wirtschaftlichen Auswirkungen von Rechenzentrumsausfällen zu, seit Menschen als zwangsläufige Folge der Digitalisierung damit begonnen haben, geschäftskritische IT-Infrastrukturen zu hosten. Wir veröffentlichen eine kleine Auswahl der bemerkenswertesten Unfälle, die sich im vergangenen Jahr in verschiedenen Ländern ereignet haben.

Vereinigte Staaten

Dieses Land ist ein anerkannter Marktführer im Bereich des Rechenzentrumsbaus. Die Vereinigten Staaten verfügen über die größte Anzahl großer kommerzieller und Unternehmensrechenzentren, die globale Dienste anbieten, daher sind die Folgen von Vorfällen dort am schwerwiegendsten. Anfang März kam es in vier Equinix-Einrichtungen aufgrund eines starken Wirbelsturms zu Stromausfällen. Der Raum wurde für Amazon Web Services (AWS)-Geräte genutzt; der Unfall führte dazu, dass viele beliebte Dienste nicht verfügbar waren: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio und mCapital One sowie der virtuelle Assistent Amazon Alexa. waren betroffen.

Im September kam es in den Microsoft-Rechenzentren in Texas zu Wetteranomalien. Dann kam es aufgrund eines Gewitters zu einer Unterbrechung der Stromversorgung der gesamten Region, und in dem Rechenzentrum, das auf Strom aus dem Dieselgeneratorsatz umstieg, ist unbekannt, warum die Kühlung ausgeschaltet. Es dauerte mehrere Tage, bis die Folgen des Unfalls behoben waren, und obwohl dieser Fehler dank des Lastausgleichs nicht kritisch wurde, stellten Benutzer auf der ganzen Welt eine leichte Verlangsamung des Betriebs der Microsoft-Cloud-Dienste fest.

Russland

Der schwerste Unfall ereignete sich am 20. August in einem der Rechenzentren von Rostelecom. Aus diesem Grund waren die Server des Unified State Register of Real Estate für 66 Stunden außer Betrieb und mussten daher auf eine Backup-Site übertragen werden. Rosreestr konnte die Bearbeitung der über alle Kanäle eingegangenen Anträge erst am 3. September wiederherstellen – die Regierungsorganisation versucht, einen großen Betrag von Rostelecom wegen Verstoßes gegen die Service-Level-Vereinbarung zurückzufordern.

Am 16. Februar wurde aufgrund von Problemen in den Netzwerken von Lenenergo das Notstromversorgungssystem im Rechenzentrum von Xelnet (St. Petersburg) eingeschaltet. Eine kurzfristige Unterbrechung der Sinuswelle führte zu Störungen im Betrieb vieler Dienste: Betroffen war insbesondere der große Cloud-Anbieter 1cloud, das auffälligste Problem für das russische Internetpublikum war jedoch der fehlende Zugriff auf das soziale Netzwerk VKontakte . Das Interessanteste ist, dass es etwa 12 Stunden dauerte, bis die Folgen eines kurzzeitigen Stromausfalls vollständig beseitigt waren.

EU

Im Jahr 2018 wurden in der EU mehrere schwerwiegende Vorfälle registriert. Im März kam es im Rechenzentrum der Fluggesellschaft KLM zu einem Ausfall: Die Stromversorgung war für 10 Minuten unterbrochen und die Leistung der Dieselgeneratoren reichte nicht aus, um die Geräte zu betreiben. Einige Server fielen aus und die Fluggesellschaft musste mehrere Dutzend Flüge stornieren oder umbuchen.

Dies ist nicht der einzige Vorfall im Zusammenhang mit Flugreisen – bereits im April kam es zu einem Ausfall im Stromversorgungssystem des Eurocontrol-Rechenzentrums. Die Organisation kontrolliert den Flugverkehr in der Europäischen Union, und während Spezialisten fünf Stunden damit verbrachten, die Folgen des Unfalls zu beseitigen, mussten die Passagiere erneut Verspätungen und Flugverschiebungen ertragen.

Durch Unfälle in Rechenzentren des Finanzsektors entstehen sehr schwerwiegende Probleme. Die Kosten für Transaktionsunterbrechungen sind hier in der Regel hoch und die Zuverlässigkeit der Einrichtungen angemessen, Vorfälle können dadurch jedoch nicht verhindert werden. Am 18. April konnte an der nordischen Börse NASDAQ (Helsinki, Finnland) im Laufe des Tages nicht in ganz Nordeuropa gehandelt werden, da im kommerziellen Rechenzentrum DigiPlex eine Gasfeuerlöschanlage unbefugt aktiviert wurde, die plötzlich stromlos war.

Am 7. Juni zwangen Ausfälle im Rechenzentrum die London Stock Exchange (LSE), den Handelsbeginn um eine Stunde zu verschieben. Darüber hinaus waren im Juni in Europa aufgrund eines Ausfalls in einem Rechenzentrum die Dienste des internationalen Zahlungssystems VISA einen ganzen Tag lang deaktiviert, und die Einzelheiten des Vorfalls wurden nie bekannt gegeben.

Japan

Im Sommer 2018 kam es in den Untergeschossen eines im Bau befindlichen Amazon-Rechenzentrums in einem Vorort von Tokio zu einem Brand, bei dem fünf Arbeiter getötet und mindestens 5 verletzt wurden. Durch den Brand wurden etwa 50 m5000 der Anlage beschädigt. Die Untersuchung ergab, dass die Brandursache menschliches Versagen war: Durch unvorsichtigen Umgang mit Acetylenbrennern entzündete sich die Isolierung.

Fehlerursachen

Die obige Liste der Vorfälle ist bei weitem nicht vollständig; durch Unfälle in Rechenzentren leiden Kunden von Banken und Telekommunikationsbetreibern, Dienste von Cloud-Anbietern gehen offline und sogar die Arbeit von Rettungsdiensten wird gestört. Ein kleiner Serviceausfall kann zu großen Verlusten führen, und die meisten Ausfälle (39 %) hängen laut dem Uptime Institute mit dem elektrischen System zusammen. An zweiter Stelle (24 %) steht der Faktor Mensch und an dritter Stelle (15 %) die Klimaanlage. Nur 12 % der Unfälle in Rechenzentren sind auf Naturereignisse zurückzuführen und nur 10 % davon ereignen sich aus anderen als den aufgeführten Gründen.

Trotz strenger Zuverlässigkeits- und Sicherheitsstandards ist keine Anlage vor Zwischenfällen gefeit. Die meisten davon sind auf Stromausfälle oder menschliches Versagen zurückzuführen. Auf diese beiden Faktoren sollten Besitzer von Rechenzentren und Serverräumen zunächst einmal achten und Kunden sollten verstehen: Selbst Marktführer können keine absolute Zuverlässigkeit garantieren. Wenn Geräte oder ein Cloud-Dienst geschäftskritische Prozesse bedienen, sollten Sie über einen Backup-Standort nachdenken.

Fotoquelle: telecombloger.ru

Source: habr.com

Kommentar hinzufügen