Velké havárie v datových centrech: příčiny a následky

Moderní datová centra jsou spolehlivá, ale každé zařízení se čas od času porouchá. V krátké poznámce jsme shromáždili nejvýznamnější události roku 2018.

Velké havárie v datových centrech: příčiny a následky

Roste dopad digitálních technologií na ekonomiku, roste objem zpracovávaných informací, budují se nová zařízení, a to je dobře, dokud vše funguje. Dopad selhání datových center na ekonomiku se bohužel také zvyšuje od té doby, co do nich lidé začali umisťovat kritickou IT infrastrukturu pro podnikání – to je nevyhnutelný důsledek digitalizace. Zveřejňujeme malý výběr nejpozoruhodnějších nehod, které se v uplynulém roce staly v různých zemích.

United States

Tato země je uznávaným lídrem v oblasti výstavby datových center. Spojené státy americké mají největší komerční a podniková datová centra sloužící globálním službám, takže důsledky incidentů v nich jsou nejvýznamnější. Začátkem března kvůli silnému cyklonu došlo ve čtyřech zařízeních Equinix k výpadkům proudu. Oblast byla využívána pro zařízení Amazon Web Services (AWS), nehoda vedla k nedostupnosti mnoha oblíbených služeb: zasaženy byly GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio a mCapital One a také virtuální Amazon Alexa asistent.

V září zasáhly anomálie počasí datová centra Microsoftu umístěná v Texasu, poté byl kvůli bouřce přerušen systém napájení celého regionu a v datovém centru, které přešlo na napájení z dieselového generátoru, bylo vypnuto chlazení. Odstranění následků havárie trvalo několik dní, a přestože se porucha díky vyrovnávání zátěže nestala kritickou, uživatelé po celém světě zaznamenali určité zpomalení cloudových služeb Microsoftu.

Rusko

K nejvážnější nehodě došlo 20. srpna v jednom z datových center Rostelecomu. Kvůli tomu se na 66 hodin zastavily servery Jednotného státního registru nemovitostí, a proto musely být převedeny na záložní web. Rosreestr dokázal obnovit zpracování žádostí přijatých všemi kanály až 3. září - státní organizace se snaží získat zpět velkou částku od Rostelecomu za porušení smlouvy o úrovni služeb.

Dne 16. února došlo z důvodu problémů v sítích Lenenergo k zapnutí záložního napájecího systému v datovém centru společnosti Xelnet (St. Petersburg). Krátkodobé přerušení sinusoidy vedlo k narušení provozu mnoha služeb: utrpěl zejména velký cloudový poskytovatel 1cloud, ale nejnápadnějším problémem pro ruské internetové publikum byla nemožnost přístupu na sociální síť VKontakte. Nejzajímavější je, že úplné odstranění následků krátkodobého výpadku proudu trvalo asi 12 hodin.

EU

V EU bylo v roce 2018 zaznamenáno několik vážných incidentů. V březnu došlo k poruše v datovém centru leteckého dopravce KLM: na 10 minut bylo vypnuto napájení a výkon dieselagregátů nestačil pro provoz zařízení. Část serverů vypadla a letecká společnost musela zrušit nebo přeplánovat několik desítek letů.

Nejde o jediný incident související s leteckou dopravou – již v dubnu došlo k poruše v napájecím systému datového centra Eurocontrol. Organizace řídí pohyb letadel v Evropské unii, a zatímco specialisté 5 hodin odstraňovali následky nehody, cestující opět museli snášet zpoždění a přesuny letů.

Velmi vážné problémy vznikají kvůli nehodám v datových centrech sloužících finančnímu sektoru. Náklady na přerušení transakcí jsou zde obvykle vysoké a úroveň spolehlivosti objektů je přiměřená, ale to vás nezachrání před incidenty. Severská burza NASDAQ (Helsinki, Finsko) nemohla 18. dubna během dne obchodovat v celé severní Evropě kvůli neoprávněnému spuštění plynového hasicího systému v komerčním datovém centru DigiPlex, které bylo zatemněno.

7. června donutily výpadky datových center londýnskou burzu (LSE) odložit začátek obchodování o hodinu. V červnu byly navíc v Evropě kvůli poruše v datovém centru na celý den deaktivovány služby mezinárodního platebního systému VISA a podrobnosti incidentu nebyly zveřejněny.

Japonsko

V létě 2018 vypukl v podzemních podlažích budovaného datového centra Amazon na předměstí Tokia požár, při kterém zemřelo 5 pracovníků a nejméně 50 bylo zraněno.Požár poškodil asi 5000 m2 areálu zařízení. Vyšetřování ukázalo, že příčinou požáru byl lidský faktor: při neopatrné manipulaci s acetylenovými hořáky došlo ke vznícení izolace.

Důvody neúspěchů

Výše uvedený seznam incidentů není zdaleka úplný, kvůli nehodám v datových centrech trpí zákazníci bank a telekomunikačních operátorů, poskytovatelé cloudu odcházejí do režimu offline a dokonce dochází k přerušení tísňových služeb. Malý výpadek služby může mít za následek značné ztráty, přičemž většina poruch (39 %) souvisí s napájecím systémem, uvádí Uptime Institute. Na druhém místě (24 %) je lidský faktor a na třetím (15 %) klimatizační systém. Pouze 12 % nehod v datových centrech lze připsat přírodním jevům a pouze 10 % z nich se stane z jiných než uvedených důvodů.

Navzdory přísným standardům spolehlivosti a bezpečnosti není žádný objekt pojištěn proti incidentům. Většina z nich je způsobena výpadky proudu nebo lidskými chybami. Těmto dvěma faktorům by měli věnovat pozornost především majitelé datových center a serveroven a zákazníci by měli pochopit, že ani lídři trhu nemohou zaručit absolutní spolehlivost. Pokud zařízení nebo cloudová služba slouží kritickým obchodním procesům, měli byste přemýšlet o záložním místě.

Zdroj fotografií: telecombloger.ru

Zdroj: www.habr.com

Přidat komentář