Veľké havárie v dátových centrách: príčiny a následky

Moderné dátové centrá sú spoľahlivé, ale každé zariadenie sa z času na čas pokazí. V tomto krátkom článku sme zhromaždili najvýznamnejšie incidenty roku 2018.

Veľké havárie v dátových centrách: príčiny a následky

Rastie vplyv digitálnych technológií na ekonomiku, zvyšuje sa objem spracovávaných informácií, budujú sa nové zariadenia, a to je dobré, pokiaľ všetko funguje. Bohužiaľ, ekonomický dopad zlyhaní dátových centier sa tiež zvyšuje, odkedy ľudia začali prevádzkovať kritickú IT infraštruktúru ako nevyhnutný dôsledok digitalizácie. Zverejňujeme malý výber najpozoruhodnejších nehôd, ktoré sa minulý rok stali v rôznych krajinách.

Spojené štáty americké

Táto krajina je uznávaným lídrom v oblasti výstavby dátových centier. Spojené štáty americké majú najväčší počet veľkých komerčných a podnikových dátových centier slúžiacich globálnym službám, takže následky incidentov sú najvýznamnejšie. Začiatkom marca došlo v štyroch zariadeniach Equinix k výpadkom elektriny v dôsledku silného cyklónu. Priestor bol použitý pre zariadenia Amazon Web Services (AWS); nehoda viedla k nedostupnosti mnohých obľúbených služieb: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio a mCapital One, ako aj virtuálneho asistenta Amazon Alexa, boli ovplyvnené.

V septembri zasiahli anomálie počasia dátové centrá spoločnosti Microsoft nachádzajúce sa v Texase. Potom sa v dôsledku búrky prerušil systém napájania celého regiónu a v dátovom centre, ktoré prešlo na napájanie z dieselového generátora, nie je známe, prečo chladenie vypnuté. Odstraňovanie následkov havárie trvalo niekoľko dní a aj keď vďaka vyvažovaniu záťaže sa tento výpadok nestal kritickým, mierne spomalenie prevádzky cloudových služieb Microsoftu zaznamenali používatelia na celom svete.

Rusko

Najvážnejšia nehoda sa stala 20. augusta v jednom z dátových centier Rostelecomu. Kvôli tomu sa na 66 hodín zastavili servery Jednotného štátneho registra nehnuteľností, a preto ich bolo potrebné presunúť na záložnú stránku. Rosreestr dokázal obnoviť spracovanie žiadostí prijatých všetkými kanálmi až 3. septembra - vládna organizácia sa snaží získať späť veľkú sumu od Rostelecomu za porušenie dohody o úrovni služieb.

16. februára bol kvôli problémom v sieťach Lenenergo zapnutý záložný systém napájania v dátovom centre Xelnet (St. Petersburg). Krátkodobé prerušenie sínusovej vlny viedlo k prerušeniu prevádzky mnohých služieb: bol ovplyvnený najmä veľký poskytovateľ cloudu 1cloud, ale najvýraznejším problémom pre ruské internetové publikum bola nemožnosť prístupu na stránku sociálnej siete VKontakte. . Najzaujímavejšie je, že úplné odstránenie následkov krátkodobého výpadku prúdu trvalo približne 12 hodín.

Európska únia

V roku 2018 bolo v EÚ zaznamenaných niekoľko vážnych incidentov. V marci došlo k poruche v dátovom centre leteckej spoločnosti KLM: napájanie bolo prerušené na 10 minút a výkon dieselagregátov nestačil na prevádzku zariadenia. Niektoré servery vypadli a letecká spoločnosť musela zrušiť alebo preplánovať niekoľko desiatok letov.

Nejde o jediný incident súvisiaci s leteckou dopravou – už v apríli došlo k poruche v napájacom systéme dátového centra Eurocontrol. Organizácia kontroluje pohyb lietadiel v Európskej únii a kým špecialisti strávili 5 hodín odstraňovaním následkov havárie, pasažieri opäť museli znášať meškania a preložené lety.

Veľmi vážne problémy vznikajú v dôsledku nehôd v dátových centrách slúžiacich finančnému sektoru. Náklady na prerušenia transakcií sú tu zvyčajne vysoké a úroveň spoľahlivosti zariadení je primeraná, ale to nezabráni incidentom. Severská burza NASDAQ (Helsinki, Fínsko) nemohla 18. apríla počas dňa obchodovať v celej severnej Európe z dôvodu neoprávnenej aktivácie plynového hasiaceho systému v komerčnom dátovom centre DigiPlex, ktoré bolo náhle bez prúdu.

7. júna výpadky dátového centra prinútili londýnsku burzu (LSE) odložiť začiatok obchodovania o hodinu. Okrem toho boli v júni v Európe z dôvodu poruchy v dátovom centre na celý deň deaktivované služby medzinárodného platobného systému VISA a podrobnosti incidentu neboli nikdy zverejnené.

Japonsko

V lete 2018 došlo k požiaru v podzemných podlažiach rozostavaného dátového centra Amazonu na predmestí Tokia, pri ktorom zahynulo 5 pracovníkov a najmenej 50 bolo zranených. Požiar poškodil približne 5000 m2 zariadenia. Vyšetrovanie ukázalo, že príčinou požiaru bola ľudská chyba: pri neopatrnej manipulácii s acetylénovými horákmi sa vznietila izolácia.

Príčiny neúspechov

Vyššie uvedený zoznam incidentov nie je ani zďaleka úplný, v dôsledku nehôd v dátových centrách trpia klienti bánk a telekomunikačných operátorov, služby cloudových poskytovateľov odchádzajú do režimu offline a dokonca je narušená aj práca pohotovostných služieb. Malý výpadok služby môže viesť k veľkým stratám a väčšina výpadkov (39 %) súvisí s elektrickým systémom, uvádza Uptime Institute. Na druhom mieste (24 %) je ľudský faktor a na treťom (15 %) klimatizačný systém. Len 12 % nehôd v dátových centrách možno pripísať prírodným javom a len 10 % z nich sa vyskytuje z iných dôvodov, ako sú uvedené.

Napriek prísnym štandardom spoľahlivosti a bezpečnosti nie je žiadne zariadenie odolné voči incidentom. Väčšina z nich sa vyskytuje v dôsledku výpadkov napájania alebo ľudských chýb. Majitelia dátových centier a serverových miestností by mali v prvom rade venovať pozornosť týmto dvom faktorom a zákazníci by mali pochopiť: absolútnu spoľahlivosť nemôžu zaručiť ani lídri na trhu. Ak vybavenie alebo cloudová služba slúžia kritickým obchodným procesom, mali by ste porozmýšľať nad záložným miestom.

Zdroj fotografií: telecombloger.ru

Zdroj: hab.com

Pridať komentár