Téma veľkých havárií v moderných dátových centrách vyvoláva otázky, ktoré neboli zodpovedané v prvom článku – rozhodli sme sa ju rozvinúť.
Podľa štatistík Uptime Institute väčšina incidentov v dátových centrách súvisí s poruchami systému napájania – tvoria 39 % incidentov. Za nimi nasleduje ľudský faktor, ktorý tvorí ďalších 24 % nehôd. Tretím najvýznamnejším dôvodom (15 %) bolo zlyhanie klimatizačného systému a na štvrtom mieste (12 %) boli prírodné katastrofy. Celkový podiel ostatných problémov je len 10 %. Bez spochybňovania údajov uznávanej organizácie poukážeme na niečo spoločné pri rôznych nehodách a pokúsime sa pochopiť, či sa im dalo predísť. Spoiler: vo väčšine prípadov je to možné.
Veda o kontaktoch
Zjednodušene povedané, existujú iba dva problémy s napájaním: buď nie je kontakt tam, kde by mal byť, alebo je kontakt tam, kde by kontakt nemal byť. O spoľahlivosti moderných systémov neprerušiteľného napájania môžete hovoriť dlho, ale nie vždy vás zachránia. Zoberme si známy prípad dátového centra používaného spoločnosťou British Airways, ktoré vlastní materská spoločnosť International Airlines Group. V blízkosti letiska Heathrow sa nachádzajú dve takéto nehnuteľnosti – Boadicea House a Comet House. V prvom z nich došlo 27. mája 2017 k náhodnému výpadku prúdu, ktorý viedol k preťaženiu a poruche systému UPS. Výsledkom bolo fyzické poškodenie niektorých IT zariadení a odstránenie poslednej katastrofy trvalo tri dni.
Letecká spoločnosť musela zrušiť alebo preplánovať viac ako tisíc letov, približne 75-tisíc pasažierov nedokázalo odletieť načas – na vyplatenie kompenzácie sa minulo 128 miliónov dolárov, nerátajúc náklady potrebné na obnovenie funkčnosti dátových centier. História príčin výpadku je nejasná. Ak veríte výsledkom interného vyšetrovania, ktoré oznámil generálny riaditeľ International Airlines Group Willie Walsh, bola to chyba inžinierov. Systém neprerušiteľného napájania však takémuto odstaveniu musel vydržať – preto bol nainštalovaný. Dátové centrum spravovali špecialisti z outsourcingovej spoločnosti CBRE Managed Services, a tak sa British Airways pokúsili vymôcť výšku škody prostredníctvom londýnskeho súdu.
Výpadky elektriny sa vyskytujú v podobných scenároch: najprv dôjde k výpadku v dôsledku chyby dodávateľa elektriny, niekedy v dôsledku nepriaznivého počasia alebo vnútorných problémov (vrátane ľudských chýb), a potom systém neprerušiteľného napájania nedokáže zvládnuť záťaž alebo skrat. - dlhodobé prerušenie sínusoidy spôsobuje výpadky mnohých služieb, ktorých obnova si vyžaduje veľa času a peňazí. Dá sa takýmto nehodám vyhnúť? Nepochybne. Ak správne navrhnete systém, ani tvorcovia veľkých dátových centier nie sú imúnni voči chybám.
Ľudský faktor
Ak je bezprostrednou príčinou incidentu nesprávne konanie personálu dátového centra, problémy najčastejšie (ale nie vždy) postihujú softvérovú časť IT infraštruktúry. K takýmto nehodám dochádza aj vo veľkých korporáciách. Vo februári 2017 bola v dôsledku nesprávne prijatého člena tímu technickej prevádzkovej skupiny jedného z dátových centier deaktivovaná časť serverov Amazon Web Services. Pri ladení procesu fakturácie pre zákazníkov cloudového úložiska Amazon Simple Storage Service (S3) sa vyskytla chyba. Zamestnanec sa pokúsil odstrániť niekoľko virtuálnych serverov používaných fakturačným systémom, ale narazil na väčší klaster.
V dôsledku chyby inžiniera boli servery s dôležitými softvérovými modulmi cloudového úložiska Amazon odstránené. Prvým postihnutým bol indexovací subsystém, ktorý obsahuje informácie o metadátach a umiestnení všetkých objektov S3 v americkom regióne US-EAST-1. Incident ovplyvnil aj podsystém používaný na hosťovanie údajov a správu priestoru dostupného na ukladanie. Po odstránení virtuálnych strojov si tieto dva subsystémy vyžadovali úplný reštart a potom čakalo inžinierov Amazonu prekvapenie – verejné cloudové úložisko dlho nedokázalo obslúžiť požiadavky zákazníkov.
Vplyv bol rozsiahly, pretože mnoho veľkých zdrojov používa Amazon S3. Výpadky zasiahli Trello, Coursera, IFTTT a najnepríjemnejšie aj služby hlavných partnerov Amazonu zo zoznamu S&P 500. Škody sa v takýchto prípadoch ťažko vyčíslujú, ale pohybovali sa v stovkách miliónov amerických dolárov. Ako vidíte, jeden nesprávny príkaz stačí na deaktiváciu služby najväčšej cloudovej platformy. Nejde o ojedinelý prípad, 16. mája 2019 počas údržbových prác služba Yandex.Cloud
Mrazené chladenie
V januári 2017 došlo k veľkej nehode v dátovom centre Dmitrov spoločnosti Megafon. Potom teplota v moskovskom regióne klesla na -35 °C, čo viedlo k poruche chladiaceho systému zariadenia. Tlačová služba operátora o dôvodoch incidentu konkrétne nehovorila - ruské spoločnosti sa mimoriadne zdráhajú hovoriť o nehodách v zariadeniach, ktoré vlastnia, čo sa týka publicity, za Západom výrazne zaostávame. Na sociálnych sieťach kolovala verzia o zamrznutí chladiacej kvapaliny v potrubiach položených pozdĺž ulice a úniku etylénglykolu. Prevádzková služba podľa nej pre dlhé dovolenky nedokázala rýchlo získať 30 ton chladiacej kvapaliny a dostala sa von pomocou improvizovaných prostriedkov, pričom v rozpore s pravidlami prevádzky systému zorganizovala improvizované voľné chladenie. Prudké prechladnutie problém ešte prehĺbilo – v januári náhle zasiahla Rusko zima, hoci to nikto nečakal. V dôsledku toho musel personál vypnúť napájanie časti serverových stojanov, a preto boli niektoré služby operátora dva dni nedostupné.
Pravdepodobne tu môžeme hovoriť o anomálii počasia, ale takéto mrazy nie sú pre región hlavného mesta ničím nezvyčajným. Teploty v zime v moskovskom regióne môžu klesnúť na nižšie úrovne, preto sa dátové centrá stavajú s očakávaním stabilnej prevádzky pri -42°C. Chladiace systémy najčastejšie zlyhávajú v chladnom počasí v dôsledku nedostatočne vysokej koncentrácie glykolov a prebytočnej vody v chladiacom roztoku. Vyskytujú sa aj problémy s inštaláciou potrubí alebo s nesprávnymi výpočtami pri navrhovaní a testovaní systému, spojené najmä s túžbou ušetriť peniaze. V dôsledku toho z ničoho nič dôjde k vážnej nehode, ktorej sa dalo predísť.
Prírodné katastrofy
Búrky a/alebo hurikány najčastejšie narušia inžiniersku infraštruktúru dátového centra, čo vedie k prerušeniu služieb a/alebo fyzickému poškodeniu zariadenia. Incidenty spôsobené zlým počasím sa vyskytujú pomerne často. V roku 2012 sa cez západné pobrežie USA prehnal hurikán Sandy s výdatnými zrážkami. Dátové centrum Peer 1 sa nachádza vo výškovej budove na Dolnom Manhattane
Zlyhalo aj palivové čerpadlo, a tak personál niekoľko dní ručne ťahal naftu ku generátorom. Hrdinstvo tímu zachránilo dátové centrum pred vážnou nehodou, ale bolo to naozaj nevyhnutné? Žijeme na planéte s dusíkovo-kyslíkovou atmosférou a množstvom vody. Búrky a hurikány sú tu bežné (najmä v pobrežných oblastiach). Dizajnéri by pravdepodobne urobili dobre, keby zvážili súvisiace riziká a vybudovali vhodný systém neprerušiteľného napájania. Alebo aspoň vybrať vhodnejšie miesto pre dátové centrum ako výškovú budovu na ostrove.
Všetko ostatné
Uptime Institute identifikuje rôzne incidenty v tejto kategórii, medzi ktorými je ťažké vybrať jeden typický. Krádeže medených káblov, narážanie áut do dátových centier, podpery elektrického vedenia a trafostanice, požiare, bagristi poškodzujúci optiku, hlodavce (potkany, králiky a dokonca aj vombaty, čo sú vlastne vačnatci), ako aj tí, ktorí si radi precvičujú streľbu na drôty - ponuka je rozsiahla . Príčinou môžu byť aj výpadky prúdu
Zdroj: hab.com