Hlavnou príčinou nehôd v dátových centrách je tesnenie medzi počítačom a stoličkou

Téma veľkých havárií v moderných dátových centrách vyvoláva otázky, ktoré neboli zodpovedané v prvom článku – rozhodli sme sa ju rozvinúť.

Hlavnou príčinou nehôd v dátových centrách je tesnenie medzi počítačom a stoličkou

Podľa štatistík Uptime Institute väčšina incidentov v dátových centrách súvisí s poruchami systému napájania – tvoria 39 % incidentov. Za nimi nasleduje ľudský faktor, ktorý tvorí ďalších 24 % nehôd. Tretím najvýznamnejším dôvodom (15 %) bolo zlyhanie klimatizačného systému a na štvrtom mieste (12 %) boli prírodné katastrofy. Celkový podiel ostatných problémov je len 10 %. Bez spochybňovania údajov uznávanej organizácie poukážeme na niečo spoločné pri rôznych nehodách a pokúsime sa pochopiť, či sa im dalo predísť. Spoiler: vo väčšine prípadov je to možné.

Veda o kontaktoch

Zjednodušene povedané, existujú iba dva problémy s napájaním: buď nie je kontakt tam, kde by mal byť, alebo je kontakt tam, kde by kontakt nemal byť. O spoľahlivosti moderných systémov neprerušiteľného napájania môžete hovoriť dlho, ale nie vždy vás zachránia. Zoberme si známy prípad dátového centra používaného spoločnosťou British Airways, ktoré vlastní materská spoločnosť International Airlines Group. V blízkosti letiska Heathrow sa nachádzajú dve takéto nehnuteľnosti – Boadicea House a Comet House. V prvom z nich došlo 27. mája 2017 k náhodnému výpadku prúdu, ktorý viedol k preťaženiu a poruche systému UPS. Výsledkom bolo fyzické poškodenie niektorých IT zariadení a odstránenie poslednej katastrofy trvalo tri dni.

Letecká spoločnosť musela zrušiť alebo preplánovať viac ako tisíc letov, približne 75-tisíc pasažierov nedokázalo odletieť načas – na vyplatenie kompenzácie sa minulo 128 miliónov dolárov, nerátajúc náklady potrebné na obnovenie funkčnosti dátových centier. História príčin výpadku je nejasná. Ak veríte výsledkom interného vyšetrovania, ktoré oznámil generálny riaditeľ International Airlines Group Willie Walsh, bola to chyba inžinierov. Systém neprerušiteľného napájania však takémuto odstaveniu musel vydržať – preto bol nainštalovaný. Dátové centrum spravovali špecialisti z outsourcingovej spoločnosti CBRE Managed Services, a tak sa British Airways pokúsili vymôcť výšku škody prostredníctvom londýnskeho súdu.

Hlavnou príčinou nehôd v dátových centrách je tesnenie medzi počítačom a stoličkou

Výpadky elektriny sa vyskytujú v podobných scenároch: najprv dôjde k výpadku v dôsledku chyby dodávateľa elektriny, niekedy v dôsledku nepriaznivého počasia alebo vnútorných problémov (vrátane ľudských chýb), a potom systém neprerušiteľného napájania nedokáže zvládnuť záťaž alebo skrat. - dlhodobé prerušenie sínusoidy spôsobuje výpadky mnohých služieb, ktorých obnova si vyžaduje veľa času a peňazí. Dá sa takýmto nehodám vyhnúť? Nepochybne. Ak správne navrhnete systém, ani tvorcovia veľkých dátových centier nie sú imúnni voči chybám.

Ľudský faktor

Ak je bezprostrednou príčinou incidentu nesprávne konanie personálu dátového centra, problémy najčastejšie (ale nie vždy) postihujú softvérovú časť IT infraštruktúry. K takýmto nehodám dochádza aj vo veľkých korporáciách. Vo februári 2017 bola v dôsledku nesprávne prijatého člena tímu technickej prevádzkovej skupiny jedného z dátových centier deaktivovaná časť serverov Amazon Web Services. Pri ladení procesu fakturácie pre zákazníkov cloudového úložiska Amazon Simple Storage Service (S3) sa vyskytla chyba. Zamestnanec sa pokúsil odstrániť niekoľko virtuálnych serverov používaných fakturačným systémom, ale narazil na väčší klaster.

Hlavnou príčinou nehôd v dátových centrách je tesnenie medzi počítačom a stoličkou

V dôsledku chyby inžiniera boli servery s dôležitými softvérovými modulmi cloudového úložiska Amazon odstránené. Prvým postihnutým bol indexovací subsystém, ktorý obsahuje informácie o metadátach a umiestnení všetkých objektov S3 v americkom regióne US-EAST-1. Incident ovplyvnil aj podsystém používaný na hosťovanie údajov a správu priestoru dostupného na ukladanie. Po odstránení virtuálnych strojov si tieto dva subsystémy vyžadovali úplný reštart a potom čakalo inžinierov Amazonu prekvapenie – verejné cloudové úložisko dlho nedokázalo obslúžiť požiadavky zákazníkov.

Vplyv bol rozsiahly, pretože mnoho veľkých zdrojov používa Amazon S3. Výpadky zasiahli Trello, Coursera, IFTTT a najnepríjemnejšie aj služby hlavných partnerov Amazonu zo zoznamu S&P 500. Škody sa v takýchto prípadoch ťažko vyčíslujú, ale pohybovali sa v stovkách miliónov amerických dolárov. Ako vidíte, jeden nesprávny príkaz stačí na deaktiváciu služby najväčšej cloudovej platformy. Nejde o ojedinelý prípad, 16. mája 2019 počas údržbových prác služba Yandex.Cloud vymazané virtuálne počítače používateľov v zóne ru-central1-c, ktorí boli aspoň raz v stave POZASTAVENÉ. Dáta klientov tu už boli poškodené, niektoré z nich boli nenávratne stratené. Ľudia sú, samozrejme, nedokonalí, ale moderné systémy informačnej bezpečnosti už dávno dokážu monitorovať akcie privilegovaných používateľov pred vykonaním zadaných príkazov. Ak sú takéto riešenia implementované v Yandex alebo Amazon, takýmto incidentom sa dá vyhnúť.

Hlavnou príčinou nehôd v dátových centrách je tesnenie medzi počítačom a stoličkou

Mrazené chladenie

V januári 2017 došlo k veľkej nehode v dátovom centre Dmitrov spoločnosti Megafon. Potom teplota v moskovskom regióne klesla na -35 °C, čo viedlo k poruche chladiaceho systému zariadenia. Tlačová služba operátora o dôvodoch incidentu konkrétne nehovorila - ruské spoločnosti sa mimoriadne zdráhajú hovoriť o nehodách v zariadeniach, ktoré vlastnia, čo sa týka publicity, za Západom výrazne zaostávame. Na sociálnych sieťach kolovala verzia o zamrznutí chladiacej kvapaliny v potrubiach položených pozdĺž ulice a úniku etylénglykolu. Prevádzková služba podľa nej pre dlhé dovolenky nedokázala rýchlo získať 30 ton chladiacej kvapaliny a dostala sa von pomocou improvizovaných prostriedkov, pričom v rozpore s pravidlami prevádzky systému zorganizovala improvizované voľné chladenie. Prudké prechladnutie problém ešte prehĺbilo – v januári náhle zasiahla Rusko zima, hoci to nikto nečakal. V dôsledku toho musel personál vypnúť napájanie časti serverových stojanov, a preto boli niektoré služby operátora dva dni nedostupné.

Hlavnou príčinou nehôd v dátových centrách je tesnenie medzi počítačom a stoličkou

Pravdepodobne tu môžeme hovoriť o anomálii počasia, ale takéto mrazy nie sú pre región hlavného mesta ničím nezvyčajným. Teploty v zime v moskovskom regióne môžu klesnúť na nižšie úrovne, preto sa dátové centrá stavajú s očakávaním stabilnej prevádzky pri -42°C. Chladiace systémy najčastejšie zlyhávajú v chladnom počasí v dôsledku nedostatočne vysokej koncentrácie glykolov a prebytočnej vody v chladiacom roztoku. Vyskytujú sa aj problémy s inštaláciou potrubí alebo s nesprávnymi výpočtami pri navrhovaní a testovaní systému, spojené najmä s túžbou ušetriť peniaze. V dôsledku toho z ničoho nič dôjde k vážnej nehode, ktorej sa dalo predísť.

Prírodné katastrofy

Búrky a/alebo hurikány najčastejšie narušia inžiniersku infraštruktúru dátového centra, čo vedie k prerušeniu služieb a/alebo fyzickému poškodeniu zariadenia. Incidenty spôsobené zlým počasím sa vyskytujú pomerne často. V roku 2012 sa cez západné pobrežie USA prehnal hurikán Sandy s výdatnými zrážkami. Dátové centrum Peer 1 sa nachádza vo výškovej budove na Dolnom Manhattane stratené externé napájanie, po tom, čo slaná morská voda zaplavila pivnice. Núdzové generátory zariadenia boli umiestnené na 18. poschodí a ich zásoba paliva bola obmedzená – pravidlá zavedené v New Yorku po teroristických útokoch z 9. septembra zakazujú skladovanie veľkého množstva paliva na horných poschodiach.

Zlyhalo aj palivové čerpadlo, a tak personál niekoľko dní ručne ťahal naftu ku generátorom. Hrdinstvo tímu zachránilo dátové centrum pred vážnou nehodou, ale bolo to naozaj nevyhnutné? Žijeme na planéte s dusíkovo-kyslíkovou atmosférou a množstvom vody. Búrky a hurikány sú tu bežné (najmä v pobrežných oblastiach). Dizajnéri by pravdepodobne urobili dobre, keby zvážili súvisiace riziká a vybudovali vhodný systém neprerušiteľného napájania. Alebo aspoň vybrať vhodnejšie miesto pre dátové centrum ako výškovú budovu na ostrove.

Všetko ostatné

Uptime Institute identifikuje rôzne incidenty v tejto kategórii, medzi ktorými je ťažké vybrať jeden typický. Krádeže medených káblov, narážanie áut do dátových centier, podpery elektrického vedenia a trafostanice, požiare, bagristi poškodzujúci optiku, hlodavce (potkany, králiky a dokonca aj vombaty, čo sú vlastne vačnatci), ako aj tí, ktorí si radi precvičujú streľbu na drôty - ponuka je rozsiahla . Príčinou môžu byť aj výpadky prúdu kradnutie elektrina nelegálne marihuanové plantáže. Vo väčšine prípadov sa vinníkmi incidentu stávajú konkrétni ľudia, teda opäť máme do činenia s ľudským faktorom, keď problém má meno a priezvisko. Aj keď je nehoda na prvý pohľad spojená s technickou poruchou alebo prírodnými katastrofami, dá sa jej predísť za predpokladu, že je zariadenie správne navrhnuté a správne prevádzkované. Jedinou výnimkou sú prípady kritického poškodenia infraštruktúry dátového centra alebo zničenia budov a štruktúr v dôsledku prírodnej katastrofy. Toto sú skutočne okolnosti vyššej moci a všetky ostatné problémy spôsobuje tesnenie medzi počítačom a stoličkou - možno je to najnespoľahlivejšia časť akéhokoľvek zložitého systému.

Zdroj: hab.com

Pridať komentár