Hlavní příčinou nehod v datových centrech je těsnění mezi počítačem a židlí

Téma velkých havárií v moderních datových centrech vyvolává otázky, které nebyly zodpovězeny v prvním článku – rozhodli jsme se jej rozvinout.

Hlavní příčinou nehod v datových centrech je těsnění mezi počítačem a židlí

Podle statistik Uptime Institute souvisí většina incidentů v datových centrech s poruchami napájecího systému – tvoří 39 % incidentů. Za nimi následuje lidský faktor, který tvoří dalších 24 % nehod. Třetím nejvýznamnějším důvodem (15 %) byla porucha klimatizačního systému a na čtvrtém místě (12 %) přírodní katastrofy. Celkový podíl ostatních potíží je pouze 10 %. Aniž bychom zpochybňovali data respektované organizace, upozorníme na něco společného u různých nehod a pokusíme se pochopit, zda se jim dalo předejít. Spoiler: ve většině případů je to možné.

Věda o kontaktech

Zjednodušeně řečeno, existují pouze dva problémy s napájením: buď není kontakt tam, kde by měl být, nebo je kontakt tam, kde by kontakt být neměl. O spolehlivosti moderních systémů nepřerušitelného napájení můžete mluvit dlouho, ale ne vždy vás zachrání. Vezměme si příkladný případ datového centra používaného British Airways, které vlastní mateřská společnost International Airlines Group. V blízkosti letiště Heathrow se nacházejí dvě takové nemovitosti – Boadicea House a Comet House. V prvním z nich došlo 27. května 2017 k náhodnému výpadku proudu, který vedl k přetížení a selhání systému UPS. V důsledku toho byla některá zařízení IT fyzicky poškozena a řešení poslední katastrofy trvalo tři dny.

Letecká společnost musela zrušit nebo přeplánovat více než tisíc letů, zhruba 75 tisíc cestujících nedokázalo odletět včas – na vyplacení kompenzací bylo vynaloženo 128 milionů dolarů, nepočítaje náklady nutné k obnovení funkčnosti datových center. Historie důvodů blackoutu je nejasná. Pokud věříte výsledkům interního vyšetřování, které oznámil generální ředitel International Airlines Group Willie Walsh, bylo to kvůli chybě techniků. Systém nepřerušitelného napájení však musel takové odstavení vydržet - proto byl instalován. Datové centrum spravovali specialisté z outsourcingové společnosti CBRE Managed Services, a tak se British Airways pokusily vymáhat výši škody prostřednictvím londýnského soudu.

Hlavní příčinou nehod v datových centrech je těsnění mezi počítačem a židlí

K výpadkům proudu dochází v podobných scénářích: nejprve dojde k výpadku elektřiny vinou dodavatele elektřiny, někdy kvůli špatnému počasí nebo vnitřním problémům (včetně lidských chyb), a poté systém nepřerušitelného napájení nezvládne zátěž nebo zkrat. -dlouhodobé přerušení sinusovky způsobuje výpadky mnoha služeb, jejichž obnova zabere spoustu času a peněz. Je možné takovým nehodám předejít? Nepochybně. Pokud systém navrhnete správně, ani tvůrci velkých datových center nejsou imunní vůči chybám.

Lidský faktor

Pokud je bezprostřední příčinou incidentu nesprávné jednání personálu datového centra, problémy nejčastěji (ale ne vždy) postihují softwarovou část IT infrastruktury. K takovým nehodám dochází i ve velkých korporacích. V únoru 2017 byla kvůli nesprávně přijatému členu týmu technické provozní skupiny jednoho z datových center deaktivována část serverů Amazon Web Services. Při ladění procesu fakturace pro zákazníky cloudového úložiště Amazon Simple Storage Service (S3) došlo k chybě. Zaměstnanec se pokusil odstranit několik virtuálních serverů používaných fakturačním systémem, ale narazil na větší cluster.

Hlavní příčinou nehod v datových centrech je těsnění mezi počítačem a židlí

V důsledku chyby inženýra byly servery s důležitými softwarovými moduly cloudového úložiště Amazon odstraněny. Prvním postiženým byl indexovací subsystém, který obsahuje informace o metadatech a umístění všech objektů S3 v americkém regionu US-EAST-1. Incident také ovlivnil subsystém používaný k hostování dat a správě místa dostupného pro úložiště. Po smazání virtuálních strojů tyto dva subsystémy vyžadovaly kompletní restart a poté čekalo inženýry Amazonu překvapení – veřejné cloudové úložiště nebylo dlouho schopno obsluhovat požadavky zákazníků.

Dopad byl rozsáhlý, protože mnoho velkých zdrojů používá Amazon S3. Výpadky se dotkly Trello, Coursera, IFTTT a nejnepříjemněji i služby hlavních partnerů Amazonu ze seznamu S&P 500. Škody se v takových případech těžko počítají, ale pohybovaly se v řádu stovek milionů amerických dolarů. Jak vidíte, k deaktivaci služby největší cloudové platformy stačí jeden špatný příkaz. Nejedná se o ojedinělý případ, 16. května 2019 během údržby služba Yandex.Cloud smazáno virtuální počítače uživatelů v zóně ru-central1-c, kteří byli alespoň jednou ve stavu POZASTAVENO. Zde již došlo k poškození klientských dat, z nichž některá byla nenávratně ztracena. Lidé jsou samozřejmě nedokonalí, ale moderní systémy informační bezpečnosti již dávno dokážou sledovat akce privilegovaných uživatelů před provedením zadaných příkazů. Pokud jsou taková řešení implementována v Yandexu nebo Amazonu, lze se takovým incidentům vyhnout.

Hlavní příčinou nehod v datových centrech je těsnění mezi počítačem a židlí

Zamrzlé chlazení

V lednu 2017 došlo k velké nehodě v datovém centru Dmitrov společnosti Megafon. Poté teplota v moskevské oblasti klesla na -35 °C, což vedlo k selhání chladicího systému zařízení. Tisková služba operátora o důvodech incidentu nijak zvlášť nehovořila – ruské společnosti se extrémně zdráhají mluvit o nehodách v zařízeních, která vlastní, z hlediska publicity za Západem výrazně zaostáváme. Na sociálních sítích kolovala verze o zamrzání chladicí kapaliny v potrubí položených podél ulice a úniku etylenglykolu. Provozní služba podle ní nemohla kvůli dlouhým prázdninám rychle získat 30 tun chladicí kapaliny a dostala se ven pomocí improvizovaných prostředků, kdy zorganizovala improvizované volné chlazení v rozporu s pravidly provozu systému. Silné nachlazení problém prohloubilo - v lednu náhle zasáhla Rusko zima, ačkoli to nikdo nečekal. V důsledku toho musel personál vypnout napájení části serverových stojanů, a proto byly některé služby operátora dva dny nedostupné.

Hlavní příčinou nehod v datových centrech je těsnění mezi počítačem a židlí

Pravděpodobně zde můžeme mluvit o anomálii počasí, ale takové mrazy nejsou pro oblast hlavního města ničím neobvyklým. Teploty v zimě v moskevské oblasti mohou klesnout na nižší úrovně, proto se datová centra budují s předpokladem stabilního provozu při -42 °C. Nejčastěji chladicí systémy selhávají v chladném počasí kvůli nedostatečně vysoké koncentraci glykolů a přebytečné vody v chladicím roztoku. Problémy jsou také s instalací potrubí nebo se špatnými výpočty při návrhu a testování systému, spojené především s touhou ušetřit peníze. V důsledku toho z ničeho nic dojde k vážné nehodě, které se dalo předejít.

Přírodní katastrofy

Nejčastěji bouřky a/nebo hurikány narušují inženýrskou infrastrukturu datového centra, což vede k přerušení služeb a/nebo fyzickému poškození zařízení. K incidentům způsobeným špatným počasím dochází poměrně často. V roce 2012 se západním pobřežím USA přehnal hurikán Sandy s vydatnými srážkami. Datové centrum Peer 1 se nachází ve výškové budově v Dolním Manhattanu ztracené externí napájenípoté, co slaná mořská voda zaplavila sklepy. Nouzové generátory zařízení byly umístěny v 18. patře a jejich zásoba paliva byla omezená – pravidla zavedená v New Yorku po teroristických útocích z 9. září zakazují skladování velkého množství paliva v horních patrech.

Selhalo i palivové čerpadlo, a tak obsluha několik dní ručně tahala naftu ke generátorům. Hrdinství týmu zachránilo datové centrum před vážnou nehodou, ale bylo to opravdu nutné? Žijeme na planetě s dusíkovo-kyslíkovou atmosférou a spoustou vody. Bouřky a hurikány jsou zde běžné (zejména v přímořských oblastech). Konstruktéři by pravděpodobně udělali dobře, kdyby zvážili související rizika a postavili vhodný systém nepřerušitelného napájení. Nebo alespoň vybrat vhodnější místo pro datové centrum než výškovou budovu na ostrově.

Všechno ostatní

Uptime Institute identifikuje různé incidenty v této kategorii, mezi nimiž je obtížné vybrat jeden typický. Krádeže měděných kabelů, narážení aut do datových center, podpěry elektrického vedení a trafostanice, požáry, obsluha bagrů poškozující optiku, hlodavci (krysy, králíci a dokonce vombati, což jsou vlastně vačnatci), ale i ti, kteří rádi cvičí střelbu na dráty - nabídka je rozsáhlá . Mohou dokonce způsobit výpadky proudu kradení elektřina nelegální marihuanové plantáže. Ve většině případů se viníky incidentu stávají konkrétní lidé, tedy opět máme co do činění s lidským faktorem, kdy problém má jméno a příjmení. I když je nehoda na první pohled spojena s technickou poruchou nebo přírodní katastrofou, lze jí předejít, pokud je zařízení správně navrženo a správně provozováno. Jedinou výjimkou jsou případy kritického poškození infrastruktury datového centra nebo zničení budov a staveb v důsledku přírodní katastrofy. Toto jsou skutečně okolnosti vyšší moci a všechny ostatní problémy jsou způsobeny těsněním mezi počítačem a židlí - možná je to ta nejnespolehlivější část jakéhokoli složitého systému.

Zdroj: www.habr.com

Přidat komentář