Główną przyczyną wypadków w centrach danych jest uszczelka między komputerem a krzesłem

Temat poważnych awarii we współczesnych centrach danych rodzi pytania, na które nie padły odpowiedzi w pierwszym artykule - postanowiliśmy go rozwinąć.

Główną przyczyną wypadków w centrach danych jest uszczelka między komputerem a krzesłem

Według statystyk Uptime Institute większość incydentów w centrach danych ma związek z awariami systemów zasilania – stanowią one 39% incydentów. Na drugim miejscu znajduje się czynnik ludzki, który jest przyczyną kolejnych 24% wypadków. Trzecią najczęstszą przyczyną (15%) była awaria systemu klimatyzacji, a na czwartym miejscu (12%) były klęski żywiołowe. Całkowity udział innych problemów wynosi tylko 10%. Nie kwestionując danych szanowanej organizacji, podkreślimy coś wspólnego w przypadku różnych wypadków i spróbujemy zrozumieć, czy można było ich uniknąć. Spoiler: jest to możliwe w większości przypadków.

Nauka kontaktów

Mówiąc najprościej, problemy z zasilaniem są tylko dwa: albo nie ma styku tam, gdzie powinien być, albo jest styk tam, gdzie styku nie powinno być. O niezawodności nowoczesnych systemów zasilania awaryjnego można mówić długo, ale nie zawsze Cię one oszczędzają. Weźmy na przykład głośny przypadek centrum danych wykorzystywanego przez British Airways, którego właścicielem jest spółka matka International Airlines Group. W pobliżu lotniska Heathrow znajdują się dwa takie obiekty – Boadicea House i Comet House. W pierwszym z nich w dniu 27 maja 2017 roku doszło do przypadkowej przerwy w dostawie prądu, która doprowadziła do przeciążenia i awarii systemu UPS. W rezultacie część sprzętu IT została fizycznie uszkodzona, a usunięcie ostatniej awarii zajęło trzy dni.

Linia lotnicza musiała odwołać lub przełożyć ponad tysiąc lotów, około 75 tysięcy pasażerów nie mogło przylecieć na czas – na wypłatę odszkodowań wydano 128 mln dolarów, nie licząc kosztów niezbędnych do przywrócenia funkcjonalności centrów danych. Historia przyczyn blackoutu jest niejasna. Jeśli wierzyć wynikom wewnętrznego dochodzenia ogłoszonego przez dyrektora generalnego International Airlines Group Williego Walsha, było to spowodowane błędem inżynierów. Jednak system zasilania awaryjnego musiał wytrzymać takie wyłączenie - dlatego został zainstalowany. Centrum danych zarządzali specjaliści z firmy outsourcingowej CBRE Managed Services, dlatego British Airways próbowały odzyskać kwotę szkody na drodze londyńskiego sądu.

Główną przyczyną wypadków w centrach danych jest uszczelka między komputerem a krzesłem

Przerwy w dostawie prądu zdarzają się w podobnych scenariuszach: najpierw następuje przerwa w dostawie prądu z winy dostawcy energii elektrycznej, czasem z powodu złej pogody lub problemów wewnętrznych (w tym błędów ludzkich), a następnie system zasilania gwarantowanego nie jest w stanie poradzić sobie z obciążeniem lub zwarciem. -okresowe przerwanie fali sinusoidalnej powoduje awarie wielu usług, których przywrócenie zajmuje dużo czasu i pieniędzy. Czy można uniknąć takich wypadków? Niewątpliwie. Jeśli poprawnie zaprojektujesz system, nawet twórcy dużych centrów danych nie są odporni na błędy.

Czynnik ludzki

Gdy bezpośrednią przyczyną incydentu są nieprawidłowe działania personelu centrum danych, problemy najczęściej (choć nie zawsze) dotyczą części programowej infrastruktury IT. Takie wypadki zdarzają się nawet w dużych korporacjach. W lutym 2017 roku w związku z nieprawidłowo zrekrutowanym członkiem zespołu obsługi technicznej jednego z data center, część serwerów Amazon Web Services została wyłączona. Wystąpił błąd podczas debugowania procesu rozliczeniowego dla klientów magazynu w chmurze Amazon Simple Storage Service (S3). Pracownik próbował usunąć pewną liczbę serwerów wirtualnych używanych przez system rozliczeniowy, ale trafił na większy klaster.

Główną przyczyną wypadków w centrach danych jest uszczelka między komputerem a krzesłem

W wyniku błędu inżyniera usunięte zostały serwery, na których działają ważne moduły oprogramowania do przechowywania danych w chmurze Amazon. Pierwszym dotkniętym problemem był podsystem indeksowania, który zawiera informacje o metadanych i lokalizacji wszystkich obiektów S3 w regionie Ameryki US-EAST-1. Incydent wpłynął również na podsystem używany do przechowywania danych i zarządzania przestrzenią dostępną do przechowywania. Po usunięciu maszyn wirtualnych te dwa podsystemy wymagały całkowitego restartu i wtedy inżynierów Amazona spotkała niespodzianka – przez długi czas pamięć masowa w chmurze publicznej nie była w stanie obsłużyć żądań klientów.

Wpływ był powszechny, ponieważ wiele dużych zasobów korzysta z Amazon S3. Awarie dotknęły Trello, Coursera, IFTTT i, co najbardziej nieprzyjemne, usługi głównych partnerów Amazona z listy S&P 500. Szkody w takich przypadkach są trudne do oszacowania, ale sięgały setek milionów dolarów amerykańskich. Jak widać wystarczy jedno błędne polecenie, aby wyłączyć usługę największej platformy chmurowej. Nie jest to odosobniony przypadek, 16 maja 2019 roku podczas prac konserwacyjnych usługa Yandex.Cloud usunięte maszyny wirtualne użytkowników w strefie ru-central1-c, które przynajmniej raz miały status ZAWIESZONE. Dane klienta zostały już tutaj uszkodzone, a część z nich została bezpowrotnie utracona. Oczywiście ludzie są niedoskonali, ale współczesne systemy bezpieczeństwa informacji od dawna potrafią monitorować działania uprzywilejowanych użytkowników przed wykonaniem wprowadzonych przez nich poleceń. Jeśli takie rozwiązania zostaną wdrożone w Yandexie czy Amazonie, można uniknąć takich incydentów.

Główną przyczyną wypadków w centrach danych jest uszczelka między komputerem a krzesłem

Zamrożone chłodzenie

W styczniu 2017 roku w centrum danych firmy Megafon w Dmitrowie doszło do poważnego wypadku. Następnie temperatura w rejonie Moskwy spadła do -35°C, co doprowadziło do awarii układu chłodzenia obiektu. Służba prasowa operatora nie mówiła szczegółowo o przyczynach zdarzenia – rosyjskie firmy niezwykle niechętnie opowiadają o wypadkach na swoich obiektach, a pod względem rozgłosu jesteśmy daleko w tyle za Zachodem. W mediach społecznościowych krążyła wersja o zamarznięciu płynu chłodzącego w rurach ułożonych wzdłuż ulicy i wycieku glikolu etylenowego. Według niej służba eksploatacyjna nie była w stanie szybko pozyskać 30 ton chłodziwa ze względu na długie wakacje i wydostała się za pomocą improwizowanych środków, organizując improwizowany free-cooling z naruszeniem zasad obsługi systemu. Silne zimno zaostrzyło problem - w styczniu zima nagle nawiedziła Rosję, choć nikt się tego nie spodziewał. W efekcie pracownicy musieli wyłączyć zasilanie części szaf serwerowych, przez co część usług operatorskich była niedostępna przez dwa dni.

Główną przyczyną wypadków w centrach danych jest uszczelka między komputerem a krzesłem

Pewnie można tu mówić o anomalii pogodowej, ale takie przymrozki nie są niczym niezwykłym w regionie stołecznym. Temperatury zimą w regionie moskiewskim mogą spaść do niższego poziomu, dlatego centra danych buduje się z myślą o stabilnej pracy w temperaturze -42°C. Najczęściej układy chłodzenia zawodzą w chłodne dni z powodu niewystarczająco wysokiego stężenia glikoli i nadmiaru wody w roztworze płynu chłodzącego. Występują również problemy z instalacją rur lub błędnymi obliczeniami w projektowaniu i testowaniu systemu, związane głównie z chęcią zaoszczędzenia pieniędzy. W rezultacie niespodziewanie dochodzi do poważnego wypadku, któremu można było zapobiec.

Klęski żywiołowe

Najczęściej burze i/lub huragany zakłócają infrastrukturę inżynieryjną centrum danych, prowadząc do przerw w świadczeniu usług i/lub fizycznego uszkodzenia sprzętu. Wypadki spowodowane złą pogodą zdarzają się dość często. W 2012 r. huragan Sandy przetoczył się przez zachodnie wybrzeże Stanów Zjednoczonych, powodując obfite opady deszczu. Centrum danych Peer 1 mieści się w wieżowcu na Dolnym Manhattanie utracone zewnętrzne źródło zasilania, po tym jak słona woda morska zalała piwnice. Awaryjne generatory obiektu znajdowały się na 18. piętrze, a ich zapas paliwa był ograniczony – przepisy wprowadzone w Nowym Jorku po atakach terrorystycznych z 9 września zabraniają magazynowania dużych ilości paliwa na wyższych piętrach.

Pompa paliwa również uległa awarii, więc personel przez kilka dni ręcznie transportował olej napędowy do generatorów. Bohaterstwo zespołu uratowało centrum danych przed poważnym wypadkiem, ale czy było to naprawdę konieczne? Żyjemy na planecie z atmosferą azotowo-tlenową i dużą ilością wody. Burze i huragany są tu powszechne (szczególnie na obszarach przybrzeżnych). Projektanci prawdopodobnie dobrze by zrobili, gdyby rozważyli związane z tym ryzyko i zbudowali odpowiedni system zasilania awaryjnego. Albo przynajmniej wybierz bardziej odpowiednią lokalizację dla centrum danych niż wieżowiec na wyspie.

Wszystko inne

Uptime Institute identyfikuje w tej kategorii różnorodne incydenty, spośród których trudno wybrać ten typowy. Kradzieże kabli miedzianych, wpadki samochodów do centrów danych, podpór linii energetycznych i podstacji transformatorowych, pożary, uszkodzenia optyki przez operatorów koparek, gryzonie (szczury, króliki, a nawet wombaty, które w rzeczywistości są torbaczami), a także osoby lubiące ćwiczyć strzelanie do przewody - menu jest obszerne. Awarie zasilania mogą nawet powodować kradzież elektryczność nielegalna plantacja marihuany. W większości przypadków sprawcami zdarzenia stają się konkretne osoby, czyli znów mamy do czynienia z czynnikiem ludzkim, gdy problem ma imię i nazwisko. Nawet jeśli na pierwszy rzut oka wypadek kojarzy się z awarią techniczną lub klęską żywiołową, można go uniknąć, pod warunkiem, że obiekt zostanie odpowiednio zaprojektowany i prawidłowo obsługiwany. Jedynymi wyjątkami są przypadki krytycznych uszkodzeń infrastruktury centrum danych lub zniszczenia budynków i budowli w wyniku klęski żywiołowej. Są to naprawdę okoliczności siły wyższej, a wszystkie inne problemy są spowodowane uszczelką między komputerem a krzesłem - być może jest to najbardziej zawodna część każdego złożonego systemu.

Źródło: www.habr.com

Dodaj komentarz