Məlumat mərkəzlərində baş verən qəzaların əsas səbəbi kompüterlə kreslo arasındakı contadır

Müasir məlumat mərkəzlərində baş verən böyük qəzalar mövzusu ilk məqalədə cavablandırılmayan suallar doğurur - biz onu inkişaf etdirmək qərarına gəldik.

Məlumat mərkəzlərində baş verən qəzaların əsas səbəbi kompüterlə kreslo arasındakı contadır

Uptime İnstitutunun statistik məlumatlarına görə, məlumat mərkəzlərində baş verən hadisələrin əksəriyyəti enerji təchizatı sistemindəki nasazlıqlarla bağlıdır - hadisələrin 39%-ni onlar təşkil edir. Onları bədbəxt hadisələrin daha 24%-ni təşkil edən insan amili izləyir. Üçüncü ən mühüm səbəb (15%) kondisioner sisteminin nasazlığı, dördüncü yerdə isə (12%) təbii fəlakətlər olub. Digər bəlaların ümumi payı cəmi 10% təşkil edir. Hörmətli bir təşkilatın məlumatlarını sorğulamadan, müxtəlif qəzalarda ümumi olan bir şeyi vurğulayacağıq və onların qarşısını almaq mümkün olub-olmadığını anlamağa çalışacağıq. Spoiler: əksər hallarda mümkündür.

Əlaqələr Elmi

Sadə dillə desək, enerji təchizatında cəmi iki problem var: ya olması lazım olan yerdə əlaqə yoxdur, ya da təmas olmamalı olduğu yerdə əlaqə var. Müasir fasiləsiz enerji təchizatı sistemlərinin etibarlılığı haqqında uzun müddət danışa bilərsiniz, lakin onlar həmişə sizi xilas etmir. Ana şirkət International Airlines Group-a məxsus olan British Airways tərəfindən istifadə edilən məlumat mərkəzinin yüksək profilli işini götürək. Heathrow hava limanının yaxınlığında iki belə mülk var - Boadicea House və Comet House. Bunlardan birincisində 27 may 2017-ci il tarixində təsadüfi elektrik enerjisinin kəsilməsi baş vermiş, bu da UPS sisteminin həddindən artıq yüklənməsinə və sıradan çıxmasına səbəb olmuşdur. Nəticədə İT avadanlıqlarının bir hissəsi fiziki zədələndi və son fəlakətin aradan qaldırılması üç gün çəkdi.

Aviaşirkət mindən çox reysi ləğv etməli və ya vaxtını dəyişdirməli oldu, 75 minə yaxın sərnişin vaxtında uça bilmədi - məlumat mərkəzlərinin funksionallığının bərpası üçün tələb olunan xərcləri nəzərə almasaq, kompensasiyanın ödənilməsinə 128 milyon dollar xərcləndi. İşıqlandırmanın səbəblərinin tarixi aydın deyil. Beynəlxalq Hava Yolları Qrupunun baş direktoru Villi Uolşun açıqladığı daxili araşdırmanın nəticələrinə inanırsınızsa, bunun səbəbi mühəndislərin səhvi olub. Bununla birlikdə, fasiləsiz enerji təchizatı sistemi belə bir bağlanmaya tab gətirməli idi - buna görə də quraşdırılmışdır. Məlumat mərkəzi CBRE Managed Services autsorsinq şirkətinin mütəxəssisləri tərəfindən idarə olunurdu, ona görə də British Airways London məhkəməsi vasitəsilə dəymiş ziyanın məbləğini bərpa etməyə çalışıb.

Məlumat mərkəzlərində baş verən qəzaların əsas səbəbi kompüterlə kreslo arasındakı contadır

Elektrik enerjisinin kəsilməsi oxşar ssenarilərdə baş verir: əvvəlcə elektrik enerjisi təchizatçısının günahı, bəzən pis hava və ya daxili problemlər (o cümlədən insan səhvləri) səbəbindən elektrik kəsilməsi baş verir, sonra isə fasiləsiz enerji təchizatı sistemi yükün öhdəsindən gələ bilmir və ya qısamüddətli -sinus dalğasının müddətli kəsilməsi bir çox xidmətlərin sıradan çıxmasına səbəb olur ki, onların bərpası çox vaxt və pul tələb edir. Belə qəzaların qarşısını almaq mümkündürmü? Şübhəsiz ki. Sistemi düzgün tərtib etsəniz, hətta böyük məlumat mərkəzlərinin yaradıcıları belə səhvlərdən qorunmur.

İnsan faktoru

Hadisənin bilavasitə səbəbi məlumat mərkəzi işçilərinin düzgün olmayan hərəkətləri olduqda, problemlər ən çox (lakin həmişə deyil) İT infrastrukturunun proqram hissəsinə təsir göstərir. Belə qəzalar hətta iri korporasiyalarda da olur. 2017-ci ilin fevralında məlumat mərkəzlərindən birinin texniki əməliyyat qrupunun yanlış cəlb edilmiş komanda üzvü səbəbindən Amazon Web Services serverlərinin bir hissəsi sıradan çıxarıldı. Amazon Simple Storage Service (S3) bulud yaddaşı müştəriləri üçün hesablaşma prosesini sazlayarkən xəta baş verdi. Bir işçi billinq sistemi tərəfindən istifadə edilən bir sıra virtual serverləri silməyə çalışdı, lakin daha böyük klasteri vurdu.

Məlumat mərkəzlərində baş verən qəzaların əsas səbəbi kompüterlə kreslo arasındakı contadır

Mühəndis səhvi nəticəsində mühüm Amazon bulud saxlama proqram modulları ilə işləyən serverlər silinib. Birinci təsirə məruz qalan ABŞ-ŞƏRQİ-3 Amerika regionunda bütün S1 obyektlərinin metadatası və yeri haqqında məlumatları ehtiva edən indeksləşdirmə alt sistemi oldu. İnsident həmçinin məlumatları yerləşdirmək və saxlama üçün mövcud məkanı idarə etmək üçün istifadə edilən alt sistemə də təsir edib. Virtual maşınları sildikdən sonra bu iki alt sistem tamamilə yenidən işə salınmağı tələb etdi və sonra Amazon mühəndisləri sürprizlə qarşılaşdılar - uzun müddət ictimai bulud yaddaşı müştərilərin sorğularına xidmət göstərə bilmədi.

Çox böyük resurs Amazon S3-dən istifadə etdiyi üçün təsir geniş yayılmışdı. Kəskinliklər Trello, Coursera, IFTTT və ən xoşagəlməz halda S&P 500 siyahısındakı əsas Amazon partnyorlarının xidmətlərinə təsir etdi.Belə hallarda zərəri hesablamaq çətindir, lakin yüz milyonlarla ABŞ dolları bölgəsində idi. Gördüyünüz kimi, ən böyük bulud platformasının xidmətini söndürmək üçün bir səhv əmr kifayətdir. Bu, təcrid olunmuş hal deyil, 16 may 2019-cu il tarixində təmir işləri zamanı Yandex.Cloud xidməti silindi ru-central1-c zonasındakı istifadəçilərin ən azı bir dəfə ASLI statusunda olan virtual maşınları. Müştəri məlumatları burada artıq zədələnib, bəziləri geri qaytarıla bilməyəcək şəkildə itirilib. Təbii ki, insanlar qeyri-kamildirlər, lakin müasir informasiya təhlükəsizliyi sistemləri imtiyazlı istifadəçilərin daxil etdikləri əmrləri yerinə yetirməzdən əvvəl onların hərəkətlərini çoxdan izləyə bilirlər. Bu cür həllər Yandex və ya Amazon-da tətbiq olunarsa, bu cür hadisələrin qarşısını almaq olar.

Məlumat mərkəzlərində baş verən qəzaların əsas səbəbi kompüterlə kreslo arasındakı contadır

Dondurulmuş soyutma

2017-ci ilin yanvarında Megafon şirkətinin Dmitrov məlumat mərkəzində böyük qəza baş verdi. Sonra Moskva vilayətində temperatur −35 °C-ə düşdü və bu, obyektin soyutma sisteminin sıradan çıxmasına səbəb oldu. Operatorun mətbuat xidməti hadisənin səbəbləri barədə xüsusilə danışmadı - Rusiya şirkətləri sahib olduqları obyektlərdə baş verən qəzalar haqqında danışmaqdan son dərəcə çəkinirlər; təbliğat baxımından biz Qərbdən çox geridəyik. Sosial şəbəkələrdə küçə boyu çəkilmiş borularda soyuducu suyun donması və etilen qlikolun sızması ilə bağlı versiya yayılıb. Onun sözlərinə görə, istismar xidməti uzun tətillər səbəbindən tez bir zamanda 30 ton soyuducu əldə edə bilməyib və sistemin istismarı qaydalarını pozaraq improvizə edilmiş sərbəst soyutma təşkil edərək, doğaçlama vasitələrlə oradan çıxıb. Şiddətli soyuqlar problemi daha da kəskinləşdirdi - yanvarda heç kim bunu gözləməsə də, qəfildən Rusiyaya qış gəldi. Nəticədə işçilər server raflarının bir hissəsinin enerji təchizatını kəsməli olublar, bu səbəbdən bəzi operator xidmətləri iki gün ərzində əlçatmaz olub.

Məlumat mərkəzlərində baş verən qəzaların əsas səbəbi kompüterlə kreslo arasındakı contadır

Yəqin ki, burada hava anomaliyasından danışmaq olar, amma belə şaxtalar paytaxt rayonu üçün qeyri-adi bir şey deyil. Moskva bölgəsində qışda temperatur aşağı səviyyələrə düşə bilər, buna görə məlumat mərkəzləri -42 ° C-də sabit işləmə gözləməsi ilə qurulur. Çox vaxt soyutma sistemləri soyuq havada qlikolların kifayət qədər yüksək konsentrasiyası və soyuducu məhlulda artıq suyun olması səbəbindən uğursuz olur. Boruların quraşdırılması və ya sistemin dizaynı və sınaqdan keçirilməsində səhv hesablamalar ilə bağlı problemlər də var, əsasən pula qənaət etmək istəyi ilə bağlıdır. Nəticədə gözlənilmədən ağır qəza baş verir ki, bunun da qarşısını almaq olardı.

Təbii fəlakətlər

Çox vaxt tufanlar və/və ya qasırğalar məlumat mərkəzinin mühəndis infrastrukturunu pozur, xidmətin dayandırılmasına və/yaxud avadanlıqların fiziki zədələnməsinə səbəb olur. Pis hava şəraitinin yaratdığı hadisələr tez-tez baş verir. 2012-ci ildə Sendi qasırğası ABŞ-ın qərb sahillərini leysan yağışlarla bürümüşdü. Aşağı Manhettendə, Peer 1 məlumat mərkəzi yüksək mərtəbəli binada yerləşir xarici enerji təchizatı itirildi, duzlu dəniz suyundan sonra zirzəmiləri basdı. Obyektin qəza generatorları 18-ci mərtəbədə yerləşirdi və onların yanacaq təchizatı məhdud idi - 9 sentyabr terror hücumlarından sonra Nyu Yorkda tətbiq edilən qaydalar yuxarı mərtəbələrdə böyük miqdarda yanacaq saxlamağı qadağan edir.

Yanacaq nasosu da sıradan çıxmışdı, ona görə də işçilər bir neçə gün dizeli generatorlara əllə aparıblar. Komandanın qəhrəmanlığı data mərkəzini ciddi qəzadan xilas etdi, amma bu, həqiqətən lazım idimi? Biz azot-oksigen atmosferi və çoxlu su olan bir planetdə yaşayırıq. Burada (xüsusilə sahilyanı ərazilərdə) tufanlar və qasırğalar tez-tez olur. Dizaynerlər, ehtimal ki, riskləri nəzərə alsınlar və müvafiq fasiləsiz enerji təchizatı sistemi qursunlar. Və ya heç olmasa məlumat mərkəzi üçün adadakı hündürmərtəbəli binadan daha uyğun bir yer seçin.

Qalan hər şey

Uptime İnstitutu bu kateqoriyada müxtəlif hadisələri müəyyən edir, onların arasında tipik birini seçmək çətindir. Mis kabellərin oğurlanması, məlumat mərkəzlərinə, elektrik xətti dayaqlarına və transformator yarımstansiyalarına çırpılan avtomobillər, yanğınlar, optikaya zərər verən ekskavator operatorları, gəmiricilər (siçovullar, dovşanlar və hətta kisəli heyvanlar), eləcə də atışma ilə məşğul olmağı sevənlər teller - menyu genişdir. Elektrik kəsilməsi hətta səbəb ola bilər oğurluq elektrik qeyri-qanuni marixuana plantasiyası. Əksər hallarda konkret adamlar hadisənin günahkarına çevrilir, yəni problemin adı və soyadı olanda yenə insan amili ilə məşğul oluruq. İlk baxışdan qəza texniki nasazlıq və ya təbii fəlakətlərlə bağlı olsa belə, obyektin düzgün layihələndirilməsi və düzgün istismarı şərti ilə bunun qarşısını almaq olar. İstisnalar yalnız təbii fəlakət nəticəsində məlumat mərkəzinin infrastrukturuna ciddi ziyan vurması və ya bina və tikililərin dağılması hallarıdır. Bunlar həqiqətən fors-major hallardır və bütün digər problemlər kompüter və stul arasındakı contadan qaynaqlanır - bəlkə də bu, hər hansı bir mürəkkəb sistemin ən etibarsız hissəsidir.

Mənbə: www.habr.com

Добавить комментарий