Ma'lumotlar markazlaridagi baxtsiz hodisalarning asosiy sababi kompyuter va stul o'rtasidagi qistirmadir

Zamonaviy ma'lumotlar markazlarida katta baxtsiz hodisalar mavzusi birinchi maqolada javob berilmagan savollarni tug'diradi - biz uni ishlab chiqishga qaror qildik.

Ma'lumotlar markazlaridagi baxtsiz hodisalarning asosiy sababi kompyuter va stul o'rtasidagi qistirmadir

Uptime institutining statistik ma'lumotlariga ko'ra, ma'lumotlar markazlarida sodir bo'lgan hodisalarning aksariyati elektr ta'minoti tizimidagi nosozliklar bilan bog'liq - ular hodisalarning 39 foizini tashkil qiladi. Ulardan keyin baxtsiz hodisalarning yana 24 foizini tashkil etadigan inson omili turadi. Uchinchi eng muhim sabab (15%) konditsioner tizimining ishdan chiqishi bo'lsa, to'rtinchi o'rinda (12%) tabiiy ofatlar bo'ldi. Boshqa muammolarning umumiy ulushi atigi 10% ni tashkil qiladi. Hurmatli tashkilot ma'lumotlariga shubha qilmasdan, biz turli xil baxtsiz hodisalarda tez-tez uchraydigan narsani ta'kidlaymiz va ularning oldini olish mumkinligini tushunishga harakat qilamiz. Spoyler: ko'p hollarda mumkin.

Kontaktlar fani

Oddiy qilib aytganda, elektr ta'minoti bilan bog'liq ikkita muammo bor: yoki u bo'lishi kerak bo'lgan joyda aloqa yo'q yoki kontakt bo'lmasligi kerak bo'lgan joyda aloqa mavjud. Zamonaviy uzluksiz elektr ta'minoti tizimlarining ishonchliligi haqida uzoq vaqt gapirishingiz mumkin, ammo ular sizni doimo qutqara olmaydi. Bosh kompaniya International Airlines Groupga tegishli bo'lgan British Airways tomonidan foydalaniladigan ma'lumotlar markazining yuqori darajadagi holatini olaylik. Xitrou aeroporti yaqinida ikkita shunday mulk mavjud - Boadicea uyi va Kometa uyi. Ulardan birinchisida, 27-yil 2017-may kuni elektr taʼminotida tasodifiy uzilish yuz berdi, bu esa UPS tizimining haddan tashqari yuklanishi va ishdan chiqishiga olib keldi. Natijada, IT-uskunalarning bir qismi jismonan zarar ko'rdi va oxirgi falokatni bartaraf etish uchun uch kun kerak bo'ldi.

Aviakompaniya mingdan ortiq reyslarni bekor qilishi yoki qayta rejalashtirishi kerak edi, 75 mingga yaqin yoʻlovchi oʻz vaqtida parvoz qila olmadi – kompensatsiya toʻlashga 128 million dollar sarflandi, maʼlumotlar markazlari funksionalligini tiklash uchun zarur boʻlgan xarajatlarni hisobga olmaganda. O'chirish sabablari tarixi noma'lum. International Airlines Group bosh direktori Villi Uolsh tomonidan e'lon qilingan ichki tekshiruv natijalariga ishonsangiz, bunga muhandislar xatosi sabab bo'lgan. Biroq, uzluksiz elektr ta'minoti tizimi bunday o'chirishga bardosh berishi kerak edi - shuning uchun u o'rnatildi. Ma'lumotlar markazini CBRE Managed Services autsorsing kompaniyasi mutaxassislari boshqargan, shuning uchun British Airways London sudi orqali zarar miqdorini undirishga harakat qilgan.

Ma'lumotlar markazlaridagi baxtsiz hodisalarning asosiy sababi kompyuter va stul o'rtasidagi qistirmadir

Elektr uzilishlari shunga o'xshash stsenariylarda sodir bo'ladi: birinchi navbatda elektr ta'minotchisining aybi bilan, ba'zan yomon ob-havo yoki ichki muammolar (shu jumladan inson xatolari) tufayli uzilishlar sodir bo'ladi, so'ngra uzluksiz elektr ta'minoti tizimi yukga bardosh bera olmaydi yoki qisqa tutashuvga dosh bera olmaydi. -sinus to'lqinining muddatli uzilishi ko'plab xizmatlarning ishlamay qolishiga olib keladi, ularni qayta tiklash ko'p vaqt va pul talab qiladi. Bunday baxtsiz hodisalardan qochish mumkinmi? Shubhasiz. Agar siz tizimni to'g'ri loyihalashtirsangiz, hatto yirik ma'lumotlar markazlarini yaratuvchilar ham xatolardan himoyalanmaydi.

Inson omili

Hodisaning bevosita sababi ma'lumotlar markazi xodimlarining noto'g'ri harakatlari bo'lsa, muammolar ko'pincha (lekin har doim ham emas) AT infratuzilmasining dasturiy qismiga ta'sir qiladi. Bunday baxtsiz hodisalar hatto yirik korporatsiyalarda ham sodir bo'ladi. 2017-yilning fevral oyida maʼlumotlar markazlaridan birining texnik-operatsiya guruhining notoʻgʻri jalb qilingan aʼzosi tufayli Amazon Web Services serverlarining bir qismi oʻchirib qoʻyildi. Amazon Simple Storage Service (S3) bulutli saqlash mijozlari uchun hisob-kitob jarayonini tuzatishda xatolik yuz berdi. Xodim billing tizimi tomonidan foydalaniladigan bir qator virtual serverlarni o‘chirib tashlamoqchi bo‘ldi, biroq kattaroq klasterni urdi.

Ma'lumotlar markazlaridagi baxtsiz hodisalarning asosiy sababi kompyuter va stul o'rtasidagi qistirmadir

Muhandis xatosi natijasida muhim Amazon bulutli saqlash dasturiy modullari bilan ishlaydigan serverlar o‘chirib tashlandi. Birinchi bo'lib AQSh-SHARQ-3 Amerika mintaqasidagi barcha S1 obyektlarining metama'lumotlari va joylashuvi haqidagi ma'lumotlarni o'z ichiga olgan indekslash quyi tizimi ta'sir ko'rsatdi. Hodisa, shuningdek, ma'lumotlarni joylashtirish va saqlash uchun mavjud bo'sh joyni boshqarish uchun ishlatiladigan quyi tizimga ta'sir qildi. Virtual mashinalar o‘chirilgandan so‘ng, bu ikki quyi tizim to‘liq qayta ishga tushirishni talab qildi, keyin Amazon muhandislarini ajablantirdi - uzoq vaqt davomida ommaviy bulutli saqlash mijozlar so‘rovlariga xizmat ko‘rsata olmadi.

Ta'sir keng tarqaldi, chunki ko'plab yirik resurslar Amazon S3-dan foydalanadi. To‘xtashlar Trello, Coursera, IFTTT va eng yoqimsizi, S&P 500 ro‘yxatidagi Amazonning yirik hamkorlari xizmatlariga ta’sir ko‘rsatdi.Bunday holatlardagi zararni hisoblash qiyin, biroq u yuzlab million AQSH dollarini tashkil etdi. Ko'rib turganingizdek, eng katta bulut platformasi xizmatini o'chirish uchun bitta noto'g'ri buyruq etarli. Bu alohida holat emas, 16-yil 2019-may kuni profilaktika ishlari davomida Yandex.Cloud xizmati o'chirildi ru-central1-c zonasidagi foydalanuvchilarning hech bo'lmaganda bir marta to'xtatilgan holatida bo'lgan virtual mashinalari. Bu erda mijoz ma'lumotlari allaqachon buzilgan, ularning ba'zilari qaytarib bo'lmaydigan darajada yo'qolgan. Albatta, odamlar nomukammal, ammo zamonaviy axborot xavfsizligi tizimlari uzoq vaqtdan beri imtiyozli foydalanuvchilarning kiritgan buyruqlarini bajarishdan oldin ularning harakatlarini kuzatib borish imkoniyatiga ega. Agar bunday echimlar Yandex yoki Amazonda amalga oshirilsa, bunday hodisalardan qochish mumkin.

Ma'lumotlar markazlaridagi baxtsiz hodisalarning asosiy sababi kompyuter va stul o'rtasidagi qistirmadir

Muzlatilgan sovutish

2017 yil yanvar oyida Megafon kompaniyasining Dmitrov ma'lumotlar markazida yirik baxtsiz hodisa yuz berdi. Keyin Moskva viloyatidagi harorat -35 ° C ga tushib ketdi, bu esa ob'ektning sovutish tizimining ishdan chiqishiga olib keldi. Operatorning matbuot xizmati hodisa sabablari haqida alohida gapirmadi - Rossiya kompaniyalari o'zlariga tegishli ob'ektlardagi baxtsiz hodisalar haqida gapirishni juda istamaydilar, reklama nuqtai nazaridan biz G'arbdan ancha orqadamiz. Ijtimoiy tarmoqlarda ko'cha bo'ylab yotqizilgan quvurlarda sovutish suvi muzlab qolgani va etilen glikol sizib ketgani haqida versiya tarqaldi. Uning so‘zlariga ko‘ra, ekspluatatsiya xizmati uzoq dam olish kunlari tufayli 30 tonna sovutish suvini tezda ololmagan va tizimdan foydalanish qoidalarini buzgan holda qo‘lbola erkin sovutishni tashkil qilib, qo‘lbola vositalar yordamida chiqib ketgan. Qattiq sovuq muammoni yanada kuchaytirdi - yanvar oyida to'satdan Rossiyaga qish keldi, garchi buni hech kim kutmagan edi. Natijada, xodimlar server tokchalarining bir qismini elektr quvvatini o‘chirishga majbur bo‘ldi, shu sababli ba’zi operator xizmatlari ikki kun davomida ishlamay qoldi.

Ma'lumotlar markazlaridagi baxtsiz hodisalarning asosiy sababi kompyuter va stul o'rtasidagi qistirmadir

Ehtimol, bu erda ob-havo anomaliyasi haqida gapirish mumkin, ammo bunday sovuqlar poytaxt mintaqasi uchun g'ayrioddiy narsa emas. Moskva viloyatida qishda harorat pastroq darajaga tushishi mumkin, shuning uchun ma'lumotlar markazlari -42 ° C da barqaror ishlashni kutish bilan qurilgan. Ko'pincha sovutish tizimlari sovuq havoda glikollarning etarli darajada yuqori konsentratsiyasi va sovutish suvi eritmasida ortiqcha suv tufayli ishlamay qoladi. Shuningdek, quvurlarni o'rnatish yoki tizimni loyihalash va sinovdan o'tkazishda noto'g'ri hisob-kitoblar bilan bog'liq muammolar mavjud, asosan pulni tejash istagi bilan bog'liq. Natijada, kutilmaganda jiddiy baxtsiz hodisa yuz beradi, buning oldini olish mumkin edi.

Tabiiy ofatlar

Ko'pincha momaqaldiroq va/yoki bo'ronlar ma'lumotlar markazining muhandislik infratuzilmasini buzadi, bu esa xizmat ko'rsatishda uzilishlarga va/yoki uskunaning jismoniy shikastlanishiga olib keladi. Yomon ob-havo tufayli sodir bo'lgan hodisalar tez-tez sodir bo'ladi. 2012-yilda “Sendi” to‘foni kuchli yog‘ingarchilik bilan Qo‘shma Shtatlarning g‘arbiy sohilini qamrab oldi. Quyi Manxettendagi ko'p qavatli binoda joylashgan, Peer 1 ma'lumotlar markazi tashqi quvvat manbai yo'qolgan, sho'r dengiz suvi yerto'lalarni suv bosganidan keyin. Ob'ektning avariya generatorlari 18-qavatda joylashgan bo'lib, ularning yoqilg'i ta'minoti cheklangan edi - Nyu-Yorkda 9-sentabr teraktlaridan keyin kiritilgan qoidalar yuqori qavatlarda katta miqdorda yoqilg'i saqlashni taqiqlaydi.

Yoqilg'i pompasi ham ishlamay qolgan, shuning uchun xodimlar bir necha kun davomida dizelni generatorlarga qo'lda tashigan. Jamoaning qahramonligi ma'lumotlar markazini jiddiy avariyadan qutqardi, lekin bu haqiqatan ham kerakmi? Biz azot-kislorod atmosferasi va ko'p suvli sayyorada yashaymiz. Bu erda momaqaldiroq va bo'ronlar tez-tez uchraydi (ayniqsa, qirg'oqbo'yi hududlarida). Dizaynerlar, ehtimol, xavf-xatarlarni hisobga olishlari va tegishli uzluksiz elektr ta'minoti tizimini yaratishlari mumkin. Yoki hech bo'lmaganda oroldagi baland qavatdan ko'ra ma'lumotlar markazi uchun qulayroq joyni tanlang.

Boshqa hamma narsa

Uptime Institute ushbu toifadagi turli hodisalarni aniqlaydi, ular orasida odatiy birini tanlash qiyin. Mis kabellarni o'g'irlash, ma'lumotlar markazlariga, elektr uzatish liniyalari va transformator podstansiyalariga qulab tushgan avtomobillar, yong'inlar, optikaga zarar etkazadigan ekskavator operatorlari, kemiruvchilar (kalamushlar, quyonlar va hatto vombatlar, ular aslida marsupiallar), shuningdek, otishmani mashq qilishni yaxshi ko'radiganlar. simlar - menyu keng. Elektr uzilishlari hatto sabab bo'lishi mumkin o'g'irlik elektr noqonuniy marixuana plantatsiyasi. Aksariyat hollarda aniq odamlar hodisaning aybdorlariga aylanadi, ya'ni muammoning ism va familiyasi mavjud bo'lganda, biz yana inson omili bilan shug'ullanamiz. Agar birinchi qarashda avariya texnik nosozlik yoki tabiiy ofatlar bilan bog'liq bo'lsa ham, ob'ektni to'g'ri loyihalash va to'g'ri ishlatish sharti bilan uni oldini olish mumkin. Faqatgina istisnolar - ma'lumotlar markazi infratuzilmasiga jiddiy shikast etkazish yoki tabiiy ofat tufayli bino va inshootlarning vayron bo'lishi holatlari. Bu haqiqatan ham fors-major holatlari va boshqa barcha muammolar kompyuter va stul o'rtasidagi qistirma tufayli yuzaga keladi - ehtimol bu har qanday murakkab tizimning eng ishonchsiz qismidir.

Manba: www.habr.com

a Izoh qo'shish