Agar ma'lumotlar markazining tutun sinovi yonib ketgan bo'lsa, serverlarni o'chirish kerakmi?

Yozning go'zal kunlaridan birida sizning uskunangiz bilan ma'lumot markazi shunday ko'rinishda bo'lsa, o'zingizni qanday his qilasiz?

Agar ma'lumotlar markazining tutun sinovi yonib ketgan bo'lsa, serverlarni o'chirish kerakmi?

Hammaga salom! Mening ismim Dmitriy Samsonov, men "da etakchi tizim administratori sifatida ishlayman"Sinfdoshlar" Suratda loyihamizga xizmat ko‘rsatuvchi uskunalar o‘rnatilgan to‘rtta ma’lumot markazlaridan biri ko‘rsatilgan. Bu devorlarning orqasida 4 mingga yaqin uskunalar mavjud: serverlar, ma'lumotlarni saqlash tizimlari, tarmoq uskunalari va boshqalar. - barcha jihozlarimizning deyarli ⅓ qismi.
Aksariyat serverlar Linux. Bundan tashqari, Windows (MS SQL) da bir necha o'nlab serverlar mavjud - bu bizning merosimiz bo'lib, biz ko'p yillar davomida tizimli ravishda tark etib kelmoqdamiz.
Shunday qilib, 5-yil 2019-iyun kuni soat 14:35 da maʼlumotlar markazlarimizdan birining muhandislari yongʻin haqida xabar berishdi.

Rad qilish

14:45. Ma'lumot markazlarida kichik tutun hodisalari siz o'ylagandan ko'ra tez-tez uchraydi. Zal ichidagi ko'rsatkichlar normal edi, shuning uchun bizning birinchi reaktsiyamiz nisbatan xotirjam edi: ular ishlab chiqarish bilan ishlashni, ya'ni har qanday konfiguratsiyani o'zgartirishni, yangi versiyalarni chiqarishni va hokazolarni taqiqlashdi, biror narsani tuzatish bilan bog'liq ishlar bundan mustasno.

G'azab

Siz hech qachon o't o'chiruvchilardan tomdagi yong'in qayerda sodir bo'lganligini aniqlashga yoki vaziyatni baholash uchun o'zingiz yonayotgan tomga chiqishga harakat qilganmisiz? Besh kishi orqali olingan ma'lumotlarga ishonch darajasi qanday bo'ladi?

14: 50. Yong'in sovutish tizimiga yaqinlashayotgani haqida ma'lumot olingan. Lekin keladimi? Navbatchi tizim ma'muri ushbu ma'lumotlar markazining old qismidan tashqi trafikni olib tashlaydi.

Hozirgi vaqtda barcha xizmatlarimizning jabhalari uchta ma'lumot markazida takrorlanadi, balanslash DNS darajasida qo'llaniladi, bu bizga bitta ma'lumot markazining manzillarini DNS-dan olib tashlashga imkon beradi va shu bilan foydalanuvchilarni xizmatlarga kirishda yuzaga kelishi mumkin bo'lgan muammolardan himoya qiladi. . Agar ma'lumotlar markazida muammolar allaqachon yuzaga kelgan bo'lsa, u aylanishni avtomatik ravishda tark etadi. Batafsil bu yerda o‘qishingiz mumkin: Odnoklassniki-da yuklarni muvozanatlash va xatolarga chidamlilik.

Yong‘in bizga hozircha hech qanday ta’sir qilgani yo‘q – na foydalanuvchilarga, na jihozlarga zarar yetgan. Bu baxtsiz hodisami? Hujjatning birinchi bo'limi "Baxtsiz hodisalar bo'yicha harakatlar rejasi" "Avariya" tushunchasini belgilaydi va bo'lim quyidagicha tugaydi:
«Agar voqea sodir bo'lgan yoki yo'qligiga shubha tug'ilsa, bu baxtsiz hodisadir!»

14:53. Favqulodda vaziyat koordinatori tayinlanadi.

Koordinator - bu barcha ishtirokchilar o'rtasidagi aloqani nazorat qiluvchi, avariya ko'lamini baholaydigan, Favqulodda harakatlar rejasidan foydalanadigan, zarur xodimlarni jalb qiladigan, ta'mirlash ishlarining tugallanishini nazorat qiluvchi va eng muhimi, har qanday vazifalarni topshiruvchi shaxs. Boshqacha qilib aytganda, bu favqulodda vaziyatga javob berish jarayonini boshqaradigan shaxs.

Savdo

15:01. Biz ishlab chiqarish bilan bog'liq bo'lmagan serverlarni o'chirib qo'yishni boshlaymiz.
15:03. Biz barcha zahiralangan xizmatlarni to'g'ri o'chirib qo'yamiz.
Bunga nafaqat frontlar (bu nuqtada foydalanuvchilar endi kira olmaydi) va ularning yordamchi xizmatlari (biznes mantig'i, keshlar va boshqalar), balki replikatsiya faktori 2 yoki undan ko'p bo'lgan turli xil ma'lumotlar bazalari ham kiradi (Kassandra, ikkilik ma'lumotlarni saqlash, sovuq saqlash, NewSQL va boshqalar.).
15: 06. Ma'lumotlar markazi zallaridan biriga yong'in tahdid solayotgani haqida ma'lumot olingan. Bizda bu xonada jihozlar yo'q, lekin yong'in tomdan zallarga tarqalishi mumkin bo'lgan voqea sodir bo'layotgan manzarani sezilarli darajada o'zgartiradi.
(Keyinchalik ma'lum bo'lishicha, zalga hech qanday jismoniy tahdid yo'q, chunki u tomdan germetik tarzda muhrlangan edi. Xavf faqat shu zalning sovutish tizimiga tegishli edi).
15:07. Biz qo'shimcha tekshiruvlarsiz tezlashtirilgan rejimda serverlarda buyruqlarni bajarishga ruxsat beramiz (sevimli kalkulyatorimizsiz).
15:08. Zallardagi harorat normal chegaralarda.
15: 12. Zallarda haroratning oshishi qayd etildi.
15:13. Ma'lumotlar markazidagi serverlarning yarmidan ko'pi o'chirilgan. Davom etaylik.
15:16. Barcha jihozlarni o'chirish to'g'risida qaror qabul qilindi.
15:21. Biz dastur va operatsion tizimni to'g'ri o'chirmasdan fuqaroligi bo'lmagan serverlarni o'chirishni boshlaymiz.
15:23. MS SQL uchun mas'ul bo'lgan odamlar guruhi ajratilgan (ularning soni kam, xizmatlarning ularga bog'liqligi unchalik katta emas, lekin funksionallikni tiklash tartibi, masalan, Kassandraga qaraganda uzoqroq va murakkabroq).

Depressiya

15: 25. 16 ta zaldan to‘rttasida (No6, 7, 8, 9) elektr ta’minoti o‘chirilgani haqida ma’lumot olindi. Uskunalarimiz 7 va 8 zallarda joylashgan. Ikki zalimiz (1 va 3-son) haqida ma'lumot yo'q.
Odatda, yong'inlar paytida elektr ta'minoti darhol o'chiriladi, ammo bu holda, ma'lumotlar markazining o't o'chiruvchilari va texnik xodimlarining muvofiqlashtirilgan ishi tufayli u hamma joyda va darhol emas, balki kerak bo'lganda o'chirilmagan.
(Keyinchalik ma'lum bo'lishicha, 8 va 9-zallarda elektr quvvati o'chirilmagan).
15:28. Biz MS SQL ma'lumotlar bazalarini boshqa ma'lumotlar markazlarida zahira nusxalaridan o'rnatishni boshlaymiz.
U qancha vaqt oladi? Butun marshrut uchun tarmoq sig'imi yetarlimi?
15: 37. Tarmoqning ayrim qismlarining yopilishi qayd etildi.
Boshqaruv va ishlab chiqarish tarmog'i jismoniy jihatdan bir-biridan ajratilgan. Agar ishlab chiqarish tarmog'i mavjud bo'lsa, u holda siz serverga o'tishingiz, dasturni to'xtatishingiz va OTni o'chirib qo'yishingiz mumkin. Agar u mavjud bo'lmasa, siz IPMI orqali tizimga kirishingiz, dasturni to'xtatishingiz va OTni o'chirib qo'yishingiz mumkin. Agar tarmoqlarning hech biri bo'lmasa, unda siz hech narsa qila olmaysiz. "Rahmat, kapa!", deb o'ylaysiz.
"Va umuman olganda, juda ko'p tartibsizliklar bor", deb o'ylashingiz mumkin.
Gap shundaki, serverlar, hatto yong'in bo'lmasa ham, juda katta issiqlik hosil qiladi. Aniqrog'i, sovutish bo'lsa, ular issiqlik hosil qiladi, sovutish bo'lmasa, ular jahannam do'zaxini yaratadilar, bu esa, eng yaxshi holatda, uskunaning bir qismini eritib, boshqa qismini o'chiradi, eng yomoni ... zal ichidagi yong'in, bu deyarli hamma narsani yo'q qilish uchun kafolatlangan.

Agar ma'lumotlar markazining tutun sinovi yonib ketgan bo'lsa, serverlarni o'chirish kerakmi?

15:39. Biz conf ma'lumotlar bazasi bilan bog'liq muammolarni hal qilamiz.

conf ma'lumotlar bazasi - bu barcha ishlab chiqarish ilovalari tomonidan sozlamalarni tezda o'zgartirish uchun foydalaniladigan bir xil nomdagi xizmat uchun backend. Ushbu bazasiz biz portalning ishlashini nazorat qila olmaymiz, lekin portalning o'zi ishlashi mumkin.

15:41. Yadro tarmoq uskunasidagi harorat sensorlari ruxsat etilgan maksimal darajaga yaqin ko'rsatkichlarni qayd etadi. Bu butun rafni egallagan va ma'lumotlar markazi ichidagi barcha tarmoqlarning ishlashini ta'minlaydigan quti.

Agar ma'lumotlar markazining tutun sinovi yonib ketgan bo'lsa, serverlarni o'chirish kerakmi?

15:42. Muammo kuzatuvchisi va wiki mavjud emas, kutish rejimiga o'ting.
Bu ishlab chiqarish emas, lekin voqea sodir bo'lgan taqdirda, har qanday bilim bazasining mavjudligi juda muhim bo'lishi mumkin.
15:50. Monitoring tizimlaridan biri o'chirilgan.
Ularning bir nechtasi bor va ular xizmatlarning turli jihatlari uchun javobgardir. Ulardan ba'zilari har bir ma'lumot markazida avtonom ishlash uchun tuzilgan (ya'ni ular faqat o'zlarining ma'lumotlar markazini kuzatadilar), boshqalari har qanday ma'lumotlar markazining yo'qolishidan shaffof tarzda omon qoladigan taqsimlangan komponentlardan iborat.
Bunday holda, u ishlashni to'xtatdi biznes mantiq ko'rsatkichlari anomaliya aniqlash tizimi, u master-kutish rejimida ishlaydi. Kutish rejimiga oʻtkazildi.

Qabul qilish

15:51. MS SQL-dan tashqari barcha serverlar to'g'ri o'chirilmasdan IPMI orqali o'chirildi.
Agar kerak bo'lsa, IPMI orqali serverni massiv boshqarishga tayyormisiz?

Ushbu bosqichda ma'lumotlar markazidagi uskunalarni qutqarish tugallangan payt. Qilishi mumkin bo'lgan hamma narsa amalga oshirildi. Ba'zi hamkasblar dam olishlari mumkin.
16: 13. Konditsionerlardan freon quvurlari uyingizda yorilib ketgani haqida ma'lumot olingan - bu yong'in bartaraf etilgandan keyin ma'lumotlar markazini ishga tushirishni kechiktiradi.
16:19. Ma'lumotlar markazining texnik xodimlaridan olingan ma'lumotlarga ko'ra, zallarda haroratning oshishi to'xtagan.
17:10. conf ma'lumotlar bazasi tiklandi. Endi biz dastur sozlamalarini o'zgartirishimiz mumkin.
Agar hamma narsa nosozliklarga chidamli bo'lsa va bitta ma'lumot markazisiz ham ishlayotgan bo'lsa, bu nima uchun juda muhim?
Birinchidan, hamma narsa xatoga toqat qilmaydi. Ma'lumotlar markazining ishdan chiqishidan hali etarlicha omon qolmagan turli xil ikkilamchi xizmatlar mavjud va master-kutish rejimida ma'lumotlar bazalari mavjud. Sozlamalarni boshqarish qobiliyati, hatto qiyin sharoitlarda ham avariya oqibatlarining foydalanuvchilarga ta'sirini minimallashtirish uchun zarur bo'lgan hamma narsani qilishga imkon beradi.
Ikkinchidan, ma'lumotlar markazining ishlashi yaqin soatlarda to'liq tiklanmasligi ma'lum bo'ldi, shuning uchun nusxalarning uzoq vaqt davomida mavjud bo'lmasligi kompyuterda to'liq disklar kabi qo'shimcha muammolarga olib kelmasligini ta'minlash uchun choralar ko'rish kerak edi. qolgan ma'lumotlar markazlari.
17:29. Pizza vaqti! Biz robotlarni emas, odamlarni ishga olamiz.

Agar ma'lumotlar markazining tutun sinovi yonib ketgan bo'lsa, serverlarni o'chirish kerakmi?

Reabilitatsiya

18:02. 8-sonli (bizniki), 9, 10 va 11-zallarda harorat barqarorlashdi. Oflayn bo'lib qolganlardan biri (№ 7) bizning jihozlarimizni o'z ichiga oladi va u erda harorat ko'tarilishda davom etmoqda.
18:31. Ular 1 va 3-zallarda jihozlarni ishga tushirishga ruxsat berishdi - bu zallarga yong'in ta'sir qilmagan.

Hozirda 1, 3, 8-zallarda eng muhimlaridan boshlab serverlar ishga tushirilmoqda. Ishlayotgan barcha xizmatlarning to'g'ri ishlashi tekshiriladi. 7-zal bilan bog‘liq muammolar hamon bor.

18:44. Ma'lumotlar markazining texnik xodimlari 7-xonada (faqat bizning jihozlarimiz joylashgan) ko'plab serverlar o'chirilmaganligini aniqladilar. Bizning ma'lumotlarga ko'ra, u erda 26 ta server onlayn qolmoqda. Ikkinchi tekshiruvdan so'ng biz 58 ta serverni topamiz.
20:18. Ma'lumotlar markazining texnik xodimlari koridorlar orqali o'tadigan mobil kanallar orqali konditsionersiz xona orqali havoni puflaydi.
23:08. Birinchi admin uyga yuborildi. Ertaga ishni davom ettirish uchun kimdir kechasi uxlashi kerak. Keyin yana bir nechta administrator va ishlab chiquvchilarni chiqaramiz.
02:56. Biz ishga tushirilishi mumkin bo'lgan hamma narsani ishga tushirdik. Biz avtomatik testlar yordamida barcha xizmatlarni ko'p tekshiramiz.

Agar ma'lumotlar markazining tutun sinovi yonib ketgan bo'lsa, serverlarni o'chirish kerakmi?

03:02. Oxirgi, 7-zaldagi konditsioner qayta tiklandi.
03:36. Biz DNS-dagi ma'lumotlar markazida jabhalarni aylantira boshladik. Shu paytdan boshlab foydalanuvchi trafigi kela boshlaydi.
Biz ma'muriy jamoaning ko'p qismini uyga jo'natmoqdamiz. Lekin biz bir necha kishini ortda qoldiramiz.

Kichik tez-tez so'raladigan savollar:
Savol: 18:31 dan 02:56 gacha nima bo'ldi?
Javob: “Favqulodda harakatlar rejasi”ga muvofiq, biz eng muhimlaridan boshlab barcha xizmatlarni ishga tushiramiz. Bunday holda, chatdagi koordinator xizmatni bepul administratorga beradi, u OT va dastur ishga tushirilganligini, xatolar bor-yo'qligini va ko'rsatkichlar normal yoki yo'qligini tekshiradi. Ishga tushirish tugallangandan so'ng, u chatga bo'sh ekanligi va koordinatordan yangi xizmatni olgani haqida xabar beradi.
Jarayon muvaffaqiyatsiz uskuna tufayli yanada sekinlashadi. OTni to'xtatish va serverlarni o'chirish to'g'ri bajarilgan bo'lsa ham, disklar, xotira va shassilarning to'satdan ishdan chiqishi tufayli ba'zi serverlar qaytmaydi. Quvvat yo'qolganda, buzilish darajasi oshadi.
Savol: Nega hammasini birdaniga ishga tushirib, keyin kuzatuvda paydo bo'ladigan narsalarni tuzatolmaysiz?
Javob: Hamma narsa bosqichma-bosqich bajarilishi kerak, chunki xizmatlar o'rtasida bog'liqliklar mavjud. Va siz monitoringni kutmasdan, darhol hamma narsani tekshirishingiz kerak - chunki ular yomonlashishini kutmasdan, darhol muammolarni hal qilish yaxshiroqdir.

7:40. Oxirgi admin (koordinator) uxlashga yotdi. Birinchi kunlik ishlar yakunlandi.
8:09. Birinchi ishlab chiquvchilar, ma'lumotlar markazi muhandislari va ma'murlari (shu jumladan yangi koordinator) tiklash ishlarini boshladilar.
09:37. Biz 7-sonli zalni (oxirgisi) ko'tarishni boshladik.
Shu bilan birga, biz boshqa xonalarda tuzatilmagan narsalarni qayta tiklashni davom ettirmoqdamiz: disklarni/xotirani/serverlarni almashtirish, monitoringda “yonib ketadigan” hamma narsani tuzatish, asosiy kutish sxemalarida rollarni almashtirish va boshqa kichik narsalar, shu jumladan. shunga qaramay juda ko'p.
17:08. Biz ishlab chiqarish bilan barcha muntazam ishlashga ruxsat beramiz.
21:45. Ikkinchi kunning ishi yakunlandi.
09:45. Bugun juma. Monitoringda hali ham bir qancha kichik muammolar mavjud. Oldinda hafta oxiri, hamma dam olishni xohlaydi. Biz qo'limizdan kelgan hamma narsani katta hajmda ta'mirlashda davom etamiz. Kechiktirilishi mumkin bo'lgan oddiy administrator vazifalari qoldirildi. Koordinator yangi.
15:40. To'satdan BOSHQA ma'lumotlar markazidagi asosiy tarmoq uskunalari stekining yarmi qayta ishga tushdi. Xatarlarni minimallashtirish uchun jabhalar aylanishdan olib tashlandi. Foydalanuvchilar uchun hech qanday ta'sir yo'q. Keyinchalik bu nosoz shassi ekanligi ma'lum bo'ldi. Koordinator bir vaqtning o'zida ikkita baxtsiz hodisani tuzatish ustida ishlamoqda.
17:17. Boshqa ma'lumotlar markazida tarmoq ishlashi tiklandi, hamma narsa tekshirildi. Ma'lumotlar markazi rotatsiyaga kiritilgan.
18:29. Uchinchi kunning ishi va umuman olganda, avariyadan keyin tiklash tugallandi.

So'zdan keyin

04.04.2013 yil 404 xato kuni, "Sinfdoshlar" eng katta baxtsiz hodisadan omon qoldi —uch kun davomida portal toʻliq yoki qisman ishlamadi. Butun vaqt davomida turli shaharlardan, turli kompaniyalardan 100 dan ortiq odamlar (yana katta rahmat!), masofadan va to'g'ridan-to'g'ri ma'lumotlar markazlarida, qo'lda va avtomatik ravishda minglab serverlarni ta'mirlashdi.
Biz xulosalar chiqardik. Bunday holatlar takrorlanmasligi uchun biz bugungi kungacha keng qamrovli ishlarni amalga oshirdik va amalga oshirmoqdamiz.

Hozirgi baxtsiz hodisa va 404 o'rtasidagi asosiy farqlar nimada?

  • Bizda "Baxtsiz hodisalar bo'yicha harakatlar rejasi" mavjud. Biz har chorakda bir marta mashg'ulotlar o'tkazamiz - biz favqulodda vaziyatni rol o'ynaymiz, bir guruh ma'murlar (barchasi o'z navbatida) "Favqulodda harakatlar rejasi" yordamida bartaraf etishi kerak. Etakchi tizim ma'murlari navbatma-navbat koordinator rolini o'ynaydi.
  • Har chorakda test rejimida biz ma'lumotlar markazlarini (barchasi o'z navbatida) LAN va WAN tarmoqlari orqali ajratamiz, bu bizga to'siqlarni tezda aniqlash imkonini beradi.
  • Kamroq buzilgan disklar, chunki biz standartlarni kuchaytirdik: kamroq ish soatlari, SMART uchun qattiqroq chegaralar,
  • Biz BerkeleyDB dan butunlay voz kechdik, eski va beqaror ma'lumotlar bazasi serverni qayta ishga tushirgandan so'ng tiklanish uchun ko'p vaqt talab qiladi.
  • Biz MS SQL bilan serverlar sonini kamaytirdik va qolganlariga qaramlikni kamaytirdik.
  • Bizning o'zimiz bor bulut - bir bulutli, bu erda biz ikki yildan beri barcha xizmatlarni faol ravishda ko'chirmoqdamiz. Bulut dastur bilan ishlashning butun tsiklini sezilarli darajada soddalashtiradi va baxtsiz hodisa yuz berganda u quyidagi noyob vositalarni taqdim etadi:
    • bir marta bosish bilan barcha ilovalarni to'g'ri to'xtatish;
    • muvaffaqiyatsiz serverlardan ilovalarni oson migratsiya qilish;
    • avtomatik tartiblangan (xizmatlarning ustuvorligi bo'yicha) butun ma'lumotlar markazini ishga tushirish.

Ushbu maqolada tasvirlangan baxtsiz hodisa 404-kundan beri eng katta voqea bo'ldi. Albatta, hamma narsa silliq kechmadi. Masalan, boshqa ma'lumotlar markazida yong'inga uchragan ma'lumotlar markazi mavjud bo'lmaganda, serverlardan biridagi disk ishlamay qoldi, ya'ni Cassandra klasteridagi uchta nusxadan faqat bittasi foydalanish mumkin bo'lib qoldi, shuning uchun mobil qurilmalarning 4,2 foizi. ilova foydalanuvchilari tizimga kira olmadilar. Shu bilan birga, allaqachon ulangan foydalanuvchilar ishlashda davom etishdi. Umuman olganda, avariya natijasida 30 dan ortiq muammolar aniqlandi - oddiy xatolardan tortib, xizmat ko'rsatish arxitekturasidagi kamchiliklargacha.

Ammo hozirgi avariya va 404-chi o'rtasidagi eng muhim farq shundaki, biz yong'in oqibatlarini bartaraf etayotganimizda, foydalanuvchilar hanuzgacha SMS yozishgan va video qo'ng'iroqlar qilishgan. Aynan, o'yin o'ynashdi, musiqa tinglashdi, bir-birlariga sovg'alar berishdi, videolar, seriallar va telekanallarni tomosha qilishdi OK, va shuningdek, oqimli OK jonli.

Baxtsiz hodisalaringiz qanday o'tadi?

Manba: www.habr.com

a Izoh qo'shish