Məlumat mərkəzinin tüstü sınağı "yandısa" server "söndürülməlidir"?

Bir gözəl yay günü avadanlıqlarınızla birlikdə məlumat mərkəzi belə görünsəydi, necə hiss edərdiniz?

Məlumat mərkəzinin tüstü sınağı "yandısa" server "söndürülməlidir"?

Hamıya salam! Mənim adım Dmitri Samsonov, aparıcı sistem administratoru kimi işləyirəm "Sinif yoldaşları" Fotoda layihəmizə xidmət edən avadanlığın quraşdırıldığı dörd məlumat mərkəzindən biri göstərilir. Bu divarların arxasında 4 minə yaxın avadanlıq var: serverlər, məlumat saxlama sistemləri, şəbəkə avadanlığı və s. - bütün avadanlıqlarımızın demək olar ki, ⅓ hissəsi.
Əksər serverlər Linuxdur. Windows-da (MS SQL) bir neçə onlarla server var - uzun illərdir sistematik olaraq tərk etdiyimiz irsimiz.
Beləliklə, 5 iyun 2019-cu il tarixində saat 14:35-də məlumat mərkəzlərimizdən birində mühəndislər yanğın siqnalı verdilər.

Mənfi

14:45. Məlumat mərkəzlərində kiçik tüstü insidentləri düşündüyünüzdən daha çox olur. Zalların içindəki göstəricilər normal idi, ona görə də ilk reaksiyamız nisbətən sakit idi: nəyisə düzəltmək ilə bağlı işdən başqa, istehsalla işləməyə, yəni hər hansı konfiqurasiya dəyişikliyinə, yeni versiyaların yayılmasına və s.-yə qadağa qoydular.

Hirs

Heç yanğınsöndürənlərdən damda yanğının harada baş verdiyini öyrənməyə və ya vəziyyəti qiymətləndirmək üçün özünüz yanan damın üstünə çıxmağa çalışmısınızmı? Beş nəfər vasitəsilə alınan məlumata inam nə dərəcədə olacaq?

14: 50. Yanğının soyutma sisteminə yaxınlaşması barədə məlumat daxil olub. Amma gələcəkmi? Növbətçi sistem administratoru bu məlumat mərkəzinin cəbhələrindən kənar trafiki aradan qaldırır.

Hal-hazırda, bütün xidmətlərimizin cəbhələri üç məlumat mərkəzində təkrarlanır, balanslaşdırma DNS səviyyəsində istifadə olunur ki, bu da bir məlumat mərkəzinin ünvanlarını DNS-dən silməyə imkan verir və bununla da istifadəçiləri xidmətlərə girişlə bağlı yarana biləcək problemlərdən qoruyur. . Əgər məlumat mərkəzində problemlər artıq baş veribsə, o, avtomatik olaraq fırlanmanı tərk edir. Ətraflı burada oxuya bilərsiniz: Odnoklassniki-də yük balansı və nasazlığa dözümlülük.

Yanğın hələlik bizə heç bir təsir göstərməyib - nə istifadəçilərə, nə də avadanlıqlara ziyan dəyib. Bu qəzadır? Sənədin “Qəza ilə bağlı Tədbirlər Planı” birinci bölməsi “Qəza” anlayışını müəyyən edir və bölmə belə bitir:
«Qəza olub-olmadığına şübhə varsa, deməli, qəzadır!»

14:53. Fövqəladə hallar üzrə koordinator təyin edilir.

Koordinator bütün iştirakçılar arasında əlaqəyə nəzarət edən, qəzanın miqyasını qiymətləndirən, Fövqəladə Hallar Planından istifadə edən, lazımi personalı cəlb edən, təmir işlərinin başa çatmasına nəzarət edən, ən əsası isə istənilən tapşırıqları həvalə edən şəxsdir. Başqa sözlə, bu, bütün fövqəladə hallara reaksiya prosesini idarə edən şəxsdir.

Bargaining

15:01. İstehsalla əlaqəli olmayan serverləri deaktiv etməyə başlayırıq.
15:03. Biz bütün rezerv edilmiş xidmətləri düzgün şəkildə söndürürük.
Buraya təkcə cəbhələr (istifadəçilərin artıq daxil olmadıqları) və onların köməkçi xidmətləri (biznes məntiqi, keşlər və s.) deyil, həm də replikasiya faktoru 2 və ya daha çox olan müxtəlif verilənlər bazaları daxildir.Cassandra, ikili məlumat saxlama, soyuq anbar, NewSQL və s.).
15: 06. Məlumat mərkəzinin salonlarından birini yanğın təhlükəsi altında saxlaması barədə məlumat daxil olub. Bu otaqda avadanlıqlarımız yoxdur, lakin yanğının damdan salonlara keçməsi baş verənlərin mənzərəsini xeyli dəyişir.
(Sonradan məlum oldu ki, zal damdan hermetik şəkildə bağlandığından ona fiziki təhlükə yoxdur. Təhlükə yalnız bu zalın soyutma sisteminə aid olub).
15:07. Biz əlavə yoxlamalar olmadan sürətləndirilmiş rejimdə serverlərdə əmrlərin icrasına icazə veririk (sevimli kalkulyatorumuz olmadan).
15:08. Zallarda temperatur norma daxilindədir.
15: 12. Zallarda temperaturun artması qeydə alınıb.
15:13. Məlumat mərkəzindəki serverlərin yarıdan çoxu söndürülüb. Davam edək.
15:16. Bütün avadanlıqların söndürülməsinə qərar verildi.
15:21. Tətbiqi və əməliyyat sistemini düzgün bağlamadan vətəndaşlığı olmayan serverlərin gücünü kəsməyə başlayırıq.
15:23. MS SQL-ə cavabdeh olan bir qrup insan ayrılır (onlardan azdır, xidmətlərin onlardan asılılığı böyük deyil, lakin funksionallığın bərpası proseduru, məsələn, Cassandra-dan daha uzun çəkir və daha mürəkkəbdir).

Depressiya

15: 25. 16 zaldan dördündə (No6, 7, 8, 9) elektrik enerjisinin kəsilməsi barədə məlumat daxil olub. Avadanlıqlarımız 7 və 8 zallarda yerləşir. İki zalımız (No1 və 3) haqqında məlumat yoxdur.
Adətən, yanğınlar zamanı enerji təchizatı dərhal söndürülür, lakin bu zaman yanğınsöndürənlərin və məlumat mərkəzinin texniki işçilərinin koordinasiyalı işi sayəsində o, hər yerdə və dərhal deyil, lazım olduqda söndürülüb.
(Sonradan məlum oldu ki, 8 və 9 saylı zallarda elektrik enerjisi kəsilməyib).
15:28. Biz digər məlumat mərkəzlərində ehtiyat nüsxələrdən MS SQL verilənlər bazalarını yerləşdirməyə başlayırıq.
Nə qədər vaxt aparacaq? Bütün marşrut üçün kifayət qədər şəbəkə tutumu varmı?
15: 37. Şəbəkənin bəzi hissələrinin bağlanması qeydə alınıb.
İdarəetmə və istehsal şəbəkəsi bir-birindən fiziki olaraq təcrid olunur. İstehsal şəbəkəsi mövcuddursa, o zaman serverə gedə, proqramı dayandıra və OS-ni söndürə bilərsiniz. Əgər mövcud deyilsə, onda siz IPMI vasitəsilə daxil ola, proqramı dayandırıb ƏS-ni söndürə bilərsiniz. Şəbəkələrdən heç biri yoxdursa, heç nə edə bilməzsiniz. “Təşəkkürlər, Kap!” deyə düşünəcəksən.
"Və ümumiyyətlə, çox qarışıqlıq var" deyə düşünə bilərsiniz.
Məsələ burasındadır ki, serverlər, hətta yanğın olmasa da, böyük miqdarda istilik yaradır. Daha doğrusu, soyutma olanda istilik əmələ gətirirlər, soyutma olmadıqda isə cəhənnəm cəhənnəm yaradırlar ki, bu da ən yaxşı halda avadanlığın bir hissəsini əridib digər hissəsini söndürür, ən pis halda isə... zalın içərisində yanğın, demək olar ki, hər şeyi məhv etməyə zəmanət verilir.

Məlumat mərkəzinin tüstü sınağı "yandısa" server "söndürülməlidir"?

15:39. conf verilənlər bazası ilə bağlı problemləri həll edirik.

conf verilənlər bazası parametrləri tez dəyişmək üçün bütün istehsal proqramları tərəfindən istifadə edilən eyniadlı xidmətin arxa hissəsidir. Bu baza olmadan biz portalın işinə nəzarət edə bilmərik, lakin portal özü işləyə bilər.

15:41. Core şəbəkə avadanlığında temperatur sensorları icazə verilən maksimuma yaxın oxunuşları qeyd edir. Bu, bütün rafı tutan və məlumat mərkəzi daxilində bütün şəbəkələrin işləməsini təmin edən bir qutudur.

Məlumat mərkəzinin tüstü sınağı "yandısa" server "söndürülməlidir"?

15:42. Problem izləyicisi və viki əlçatan deyil, gözləmə rejiminə keçin.
Bu istehsal deyil, lakin qəza halında hər hansı bir məlumat bazasının mövcudluğu kritik ola bilər.
15:50. Monitorinq sistemlərindən biri söndürülüb.
Onların bir neçəsi var və onlar xidmətlərin müxtəlif aspektlərinə cavabdehdirlər. Onların bəziləri hər bir məlumat mərkəzi daxilində avtonom işləmək üçün konfiqurasiya edilmişdir (yəni yalnız öz məlumat mərkəzinə nəzarət edir), digərləri hər hansı bir məlumat mərkəzinin itirilməsindən şəffaf şəkildə xilas olan paylanmış komponentlərdən ibarətdir.
Bu vəziyyətdə o, fəaliyyətini dayandırdı biznes məntiqi göstəriciləri anomaliya aşkarlama sistemi, master-gözləmə rejimində işləyir. Gözləmə rejiminə keçdi.

Qəbul

15:51. MS SQL-dən başqa bütün serverlər düzgün bağlanmadan IPMI vasitəsilə söndürülüb.
Lazım gələrsə, IPMI vasitəsilə kütləvi server idarəçiliyinə hazırsınızmı?

Məlumat mərkəzindəki avadanlıqların xilas edilməsinin bu mərhələdə başa çatdığı an. Ediləcək hər şey edildi. Bəzi həmkarlar istirahət edə bilərlər.
16: 13. Kondisionerlərin freon borularının damda partlaması barədə məlumat daxil olub - bu, yanğın aradan qaldırıldıqdan sonra məlumat mərkəzinin işə salınmasını gecikdirəcək.
16:19. Məlumat mərkəzinin texniki işçilərindən alınan məlumatlara görə, salonlarda temperaturun artması dayanıb.
17:10. conf verilənlər bazası bərpa edildi. İndi proqram parametrlərini dəyişə bilərik.
Hər şey səhvlərə dözümlüdürsə və bir məlumat mərkəzi olmadan belə işləyirsə, bu niyə bu qədər vacibdir?
Birincisi, hər şey günaha dözümlü deyil. Məlumat mərkəzinin nasazlığından hələ kifayət qədər yaxşı çıxmayan müxtəlif ikinci dərəcəli xidmətlər və master-gözləmə rejimində verilənlər bazası var. Parametrləri idarə etmək bacarığı hətta çətin şəraitdə belə qəzanın nəticələrinin istifadəçilərə təsirini minimuma endirmək üçün lazım olan hər şeyi etməyə imkan verir.
İkincisi, məlumat mərkəzinin fəaliyyətinin yaxın saatlarda tam bərpa olunmayacağı aydın oldu, buna görə də replikaların uzun müddət əlçatmazlığının kompüterdə tam disklər kimi əlavə problemlərə səbəb olmamasını təmin etmək üçün tədbirlər görmək lazım idi. qalan məlumat mərkəzləri.
17:29. Pizza vaxtı! Biz robotları yox, insanları işə götürürük.

Məlumat mərkəzinin tüstü sınağı "yandısa" server "söndürülməlidir"?

Bərpa

18:02. 8 (bizim), 9, 10 və 11 saylı zallarda temperatur sabitləşib. Oflayn qalanlardan birində (№ 7) avadanlıqlarımız yerləşir və orada temperatur yüksəlməkdə davam edir.
18:31. Onlar 1 və 3 saylı zallarda avadanlıqların işə salınmasına icazə veriblər - bu zallar yanğından zərər çəkməyib.

Hazırda ən kritik olanlardan başlayaraq 1, 3, 8 nömrəli zallarda serverlər işə salınır. Bütün işləyən xidmətlərin düzgün işləməsi yoxlanılır. 7 saylı zalda hələ də problemlər var.

18:44. Məlumat mərkəzinin texniki işçiləri aşkar ediblər ki, 7 nömrəli otaqda (yalnız bizim avadanlıqların yerləşdiyi yer) bir çox serverlər söndürülməyib. Məlumatlarımıza görə, orada 26 server onlayn qalır. İkinci yoxlamadan sonra 58 server tapırıq.
20:18. Məlumat mərkəzinin texniki işçiləri koridorlardan keçən mobil kanallar vasitəsilə kondisionersiz otaqda hava üfürürlər.
23:08. İlk admin evə göndərildi. Sabah işə davam etmək üçün kimsə gecə yatmalıdır. Sonra daha bir neçə admin və tərtibatçı buraxacağıq.
02:56. Biz işə salına biləcək hər şeyi işə saldıq. Biz avtomatik testlərdən istifadə edərək bütün xidmətlərin çoxlu yoxlanışını edirik.

Məlumat mərkəzinin tüstü sınağı "yandısa" server "söndürülməlidir"?

03:02. Sonuncu, 7-ci zalda kondisioner bərpa olunub.
03:36. Məlumat mərkəzindəki cəbhələri DNS-də fırlanma vəziyyətinə gətirdik. Bu andan istifadəçi trafiki gəlməyə başlayır.
İnzibati komandanın çoxunu evə göndəririk. Amma bir neçə nəfəri geridə qoyuruq.

Kiçik tez-tez verilən suallar:
S: 18:31-dən 02:56-ya qədər nə baş verdi?
Cavab: “Fəlakətlə Mübarizə Planı”ndan sonra biz ən vaciblərindən başlayaraq bütün xidmətləri işə salırıq. Bu halda, çatdakı koordinator xidməti pulsuz idarəçiyə verir, o, ƏS və tətbiqin işə salınıb-başlamadığını, hər hansı səhvlərin olub-olmadığını və göstəricilərin normal olub-olmadığını yoxlayır. Başlatma tamamlandıqdan sonra o, pulsuz olduğunu və koordinatordan yeni xidmət aldığını çata bildirir.
Proses uğursuz avadanlıqla daha da yavaşlayır. ƏS-nin dayandırılması və serverlərin bağlanması düzgün getsə belə, bəzi serverlər disklərin, yaddaşın və şassinin qəfil sıradan çıxması səbəbindən geri qayıtmır. Elektrik kəsildikdə, uğursuzluq dərəcəsi artır.
S: Niyə hər şeyi bir anda işə salıb, monitorinq zamanı ortaya çıxanları düzəldə bilmirsiniz?
Cavab: Hər şey tədricən aparılmalıdır, çünki xidmətlər arasında asılılıqlar var. Və monitorinqi gözləmədən hər şeyi dərhal yoxlamalısınız - çünki problemlərin pisləşməsini gözləmədən dərhal həll etmək daha yaxşıdır.

7:40. Sonuncu admin (koordinator) yatağa getdi. Birinci günün işləri yekunlaşıb.
8:09. İlk tərtibatçılar, məlumat mərkəzinin mühəndisləri və administratorları (yeni koordinator da daxil olmaqla) bərpa işlərinə başladılar.
09:37. 7 nömrəli zalı (sonuncu) qaldırmağa başladıq.
Eyni zamanda, biz digər otaqlarda düzəldilməyənləri bərpa etməyə davam edirik: disklərin/yaddaşların/serverlərin dəyişdirilməsi, monitorinqdə “yanan” hər şeyi düzəltmək, master-standby sxemlərində rolların yenidən dəyişdirilməsi və digər xırda şeylər. buna baxmayaraq olduqca çox.
17:08. İstehsalatla bütün müntəzəm işləməyə icazə veririk.
21:45. İkinci günün işi başa çatıb.
09:45. Bu gün cümədir. Monitorinqdə hələ də kifayət qədər kiçik problemlər var. Qarşıda həftəsonu var, hamı dincəlmək istəyir. Əlimizdən gələn hər şeyi kütləvi şəkildə təmir etməyə davam edirik. Təxirə salına bilən müntəzəm admin tapşırıqları təxirə salındı. Koordinator yenidir.
15:40. Birdən BAŞQA məlumat mərkəzindəki Əsas şəbəkə avadanlığı yığınının yarısı yenidən işə salındı. Riskləri minimuma endirmək üçün cəbhələr rotasiyadan çıxarıldı. İstifadəçilər üçün heç bir effekt yoxdur. Sonradan məlum oldu ki, bu, nasaz şassidir. Koordinator eyni anda iki qəzanın aradan qaldırılması üzərində işləyir.
17:17. Başqa bir məlumat mərkəzində şəbəkənin işləməsi bərpa edildi, hər şey yoxlanıldı. Məlumat mərkəzi fırlanma vəziyyətinə gətirilir.
18:29. Üçüncü günün işi və ümumiyyətlə, qəzadan sonra bərpa işləri başa çatıb.

Sözündən sonra

04.04.2013 404 xətası günü, "Sinif yoldaşları" ən böyük qəzadan sağ çıxdı — üç gün ərzində portal tamamilə və ya qismən əlçatan deyildi. Bütün bu müddət ərzində müxtəlif şəhərlərdən, müxtəlif şirkətlərdən 100-dən çox insan (yenidən çox sağ olun!), uzaqdan və birbaşa məlumat mərkəzlərində, əl ilə və avtomatik olaraq minlərlə serveri təmir etdi.
Biz nəticə çıxarmışıq. Bunun bir daha baş verməməsi üçün biz bu günə kimi geniş işlər görmüşük və həyata keçirməkdə davam edirik.

İndiki qəza ilə 404 arasındakı əsas fərqlər nələrdir?

  • Bizim “Qəzalar üzrə Tədbirlər Planımız” var. Rübdə bir dəfə biz təlimlər keçiririk - bir qrup idarəçinin (hamısı öz növbəsində) “Fövqəladə Hallar Planı”ndan istifadə edərək aradan qaldırmalı olduğu fövqəladə vəziyyətin rolunu oynayırıq. Aparıcı sistem administratorları növbə ilə koordinator rolunu oynayırlar.
  • Hər rüb test rejimində biz məlumat mərkəzlərini (hamısı öz növbəsində) LAN və WAN şəbəkələri vasitəsilə təcrid edirik ki, bu da bizə darboğazları operativ şəkildə müəyyən etməyə imkan verir.
  • Daha az qırılan disklər, çünki biz standartları sərtləşdirmişik: daha az iş saatı, SMART üçün daha sərt həddlər,
  • Biz köhnə və qeyri-sabit verilənlər bazası olan BerkeleyDB-dən tamamilə imtina etdik, serverin yenidən işə salınmasından sonra bərpası çox vaxt tələb edirdi.
  • MS SQL ilə serverlərin sayını azaltdıq və qalanlardan asılılığı azaltdıq.
  • Bizim özümüz var bulud - bir bulud, burada artıq iki ildir ki, bütün xidmətləri aktiv şəkildə köçürürük. Bulud proqramla işləməyin bütün dövrünü xeyli asanlaşdırır və qəza halında o, aşağıdakı kimi unikal alətləri təqdim edir:
    • bir kliklə bütün tətbiqlərin düzgün dayandırılması;
    • uğursuz serverlərdən proqramların asan miqrasiyası;
    • bütöv bir məlumat mərkəzinin avtomatik sıralanmış (xidmətlərin prioritetinə görə) işə salınması.

Bu məqalədə təsvir edilən qəza 404-cü gündən bəri ən böyük qəza idi. Təbii ki, hər şey qaydasında getmədi. Məsələn, başqa bir məlumat mərkəzində yanğından zədələnmiş məlumat mərkəzinin olmaması zamanı serverlərdən birində disk sıradan çıxdı, yəni Cassandra klasterindəki üç replikadan yalnız biri əlçatan qaldı, bu səbəbdən mobillərin 4,2%-i proqram istifadəçiləri daxil ola bilmədilər. Eyni zamanda, artıq qoşulmuş istifadəçilər işləməyə davam etdilər. Ümumilikdə, qəza nəticəsində 30-dan çox problem müəyyən edildi - banal səhvlərdən tutmuş xidmət arxitekturasındakı çatışmazlıqlara qədər.

Lakin indiki qəza ilə 404-cü qəza arasında ən mühüm fərq ondan ibarətdir ki, biz yanğının nəticələrini aradan qaldırarkən istifadəçilər hələ də mesaj göndərir və video zənglər edirdilər. tamtam, oyun oynadı, musiqi dinlədi, bir-birinə hədiyyələr verdi, videolara, seriallara və televiziya kanallarına baxdı OK, və həmçinin axın etdi Tamam canlı.

Qəzalarınız necə keçir?

Mənbə: www.habr.com

Добавить комментарий