Деректер орталығының түтін сынағы «жанып кетсе», серверді «сөндіру» керек пе?

Жаздың бір тамаша күнінде сіздің құрылғыңызбен деректер орталығы осылай көрінсе, сіз қалай қарайсыз?

Деректер орталығының түтін сынағы «жанып кетсе», серверді «сөндіру» керек пе?

Бәріңе сәлем! Менің атым Дмитрий Самсонов, мен жетекші жүйелік әкімші болып жұмыс істеймін «Сыныптастар«. Фотосуретте жобамызға қызмет көрсететін жабдық орнатылған төрт деректер орталығының бірі көрсетілген. Бұл қабырғалардың артында 4 мыңға жуық жабдық бар: серверлер, деректерді сақтау жүйесі, желілік жабдық және т.б. — біздің барлық жабдықтың шамамен ⅓.
Көптеген серверлер Linux болып табылады. Сондай-ақ Windows жүйесінде (MS SQL) бірнеше ондаған серверлер бар - біздің мұрамыз, олардан біз көптеген жылдар бойы жүйелі түрде бас тартамыз.
Осылайша, 5 жылдың 2019 маусымында 14:35-те біздің деректер орталықтарымыздың бірінің инженерлері өрт дабылы туралы хабарлады.

Бас тарту

14:45. Деректер орталықтарындағы шағын түтін оқиғалары сіз ойлағаннан да жиі орын алады. Залдар ішіндегі көрсеткіштер қалыпты болды, сондықтан біздің бірінші реакциямыз салыстырмалы түрде тыныш болды: олар бірдеңені түзетуге байланысты жұмыстарды қоспағанда, өндіріспен жұмыс істеуге, яғни кез келген конфигурация өзгерістеріне, жаңа нұсқаларды шығаруға және т.б. тыйым салды.

Қараулар

Сіз өрт сөндірушілерден өрттің қай жерде төбеде шыққанын білуге ​​немесе жағдайды бағалау үшін жанып жатқан шатырға өзіңіз шығуға тырысып көрдіңіз бе? Бес адам арқылы алынған ақпаратқа деген сенімділік дәрежесі қандай болады?

14: 50. Өрттің салқындату жүйесіне жақындағаны туралы ақпарат түсті. Бірақ ол келе ме? Кезекші жүйе әкімшісі осы деректер орталығының алдыңғы жағындағы сыртқы трафикті көрсетеді.

Қазіргі уақытта біздің барлық қызметтеріміздің фронттары үш деректер орталығында қайталанады, DNS деңгейінде теңгерімдеу қолданылады, бұл бір деректер орталығының мекенжайларын DNS жүйесінен жоюға мүмкіндік береді, осылайша пайдаланушыларды қызметтерге қол жеткізудегі ықтимал мәселелерден қорғайды. . Деректер орталығында ақаулар орын алған жағдайда, ол автоматты түрде айналымнан шығады. Толығырақ мына жерден оқи аласыз: Одноклассникидегі жүктемені теңестіру және ақауларға төзімділік.

Өрт бізге әлі ешқандай әсер еткен жоқ - пайдаланушыларға да, жабдыққа да әсер еткен жоқ. Бұл апат па? Құжаттың бірінші бөлімі «Апат оқиғалары бойынша іс-шаралар жоспары» «Апат» түсінігін анықтайды, ал бөлім келесідей аяқталады:
«Күмән болса, апат болды ма, жоқ па, бұл апат!»

14:53. Жазатайым оқиғаның координаторы тағайындалады.

Үйлестіруші – барлық қатысушылар арасындағы байланысты бақылайтын, апаттың ауқымын бағалайтын, «Апатқа қарсы іс-қимыл жоспарын» қолданатын, қажетті персоналды тартатын, жөндеудің аяқталуын бақылайтын, ең бастысы, кез келген тапсырманы тапсыратын адам. Басқаша айтқанда, бұл апатты жоюдың бүкіл процесін басқаратын адам.

Сауда-саттық

15:01. Біз өндіріспен байланысы жоқ серверлерді өшіре бастаймыз.
15:03. Барлық резервтелген қызметтерді дұрыс өшіріңіз.
Бұған фронттар (қазіргі уақытта пайдаланушылар енді қол жеткізе алмайтын) және олардың қосалқы қызметтері (бизнес логика, кэштер және т.б.) ғана емес, сонымен қатар 2 немесе одан да көп репликация коэффициенті бар әртүрлі дерекқорлар кіреді (Кассандра, екілік деректер қоймасы, салқын қойма, newsql т.б.).
15: 06. Дата орталығының залдарының біріне өрт қаупі төніп тұрғаны туралы ақпарат түсті. Бұл залда бізде құрал-жабдықтар жоқ, бірақ өрттің шатырдан залдарға дейін таралуы не болып жатқанының көрінісін қатты өзгертеді.
(Кейіннен анықталғандай, залға физикалық қауіп төніп тұрған жоқ, өйткені ол шатырдан герметикалық жабылған. Қауіп тек осы залдың салқындату жүйесіне ғана болған).
15:07. Біз қосымша тексерулерсіз жеделдетілген режимде серверлерде командаларды орындауға рұқсат береміз (біздің сүйікті калькуляторсыз).
15:08. Бөлмелердегі температура қалыпты диапазонда.
15: 12. Залдарда температураның жоғарылауы тіркелді.
15:13. Деректер орталығындағы серверлердің жартысынан көбі өшірілген. Біз жалғастырамыз.
15:16. Барлық жабдықты өшіру туралы шешім қабылданды.
15:21. Біз қолданбаны және операциялық жүйені дұрыс өшірмей, азаматтығы жоқ серверлерде қуатты өшіре бастаймыз.
15:23. MS SQL-ге жауапты адамдар тобын ерекше атап өтуге болады (олардың саны аз, қызметтердің оларға тәуелділігі үлкен емес, бірақ қалпына келтіру процедурасы көп уақытты қажет етеді және мысалы, Кассандраға қарағанда күрделірек).

Депрессия

15: 25. 16 залдың төрт залында (No6, 7, 8, 9) электр қуатының өшуі туралы ақпарат түсті. Біздің құрал-жабдықтар 7-8-ші залдарда орналасқан. Біздің екі зал (No1 және 3) туралы мәлімет жоқ.
Әдетте, өрт кезінде электр қуаты бірден өшіріледі, бірақ бұл жағдайда өрт сөндірушілер мен деректер орталығының техникалық қызметкерлерінің үйлесімді жұмысының арқасында ол барлық жерде емес және бірден емес, қажеттіліктен өшірілді.
(Кейінірек 8 және 9 бөлмелердегі электр қуатының өшірілмегені белгілі болды).
15:28. Біз басқа деректер орталықтарындағы сақтық көшірмелерден MS SQL дерекқорларын орналастыруды бастаймыз.
Ол қанша уақытты алады? Бүкіл маршрут үшін желі өткізу қабілеті жеткілікті ме?
15: 37. Желінің кейбір бөлімдерінің бекітілген ажыратылуы.
Басқару және өндірістік желі бір-бірінен физикалық оқшауланған. Өндірістік желі қол жетімді болса, сіз серверге өтіп, қолданбаны тоқтатып, ОЖ-ны өшіре аласыз. Егер ол қол жетімді болмаса, онда сіз IPMI арқылы өтіп, қолданбаны тоқтатып, ОЖ-ны өшіре аласыз. Егер желілердің ешқайсысы болмаса, сіз ештеңе істей алмайсыз. «Рахмет, қалпақ!» деп ойлайсың.
«Иә, және жалпы алғанда, қандай да бір күйзеліс көп» деп ойлайсыз.
Мәселе мынада, серверлер, тіпті отсыз болса да, үлкен жылу шығарады. Дәлірек айтқанда, салқындату болған кезде олар жылу шығарады, ал ол болмаған кезде олар тозақ тозағын жасайды, ол ең жақсы жағдайда жабдықтың бір бөлігін ерітіп, екінші бөлігін өшіреді, ал ең нашар жағдайда ... ішінде өрт тудырады. зал, ол барлығын дерлік жоюға кепілдік береді.

Деректер орталығының түтін сынағы «жанып кетсе», серверді «сөндіру» керек пе?

15:39. Біз conf негізімен ақауларды түзетеміз.

conf базасы — параметрлерді жылдам өзгерту үшін барлық өндірістік қолданбалар пайдаланатын аттас қызметке арналған сервер. Бұл базасыз біз портал жұмысын басқара алмаймыз, бірақ порталдың өзі бір уақытта жұмыс істей алады.

15:41. Негізгі желі жабдығындағы температура сенсорлары рұқсат етілген максималды мәнге жақын көрсеткіштерді жазады. Бұл бүкіл тіректі алып жатқан және деректер орталығының ішіндегі барлық желілердің жұмысын қамтамасыз ететін қорап.

Деректер орталығының түтін сынағы «жанып кетсе», серверді «сөндіру» керек пе?

15:42. Мәселені бақылау құралы мен вики қолжетімсіз, күту режиміне ауысыңыз.
Бұл өндіріс емес, бірақ апат болған жағдайда кез келген білім базасының болуы маңызды болуы мүмкін.
15:50. Бақылау жүйелерінің бірі өшірілген.
Олардың бірнешеуі бар және олар қызметтердің әртүрлі аспектілеріне жауап береді. Олардың кейбіреулері әрбір деректер орталығында автономды жұмыс істеу үшін конфигурацияланған (яғни, олар тек өздерінің деректер орталығын бақылайды), басқалары кез келген деректер орталығының жоғалуынан мөлдір түрде аман қалатын таратылған компоненттерден тұрады.
Бұл жағдайда ол жұмысын тоқтатты. бизнес логикалық индикатор аномалиясын анықтау жүйесі, ол негізгі күту режимінде жұмыс істейді. Күту режиміне ауыстырылды.

Қабылдау

15:51. IPMI арқылы MS SQL-тен басқа барлық серверлер дұрыс өшірілмей өшірілді.
Қажет болса, IPMI арқылы серверлерді жаппай басқаруға дайынсыз ба?

Дәл осы кезеңде деректер орталығындағы жабдықты құтқару аяқталатын сәт. Қолдануға болатынның бәрі жасалды. Кейбір әріптестер үзіліс жасай алады.
16: 13. Шатырда кондиционерлердің фреон құбырлары жарылғаны туралы ақпарат болды - бұл өрт сөнгеннен кейін деректер орталығының іске қосылуын кешіктіреді.
16:19. Дата орталығының техникалық қызметкерлерінен алынған мәліметтерге сәйкес, залдардағы температураның көтерілуі тоқтаған.
17:10. conf дерекқорының жұмысын қалпына келтірді. Енді біз қолданба параметрлерін өзгерте аламыз.
Неліктен бәрі ақауларға төзімді және бір деректер орталығынсыз жұмыс істейтін болса, бұл соншалықты маңызды?
Біріншіден, бәрі де қателікке шыдамды емес. Деректер орталығының істен шығуына төтеп бере алмайтын әртүрлі қосымша қызметтер бар және негізгі күту режимінде базалар бар. Параметрлерді басқару мүмкіндігі тіпті қиын жағдайларда да пайдаланушыларға апат салдарының әсерін азайту үшін қажеттінің бәрін жасауға мүмкіндік береді.
Екіншіден, деректер орталығының жұмысы алдағы бірнеше сағатта толық қалпына келтірілмейтіні белгілі болды, сондықтан көшірмелердің ұзақ уақыт бойы қол жетімсіздігі дискілердің толып кетуі сияқты қосымша қиындықтарға әкелмеуі үшін шаралар қабылдау қажет болды. қалған деректер орталықтарында.
17:29. Пицца уақыты! Біз роботтарды емес, адамдарды жұмысқа аламыз.

Деректер орталығының түтін сынағы «жанып кетсе», серверді «сөндіру» керек пе?

Оңалту

18:02. No8 (біздікі), 9, 10 және 11 залдарда ауа температурасы тұрақтанды. Желіден тыс қалғандардың бірінде (№7) біздің жабдық бар және ондағы температура көтеріле береді.
18:31. Олар No1 және 3 залдардағы жабдықтарды іске қосуға рұқсат берді – бұл залдар өрттен зардап шеккен жоқ.

Қазіргі уақытта аса маңыздылардан бастап No1, 3, 8 залдарда серверлер іске қосылуда. Барлық жұмыс істеп тұрған қызметтердің дұрыс жұмыс істеуі тексеріледі. №7 залдың мәселесі әлі де бар.

18:44. Дата орталығының техникалық қызметкерлері №7 бөлмеде (тек біздің жабдық орналасқан) көптеген серверлер өшірілмегенін анықтады. Біздің мәліметтер бойынша, онда 26 сервер қалады. Қайта тексергеннен кейін біз 58 серверді табамыз.
20:18. Дата орталығының техникалық қызметкерлері кондиционері жоқ бөлмедегі ауаны дәліздер арқылы төселген жылжымалы ауа өткізгіштер арқылы үрлейді.
23:08. Бірінші админ үйге қайтсын. Біреу ертең жұмысын жалғастыру үшін түнде ұйықтауы керек. Әрі қарай, біз әкімшілер мен әзірлеушілердің тағы бір бөлігін шығарамыз.
02:56. Біз іске қосуға болатынның бәрін іске қостық. Біз автотесттермен барлық қызметтерді үлкен тексереміз.

Деректер орталығының түтін сынағы «жанып кетсе», серверді «сөндіру» керек пе?

03:02. Соңғы, 7-ші залдың кондиционері қалпына келтірілді.
03:36. Біз деректер орталығындағы фронттарды DNS жүйесінде айналдырдық. Осы сәттен бастап пайдаланушы трафигі келе бастайды.
Біз әкімші тобының көпшілігін үйге жібереміз. Бірақ біз бірнеше адамды қалдырамыз.

Шағын жиі қойылатын сұрақтар:
С: 18:31-ден 02:56-ға дейін не болды?
Ж: Апатқа ден қою жоспарына сәйкес біз ең маңыздыларынан бастап барлық қызметтерді іске қосамыз. Бұл ретте чаттағы үйлестіруші қызметті тегін әкімшіге береді, ол ОЖ мен қосымшаның іске қосылғанын, қателердің бар-жоғын, көрсеткіштердің қалыпты екенін тексереді. Іске қосу аяқталғаннан кейін ол чатта бос екенін хабарлайды және үйлестірушіден жаңа қызметті алады.
Процесті істен шыққан темір қосымша тежейді. ОЖ-ны өшіру және серверлерді өшіру жақсы өтсе де, дискілердің, жадтың, шассидің кенеттен істен шығуына байланысты кейбір серверлер оралмайды. Қуат жоғалған кезде ақаулардың пайызы артады.
С: Неліктен барлығын бірден іске қосып, содан кейін мониторингте пайда болатын нәрсені түзете алмайсыз?
Ж: Барлығы бірте-бірте жасалуы керек, өйткені қызметтер арасында тәуелділік бар. Және барлығын бақылауды күтпей-ақ дереу тексеру керек - өйткені проблемалардың нашарлауын күтпей, бірден шешкен дұрыс.

7:40. Соңғы админ (координатор) ұйқыға кетті. Бірінші күннің жұмысы аяқталды.
8:09. Алғашқы әзірлеушілер, деректер орталығының инженерлері және әкімшілері (соның ішінде жаңа үйлестіруші) қалпына келтіру жұмыстарын бастады.
09:37. №7 залды көтеруді бастадық (соңғы).
Сонымен қатар, біз басқа бөлмелерде аяқталмағандарды қалпына келтіруді жалғастырамыз: дискілерді / жадты / серверлерді ауыстыру, бақылауда «жанып кететін» барлық нәрсені түзету, негізгі күту схемаларында кері рөлдерді ауыстыру және басқа да ұсақ-түйектер көп.
17:08. Біз өндіріспен барлық тұрақты жұмыс істеуге мүмкіндік береміз.
21:45. Екінші күннің жұмысы аяқталды.
09:45. Бүгін жұма. Бақылауда әлі де аздаған проблемалар бар. Демалыс күні жақындап қалды және бәрі демалғысы келеді. Біз қолымыздан келгеннің бәрін жаппай жөндеуді жалғастырамыз. Кейінге қалдыруға болатын әдеттегі әкімші тапсырмалары кейінге қалдырылды. Жаңа үйлестіруші.
15:40. Кенеттен БАСҚА деректер орталығындағы желілік жабдықтың негізгі стекінің жартысы қайта іске қосылды. Тәуекелдерді азайту үшін фронттар айналымнан шығарылды. Пайдаланушылар үшін ешқандай әсер жоқ. Кейін бұл ақаулы шасси екені белгілі болды. Үйлестіруші бірден екі апатты жөндеумен айналысуда.
17:17. Басқа деректер орталығында желі жұмысы қалпына келтірілді, барлығы тексерілді. Деректер орталығы айналымда.
18:29. Үшінші күндегі жұмыс және жалпы апаттан кейінгі қалпына келтіру аяқталды.

Кейінгі сөз

04.04.2013 жыл 404 қатесі күні, «Сыныптастар» ең үлкен апаттан аман қалды —үш күн бойы портал толық немесе ішінара қолжетімсіз болды. Осы уақыт ішінде әртүрлі қалалардан, әртүрлі компаниялардан (тағы да рахмет!) 100-ден астам адам қашықтан және тікелей деректер орталықтарында мыңдаған серверлерді қолмен және автоматты түрде жөндеді.
Біз қорытынды жасадық. Бұндай жағдай қайталанбауы үшін біз бүгінге дейін ауқымды жұмыстарды атқардық және жүргізіп жатырмыз.

Қазіргі апат пен 404 арасындағы негізгі айырмашылықтар қандай?

  • Бізде апатқа қарсы іс-қимыл жоспары бар. Тоқсанына бір рет біз жаттығу өткіземіз - әкімшілер тобы (әрқайсысы кезекпен) «Апаттарға әрекет ету жоспары» арқылы шешуі керек төтенше жағдайды ойнаймыз. Жетекші жүйе әкімшілері үйлестіруші рөлін кезекпен орындайды.
  • Тоқсан сайын сынақ режимінде біз LAN және WAN желілері арқылы деректер орталықтарын (барлығы өз кезегінде) оқшаулап отырамыз, бұл кедергілерді дер кезінде анықтауға мүмкіндік береді.
  • Жаман дискілер аз, өйткені біз ережелерді күшейттік: аз жұмыс уақыты, қатаңырақ SMART шектері,
  • Біз серверді қайта іске қосқаннан кейін қалпына келтіру үшін көп уақытты қажет ететін ескі және тұрақсыз деректер базасы BerkeleyDB-тен толығымен бас тарттық.
  • Біз MS SQL серверлерінің санын азайтып, қалғандарына тәуелділікті азайттық.
  • Біздің өзіміз бар бұлт – бір бұлт, мұнда біз соңғы екі жыл ішінде барлық қызметтерді белсенді түрде көшіріп жатырмыз. Бұлт қолданбамен жұмыс істеудің бүкіл циклін айтарлықтай жеңілдетеді және апат болған жағдайда ол келесідей бірегей құралдарды ұсынады:
    • бір рет басу арқылы барлық қолданбаларды дұрыс тоқтату;
    • сәтсіз серверлерден қосымшаларды қарапайым көшіру;
    • бүкіл деректер орталығының автоматты түрде ранжирленген (қызмет басымдылығы бойынша) іске қосылуы.

Осы мақалада сипатталған апат 404-ші күннен бергі ең үлкен апат болды. Әрине, бәрі ойдағыдай өткен жоқ. Мысалы, басқа деректер орталығында өрттен зақымданған деректер орталығының қолжетімсіздігі кезінде серверлердің бірінде диск істен шықты, яғни Кассандра кластеріндегі үш репликаның біреуі ғана қол жетімді болды, соның салдарынан мобильді құрылғылардың 4,2%. қолданба пайдаланушылары жүйеге кіре алмады. Сонымен бірге қосылған пайдаланушылар жұмысын жалғастырды. Апат салдарынан барлығы 30-дан астам мәселе анықталды - банальды қателерден бастап қызметтердің архитектурасындағы кемшіліктерге дейін.

Бірақ қазіргі апаттың 404-ші оқиғадан ең маңызды айырмашылығы - біз өрттің салдарын жойып жатқанда, пайдаланушылар әлі де SMS жазып, бейне қоңыраулар шалды. TomTom, ойын ойнады, музыка тыңдады, бір-біріне сыйлық берді, бейнебаяндарды, сериалдар мен телеарналарды көрді OK, сонымен қатар ағынмен жіберілді Жарайды.

Апаттарыңыз қалай өтіп жатыр?

Ақпарат көзі: www.habr.com

пікір қалдыру