Дата төвийн утааны шинжилгээнд гал гарсан тохиолдолд серверүүдийг унтраах ёстой юу?

Зуны нэгэн сайхан өдөр таны төхөөрөмжтэй дата төв ийм байвал танд ямар санагдах вэ?

Дата төвийн утааны шинжилгээнд гал гарсан тохиолдолд серверүүдийг унтраах ёстой юу?

Сайн уу! Намайг Дмитрий Самсонов гэдэг, би системийн тэргүүлэх администратороор ажилладаг "Ангийнхан" Зураг дээр манай төсөлд үйлчилдэг тоног төхөөрөмж суурилуулсан дөрвөн дата төвийн нэгийг харуулж байна. Эдгээр хананы цаана сервер, өгөгдөл хадгалах систем, сүлжээний төхөөрөмж гэх мэт 4 мянга орчим тоног төхөөрөмж байдаг. - манай бүх тоног төхөөрөмжийн бараг ⅓.
Ихэнх серверүүд нь Линукс юм. Мөн Windows (MS SQL) дээр хэдэн арван серверүүд байдаг - бидний олон жилийн турш системтэйгээр орхиж ирсэн бидний өв.
Ингээд 5 оны 2019 дугаар сарын 14-ны өдрийн 35:XNUMX минутад манай нэг дата төвийн инженерүүд галын дохиолол өгсөн.

Зогс

14:45. Дата төвүүдэд бага зэргийн утааны осол гарах нь таны бодож байгаагаас ч илүү тохиолддог. Танхимуудын доторх үзүүлэлтүүд хэвийн байсан тул бидний анхны хариу үйлдэл харьцангуй тайван байсан: тэд ямар нэг зүйлийг засахтай холбоотой ажлаас бусад тохиолдолд үйлдвэрлэлтэй ажиллах, өөрөөр хэлбэл тохиргооны аливаа өөрчлөлт, шинэ хувилбар гаргах гэх мэтийг хориглов.

Сүйрэл

Та гал сөнөөгчдөөс дээвэр дээр яг хаана гал гарсныг олж мэдэхийг оролдсон уу, эсвэл өөрөө шатаж буй дээвэр дээр гарч нөхцөл байдлыг үнэлэх гэж оролдсон уу? Таван хүнээр дамжуулан авсан мэдээлэлд итгэх итгэл ямар байх бол?

14: 50. Галын хөргөлтийн системд ойртож байна гэсэн мэдээлэл иржээ. Гэхдээ ирэх болов уу? Системийн администратор жижүүр нь энэхүү дата төвийн урд талын гадаад урсгалыг устгадаг.

Одоогийн байдлаар манай бүх үйлчилгээний нүүр царайг гурван дата төвд давхардуулж, DNS түвшинд тэнцвэржүүлэлтийг ашигладаг бөгөөд энэ нь DNS-ээс нэг дата төвийн хаягийг устгах боломжийг олгодог бөгөөд ингэснээр хэрэглэгчдийг үйлчилгээнд нэвтрэхэд гарч болзошгүй асуудлаас хамгаалдаг. . Хэрэв өгөгдлийн төвд асуудал аль хэдийн гарсан бол эргэлтийг автоматаар орхино. Та эндээс илүү ихийг уншиж болно: Одноклассники дахь ачааллыг тэнцвэржүүлэх, алдааг тэсвэрлэх чадвар.

Гал одоохондоо бидэнд ямар нэгэн байдлаар өртөөгүй - хэрэглэгчид болон тоног төхөөрөмжид гэмтэл учруулаагүй. Энэ осол мөн үү? Баримт бичгийн эхний хэсэгт "Ослын үйл ажиллагааны төлөвлөгөө" нь "Осол" гэсэн ойлголтыг тодорхойлсон бөгөөд хэсэг нь дараах байдлаар төгсдөг.
«Осол болсон эсэхэд эргэлзэж байгаа бол энэ нь осол юм!»

14:53. Онцгой байдлын зохицуулагчийг томилсон.

Зохицуулагч нь бүх оролцогчдын хоорондын харилцаа холбоог хянах, ослын цар хүрээг үнэлэх, Онцгой байдлын арга хэмжээний төлөвлөгөөг ашиглах, шаардлагатай боловсон хүчнийг татах, засварын гүйцэтгэлд хяналт тавих, хамгийн чухал нь аливаа ажлыг хариуцдаг хүн юм. Өөрөөр хэлбэл, энэ бол яаралтай тусламжийн бүх үйл явцыг удирдаж буй хүн юм.

Барга

15:01. Бид үйлдвэрлэлтэй холбоогүй серверүүдийг идэвхгүй болгож эхэлдэг.
15:03. Бид бүх нөөцлөгдсөн үйлчилгээг зөв унтраадаг.
Үүнд зөвхөн фронтууд (энэ үед хэрэглэгчид хандахаа больсон) болон тэдгээрийн туслах үйлчилгээнүүд (бизнес логик, кэш гэх мэт) төдийгүй 2 ба түүнээс дээш хуулбарлах хүчин зүйлтэй төрөл бүрийн мэдээллийн сангууд орно.Кассандра, хоёртын өгөгдөл хадгалах, хүйтэн агуулах, NewSQL гэх мэт).
15: 06. Дата төвийн нэг танхимд гал гарч байна гэсэн мэдээлэл ирсэн. Энэ өрөөнд бидэнд тоног төхөөрөмж байхгүй, гэхдээ гал дээврээс танхим руу тархах боломжтой байгаа нь болж буй үйл явдлын дүр зургийг ихээхэн өөрчилдөг.
(Дээврээс нь битүүмжилсэн тул энэ танхимд бие махбодийн аюул заналхийлээгүй нь хожим тодорхой болсон. Зөвхөн энэ танхимын хөргөлтийн системд аюул заналхийлж байсан.)
15:07. Бид нэмэлт шалгалтгүйгээр түргэвчилсэн горимд сервер дээр тушаал гүйцэтгэхийг зөвшөөрдөг (бидний дуртай тооны машингүйгээр).
15:08. Танхимуудын температур хэвийн хэмжээнд байна.
15: 12. Танхим дахь температурын өсөлтийг тэмдэглэв.
15:13. Дата төвийн серверүүдийн талаас илүү хувь нь унтарсан байна. Үргэлжлүүлье.
15:16. Бүх төхөөрөмжийг унтраах шийдвэр гаргасан.
15:21. Бид програм болон үйлдлийн системийг зөв унтраахгүйгээр харьяалалгүй серверүүдийн хүчийг унтрааж эхэлдэг.
15:23. MS SQL-ийг хариуцдаг хэсэг хүмүүсийг хуваарилсан (тэдгээрийн тоо цөөхөн байдаг, үйлчилгээнүүдээс хамаарал нь тийм ч их биш боловч функцийг сэргээх журам нь жишээлбэл Кассандрагаас илүү урт бөгөөд илүү төвөгтэй байдаг).

Сэтгэлийн хямрал

15: 25. Нийт 16 танхимаас дөрвөн танхимд /6, 7, 8, 9/ цахилгаан тасарсан талаар мэдээлэл ирсэн. Манай тоног төхөөрөмж 7, 8-р зааланд байрладаг. Манай хоёр танхимын тухай мэдээлэл алга (1, 3 дугаар).
Ихэвчлэн гал түймрийн үед цахилгааныг шууд унтраадаг боловч энэ тохиолдолд дата төвийн гал сөнөөгчид болон техникийн ажилтнуудын уялдаа холбоотой ажлын ачаар хаа сайгүй, тэр даруй биш, харин шаардлагатай бол унтраадаг байв.
(8, 9-р зааланд цахилгааныг унтраагаагүй нь хожим илэрсэн)
15:28. Бид MS SQL мэдээллийн санг бусад мэдээллийн төвүүдэд нөөцлөлтөөс байршуулж эхэлж байна.
Хэр их хугацаа шаардагдах вэ? Бүх замд сүлжээний хүчин чадал хангалттай юу?
15: 37. Сүлжээний зарим хэсэг унтарсан нь бүртгэгдсэн.
Удирдлага, үйлдвэрлэлийн сүлжээ нь бие биенээсээ тусгаарлагдсан байдаг. Хэрэв үйлдвэрлэлийн сүлжээ байгаа бол та сервер рүү очиж, програмыг зогсоож, үйлдлийн системийг унтрааж болно. Хэрэв энэ боломжгүй бол та IPMI-ээр нэвтэрч, програмыг зогсоож, үйлдлийн системийг унтрааж болно. Хэрэв ямар ч сүлжээ байхгүй бол та юу ч хийж чадахгүй. “Баярлалаа, Cap!” гэж та бодох болно.
"Ерөнхийдөө үймээн самуун их байна" гэж та бас бодож магадгүй.
Хамгийн гол нь серверүүд гал түймэргүй байсан ч асар их дулаан ялгаруулдаг. Бүр нарийн яривал, хөргөлттэй үед тэд дулаан үүсгэж, хөргөхгүй бол тэд тамын тамыг бий болгодог бөгөөд энэ нь хамгийн сайндаа төхөөрөмжийн нэг хэсгийг хайлуулж, өөр хэсгийг унтрааж, хамгийн муу нь ... бүх зүйлийг устгах нь бараг баталгаатай танхим дотор гал.

Дата төвийн утааны шинжилгээнд гал гарсан тохиолдолд серверүүдийг унтраах ёстой юу?

15:39. Бид conf мэдээллийн сантай холбоотой асуудлыг засдаг.

conf мэдээллийн сан нь ижил нэртэй үйлчилгээний арын хэсэг бөгөөд бүх үйлдвэрлэлийн програмууд тохиргоог хурдан өөрчлөхөд ашигладаг. Энэ баазгүйгээр бид порталын ажиллагааг хянах боломжгүй, гэхдээ портал өөрөө ажиллах боломжтой.

15:41. Сүлжээний үндсэн төхөөрөмж дээрх температур мэдрэгч нь зөвшөөрөгдөх дээд хэмжээнд ойрхон заалтыг бүртгэдэг. Энэ бол бүхэл бүтэн тавиурыг эзэлдэг хайрцаг бөгөөд өгөгдлийн төвийн доторх бүх сүлжээний ажиллагааг хангадаг.

Дата төвийн утааны шинжилгээнд гал гарсан тохиолдолд серверүүдийг унтраах ёстой юу?

15:42. Асуудал хянагч болон вики ашиглах боломжгүй, зогсолт руу шилжинэ үү.
Энэ бол үйлдвэрлэл биш, гэхдээ осол гарсан тохиолдолд аливаа мэдлэгийн баазын хүртээмж чухал байж болно.
15:50. Хяналтын системийн нэг нь унтарсан байна.
Тэдгээрийн хэд хэдэн нь байдаг бөгөөд тэдгээр нь үйлчилгээний янз бүрийн асуудлыг хариуцдаг. Тэдгээрийн зарим нь өгөгдлийн төв тус бүрд бие даан ажиллахаар тохируулагдсан (өөрөөр хэлбэл тэд зөвхөн өөрсдийн дата төвийг хянадаг), зарим нь аливаа мэдээллийн төвийг алдагдуулахыг ил тод даван туулах тархсан бүрэлдэхүүн хэсгүүдээс бүрддэг.
Энэ тохиолдолд ажиллахаа больсон бизнесийн логик үзүүлэлтүүдийн гажиг илрүүлэх систем, энэ нь мастер зогсолтын горимд ажилладаг. Хүлээлгийн горимд шилжсэн.

Үрчлэлт

15:51. MS SQL-ээс бусад бүх серверүүдийг зөв унтраалгүйгээр IPMI-ээр унтраасан.
Шаардлагатай бол та IPMI-ээр дамжуулан серверийн томоохон удирдлагад бэлэн үү?

Өгөгдлийн төвд байгаа тоног төхөөрөмжийг аврах ажиллагаа яг энэ үе шатанд дуусч байна. Хийж болох бүх зүйл хийгдсэн. Зарим хамт олон амарч болно.
16: 13. Агааржуулагчийн фреон хоолой дээвэр дээр хагарсан гэсэн мэдээлэл ирсэн - энэ нь галыг арилгасны дараа мэдээллийн төвийг ажиллуулах хугацааг хойшлуулах болно.
16:19. Дата төвийн техникийн ажилтнуудаас авсан мэдээллээр танхимуудын температурын өсөлт зогссон байна.
17:10. conf мэдээллийн сан сэргээгдсэн. Одоо бид програмын тохиргоог өөрчлөх боломжтой.
Хэрэв бүх зүйл гэмтэлд тэсвэртэй, нэг дата төвгүйгээр ажилладаг бол энэ нь яагаад тийм чухал вэ?
Нэгдүгээрт, бүх зүйл алдааг тэсвэрлэдэггүй. Дата төвийн эвдрэлийг хангалттай даван туулж амжаагүй янз бүрийн хоёрдогч үйлчилгээнүүд байдаг ба мастер-зогсоох горимд байгаа мэдээллийн сангууд байдаг. Тохиргоог удирдах чадвар нь хүнд хэцүү нөхцөлд ч гэсэн ослын үр дагаврыг хэрэглэгчдэд үзүүлэх нөлөөллийг багасгахын тулд шаардлагатай бүх зүйлийг хийх боломжийг олгодог.
Хоёрдугаарт, дата төвийн үйл ажиллагаа ойрын хэдэн цагт бүрэн сэргээгдэхгүй нь тодорхой болсон тул хуулбарыг удаан хугацаанд ашиглах боломжгүй байгаа нь диск дүүрэх зэрэг нэмэлт бэрхшээлийг үүсгэхгүй байх талаар арга хэмжээ авах шаардлагатай болсон. Үлдсэн мэдээллийн төвүүд.
17:29. Пиццаны цаг! Бид робот биш хүмүүсийг ажиллуулдаг.

Дата төвийн утааны шинжилгээнд гал гарсан тохиолдолд серверүүдийг унтраах ёстой юу?

Нөхөн сэргээлт

18:02. 8-р (манайх), 9, 10, 11-р танхимуудад температур тогтворжсон. Оффлайн хэвээр байгаа нэг нь (№ 7) нь манай тоног төхөөрөмжийг байрлуулсан бөгөөд тэнд температур нэмэгдсээр байна.
18:31. Тэд 1, 3-р танхимд тоног төхөөрөмжийг ажиллуулах зөвшөөрөл өгсөн - эдгээр танхимууд галд өртөөгүй.

Одоогоор 1, 3, 8 тоот танхимуудад хамгийн эгзэгтэйгээсээ эхлээд серверүүдийг ажиллуулж байна. Ажиллаж байгаа бүх үйлчилгээний зөв ажиллагааг шалгаж байна. 7 дугаар зааланд асуудал байсаар байна.

18:44. Дата төвийн техникийн ажилтнууд 7-р өрөөнд (зөвхөн манай тоног төхөөрөмж байрладаг) олон сервер унтараагүй байгааг олж мэдэв. Бидний мэдээллээр тэнд 26 сервер онлайн хэвээр байна. Хоёр дахь шалгалтын дараа бид 58 серверийг олдог.
20:18. Мэдээллийн төвийн техникчид хонгилоор дамждаг хөдөлгөөнт хоолойгоор агааржуулагчгүй өрөөнд агаарыг үлээлгэдэг.
23:08. Эхний админыг гэрт нь явуулсан. Хэн нэгэн маргааш ажлаа үргэлжлүүлэхийн тулд шөнө унтах хэрэгтэй. Дараа нь бид хэд хэдэн админ болон хөгжүүлэгчийг гаргах болно.
02:56. Бид эхлүүлэх боломжтой бүх зүйлийг эхлүүлсэн. Бид бүх үйлчилгээг автомат тест ашиглан маш их шалгадаг.

Дата төвийн утааны шинжилгээнд гал гарсан тохиолдолд серверүүдийг унтраах ёстой юу?

03:02. Сүүлийн 7-р заалны агааржуулагчийг сэргээсэн.
03:36. Бид өгөгдлийн төвийн фронтуудыг DNS дээр эргүүлсэн. Энэ мөчөөс эхлэн хэрэглэгчийн урсгал ирж эхэлдэг.
Захиргааны багийн ихэнх хэсгийг бид гэр рүүгээ явуулж байна. Гэтэл бид хэдэн хүнийг ардаа орхидог.

Жижиг асуултууд:
А: 18:31-ээс 02:56 хүртэл юу болсон бэ?
Х: “Гамшгийн үед авах арга хэмжээний төлөвлөгөө”-ний дагуу бид хамгийн чухал үйлчилгээнээс эхлээд бүх үйлчилгээг эхлүүлдэг. Энэ тохиолдолд чат дахь зохицуулагч үйлчилгээгээ үнэ төлбөргүй администраторт өгч, үйлдлийн систем болон програм ажиллаж эхэлсэн эсэх, алдаа гарсан эсэх, үзүүлэлтүүд хэвийн байгаа эсэхийг шалгадаг. Ажиллаж дууссаны дараа тэрээр чөлөөтэй байгаагаа чат руу тайлагнаж, зохицуулагчаас шинэ үйлчилгээ авдаг.
Процесс нь бүтэлгүйтсэн техник хангамжаас болж удааширдаг. Хэдийгээр үйлдлийн системээ зогсоож, серверүүдийг унтраасан ч зарим серверүүд диск, санах ой, явах эд анги нь гэнэт доголдсоноос болж буцаж ирдэггүй. Эрчим хүч тасарсан үед эвдрэлийн түвшин нэмэгддэг.
Асуулт: Та яагаад бүгдийг нэг дор ажиллуулаад дараа нь хяналтанд гарч ирэх зүйлийг засаж болохгүй гэж?
Хариулт: Үйлчилгээний хооронд хамаарал байдаг тул бүх зүйлийг аажмаар хийх ёстой. Мөн та хяналт тавихыг хүлээхгүйгээр бүх зүйлийг нэн даруй шалгах хэрэгтэй - учир нь асуудал улам дордохыг хүлээхгүйгээр тэр даруй шийдвэрлэх нь дээр.

7:40. Сүүлчийн админ (зохицуулагч) орондоо оров. Эхний өдрийн ажил дууслаа.
8:09. Эхний хөгжүүлэгчид, мэдээллийн төвийн инженерүүд, администраторууд (шинэ зохицуулагчийг оруулаад) сэргээн засварлах ажлыг эхлүүлсэн.
09:37. Бид 7-р танхимыг (сүүлийнх нь) босгож эхлэв.
Үүний зэрэгцээ бид бусад өрөөнд засварлаагүй зүйлийг сэргээж байна: диск/санах ой/сервер солих, хяналтанд "шатаж" байгаа бүх зүйлийг засах, мастер-зогсоох схемд дүрүүдийг эргүүлэн солих болон бусад жижиг зүйлүүд байдаг. гэсэн хэдий ч нэлээд их.
17:08. Бид үйлдвэрлэлтэй тогтмол ажиллахыг зөвшөөрдөг.
21:45. Хоёр дахь өдрийн ажил дууслаа.
09:45. Өнөөдөр бол баасан гариг. Хяналтад багагүй асуудал байсаар байна. Амралтын өдөр ойртож байна, бүгд амрахыг хүсдэг. Бид чадах бүхнээ их хэмжээгээр зассаар байна. Хойшлуулж болох байсан ердийн админы ажлуудыг хойшлуулав. Зохицуулагч шинээр ирлээ.
15:40. ӨӨР өгөгдлийн төвд байгаа үндсэн сүлжээний төхөөрөмжийн тэн хагас нь гэнэт дахин ачаалагдсан. Эрсдэлийг багасгахын тулд фронтуудыг эргэлтээс хассан. Хэрэглэгчдэд ямар ч нөлөө үзүүлэхгүй. Энэ нь явах эд анги нь гэмтэлтэй байсан нь хожим тодорхой болсон. Зохицуулагч нь нэг дор хоёр ослыг засахаар ажиллаж байна.
17:17. Өөр мэдээллийн төвийн сүлжээний ажиллагааг сэргээж, бүх зүйлийг шалгасан. Дата төвийг эргэлтэнд оруулав.
18:29. Гурав дахь өдрийн ажил, ерөнхийдөө ослын дараах сэргээн босголтын ажил дууссан.

Дараах үгс

04.04.2013 он 404 алдаа гарсан өдөр, "Ангийнхан" хамгийн том ослоос амьд гарсан -гурван өдрийн турш портал бүрэн эсвэл хэсэгчлэн ашиглах боломжгүй байсан. Энэ бүх хугацаанд өөр өөр хот, өөр өөр компаниудын 100 гаруй хүмүүс (дахин маш их баярлалаа!) Дата төвүүдэд алсаас болон шууд, гараар болон автоматаар мянга мянган серверийг зассан.
Бид дүгнэлтээ гаргасан. Дахин ийм зүйл гаргахгүйн тулд бид өнөөдрийг хүртэл өргөн хүрээтэй ажил хийсэн, хийсээр байна.

Одоогийн осол, 404 хоёрын гол ялгаа нь юу вэ?

  • Бидэнд “Ослын үед авах арга хэмжээний төлөвлөгөө” бий. Бид улиралд нэг удаа дасгал хийдэг - бид "Онцгой байдлын арга хэмжээний төлөвлөгөө" -ийг ашиглан хэсэг администраторууд (бүгд ээлжлэн) арилгах ёстой онцгой байдлын дүрд тоглодог. Системийн тэргүүлэх администраторууд ээлжлэн зохицуулагчийн үүргийг гүйцэтгэдэг.
  • Улирал бүр туршилтын горимд бид дата төвүүдийг (бүгд ээлжлэн) LAN болон WAN сүлжээгээр тусгаарладаг бөгөөд энэ нь саад бэрхшээлийг цаг алдалгүй илрүүлэх боломжийг олгодог.
  • Бид стандартыг чангатгасан тул гэмтсэн дискүүд багассан: ажлын цаг бага, S.M.A.R.T.-ийн босго утгууд илүү хатуу,
  • Бид серверийг дахин ачаалсны дараа сэргээхэд маш их хугацаа шаардсан хуучин тогтворгүй мэдээллийн сан болох BerkeleyDB-г бүрэн орхисон.
  • Бид MS SQL-тэй серверүүдийн тоог бууруулж, үлдсэн серверүүдээс хамаарлыг бууруулсан.
  • Бидэнд өөрийн гэсэн бий үүл - нэг үүл, энд бид хоёр жилийн турш бүх үйлчилгээг идэвхтэй шилжүүлж байна. Үүл нь програмтай ажиллах бүх мөчлөгийг ихээхэн хөнгөвчлөх бөгөөд осол гарсан тохиолдолд дараахь өвөрмөц хэрэгслүүдээр хангадаг.
    • бүх програмуудыг нэг товшилтоор зөв зогсоох;
    • бүтэлгүйтсэн серверүүдээс програмуудыг хялбархан шилжүүлэх;
    • автоматаар эрэмбэлэгдсэн (үйлчилгээний эрэмбийн дарааллаар) бүхэл дата төвийг ажиллуулах.

Энэ нийтлэлд дурдсан осол нь 404 дэх өдрөөс хойшхи хамгийн том осол байв. Мэдээжийн хэрэг, бүх зүйл жигд болоогүй. Жишээлбэл, өөр мэдээллийн төвд галд өртсөн мэдээллийн төв байхгүй байх үед серверүүдийн аль нэгнийх нь диск ажиллахаа больсон, өөрөөр хэлбэл Кассандра кластер дахь гурван хуулбарын зөвхөн нэг нь л нэвтрэх боломжтой хэвээр байсан тул гар утасны 4,2% нь. програмын хэрэглэгчид нэвтэрч чадсангүй. Үүний зэрэгцээ аль хэдийн холбогдсон хэрэглэгчид үргэлжлүүлэн ажиллав. Ослын үр дүнд нийтдээ 30 гаруй асуудал илэрсэн - улиг болсон алдаанаас эхлээд үйлчилгээний архитектурын дутагдал хүртэл.

Гэхдээ одоогийн ослын 404-ийн хамгийн чухал ялгаа нь бид галын хор уршгийг арилгах гэж байхад хэрэглэгчид мессеж бичиж, видео дуудлага хийсээр байсан. Яг, тоглоом тоглож, хөгжим сонсож, бие биедээ бэлэг өгч, видео, телевизийн олон ангит, телевизийн суваг үзэж байсан OK, мөн урсгалаар орж ирсэн За шууд.

Таны осол хэрхэх вэ?

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх