Дата төвүүдийн ослын гол шалтгаан нь компьютер, сандал хоёрын хоорондох жийргэвч юм

Орчин үеийн мэдээллийн төвүүдийн томоохон ослын сэдэв нь эхний нийтлэлд хариулаагүй асуултуудыг бий болгодог - бид үүнийг боловсруулахаар шийдсэн.

Дата төвүүдийн ослын гол шалтгаан нь компьютер, сандал хоёрын хоорондох жийргэвч юм

Uptime хүрээлэнгийн статистик мэдээллээс үзэхэд мэдээллийн төвүүдэд гарсан ослын дийлэнх нь цахилгаан хангамжийн системийн доголдолтой холбоотой байдаг бөгөөд эдгээр нь ослын 39 хувийг эзэлж байна. Тэдний араас хүний ​​хүчин зүйл орж, ослын 24 хувийг эзэлдэг. Гурав дахь хамгийн чухал шалтгаан (15%) нь агааржуулалтын системийн эвдрэл, дөрөвдүгээрт (12%) байгалийн гамшиг байв. Бусад бэрхшээлүүдийн нийт эзлэх хувь ердөө 10% байна. Эрхэм хүндэт байгууллагын мэдээллийг эргэлзэлгүйгээр бид янз бүрийн ослын нийтлэг зүйлийг онцолж, тэдгээрээс зайлсхийх боломжтой эсэхийг ойлгохыг хичээх болно. Спойлер: ихэнх тохиолдолд боломжтой.

Харилцааны шинжлэх ухаан

Энгийнээр хэлбэл, цахилгаан хангамжид хоёр л асуудал бий: нэг бол байх ёстой газар холбоо байхгүй, эсвэл холбоо барих ёсгүй газар холбоо байна. Та орчин үеийн тасралтгүй цахилгаан хангамжийн системийн найдвартай байдлын талаар удаан хугацаанд ярьж болно, гэхдээ тэдгээр нь таныг үргэлж аварч чаддаггүй. Толгой компани болох International Airlines Group-ийн эзэмшдэг British Airways компанийн ашигладаг дата төвийн томоохон хэргийг авч үзье. Хитроу нисэх онгоцны буудлын ойролцоо ийм хоёр үл хөдлөх хөрөнгө байдаг - Boadicea House болон Comet House. Үүний эхнийх нь буюу 27 оны тавдугаар сарын 2017-ны өдөр санамсаргүй цахилгаан тасарч, UPS систем хэт ачаалал, доголдолд хүргэсэн. Үүний улмаас мэдээллийн технологийн зарим тоног төхөөрөмжид гэмтэл учирсан бөгөөд хамгийн сүүлд гарсан гамшгийг арилгахад гурав хоног зарцуулсан байна.

Агаарын тээврийн компани мянга гаруй нислэгийг цуцлах эсвэл өөрчлөх шаардлагатай болсон бөгөөд 75 мянга орчим зорчигч цагтаа нисэх боломжгүй болсон - мэдээллийн төвүүдийн ажиллагааг сэргээхэд шаардагдах зардлыг тооцохгүйгээр нөхөн төлбөр төлөхөд 128 сая доллар зарцуулсан. Цахилгаан тасарсан шалтгаануудын түүх тодорхойгүй байна. Хэрэв та International Airlines группын гүйцэтгэх захирал Вилли Уолшийн зарласан дотоод шалгалтын үр дүнд итгэж байгаа бол энэ нь инженерүүдийн алдаанаас болсон юм. Гэсэн хэдий ч тасралтгүй цахилгаан хангамжийн систем нь ийм уналтыг тэсвэрлэх ёстой байсан тул үүнийг суулгасан болно. Дата төвийг CBRE Managed Services аутсорсингийн компанийн мэргэжилтнүүд удирдаж байсан тул British Airways Лондонгийн шүүхээр дамжуулан хохирлын хэмжээг нөхөн төлүүлэхээр оролдсон байна.

Дата төвүүдийн ослын гол шалтгаан нь компьютер, сандал хоёрын хоорондох жийргэвч юм

Үүнтэй төстэй нөхцөл байдалд цахилгааны тасалдал үүсдэг: эхлээд цахилгаан нийлүүлэгчийн буруугаас, заримдаа цаг агаарын таагүй байдал эсвэл дотоод асуудлаас (хүний ​​буруутай үйлдлээс) цахилгаан тасарч, дараа нь тасалдалгүй цахилгаан хангамжийн систем ачааллыг даван туулж чадахгүй эсвэл богино цахилгаан хангамжийн систем -Синус долгионы тасалдал нь олон үйлчилгээний доголдол үүсгэдэг бөгөөд үүнийг сэргээхэд маш их цаг хугацаа, мөнгө шаардагддаг. Ийм ослоос зайлсхийх боломжтой юу? эргэлзээгүй. Хэрэв та системийг зөв зохион бүтээсэн бол томоохон мэдээллийн төвийг бүтээгчид ч гэсэн алдаанаас ангид байдаггүй.

Хүний хүчин зүйл

Хэрэв ослын шууд шалтгаан нь мэдээллийн төвийн ажилтнуудын буруу үйлдэл юм бол асуудал нь ихэвчлэн (гэхдээ үргэлж биш) мэдээллийн технологийн дэд бүтцийн програм хангамжийн хэсэгт нөлөөлдөг. Томоохон корпорациудад ч ийм осол гардаг. 2017 оны 3-р сард нэг дата төвийн техникийн үйл ажиллагааны багийн гишүүнийг буруу сонгосны улмаас Amazon Web Services серверүүдийн нэг хэсэг идэвхгүй болсон. Amazon Энгийн Хадгалах Үйлчилгээний (SXNUMX) үүл хадгалах хэрэглэгчдийн тооцооны процессыг дибаг хийх явцад алдаа гарлаа. Нэг ажилтан тооцооны системд ашигладаг хэд хэдэн виртуал серверүүдийг устгахыг оролдсон боловч илүү том кластерт цохиулсан.

Дата төвүүдийн ослын гол шалтгаан нь компьютер, сандал хоёрын хоорондох жийргэвч юм

Инженерийн алдааны үр дүнд Amazon үүл хадгалах програм хангамжийн чухал модулиудыг ажиллуулж буй серверүүд устгагдсан. Эхний нөлөөлөлд өртсөн нь АНУ-ЗҮҮН-3 Америкийн бүс дэх бүх S1 объектын мета өгөгдөл, байршлын талаарх мэдээллийг агуулсан индексжүүлэх дэд систем байв. Энэ явдал нь өгөгдлийг байршуулах, хадгалах зайг удирдах дэд системд мөн нөлөөлсөн. Виртуал машинуудыг устгасны дараа эдгээр хоёр дэд системийг бүрэн дахин эхлүүлэх шаардлагатай болсон бөгөөд дараа нь Амазоны инженерүүд гэнэтийн зүйл хүлээж байсан - удаан хугацааны туршид нийтийн үүл хадгалах сан нь хэрэглэгчийн хүсэлтэд үйлчлэх боломжгүй байсан.

Олон том нөөцүүд Amazon S3-ийг ашигладаг тул нөлөөлөл нь өргөн тархсан. Энэ тасалдал нь Trello, Coursera, IFTTT болон хамгийн тааламжгүй нь S&P 500 жагсаалтад багтсан Амазоны томоохон түншүүдийн үйлчилгээнд нөлөөлсөн.Ийм тохиолдолд учирсан хохирлыг тооцоход хэцүү ч хэдэн зуун сая ам.доллараар хэмжигддэг. Таны харж байгаагаар хамгийн том үүл платформын үйлчилгээг идэвхгүй болгоход нэг буруу тушаал хангалттай. Энэ нь тусдаа тохиолдол биш бөгөөд 16 оны 2019-р сарын XNUMX-нд засвар үйлчилгээний үеэр Yandex.Cloud үйлчилгээ устгасан ru-central1-c бүсийн хэрэглэгчдийн виртуал машинууд дор хаяж нэг удаа СУУДАГДСАН төлөвт байсан. Үйлчлүүлэгчийн өгөгдөл энд аль хэдийн гэмтсэн бөгөөд заримыг нь нөхөж баршгүй алдсан. Мэдээжийн хэрэг, хүмүүс төгс бус боловч орчин үеийн мэдээллийн аюулгүй байдлын системүүд нь давуу эрхтэй хэрэглэгчдийн оруулсан командыг гүйцэтгэхээс өмнө тэдний үйлдлийг хянах боломжтой болсон. Хэрэв ийм шийдлүүдийг Yandex эсвэл Amazon-д хэрэгжүүлбэл ийм тохиолдлоос зайлсхийх боломжтой.

Дата төвүүдийн ослын гол шалтгаан нь компьютер, сандал хоёрын хоорондох жийргэвч юм

Хөлдөөсөн хөргөлт

2017 оны 35-р сард Мегафон компанийн Дмитровын мэдээллийн төвд томоохон осол гарсан. Дараа нь Москва мужид температур -30 хэм хүртэл буурч, энэ нь байгууламжийн хөргөлтийн системд гэмтэл учруулсан. Операторын хэвлэлийн алба энэ үйл явдлын шалтгааны талаар онцгойлон хэлээгүй - Оросын компаниуд өөрсдийн эзэмшдэг байгууламжид гарсан ослын талаар ярихаас туйлын дургүй байдаг; сурталчилгааны хувьд бид барууны орнуудаас хол хоцорч байна. Гудамжинд тавьсан хоолойд хөргөлтийн шингэн хөлдөж, этилен гликол гоожсон гэсэн хувилбар олон нийтийн сүлжээгээр тарж байсан. Түүний хэлснээр, ашиглалтын алба урт амралттай байсан тул XNUMX тонн хөргөлтийн шингэнийг түргэн шуурхай авч чадаагүй бөгөөд системийг ажиллуулах дүрмийг зөрчин гар хийцийн аргаар чөлөөтэй хөргөх ажлыг зохион байгуулжээ. Хүйтэн хүйтрэл нь асуудлыг улам хурцатгав - XNUMX-р сард Орост өвөл гэнэт ирж, хэн ч үүнийг хүлээж байгаагүй. Үүний үр дүнд ажилтнууд серверийн тавиуруудын зарим хэсгийг цахилгааныг унтраах шаардлагатай болсон тул зарим операторын үйлчилгээ хоёр өдөр ажиллахгүй байв.

Дата төвүүдийн ослын гол шалтгаан нь компьютер, сандал хоёрын хоорондох жийргэвч юм

Магадгүй бид энд цаг агаарын гажиг тухай ярьж болно, гэхдээ ийм хяруу нь нийслэлийн бүс нутагт ер бусын зүйл биш юм. Өвлийн улиралд Москва мужид агаарын температур буурч магадгүй тул дата төвүүд нь -42 ° C-д тогтвортой ажиллах хүлээлттэй байдаг. Ихэнх тохиолдолд хөргөлтийн систем нь хөргөлтийн уусмал дахь гликолын концентраци хангалтгүй, илүүдэл уснаас болж хүйтэн цаг агаарт бүтэлгүйтдэг. Мөн хоолой суурилуулах, эсвэл системийг зохион бүтээх, туршихад буруу тооцоолол хийх зэрэг асуудал гардаг бөгөөд энэ нь ихэвчлэн мөнгө хэмнэх хүсэл эрмэлзэлтэй холбоотой байдаг. Үүний үр дүнд гэнэтийн ноцтой осол гарч, үүнээс урьдчилан сэргийлэх боломжтой байв.

Байгалийн гамшиг

Ихэнхдээ аадар бороо болон/эсвэл хар салхи нь дата төвийн инженерийн дэд бүтцийг тасалдуулж, үйлчилгээний тасалдал болон/эсвэл тоног төхөөрөмжид гэмтэл учруулдаг. Цаг агаарын таагүй байдлаас үүдэлтэй осол ихэвчлэн тохиолддог. 2012 онд "Сэнди" хар салхи АНУ-ын баруун эрэгт хүчтэй аадар бороо оржээ. Доод Манхэттэн дэх өндөр барилгад байрладаг, Peer 1 дата төв гадаад эрчим хүчний хангамж алдагдсан, давстай далайн ус хонгилд автсаны дараа. Тус байгууламжийн аваарийн генераторууд 18-р давхарт байрладаг байсан бөгөөд түлшний хангамж нь хязгаарлагдмал байсан - 9-р сарын 11-ний террорист халдлагын дараа Нью-Йорк хотод нэвтрүүлсэн дүрмүүд нь дээд давхарт их хэмжээний түлш хадгалахыг хориглодог.

Шатахууны шахуурга нь мөн л доголдсон тул ажилчид дизель түлшийг гар аргаар генератор руу зөөвөрлөж хэд хоносон байна. Багийн баатарлаг байдал нь дата төвийг ноцтой ослоос аварсан ч үнэхээр шаардлагатай байсан уу? Бид азот-хүчилтөрөгчийн уур амьсгалтай, ус ихтэй гариг ​​дээр амьдарч байна. Аадар бороо, хар салхи энд (ялангуяа далайн эрэг орчмын газруудад) элбэг тохиолддог. Загвар зохион бүтээгчид учирч болох эрсдлийг тооцож, тасралтгүй цахилгаан хангамжийн системийг бий болгох нь зүйтэй болов уу. Эсвэл ядаж арал дээрх өндөр барилга гэхээсээ илүү дата төвийн байршлыг сонгох хэрэгтэй.

Бусад бүх зүйл

Uptime институт нь энэ ангилалд тохиолдсон янз бүрийн тохиолдлуудыг тодорхойлдог бөгөөд тэдгээрийн дундаас ердийн нэгийг нь сонгоход хэцүү байдаг. Зэс кабель хулгайлах, дата төв, цахилгааны шугамын тулгуур, трансформаторын дэд станцыг мөргөх машин, гал түймэр, экскаваторын операторууд оптикийг гэмтээж, мэрэгч амьтад (харх, туулай, тэр ч байтугай тарвага амьтан), түүнчлэн буудлага хийх дуртай хүмүүс. утас - цэс өргөн цар хүрээтэй. Цахилгааны тасалдал нь бүр үүсгэж болно хулгай хийх цахилгаан хууль бус марихуан тариалалт. Ихэнх тохиолдолд энэ үйл явдлын буруутан нь тодорхой хүмүүс болж хувирдаг, өөрөөр хэлбэл асуудал нь нэр, овогтой болсон үед бид дахин хүний ​​хүчин зүйлтэй тулгардаг. Анх харахад осол нь техникийн доголдол, байгалийн гамшигтай холбоотой байсан ч тухайн байгууламжийг зөв төлөвлөж, зөв ​​ажиллуулж чадвал үүнээс зайлсхийх боломжтой. Цорын ганц үл хамаарах зүйл бол дата төвийн дэд бүтцэд ноцтой гэмтэл учруулах, эсвэл байгалийн гамшгийн улмаас барилга байгууламж эвдрэх явдал юм. Эдгээр нь үнэхээр давагдашгүй хүчин зүйлийн нөхцөл байдал бөгөөд бусад бүх асуудал нь компьютер ба сандал хоёрын хоорондох жийргэвчээс үүдэлтэй байдаг - магадгүй энэ нь аливаа нарийн төвөгтэй системийн хамгийн найдваргүй хэсэг юм.

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх