ڊيٽا مرڪز ۾ حادثن جو بنيادي سبب ڪمپيوٽر ۽ ڪرسي جي وچ ۾ gasket آهي

جديد ڊيٽا سينٽرن ۾ وڏن حادثن جو موضوع سوال اٿاري ٿو جيڪي پهرين مضمون ۾ جواب نه ڏنا ويا آهن - اسان ان کي ترقي ڪرڻ جو فيصلو ڪيو.

ڊيٽا مرڪز ۾ حادثن جو بنيادي سبب ڪمپيوٽر ۽ ڪرسي جي وچ ۾ gasket آهي

اپ ٽائم انسٽيٽيوٽ جي انگن اکرن موجب، ڊيٽا سينٽرن ۾ واقعن جي اڪثريت پاور سپلائي سسٽم جي ناڪامي سان لاڳاپيل آهن- اهي واقعن جي 39٪ لاء اڪائونٽ آهن. انهن جي پٺيان انساني عنصر شامل آهن، جيڪي 24 سيڪڙو حادثن جو سبب بڻجن ٿا. ٽيون سڀ کان اهم سبب (15٪) ايئر ڪنڊيشن سسٽم جي ناڪامي هئي، ۽ چوٿين جاء تي (12٪) قدرتي آفتون هيون. ٻين مشڪلاتن جو ڪل حصو صرف 10٪ آهي. ڪنهن معزز اداري جي ڊيٽا تي سوال ڪرڻ کان سواءِ، اسان مختلف حادثن ۾ عام حادثن کي اجاگر ڪنداسين ۽ سمجهڻ جي ڪوشش ڪنداسين ته ڇا انهن کان بچي سگهجي ها. اسپيلر: اهو اڪثر ڪيسن ۾ ممڪن آهي.

رابطي جي سائنس

ان کي آسانيءَ سان چوڻ لاءِ، بجلي جي فراهمي سان صرف ٻه مسئلا آهن: يا ته اتي رابطو ناهي جتي هجڻ گهرجي، يا اتي رابطو آهي جتي رابطو نه هجڻ گهرجي. توهان هڪ ڊگهي وقت لاء جديد بي ترتيب بجلي جي فراهمي جي نظام جي reliability جي باري ۾ ڳالهائي سگهو ٿا، پر اهي هميشه توهان کي بچائي نه ڪندا آھن. برٽش ايئر ويز پاران استعمال ڪيل ڊيٽا سينٽر جو هاءِ پروفائيل ڪيس وٺو، جيڪو والدين ڪمپني انٽرنيشنل ايئر لائنز گروپ جي ملڪيت آهي. هيٿرو ايئرپورٽ جي ويجهو ٻه اهڙيون ملڪيتون آهن - Boadicea House ۽ Comet House. انهن مان پهرين 27 مئي 2017 تي هڪ حادثي ۾ بجلي بند ٿي وئي، جنهن جي نتيجي ۾ اوور لوڊ ۽ يو پي ايس سسٽم خراب ٿي ويو. نتيجي طور، ڪجهه آئي ٽي سامان جسماني طور تي خراب ٿي ويو، ۽ تازي آفت کي حل ڪرڻ لاء ٽي ڏينهن لڳا.

ايئر لائن کي هڪ هزار کان وڌيڪ اڏامون منسوخ ڪرڻ يا ري شيڊول ڪرڻيون پيون، اٽڪل 75 هزار مسافر وقت تي اڏامڻ کان قاصر هئا - 128 ملين ڊالر معاوضي جي ادائيگي تي خرچ ڪيا ويا، ڊيٽا سينٽرن جي ڪارڪردگي کي بحال ڪرڻ لاءِ گهربل خرچن جي ڳڻپ نه ڪئي وئي. بليڪ آئوٽ جي سببن جي تاريخ واضح ناهي. جيڪڏهن توهان بين الاقوامي ايئر لائنز گروپ جي سي اي او ولي والش پاران اعلان ڪيل اندروني تحقيقات جي نتيجن کي مڃيندا آهيو، اهو انجنيئر جي غلطي جي ڪري هو. تنهن هوندي به، اڻ سڌريل پاور سپلائي سسٽم کي اهڙي بندش کي منهن ڏيڻو پيو - اهو ئي سبب آهي ته اهو نصب ڪيو ويو آهي. ڊيٽا سينٽر کي آئوٽ سورسنگ ڪمپني CBRE Managed Services جي ماهرن پاران منظم ڪيو ويو، تنهنڪري برطانوي ايئر ويز لنڊن جي عدالت ذريعي نقصان جي رقم وصول ڪرڻ جي ڪوشش ڪئي.

ڊيٽا مرڪز ۾ حادثن جو بنيادي سبب ڪمپيوٽر ۽ ڪرسي جي وچ ۾ gasket آهي

بجلي جي بندش ساڳين حالتن ۾ ٿيندي آهي: پهرين بجلي فراهم ڪندڙ جي غلطي جي ڪري هڪ بليڪ آئوٽ هوندو آهي، ڪڏهن ڪڏهن خراب موسم يا اندروني مسئلن جي ڪري (بشمول انساني غلطيون)، ۽ پوءِ اڻ سڌريل پاور سپلائي سسٽم لوڊ يا گهٽجڻ کي منهن نه ٿو ڏئي سگهي. -سائن جي موج جي مدت ۾ مداخلت ڪيترن ئي خدمتن جي ناڪامي جو سبب بڻجندي آهي، جنهن جي بحالي جو سبب گهڻو وقت ۽ پئسا وٺندو آهي. ڇا اهڙن حادثن کان بچڻ ممڪن آهي؟ بي شڪ. جيڪڏهن توهان سسٽم کي صحيح طرح سان ٺاهيو ٿا، جيتوڻيڪ وڏن ڊيٽا سينٽرن جي تخليق ڪندڙ غلطين کان محفوظ نه آهن.

انساني عنصر

جڏهن واقعي جو فوري سبب ڊيٽا سينٽر جي اهلڪارن جا غلط ڪارناما آهن، مسئلا اڪثر (پر هميشه نه) IT انفراسٽرڪچر جي سافٽ ويئر حصي کي متاثر ڪن ٿا. اهڙا حادثا وڏين ڪارپوريشنن ۾ به ٿين ٿا. فيبروري 2017 ۾، ڊيٽا سينٽرن مان هڪ جي ٽيڪنيڪل آپريشن گروپ جي غلط طور تي ڀرتي ٿيل ٽيم ميمبر جي ڪري، Amazon ويب سروسز سرورز جو حصو غير فعال ٿي ويو. Amazon Simple Storage Service (S3) ڪلائوڊ اسٽوريج گراهڪن لاءِ بلنگ جي عمل کي ڊيبگ ڪرڻ دوران هڪ غلطي ٿي وئي. هڪ ملازم بلنگ سسٽم پاران استعمال ڪيل ڪيترن ئي ورچوئل سرورز کي ختم ڪرڻ جي ڪوشش ڪئي، پر هڪ وڏي ڪلستر کي مارايو.

ڊيٽا مرڪز ۾ حادثن جو بنيادي سبب ڪمپيوٽر ۽ ڪرسي جي وچ ۾ gasket آهي

هڪ انجنيئر جي غلطي جي نتيجي ۾، اهم Amazon ڪلائوڊ اسٽوريج سافٽ ويئر ماڊلز هلائيندڙ سرورز کي ختم ڪيو ويو. پهريون متاثر انڊيڪسنگ سبسسٽم هو، جنهن ۾ US-EAST-3 آمريڪي علائقي ۾ سڀني S1 شين جي ميٽاداٽا ۽ مقام بابت معلومات شامل آهي. اهو واقعو ڊيٽا کي ميزباني ڪرڻ ۽ اسٽوريج لاءِ موجود جڳهه کي منظم ڪرڻ لاءِ استعمال ٿيندڙ سب سسٽم کي پڻ متاثر ڪيو. ورچوئل مشينن کي حذف ڪرڻ کان پوءِ، انهن ٻن سب سسٽم کي مڪمل ٻيهر شروع ڪرڻ جي ضرورت هئي، ۽ پوءِ Amazon انجنيئر حيران ٿي ويا - هڪ ڊگهي وقت تائين، پبلڪ ڪلائوڊ اسٽوريج گراهڪ جي درخواستن جي خدمت ڪرڻ ۾ ناڪام رهيو.

اثر تمام وسيع هو، جيئن ڪيترائي وڏا وسيلا استعمال ڪن ٿا Amazon S3. بندش متاثر ڪيو Trello، Coursera، IFTTT ۽، سڀ کان وڌيڪ ناپسنديده، وڏي Amazon ڀائيوارن جي خدمتن کي S&P 500 فهرست مان. اهڙين حالتن ۾ نقصان جو اندازو لڳائڻ ڏکيو آهي، پر اهو سئو ملين آمريڪي ڊالر جي علائقي ۾ هو. جئين توهان ڏسي سگهو ٿا، هڪ غلط حڪم ڪافي آهي وڏي ڪلائوڊ پليٽ فارم جي خدمت کي بند ڪرڻ لاء. هي هڪ الڳ ڪيس ناهي؛ 16 مئي 2019 تي، سار سنڀال جي ڪم دوران، Yandex.Cloud سروس حذف ٿيل ru-central1-c زون ۾ استعمال ڪندڙن جون ورچوئل مشينون جيڪي گهٽ ۾ گهٽ هڪ ڀيرو معطل ٿيل حالت ۾ هيون. ڪلائنٽ ڊيٽا هتي اڳ ۾ ئي خراب ٿي چڪو آهي، جن مان ڪجهه ناقابل واپسي طور تي گم ٿي ويا آهن. يقينن، ماڻهو نامڪمل آهن، پر جديد معلوماتي سيڪيورٽي سسٽم ڊگھي عرصي کان قابل ٿي چڪا آهن مراعات يافته استعمال ڪندڙن جي عملن جي نگراني ڪرڻ کان اڳ جيڪي انهن ۾ داخل ڪيا ويا آهن. جيڪڏهن اهڙا حل Yandex يا Amazon ۾ لاڳو ڪيا وڃن، اهڙن واقعن کان بچي سگهجي ٿو.

ڊيٽا مرڪز ۾ حادثن جو بنيادي سبب ڪمپيوٽر ۽ ڪرسي جي وچ ۾ gasket آهي

منجمد کولڻ

جنوري 2017 ۾، ميگافون ڪمپني جي دمتروف ڊيٽا سينٽر ۾ هڪ وڏو حادثو ٿيو. ان کان پوء ماسڪو علائقي ۾ گرمي پد −35 ° C تائين گهٽجي ويو، جنهن جي نتيجي ۾ سهولت جي کولنگ سسٽم جي ناڪامي سبب. آپريٽر جي پريس سروس خاص طور تي واقعي جي سببن جي باري ۾ نه ڳالهايو - روسي ڪمپنيون انهن جي سهولتن تي حادثن جي باري ۾ ڳالهائڻ لاء انتهائي ناگزير آهن؛ مشهوري جي لحاظ کان، اسان اولهه کان تمام گهڻو پوئتي آهيون. اتي هڪ نسخو سوشل نيٽ ورڪن تي گردش ڪري رهيو هو ته گلي ۾ رکيل پائپن ۾ کولنٽ جي منجمد ٿيڻ ۽ ايٿيلين گلائڪول جي لڪيج بابت. هن جي مطابق، آپريشن سروس ڊگهي موڪلن جي ڪري جلدي 30 ٽن کولنٽ حاصل ڪرڻ جي قابل نه هئي ۽ سسٽم کي هلائڻ جي ضابطن جي ڀڃڪڙي ڪندي بهتر طريقي سان استعمال ڪندي ٻاهر نڪري وئي. سخت سردي مسئلي کي وڌايو - جنوري ۾، سياري اوچتو روس کي ماريو، جيتوڻيڪ ڪو به ان جي توقع نه هئي. جنهن جي نتيجي ۾ ملازمن کي سرور ريڪ جي هڪ حصي جي بجلي بند ڪرڻي پئي، جنهن سبب ڪجهه آپريٽر سروسز ٻن ڏينهن کان غير حاضر رهي.

ڊيٽا مرڪز ۾ حادثن جو بنيادي سبب ڪمپيوٽر ۽ ڪرسي جي وچ ۾ gasket آهي

شايد، اسان هتي موسم جي غير معمولي بابت ڳالهائي سگهون ٿا، پر اهڙي قسم جي ٿڌ سرمائي واري علائقي لاء غير معمولي ناهي. ماسڪو جي علائقي ۾ سياري ۾ گرمي پد هيٺين سطح تي اچي سگهي ٿو، تنهنڪري ڊيٽا مرڪز -42 ° C تي مستحڪم آپريشن جي اميد سان ٺهيل آهن. گهڻو ڪري، کولنگ سسٽم سرد موسم ۾ ناڪام ٿي ويندا آهن ڇاڪاڻ ته ڪولنٽ حل ۾ گلائڪول ۽ اضافي پاڻي جي غير مناسب مقدار جي ڪري. پائپ جي تنصيب يا سسٽم جي ڊيزائن ۽ جانچ ۾ غلط حساب سان پڻ مسئلا آهن، خاص طور تي پئسا بچائڻ جي خواهش سان لاڳاپيل. نتيجي ۾ نيري مان ڪو سنگين حادثو پيش اچي ٿو، جنهن کي روڪي سگهجي ها.

قدرتي آفتون

گهڻو ڪري، طوفان ۽/يا طوفان ڊيٽا سينٽر جي انجنيئرنگ انفراسٽرڪچر کي ٽوڙي ڇڏيندا آهن، جنهن جي نتيجي ۾ خدمت جي رڪاوٽ ۽ / يا سامان کي جسماني نقصان پهچائيندو آهي. خراب موسم جي ڪري واقعا اڪثر ڪري رهيا آهن. 2012 ۾، سامونڊي طوفان سينڊي آمريڪا جي ويسٽ ڪوسٽ کي وڏي برسات سان گڏ ڪيو. لوئر منهٽن ۾ هڪ بلند عمارت ۾ واقع آهي، پير 1 ڊيٽا سينٽر خارجي بجلي جي فراهمي کي وڃائي ڇڏيوٿلهي ليکي سمنڊ جو پاڻي بيٺو هو. سهولت جا ايمرجنسي جنريٽر 18 هين منزل تي واقع هئا، ۽ انهن جي ايندھن جي فراهمي محدود هئي - 9/11 جي دهشتگرد حملن کان پوءِ نيو يارڪ ۾ متعارف ڪرايل ضابطن مٿئين منزل تي ايندھن جي وڏي مقدار کي ذخيرو ڪرڻ کان منع ڪئي.

فيول پمپ به ناڪاره ٿيو، جنهن ڪري عملو ڪيترن ئي ڏينهن تائين هٿ سان جنريٽرن تي ڊيزل کڻندو رهيو. ٽيم جي هيروزم ڊيٽا سينٽر کي هڪ سنگين حادثي کان بچايو، پر ڇا اهو واقعي ضروري هو؟ اسان ڌرتيءَ تي رهون ٿا جنهن ۾ نائٽروجن آڪسيجن وارو ماحول ۽ تمام گهڻو پاڻي آهي. گجگوڙ ۽ طوفان هتي عام آهن (خاص ڪري ساحلي علائقن ۾). ڊزائنر شايد چڱي ريت ڪم ڪن ها ته خطرن تي غور ڪن ۽ مناسب اڻ رڪاوٽ پاور سپلائي سسٽم ٺاهي. يا گهٽ ۾ گهٽ ڊيٽا سينٽر لاءِ وڌيڪ موزون هنڌ چونڊيو هڪ ٻيٽ تي هڪ اعليٰ اڀار کان.

ٻيو سڀ ڪجهه

Uptime انسٽيٽيوٽ هن درجي ۾ واقعن جي مختلف قسمن جي نشاندهي ڪري ٿو، جن مان هڪ عام چونڊڻ ڏکيو آهي. ٽامي جي تارن جي چوري، ڪارن جو ڊيٽا سينٽرن ۾ حادثو، پاور لائين سپورٽ ۽ ٽرانسفارمر سب اسٽيشنز، باهه، ايڪسائيويٽر آپريٽرس کي نقصان پهچائيندڙ آپٽڪس، ڪُوڙا (چُوڙا، خرگوش ۽ حتي wombats، جيڪي اصل ۾ مارسوپيل آهن)، ۽ انهي سان گڏ اهي جيڪي شوٽنگ ڪرڻ پسند ڪن ٿا. wires - مينيو وسيع آهي. بجلي جي ناڪامي پڻ سبب ٿي سگهي ٿي چوري ڪرڻ بجلي غير قانوني ماريجوانا پوکي. اڪثر ڪيسن ۾، مخصوص ماڻهو واقعي جا مجرم بڻجي ويندا آهن، يعني اسين وري انساني عنصر سان معاملو ڪندا آهيون، جڏهن مسئلو جو نالو ۽ نالو آهي. جيتوڻيڪ پهرين نظر ۾ حادثو ڪنهن فني خرابي يا قدرتي آفتن سان جڙيل هجي، ان کان بچي سگهجي ٿو بشرطيڪ اها سهولت صحيح طرح سان ٺهيل هجي ۽ صحيح طريقي سان هلائي وڃي. صرف استثنا آهن ڊيٽا سينٽر انفراسٽرڪچر کي نازڪ نقصان جا ڪيس يا قدرتي آفت جي ڪري عمارتن ۽ اڏاوتن جي تباهي. اهي حقيقت ۾ زبردستي حالتون آهن، ۽ ٻيا سڀئي مسئلا ڪمپيوٽر ۽ ڪرسي جي وچ ۾ گيسڪٽ جي سبب آهن - شايد اهو ڪنهن به پيچيده سسٽم جو سڀ کان وڌيڪ ناقابل اعتبار حصو آهي.

جو ذريعو: www.habr.com

تبصرو شامل ڪريو