جديد ڊيٽا سينٽرن ۾ وڏن حادثن جو موضوع سوال اٿاري ٿو جيڪي پهرين مضمون ۾ جواب نه ڏنا ويا آهن - اسان ان کي ترقي ڪرڻ جو فيصلو ڪيو.
اپ ٽائم انسٽيٽيوٽ جي انگن اکرن موجب، ڊيٽا سينٽرن ۾ واقعن جي اڪثريت پاور سپلائي سسٽم جي ناڪامي سان لاڳاپيل آهن- اهي واقعن جي 39٪ لاء اڪائونٽ آهن. انهن جي پٺيان انساني عنصر شامل آهن، جيڪي 24 سيڪڙو حادثن جو سبب بڻجن ٿا. ٽيون سڀ کان اهم سبب (15٪) ايئر ڪنڊيشن سسٽم جي ناڪامي هئي، ۽ چوٿين جاء تي (12٪) قدرتي آفتون هيون. ٻين مشڪلاتن جو ڪل حصو صرف 10٪ آهي. ڪنهن معزز اداري جي ڊيٽا تي سوال ڪرڻ کان سواءِ، اسان مختلف حادثن ۾ عام حادثن کي اجاگر ڪنداسين ۽ سمجهڻ جي ڪوشش ڪنداسين ته ڇا انهن کان بچي سگهجي ها. اسپيلر: اهو اڪثر ڪيسن ۾ ممڪن آهي.
رابطي جي سائنس
ان کي آسانيءَ سان چوڻ لاءِ، بجلي جي فراهمي سان صرف ٻه مسئلا آهن: يا ته اتي رابطو ناهي جتي هجڻ گهرجي، يا اتي رابطو آهي جتي رابطو نه هجڻ گهرجي. توهان هڪ ڊگهي وقت لاء جديد بي ترتيب بجلي جي فراهمي جي نظام جي reliability جي باري ۾ ڳالهائي سگهو ٿا، پر اهي هميشه توهان کي بچائي نه ڪندا آھن. برٽش ايئر ويز پاران استعمال ڪيل ڊيٽا سينٽر جو هاءِ پروفائيل ڪيس وٺو، جيڪو والدين ڪمپني انٽرنيشنل ايئر لائنز گروپ جي ملڪيت آهي. هيٿرو ايئرپورٽ جي ويجهو ٻه اهڙيون ملڪيتون آهن - Boadicea House ۽ Comet House. انهن مان پهرين 27 مئي 2017 تي هڪ حادثي ۾ بجلي بند ٿي وئي، جنهن جي نتيجي ۾ اوور لوڊ ۽ يو پي ايس سسٽم خراب ٿي ويو. نتيجي طور، ڪجهه آئي ٽي سامان جسماني طور تي خراب ٿي ويو، ۽ تازي آفت کي حل ڪرڻ لاء ٽي ڏينهن لڳا.
ايئر لائن کي هڪ هزار کان وڌيڪ اڏامون منسوخ ڪرڻ يا ري شيڊول ڪرڻيون پيون، اٽڪل 75 هزار مسافر وقت تي اڏامڻ کان قاصر هئا - 128 ملين ڊالر معاوضي جي ادائيگي تي خرچ ڪيا ويا، ڊيٽا سينٽرن جي ڪارڪردگي کي بحال ڪرڻ لاءِ گهربل خرچن جي ڳڻپ نه ڪئي وئي. بليڪ آئوٽ جي سببن جي تاريخ واضح ناهي. جيڪڏهن توهان بين الاقوامي ايئر لائنز گروپ جي سي اي او ولي والش پاران اعلان ڪيل اندروني تحقيقات جي نتيجن کي مڃيندا آهيو، اهو انجنيئر جي غلطي جي ڪري هو. تنهن هوندي به، اڻ سڌريل پاور سپلائي سسٽم کي اهڙي بندش کي منهن ڏيڻو پيو - اهو ئي سبب آهي ته اهو نصب ڪيو ويو آهي. ڊيٽا سينٽر کي آئوٽ سورسنگ ڪمپني CBRE Managed Services جي ماهرن پاران منظم ڪيو ويو، تنهنڪري برطانوي ايئر ويز لنڊن جي عدالت ذريعي نقصان جي رقم وصول ڪرڻ جي ڪوشش ڪئي.
بجلي جي بندش ساڳين حالتن ۾ ٿيندي آهي: پهرين بجلي فراهم ڪندڙ جي غلطي جي ڪري هڪ بليڪ آئوٽ هوندو آهي، ڪڏهن ڪڏهن خراب موسم يا اندروني مسئلن جي ڪري (بشمول انساني غلطيون)، ۽ پوءِ اڻ سڌريل پاور سپلائي سسٽم لوڊ يا گهٽجڻ کي منهن نه ٿو ڏئي سگهي. -سائن جي موج جي مدت ۾ مداخلت ڪيترن ئي خدمتن جي ناڪامي جو سبب بڻجندي آهي، جنهن جي بحالي جو سبب گهڻو وقت ۽ پئسا وٺندو آهي. ڇا اهڙن حادثن کان بچڻ ممڪن آهي؟ بي شڪ. جيڪڏهن توهان سسٽم کي صحيح طرح سان ٺاهيو ٿا، جيتوڻيڪ وڏن ڊيٽا سينٽرن جي تخليق ڪندڙ غلطين کان محفوظ نه آهن.
انساني عنصر
جڏهن واقعي جو فوري سبب ڊيٽا سينٽر جي اهلڪارن جا غلط ڪارناما آهن، مسئلا اڪثر (پر هميشه نه) IT انفراسٽرڪچر جي سافٽ ويئر حصي کي متاثر ڪن ٿا. اهڙا حادثا وڏين ڪارپوريشنن ۾ به ٿين ٿا. فيبروري 2017 ۾، ڊيٽا سينٽرن مان هڪ جي ٽيڪنيڪل آپريشن گروپ جي غلط طور تي ڀرتي ٿيل ٽيم ميمبر جي ڪري، Amazon ويب سروسز سرورز جو حصو غير فعال ٿي ويو. Amazon Simple Storage Service (S3) ڪلائوڊ اسٽوريج گراهڪن لاءِ بلنگ جي عمل کي ڊيبگ ڪرڻ دوران هڪ غلطي ٿي وئي. هڪ ملازم بلنگ سسٽم پاران استعمال ڪيل ڪيترن ئي ورچوئل سرورز کي ختم ڪرڻ جي ڪوشش ڪئي، پر هڪ وڏي ڪلستر کي مارايو.
هڪ انجنيئر جي غلطي جي نتيجي ۾، اهم Amazon ڪلائوڊ اسٽوريج سافٽ ويئر ماڊلز هلائيندڙ سرورز کي ختم ڪيو ويو. پهريون متاثر انڊيڪسنگ سبسسٽم هو، جنهن ۾ US-EAST-3 آمريڪي علائقي ۾ سڀني S1 شين جي ميٽاداٽا ۽ مقام بابت معلومات شامل آهي. اهو واقعو ڊيٽا کي ميزباني ڪرڻ ۽ اسٽوريج لاءِ موجود جڳهه کي منظم ڪرڻ لاءِ استعمال ٿيندڙ سب سسٽم کي پڻ متاثر ڪيو. ورچوئل مشينن کي حذف ڪرڻ کان پوءِ، انهن ٻن سب سسٽم کي مڪمل ٻيهر شروع ڪرڻ جي ضرورت هئي، ۽ پوءِ Amazon انجنيئر حيران ٿي ويا - هڪ ڊگهي وقت تائين، پبلڪ ڪلائوڊ اسٽوريج گراهڪ جي درخواستن جي خدمت ڪرڻ ۾ ناڪام رهيو.
اثر تمام وسيع هو، جيئن ڪيترائي وڏا وسيلا استعمال ڪن ٿا Amazon S3. بندش متاثر ڪيو Trello، Coursera، IFTTT ۽، سڀ کان وڌيڪ ناپسنديده، وڏي Amazon ڀائيوارن جي خدمتن کي S&P 500 فهرست مان. اهڙين حالتن ۾ نقصان جو اندازو لڳائڻ ڏکيو آهي، پر اهو سئو ملين آمريڪي ڊالر جي علائقي ۾ هو. جئين توهان ڏسي سگهو ٿا، هڪ غلط حڪم ڪافي آهي وڏي ڪلائوڊ پليٽ فارم جي خدمت کي بند ڪرڻ لاء. هي هڪ الڳ ڪيس ناهي؛ 16 مئي 2019 تي، سار سنڀال جي ڪم دوران، Yandex.Cloud سروس
منجمد کولڻ
جنوري 2017 ۾، ميگافون ڪمپني جي دمتروف ڊيٽا سينٽر ۾ هڪ وڏو حادثو ٿيو. ان کان پوء ماسڪو علائقي ۾ گرمي پد −35 ° C تائين گهٽجي ويو، جنهن جي نتيجي ۾ سهولت جي کولنگ سسٽم جي ناڪامي سبب. آپريٽر جي پريس سروس خاص طور تي واقعي جي سببن جي باري ۾ نه ڳالهايو - روسي ڪمپنيون انهن جي سهولتن تي حادثن جي باري ۾ ڳالهائڻ لاء انتهائي ناگزير آهن؛ مشهوري جي لحاظ کان، اسان اولهه کان تمام گهڻو پوئتي آهيون. اتي هڪ نسخو سوشل نيٽ ورڪن تي گردش ڪري رهيو هو ته گلي ۾ رکيل پائپن ۾ کولنٽ جي منجمد ٿيڻ ۽ ايٿيلين گلائڪول جي لڪيج بابت. هن جي مطابق، آپريشن سروس ڊگهي موڪلن جي ڪري جلدي 30 ٽن کولنٽ حاصل ڪرڻ جي قابل نه هئي ۽ سسٽم کي هلائڻ جي ضابطن جي ڀڃڪڙي ڪندي بهتر طريقي سان استعمال ڪندي ٻاهر نڪري وئي. سخت سردي مسئلي کي وڌايو - جنوري ۾، سياري اوچتو روس کي ماريو، جيتوڻيڪ ڪو به ان جي توقع نه هئي. جنهن جي نتيجي ۾ ملازمن کي سرور ريڪ جي هڪ حصي جي بجلي بند ڪرڻي پئي، جنهن سبب ڪجهه آپريٽر سروسز ٻن ڏينهن کان غير حاضر رهي.
شايد، اسان هتي موسم جي غير معمولي بابت ڳالهائي سگهون ٿا، پر اهڙي قسم جي ٿڌ سرمائي واري علائقي لاء غير معمولي ناهي. ماسڪو جي علائقي ۾ سياري ۾ گرمي پد هيٺين سطح تي اچي سگهي ٿو، تنهنڪري ڊيٽا مرڪز -42 ° C تي مستحڪم آپريشن جي اميد سان ٺهيل آهن. گهڻو ڪري، کولنگ سسٽم سرد موسم ۾ ناڪام ٿي ويندا آهن ڇاڪاڻ ته ڪولنٽ حل ۾ گلائڪول ۽ اضافي پاڻي جي غير مناسب مقدار جي ڪري. پائپ جي تنصيب يا سسٽم جي ڊيزائن ۽ جانچ ۾ غلط حساب سان پڻ مسئلا آهن، خاص طور تي پئسا بچائڻ جي خواهش سان لاڳاپيل. نتيجي ۾ نيري مان ڪو سنگين حادثو پيش اچي ٿو، جنهن کي روڪي سگهجي ها.
قدرتي آفتون
گهڻو ڪري، طوفان ۽/يا طوفان ڊيٽا سينٽر جي انجنيئرنگ انفراسٽرڪچر کي ٽوڙي ڇڏيندا آهن، جنهن جي نتيجي ۾ خدمت جي رڪاوٽ ۽ / يا سامان کي جسماني نقصان پهچائيندو آهي. خراب موسم جي ڪري واقعا اڪثر ڪري رهيا آهن. 2012 ۾، سامونڊي طوفان سينڊي آمريڪا جي ويسٽ ڪوسٽ کي وڏي برسات سان گڏ ڪيو. لوئر منهٽن ۾ هڪ بلند عمارت ۾ واقع آهي، پير 1 ڊيٽا سينٽر
فيول پمپ به ناڪاره ٿيو، جنهن ڪري عملو ڪيترن ئي ڏينهن تائين هٿ سان جنريٽرن تي ڊيزل کڻندو رهيو. ٽيم جي هيروزم ڊيٽا سينٽر کي هڪ سنگين حادثي کان بچايو، پر ڇا اهو واقعي ضروري هو؟ اسان ڌرتيءَ تي رهون ٿا جنهن ۾ نائٽروجن آڪسيجن وارو ماحول ۽ تمام گهڻو پاڻي آهي. گجگوڙ ۽ طوفان هتي عام آهن (خاص ڪري ساحلي علائقن ۾). ڊزائنر شايد چڱي ريت ڪم ڪن ها ته خطرن تي غور ڪن ۽ مناسب اڻ رڪاوٽ پاور سپلائي سسٽم ٺاهي. يا گهٽ ۾ گهٽ ڊيٽا سينٽر لاءِ وڌيڪ موزون هنڌ چونڊيو هڪ ٻيٽ تي هڪ اعليٰ اڀار کان.
ٻيو سڀ ڪجهه
Uptime انسٽيٽيوٽ هن درجي ۾ واقعن جي مختلف قسمن جي نشاندهي ڪري ٿو، جن مان هڪ عام چونڊڻ ڏکيو آهي. ٽامي جي تارن جي چوري، ڪارن جو ڊيٽا سينٽرن ۾ حادثو، پاور لائين سپورٽ ۽ ٽرانسفارمر سب اسٽيشنز، باهه، ايڪسائيويٽر آپريٽرس کي نقصان پهچائيندڙ آپٽڪس، ڪُوڙا (چُوڙا، خرگوش ۽ حتي wombats، جيڪي اصل ۾ مارسوپيل آهن)، ۽ انهي سان گڏ اهي جيڪي شوٽنگ ڪرڻ پسند ڪن ٿا. wires - مينيو وسيع آهي. بجلي جي ناڪامي پڻ سبب ٿي سگهي ٿي
جو ذريعو: www.habr.com