ڈیٹا سینٹرز میں حادثات کی سب سے بڑی وجہ کمپیوٹر اور کرسی کے درمیان گسکیٹ ہے۔

جدید ڈیٹا سینٹرز میں بڑے حادثات کا موضوع ایسے سوالات کو جنم دیتا ہے جن کا جواب پہلے مضمون میں نہیں دیا گیا تھا - ہم نے اسے تیار کرنے کا فیصلہ کیا۔

ڈیٹا سینٹرز میں حادثات کی سب سے بڑی وجہ کمپیوٹر اور کرسی کے درمیان گسکیٹ ہے۔

اپ ٹائم انسٹی ٹیوٹ کے اعدادوشمار کے مطابق، ڈیٹا سینٹرز میں ہونے والے زیادہ تر واقعات کا تعلق پاور سپلائی سسٹم کی خرابی سے ہوتا ہے- وہ واقعات کا 39% حصہ بنتے ہیں۔ ان کے بعد انسانی عنصر آتا ہے، جو کہ 24 فیصد حادثات کا باعث بنتا ہے۔ تیسری سب سے اہم وجہ (15%) ایئر کنڈیشنگ سسٹم کی خرابی تھی، اور چوتھے نمبر پر (12%) قدرتی آفات تھیں۔ دیگر پریشانیوں کا کل حصہ صرف 10% ہے۔ کسی معزز ادارے کے ڈیٹا پر سوال اٹھائے بغیر، ہم مختلف حادثات میں ایک عام چیز کو اجاگر کریں گے اور یہ سمجھنے کی کوشش کریں گے کہ کیا ان سے بچا جا سکتا تھا۔ سپوئلر: یہ زیادہ تر معاملات میں ممکن ہے۔

روابط کی سائنس

سیدھے الفاظ میں، بجلی کی فراہمی کے ساتھ صرف دو مسائل ہیں: یا تو وہاں رابطہ نہیں ہے جہاں اسے ہونا چاہئے، یا وہاں رابطہ ہے جہاں رابطہ نہیں ہونا چاہئے۔ آپ جدید بلاتعطل بجلی کی فراہمی کے نظام کی وشوسنییتا کے بارے میں طویل عرصے تک بات کر سکتے ہیں، لیکن وہ ہمیشہ آپ کو نہیں بچاتے۔ برٹش ایئرویز کے زیر استعمال ڈیٹا سینٹر کے ہائی پروفائل کیس کو ہی لے لیں، جو پیرنٹ کمپنی انٹرنیشنل ایئر لائنز گروپ کی ملکیت ہے۔ ہیتھرو ہوائی اڈے کے قریب ایسی دو جائیدادیں ہیں - Boadicea House اور Comet House۔ ان میں سے سب سے پہلے 27 مئی 2017 کو حادثاتی طور پر بجلی کی بندش ہو گئی جس کی وجہ سے اوور لوڈ ہو گیا اور UPS سسٹم فیل ہو گیا۔ نتیجے کے طور پر، کچھ IT آلات کو جسمانی طور پر نقصان پہنچا، اور تازہ ترین آفت کو حل کرنے میں تین دن لگے۔

ایئر لائن کو ایک ہزار سے زیادہ پروازیں منسوخ یا دوبارہ شیڈول کرنا پڑیں، تقریباً 75 ہزار مسافر بروقت پرواز کرنے سے قاصر تھے - 128 ملین ڈالر معاوضے کی ادائیگی پر خرچ کیے گئے، ڈیٹا سینٹرز کی فعالیت کو بحال کرنے کے لیے درکار اخراجات کو شمار نہیں کیا۔ بلیک آؤٹ کی وجوہات کی تاریخ واضح نہیں ہے۔ اگر آپ بین الاقوامی ایئر لائنز گروپ کے سی ای او ولی والش کی طرف سے اعلان کردہ اندرونی تحقیقات کے نتائج پر یقین رکھتے ہیں، تو یہ انجینئرز کی غلطی کی وجہ سے ہوا تھا۔ تاہم، بلاتعطل بجلی کی فراہمی کے نظام کو اس طرح کے بند کو برداشت کرنا پڑا - اسی لیے اسے انسٹال کیا گیا۔ ڈیٹا سینٹر کا انتظام آؤٹ سورسنگ کمپنی CBRE Managed Services کے ماہرین کرتے تھے، اس لیے برٹش ایئرویز نے لندن کی عدالت کے ذریعے نقصان کی رقم کی وصولی کی کوشش کی۔

ڈیٹا سینٹرز میں حادثات کی سب سے بڑی وجہ کمپیوٹر اور کرسی کے درمیان گسکیٹ ہے۔

اسی طرح کے حالات میں بجلی کی بندش ہوتی ہے: سب سے پہلے بجلی فراہم کرنے والے کی غلطی کی وجہ سے بلیک آؤٹ ہوتا ہے، بعض اوقات خراب موسم یا اندرونی مسائل (بشمول انسانی غلطیوں) کی وجہ سے، اور پھر بلاتعطل بجلی کی فراہمی کا نظام لوڈ یا شارٹ کا مقابلہ نہیں کر سکتا۔ -سائن ویو کی مدت میں رکاوٹ بہت سی خدمات کی ناکامی کا سبب بنتی ہے، جس کی بحالی میں بہت زیادہ وقت اور پیسہ لگتا ہے۔ کیا ایسے حادثات سے بچنا ممکن ہے؟ بلاشبہ. اگر آپ سسٹم کو صحیح طریقے سے ڈیزائن کرتے ہیں، تو بڑے ڈیٹا سینٹرز کے تخلیق کار بھی غلطیوں سے محفوظ نہیں ہیں۔

انسانی عنصر

جب کسی واقعے کی فوری وجہ ڈیٹا سینٹر کے اہلکاروں کی غلط حرکتیں ہوتی ہیں، تو مسائل اکثر (لیکن ہمیشہ نہیں) آئی ٹی انفراسٹرکچر کے سافٹ ویئر حصے کو متاثر کرتے ہیں۔ ایسے حادثات بڑے بڑے اداروں میں بھی ہوتے ہیں۔ فروری 2017 میں، ڈیٹا سینٹرز میں سے ایک کے ٹیکنیکل آپریشن گروپ کے غلط طریقے سے بھرتی کردہ ٹیم ممبر کی وجہ سے، Amazon ویب سروسز کے سرورز کا کچھ حصہ غیر فعال ہو گیا تھا۔ Amazon Simple Storage Service (S3) کلاؤڈ سٹوریج صارفین کے لیے بلنگ کے عمل کو ڈیبگ کرتے وقت ایک خرابی پیش آ گئی۔ ایک ملازم نے بلنگ سسٹم کے ذریعہ استعمال ہونے والے متعدد ورچوئل سرورز کو حذف کرنے کی کوشش کی، لیکن ایک بڑے کلسٹر کو نشانہ بنایا۔

ڈیٹا سینٹرز میں حادثات کی سب سے بڑی وجہ کمپیوٹر اور کرسی کے درمیان گسکیٹ ہے۔

انجینئر کی غلطی کے نتیجے میں، اہم Amazon کلاؤڈ اسٹوریج سافٹ ویئر ماڈیول چلانے والے سرورز کو حذف کر دیا گیا تھا۔ سب سے پہلے متاثر انڈیکسنگ سب سسٹم تھا، جس میں US-EAST-3 امریکی خطے میں تمام S1 اشیاء کے میٹا ڈیٹا اور مقام کے بارے میں معلومات موجود ہیں۔ اس واقعے نے ڈیٹا کی میزبانی کرنے اور اسٹوریج کے لیے دستیاب جگہ کا انتظام کرنے کے لیے استعمال ہونے والے سب سسٹم کو بھی متاثر کیا۔ ورچوئل مشینوں کو حذف کرنے کے بعد، ان دو ذیلی نظاموں کو مکمل طور پر دوبارہ شروع کرنے کی ضرورت تھی، اور پھر ایمیزون کے انجینئرز حیرانی کے عالم میں تھے - ایک طویل عرصے سے، عوامی کلاؤڈ اسٹوریج کسٹمر کی درخواستوں کی خدمت کرنے سے قاصر تھا۔

اثر وسیع تھا، کیونکہ بہت سے بڑے وسائل Amazon S3 استعمال کرتے ہیں۔ بندش نے Trello، Coursera، IFTTT اور، سب سے زیادہ ناخوشگوار طور پر، S&P 500 فہرست میں سے بڑے Amazon شراکت داروں کی خدمات کو متاثر کیا۔ ایسے معاملات میں نقصان کا حساب لگانا مشکل ہے، لیکن یہ سینکڑوں ملین امریکی ڈالر کے علاقے میں تھا۔ جیسا کہ آپ دیکھ سکتے ہیں، سب سے بڑے کلاؤڈ پلیٹ فارم کی سروس کو غیر فعال کرنے کے لیے ایک غلط کمانڈ کافی ہے۔ یہ کوئی الگ تھلگ کیس نہیں ہے؛ 16 مئی 2019 کو، بحالی کے کام کے دوران، Yandex.Cloud سروس حذف کر دیا گیا ru-central1-c زون میں صارفین کی ورچوئل مشینیں جو کم از کم ایک بار معطل حالت میں تھیں۔ یہاں کلائنٹ کا ڈیٹا پہلے ہی خراب ہو چکا ہے، جن میں سے کچھ ناقابل تلافی طور پر ضائع ہو گئے تھے۔ بلاشبہ، لوگ نامکمل ہیں، لیکن جدید انفارمیشن سیکیورٹی سسٹم طویل عرصے سے مراعات یافتہ صارفین کی کارروائیوں کی نگرانی کرنے میں کامیاب رہے ہیں جو ان کے داخل کردہ احکامات پر عمل درآمد کرنے سے پہلے ہیں۔ اگر ایسا حل Yandex یا Amazon میں لاگو کیا جائے تو ایسے واقعات سے بچا جا سکتا ہے۔

ڈیٹا سینٹرز میں حادثات کی سب سے بڑی وجہ کمپیوٹر اور کرسی کے درمیان گسکیٹ ہے۔

منجمد کولنگ

جنوری 2017 میں میگافون کمپنی کے دمتروف ڈیٹا سینٹر میں ایک بڑا حادثہ پیش آیا۔ پھر ماسکو کے علاقے میں درجہ حرارت −35 °C تک گر گیا، جس کی وجہ سے اس سہولت کا کولنگ سسٹم ناکام ہو گیا۔ آپریٹر کی پریس سروس نے اس واقعے کی وجوہات کے بارے میں خاص طور پر بات نہیں کی - روسی کمپنیاں اپنی ملکیت میں موجود سہولیات پر ہونے والے حادثات کے بارے میں بات کرنے میں انتہائی ہچکچاہٹ کا شکار ہیں؛ تشہیر کے لحاظ سے، ہم مغرب سے بہت پیچھے ہیں۔ سوشل نیٹ ورکس پر سڑک کے کنارے بچھائے گئے پائپوں میں کولنٹ کے جمنے اور ایتھیلین گلائکول کے رساؤ کے بارے میں ایک ورژن گردش کر رہا تھا۔ ان کے مطابق، آپریشن سروس طویل تعطیلات کی وجہ سے 30 ٹن کولنٹ فوری طور پر حاصل کرنے میں ناکام رہی اور سسٹم کو چلانے کے لیے قوانین کی خلاف ورزی کرتے ہوئے دیسی ساختہ طریقہ استعمال کرتے ہوئے باہر نکل گئی۔ شدید سردی نے مسئلہ کو مزید بڑھا دیا - جنوری میں، موسم سرما نے روس کو اچانک نشانہ بنایا، حالانکہ کسی کو اس کی توقع نہیں تھی۔ اس کے نتیجے میں، عملے کو سرور ریک کے کچھ حصے کی بجلی بند کرنی پڑی، جس کی وجہ سے کچھ آپریٹر کی خدمات دو دن سے دستیاب نہیں تھیں۔

ڈیٹا سینٹرز میں حادثات کی سب سے بڑی وجہ کمپیوٹر اور کرسی کے درمیان گسکیٹ ہے۔

شاید، ہم یہاں موسم کی خرابی کے بارے میں بات کر سکتے ہیں، لیکن اس طرح کی ٹھنڈ دارالحکومت کے علاقے کے لیے کوئی غیر معمولی چیز نہیں ہے۔ ماسکو کے علاقے میں موسم سرما میں درجہ حرارت نچلی سطح تک گر سکتا ہے، اس لیے ڈیٹا سینٹرز −42°C پر مستحکم آپریشن کی توقع کے ساتھ بنائے گئے ہیں۔ اکثر، کولنگ سسٹم ٹھنڈے موسم میں ناکام ہو جاتے ہیں کیونکہ کولنٹ محلول میں گلائکولز اور زیادہ پانی کی ناکافی مقدار ہے۔ پائپوں کی تنصیب یا نظام کے ڈیزائن اور جانچ میں غلط حسابات کے ساتھ بھی مسائل ہیں، بنیادی طور پر پیسہ بچانے کی خواہش سے وابستہ ہیں۔ اس کے نتیجے میں نیلے رنگ کے باہر ایک سنگین حادثہ پیش آتا ہے، جسے روکا جا سکتا تھا۔

قدرتی آفات

اکثر، گرج چمک اور/یا سمندری طوفان ڈیٹا سینٹر کے انجینئرنگ انفراسٹرکچر میں خلل ڈالتے ہیں، جس کی وجہ سے سروس میں خلل پڑتا ہے اور/یا آلات کو جسمانی نقصان ہوتا ہے۔ خراب موسم کی وجہ سے واقعات اکثر رونما ہوتے ہیں۔ 2012 میں، سمندری طوفان سینڈی بھاری بارش کے ساتھ ریاستہائے متحدہ کے مغربی ساحل کو اپنی لپیٹ میں لے گیا۔ پیر 1 ڈیٹا سینٹر لوئر مین ہٹن میں ایک اونچی عمارت میں واقع ہے۔ خارجی بجلی کی فراہمی سے محروم، نمکین سمندری پانی کے بعد تہہ خانوں میں سیلاب آگیا۔ سہولت کے ہنگامی جنریٹر 18ویں منزل پر واقع تھے، اور ان کی ایندھن کی سپلائی محدود تھی - 9/11 کے دہشت گردانہ حملوں کے بعد نیو یارک میں متعارف کرائے گئے قواعد بالائی منزلوں پر بڑی مقدار میں ایندھن کو ذخیرہ کرنے سے منع کرتے ہیں۔

فیول پمپ بھی فیل ہو گیا، اس لیے عملے نے کئی دن ہاتھ سے جنریٹرز تک ڈیزل پہنچانے میں گزارے۔ ٹیم کی بہادری نے ڈیٹا سینٹر کو ایک سنگین حادثے سے بچا لیا، لیکن کیا یہ واقعی ضروری تھا؟ ہم ایک سیارے پر رہتے ہیں جس میں نائٹروجن آکسیجن ماحول اور بہت زیادہ پانی ہے۔ گرج چمک اور سمندری طوفان یہاں عام ہیں (خاص طور پر ساحلی علاقوں میں)۔ ڈیزائنرز ممکنہ طور پر اس میں شامل خطرات پر غور کرنے اور ایک مناسب بلاتعطل بجلی کی فراہمی کا نظام تیار کرنے کے لیے اچھا کریں گے۔ یا کم از کم ڈیٹا سینٹر کے لیے کسی جزیرے پر اونچی جگہ سے زیادہ مناسب جگہ کا انتخاب کریں۔

باقی سب کچھ

اپ ٹائم انسٹی ٹیوٹ اس زمرے میں مختلف واقعات کی نشاندہی کرتا ہے، جن میں سے کسی عام کو چننا مشکل ہے۔ تانبے کی تاروں کی چوری، ڈیٹا سینٹرز میں ٹکرانے والی کاریں، پاور لائن سپورٹ اور ٹرانسفارمر سب سٹیشن، آگ، کھدائی کرنے والے آپریٹرز جو آپٹکس کو نقصان پہنچاتے ہیں، چوہا (چوہے، خرگوش اور یہاں تک کہ wombats، جو دراصل مرسوپیئل ہیں)، نیز وہ لوگ جو شوٹنگ کی مشق کرنا پسند کرتے ہیں۔ تاریں - مینو وسیع ہے۔ بجلی کی ناکامی کا سبب بھی بن سکتا ہے۔ چوری بجلی کے غیر قانونی چرس کا باغبانی. زیادہ تر معاملات میں، مخصوص لوگ اس واقعے کے مجرم بن جاتے ہیں، یعنی جب مسئلہ کا کوئی نام اور کنیت ہو تو ہم دوبارہ انسانی عنصر سے نمٹ رہے ہیں۔ یہاں تک کہ اگر پہلی نظر میں حادثے کا تعلق تکنیکی خرابی یا قدرتی آفات سے ہو، تب بھی اس سے بچا جا سکتا ہے بشرطیکہ یہ سہولت مناسب طریقے سے ڈیزائن اور صحیح طریقے سے چلائی گئی ہو۔ صرف مستثنیات ڈیٹا سینٹر کے بنیادی ڈھانچے کو شدید نقصان پہنچانے یا قدرتی آفت کی وجہ سے عمارتوں اور ڈھانچے کی تباہی کے معاملات ہیں۔ یہ واقعی زبردستی کے حالات ہیں، اور دیگر تمام مسائل کمپیوٹر اور کرسی کے درمیان گسکیٹ کی وجہ سے ہوتے ہیں - شاید یہ کسی بھی پیچیدہ نظام کا سب سے ناقابل اعتبار حصہ ہے۔

ماخذ: www.habr.com

نیا تبصرہ شامل کریں