السبب الرئيسي للحوادث في مراكز البيانات هو الحشية الموجودة بين الكمبيوتر والكرسي

يثير موضوع الحوادث الكبرى في مراكز البيانات الحديثة أسئلة لم تتم الإجابة عليها في المقال الأول - فقررنا تطويره.

السبب الرئيسي للحوادث في مراكز البيانات هو الحشية الموجودة بين الكمبيوتر والكرسي

وفقًا لإحصائيات معهد Uptime Institute، ترتبط غالبية الحوادث في مراكز البيانات بفشل نظام إمداد الطاقة - فهي تمثل 39% من الحوادث. يليها العامل البشري الذي يمثل 24% من الحوادث. أما السبب الثالث والأهم (15%) فهو فشل نظام تكييف الهواء، وفي المركز الرابع (12%) الكوارث الطبيعية. الحصة الإجمالية للمشاكل الأخرى هي 10٪ فقط. دون التشكيك في بيانات منظمة محترمة، سنسلط الضوء على شيء شائع في حوادث مختلفة ونحاول فهم ما إذا كان من الممكن تجنبها. المفسد: ممكن في معظم الحالات.

علم الاتصالات

بكل بساطة، هناك مشكلتان فقط في مصدر الطاقة: إما أنه لا يوجد اتصال حيث يجب أن يكون، أو هناك اتصال حيث لا ينبغي أن يكون هناك اتصال. يمكنك التحدث لفترة طويلة عن موثوقية أنظمة إمدادات الطاقة غير المنقطعة الحديثة، لكنها لا توفر لك دائما. لنأخذ على سبيل المثال الحالة البارزة لمركز البيانات الذي تستخدمه الخطوط الجوية البريطانية، والذي تملكه الشركة الأم International Airlines Group. يوجد نوعان من هذه العقارات يقعان بالقرب من مطار هيثرو - Boadicea House وComet House. في الحالة الأولى، في 27 مايو 2017، حدث انقطاع عرضي للتيار الكهربائي، مما أدى إلى التحميل الزائد وفشل نظام UPS. ونتيجة لذلك، تعرضت بعض معدات تكنولوجيا المعلومات لأضرار مادية، واستغرق حل الكارثة الأخيرة ثلاثة أيام.

اضطرت شركة الطيران إلى إلغاء أو إعادة جدولة أكثر من ألف رحلة، ولم يتمكن حوالي 75 ألف مسافر من الطيران في الوقت المحدد - تم إنفاق 128 مليون دولار على دفع التعويضات، دون احتساب التكاليف اللازمة لاستعادة وظائف مراكز البيانات. تاريخ أسباب انقطاع التيار الكهربائي غير واضح. إذا كنت تصدق نتائج التحقيق الداخلي الذي أعلنه الرئيس التنفيذي لمجموعة الخطوط الجوية الدولية ويلي والش، فقد كان ذلك بسبب خطأ من قبل المهندسين. ومع ذلك، كان على نظام إمداد الطاقة غير المنقطعة أن يتحمل مثل هذا الإغلاق - ولهذا السبب تم تركيبه. تمت إدارة مركز البيانات من قبل متخصصين من شركة الاستعانة بمصادر خارجية CBRE Managed Services، لذلك حاولت الخطوط الجوية البريطانية استرداد مبلغ الضرر من خلال محكمة في لندن.

السبب الرئيسي للحوادث في مراكز البيانات هو الحشية الموجودة بين الكمبيوتر والكرسي

يحدث انقطاع التيار الكهربائي في سيناريوهات مماثلة: أولاً، يحدث انقطاع للتيار الكهربائي بسبب خطأ من مزود الكهرباء، وأحيانًا بسبب سوء الأحوال الجوية أو مشاكل داخلية (بما في ذلك الأخطاء البشرية)، ثم لا يتمكن نظام إمداد الطاقة غير المنقطعة من التعامل مع الحمل أو انقطاع التيار الكهربائي. - يؤدي انقطاع الموجة الجيبية إلى فشل العديد من الخدمات، مما يتسبب في استعادتها مما يستغرق الكثير من الوقت والمال. هل من الممكن تجنب مثل هذه الحوادث؟ مما لا شك فيه. إذا قمت بتصميم النظام بشكل صحيح، فحتى منشئو مراكز البيانات الكبيرة ليسوا في مأمن من الأخطاء.

عامل بشري

عندما يكون السبب المباشر لحادث ما هو الإجراءات غير الصحيحة لموظفي مركز البيانات، فإن المشكلات غالبًا (ولكن ليس دائمًا) تؤثر على جزء البرنامج من البنية التحتية لتكنولوجيا المعلومات. مثل هذه الحوادث تحدث حتى في الشركات الكبيرة. في فبراير 2017، نظرًا لعضو فريق تم تعيينه بشكل غير صحيح في مجموعة العمليات الفنية لأحد مراكز البيانات، تم تعطيل جزء من خوادم Amazon Web Services. حدث خطأ أثناء تصحيح أخطاء عملية الفوترة لعملاء التخزين السحابي Amazon Simple Storage Service (S3). حاول أحد الموظفين حذف عدد من الخوادم الافتراضية التي يستخدمها نظام الفوترة، لكنه وصل إلى مجموعة أكبر.

السبب الرئيسي للحوادث في مراكز البيانات هو الحشية الموجودة بين الكمبيوتر والكرسي

نتيجة لخطأ هندسي، تم حذف الخوادم التي تقوم بتشغيل وحدات برامج التخزين السحابية المهمة من Amazon. كان أول المتأثرين هو نظام الفهرسة الفرعي، الذي يحتوي على معلومات حول البيانات الوصفية وموقع جميع كائنات S3 في المنطقة الأمريكية US-EAST-1. أثر الحادث أيضًا على النظام الفرعي المستخدم لاستضافة البيانات وإدارة المساحة المتاحة للتخزين. بعد حذف الأجهزة الافتراضية، تطلب هذان النظامان الفرعيان إعادة تشغيل كاملة، ثم تفاجأ مهندسو أمازون - لفترة طويلة، لم يتمكن التخزين السحابي العام من تلبية طلبات العملاء.

وكان التأثير واسع النطاق، حيث أن العديد من الموارد الكبيرة تستخدم Amazon S3. وقد أثر انقطاع الخدمة على شركات Trello وCoursera وIFTTT، والأكثر إزعاجًا، على خدمات شركاء أمازون الرئيسيين من قائمة S&P 500. ومن الصعب حساب الضرر في مثل هذه الحالات، لكنه كان في حدود مئات الملايين من الدولارات الأمريكية. كما ترون، أمر واحد خاطئ يكفي لتعطيل خدمة أكبر منصة سحابية. هذه ليست حالة معزولة، ففي 16 مايو 2019، أثناء أعمال الصيانة، توقفت خدمة Yandex.Cloud تم الحذف الأجهزة الافتراضية للمستخدمين في منطقة ru-central1-c والتي كانت في حالة "معلق" مرة واحدة على الأقل. لقد تضررت بيانات العميل هنا بالفعل، وقد فُقد بعضها بشكل لا رجعة فيه. بالطبع، الأشخاص غير مثاليين، لكن أنظمة أمن المعلومات الحديثة كانت قادرة منذ فترة طويلة على مراقبة تصرفات المستخدمين المميزين قبل تنفيذ الأوامر التي أدخلوها. إذا تم تنفيذ مثل هذه الحلول في ياندكس أو أمازون، فيمكن تجنب مثل هذه الحوادث.

السبب الرئيسي للحوادث في مراكز البيانات هو الحشية الموجودة بين الكمبيوتر والكرسي

التبريد المجمد

في يناير 2017، وقع حادث كبير في مركز بيانات دميتروف التابع لشركة Megafon. ثم انخفضت درجة الحرارة في منطقة موسكو إلى -35 درجة مئوية، مما أدى إلى فشل نظام التبريد في المنشأة. لم تتحدث الخدمة الصحفية للمشغل بشكل خاص عن أسباب الحادث - فالشركات الروسية مترددة للغاية في الحديث عن الحوادث التي وقعت في المنشآت التي تمتلكها، ومن حيث الدعاية، نحن متخلفون كثيرًا عن الغرب. تم تداول نسخة على الشبكات الاجتماعية حول تجميد سائل التبريد في الأنابيب الموضوعة على طول الشارع وتسرب مادة جلايكول الإيثيلين. ووفقا لها، لم تتمكن خدمة التشغيل من الحصول بسرعة على 30 طنا من سائل التبريد بسبب العطل الطويلة وخرجت بوسائل مرتجلة، ونظمت تبريدا حرا مرتجلا بالمخالفة لقواعد تشغيل النظام. أدى البرد الشديد إلى تفاقم المشكلة - ففي شهر يناير، ضرب الشتاء فجأة روسيا، على الرغم من أن أحداً لم يتوقع ذلك. ونتيجة لذلك، اضطر الموظفون إلى قطع الطاقة عن جزء من رفوف الخادم، ولهذا السبب لم تكن بعض خدمات المشغل متاحة لمدة يومين.

السبب الرئيسي للحوادث في مراكز البيانات هو الحشية الموجودة بين الكمبيوتر والكرسي

ربما، يمكننا أن نتحدث هنا عن شذوذ الطقس، ولكن مثل هذا الصقيع ليس شيئا غير عادي بالنسبة لمنطقة العاصمة. يمكن أن تنخفض درجات الحرارة في فصل الشتاء في منطقة موسكو إلى مستويات أقل، لذلك يتم بناء مراكز البيانات مع توقع التشغيل المستقر عند -42 درجة مئوية. في أغلب الأحيان، تفشل أنظمة التبريد في الطقس البارد بسبب عدم كفاية تركيز الجليكولات والماء الزائد في محلول التبريد. هناك أيضًا مشاكل في تركيب الأنابيب أو في الحسابات الخاطئة في تصميم النظام واختباره، وترتبط بشكل أساسي بالرغبة في توفير المال. ونتيجة لذلك، يقع حادث خطير فجأة، وكان من الممكن منعه.

الكوارث الطبيعية

في أغلب الأحيان، تؤدي العواصف الرعدية و/أو الأعاصير إلى تعطيل البنية التحتية الهندسية لمركز البيانات، مما يؤدي إلى انقطاع الخدمة و/أو تلف المعدات. تحدث الحوادث الناجمة عن سوء الأحوال الجوية في كثير من الأحيان. في عام 2012، اجتاح إعصار ساندي الساحل الغربي للولايات المتحدة مع هطول أمطار غزيرة. يقع مركز بيانات Peer 1 في مبنى شاهق في مانهاتن السفلى فقدت إمدادات الطاقة الخارجيةبعد أن غمرت مياه البحر المالحة الطوابق السفلية. كانت مولدات الطوارئ الخاصة بالمنشأة موجودة في الطابق الثامن عشر، وكانت إمداداتها من الوقود محدودة - القواعد التي تم إدخالها في نيويورك بعد هجمات 18 سبتمبر الإرهابية تحظر تخزين كميات كبيرة من الوقود في الطوابق العليا.

كما تعطلت مضخة الوقود، فقضى الموظفون عدة أيام في نقل الديزل إلى المولدات يدويًا. لقد أنقذت بطولة الفريق مركز البيانات من حادث خطير، لكن هل كان ذلك ضروريًا حقًا؟ نحن نعيش على كوكب ذو جو يحتوي على النيتروجين والأكسجين والكثير من الماء. العواصف الرعدية والأعاصير شائعة هنا (خاصة في المناطق الساحلية). ربما من الأفضل للمصممين أن يأخذوا بعين الاعتبار المخاطر التي ينطوي عليها الأمر وأن يبنوا نظامًا مناسبًا لإمدادات الطاقة غير المنقطعة. أو على الأقل اختر موقعًا أكثر ملاءمة لمركز البيانات من مبنى شاهق على جزيرة.

كل شيء آخر

يحدد معهد Uptime مجموعة متنوعة من الحوادث في هذه الفئة، ومن بينها يصعب اختيار حادث نموذجي. سرقة الكابلات النحاسية، واصطدام السيارات بمراكز البيانات، ودعم خطوط الكهرباء ومحطات المحولات الفرعية، والحرائق، وإتلاف البصريات من قبل مشغلي الحفارات، والقوارض (الفئران والأرانب وحتى الومبات، وهي في الواقع جرابيات)، بالإضافة إلى أولئك الذين يحبون ممارسة إطلاق النار على الأسلاك - القائمة واسعة النطاق. يمكن أن يسبب انقطاع التيار الكهربائي سرقة زراعة الماريجوانا غير القانونية بالكهرباء. في معظم الحالات، يصبح الجناة أشخاصا محددين، أي نحن نتعامل مرة أخرى مع العامل البشري، عندما تكون المشكلة لها اسم ولقب. وحتى لو ارتبط الحادث للوهلة الأولى بعطل فني أو كوارث طبيعية، فإنه يمكن تجنبه بشرط تصميم المنشأة وتشغيلها بشكل صحيح. الاستثناءات الوحيدة هي حالات الأضرار الجسيمة التي لحقت بالبنية التحتية لمركز البيانات أو تدمير المباني والهياكل بسبب كارثة طبيعية. هذه ظروف قاهرة حقًا، وكل المشكلات الأخرى ناتجة عن الحشية الموجودة بين الكمبيوتر والكرسي - ربما يكون هذا هو الجزء الأكثر غير موثوق به في أي نظام معقد.

المصدر: www.habr.com

إضافة تعليق