حوادث بزرگ در مراکز داده: علل و پیامدها

مراکز داده مدرن قابل اعتماد هستند، اما هر تجهیزاتی هر از گاهی خراب می شود. در این مقاله کوتاه مهم ترین حوادث سال 2018 را گردآوری کرده ایم.

حوادث بزرگ در مراکز داده: علل و پیامدها

تاثیر فناوری های دیجیتال بر اقتصاد در حال رشد است، حجم اطلاعات پردازش شده در حال افزایش است، امکانات جدیدی ساخته می شود و این تا زمانی خوب است که همه چیز کار کند. متأسفانه، از زمانی که مردم میزبانی زیرساخت‌های فناوری اطلاعات حیاتی برای کسب‌وکار را به عنوان یک پیامد اجتناب‌ناپذیر دیجیتالی‌سازی آغاز کردند، تأثیر اقتصادی خرابی‌های مرکز داده نیز افزایش یافته است. در حال انتشار مجموعه کوچکی از قابل توجه ترین تصادفاتی هستیم که در سال گذشته در کشورهای مختلف رخ داده است.

ایالات متحده

این کشور پیشرو شناخته شده در زمینه ساخت مراکز داده است. ایالات متحده دارای بیشترین تعداد مراکز داده تجاری و شرکتی بزرگ است که خدمات جهانی را ارائه می دهند، بنابراین پیامدهای حوادث در آنجا بسیار مهم است. در اوایل ماه مارس، چهار تاسیسات Equinix به دلیل طوفان قدرتمند دچار قطعی برق شدند. این فضا برای تجهیزات خدمات وب آمازون (AWS) مورد استفاده قرار گرفت؛ این حادثه منجر به در دسترس نبودن بسیاری از خدمات محبوب شد: GitHub، MongoDB، NewVoiceMedia، Slack، Zillow، Atlassian، Twilio و mCapital One، و همچنین دستیار مجازی Amazon Alexa، تحت تاثیر قرار گرفتند.

در ماه سپتامبر، ناهنجاری های آب و هوایی به مراکز داده مایکروسافت واقع در تگزاس برخورد کرد، سپس به دلیل رعد و برق، سیستم برق رسانی کل منطقه مختل شد و در مرکز داده ای که از مجموعه دیزل ژنراتور به برق تبدیل شد، مشخص نیست که چرا خنک کننده خاموش شد چندین روز طول کشید تا عواقب تصادف از بین برود و اگرچه به لطف تعادل بار، این خرابی بحرانی نشد، کاهش جزئی در عملکرد سرویس های ابری مایکروسافت توسط کاربران در سراسر جهان مشاهده شد.

روسیه

جدی ترین حادثه در 20 اوت در یکی از مراکز داده Rostelecom رخ داد. به همین دلیل، سرورهای ثبت نام یکپارچه املاک و مستغلات به مدت 66 ساعت متوقف شدند و بنابراین مجبور شدند به یک سایت پشتیبان منتقل شوند. Rosreestr فقط در 3 سپتامبر توانست پردازش برنامه های دریافت شده از طریق همه کانال ها را بازیابی کند - سازمان دولتی در تلاش است تا مبلغ زیادی را از Rostelecom به دلیل نقض توافق نامه سطح خدمات بازیابی کند.

در 16 فوریه، به دلیل مشکلاتی در شبکه های Lenenergo، سیستم منبع تغذیه پشتیبان در مرکز داده Xelnet (سن پترزبورگ) روشن شد. وقفه کوتاه مدت موج سینوسی منجر به اختلال در عملکرد بسیاری از خدمات شد: به ویژه، ارائه دهنده ابر بزرگ 1cloud تحت تأثیر قرار گرفت، اما قابل توجه ترین مشکل برای مخاطبان اینترنت روسیه عدم دسترسی به سایت شبکه اجتماعی VKontakte بود. . جالب ترین چیز این است که حدود 12 ساعت طول کشید تا عواقب قطعی کوتاه مدت برق به طور کامل از بین برود.

اتحادیه اروپا

چندین حادثه جدی در سال 2018 در اتحادیه اروپا ثبت شد. در ماه مارس، یک نقص در مرکز داده شرکت هواپیمایی KLM رخ داد: منبع تغذیه به مدت 10 دقیقه قطع شد و قدرت مجموعه های دیزل ژنراتور برای کارکرد تجهیزات کافی نبود. برخی از سرورها از کار افتادند و شرکت هواپیمایی مجبور شد چندین پرواز را لغو یا تغییر دهد.

این تنها حادثه مربوط به سفر هوایی نیست - قبلاً در ماه آوریل ، یک نقص در سیستم منبع تغذیه مرکز داده Eurocontrol رخ داده است. این سازمان حرکت هواپیماها را در اتحادیه اروپا کنترل می کند و در حالی که متخصصان 5 ساعت وقت صرف از بین بردن عواقب این سانحه کردند، مسافران دوباره مجبور به تحمل تاخیر و برنامه ریزی مجدد پروازها شدند.

مشکلات بسیار جدی به دلیل حوادث در مراکز داده که در خدمت بخش مالی هستند، به وجود می آیند. هزینه وقفه در معاملات در اینجا معمولا زیاد است و سطح اطمینان امکانات مناسب است، اما این مانع از بروز حوادث نمی شود. در 18 آوریل، بورس اوراق بهادار نوردیک NASDAQ (هلسینکی، فنلاند) به دلیل فعال شدن غیرمجاز یک سیستم اطفاء حریق گازی در مرکز داده تجاری DigiPlex که به طور ناگهانی برق آن قطع شد، قادر به معامله در سراسر اروپای شمالی در طول روز نبود.

در 7 ژوئن، قطعی مرکز داده، بورس لندن (LSE) را مجبور کرد شروع معاملات را برای یک ساعت به تاخیر بیندازد. علاوه بر این، در ماه ژوئن، در اروپا، به دلیل نقص در یک مرکز داده، خدمات سیستم پرداخت بین المللی VISA برای تمام روز غیرفعال شد و جزئیات این حادثه هرگز فاش نشد.

ژاپن

در تابستان 2018، آتش سوزی در سطوح زیرزمینی یک مرکز داده آمازون در حال ساخت در حومه توکیو رخ داد که منجر به کشته شدن 5 کارگر و زخمی شدن حداقل 50 نفر شد. این آتش سوزی به حدود 5000 متر مربع از تاسیسات آسیب رساند. بررسی ها نشان داد که علت آتش سوزی خطای انسانی بوده است: در اثر بی احتیاطی برخورد با مشعل های استیلن، عایق مشتعل شده است.

علل شکست

فهرست حوادث فوق هنوز کامل نیست؛ به دلیل تصادفات در مراکز داده، مشتریان بانک ها و اپراتورهای مخابراتی آسیب می بینند، خدمات ارائه دهندگان ابری آفلاین می شوند و حتی کار خدمات اضطراری مختل می شود. به گفته مؤسسه Uptime، یک قطع خدمات کوچک می تواند منجر به تلفات عمده شود و اکثر قطعی ها (39٪) مربوط به سیستم الکتریکی است. در رتبه دوم (24 درصد) عامل انسانی و در رتبه سوم (15 درصد) سیستم تهویه مطبوع قرار دارد. تنها 12 درصد از حوادث در مراکز داده را می توان به پدیده های طبیعی نسبت داد و تنها 10 درصد از آنها به دلایلی غیر از موارد ذکر شده رخ می دهد.

با وجود استانداردهای ایمنی و اطمینان دقیق، هیچ تاسیساتی از حوادث مصون نیست. بیشتر آنها به دلیل قطع برق یا خطاهای انسانی رخ می دهند. صاحبان مراکز داده و اتاق های سرور قبل از هر چیز باید به این دو عامل توجه کنند و مشتریان باید درک کنند: حتی رهبران بازار نمی توانند اطمینان مطلق را تضمین کنند. اگر تجهیزات یا یک سرویس ابری در خدمت فرآیندهای حیاتی تجاری هستند، باید به فکر یک سایت پشتیبان باشید.

منبع عکس: telecombloger.ru

منبع: www.habr.com

اضافه کردن نظر