Темата за големите аварии в съвременните центрове за данни повдига въпроси, които не получиха отговор в първата статия - решихме да я развием.
Според статистиката на Uptime Institute, по-голямата част от инцидентите в центровете за данни са свързани с повреди в захранващата система - те представляват 39% от инцидентите. След тях се нарежда човешкият фактор, който е причина за още 24% от катастрофите. Третата най-важна причина (15%) е повреда на климатичната система, а на четвърто място (12%) са природните бедствия. Общият дял на другите проблеми е само 10%. Без да поставяме под съмнение данните на уважавана организация, ще подчертаем нещо общо при различните произшествия и ще се опитаме да разберем дали те биха могли да бъдат избегнати. Спойлер: възможно е в повечето случаи.
Науката за контактите
Казано по-просто, проблемите със захранването са само два: или няма контакт там, където трябва, или има контакт там, където не трябва да има контакт. Можете да говорите дълго време за надеждността на съвременните системи за непрекъсваемо захранване, но те не винаги ви спасяват. Вземете нашумелия случай с центъра за данни, използван от British Airways, който е собственост на компанията майка International Airlines Group. Има два такива имота, разположени близо до летище Хийтроу - Boadicea House и Comet House. При първия от тях на 27 май 2017 г. се случи инцидентно прекъсване на електрозахранването, което доведе до претоварване и повреда на UPS системата. В резултат част от ИТ оборудването беше физически повредено, а отстраняването на последната авария отне три дни.
Авиокомпанията трябваше да отмени или пренасрочи повече от хиляда полета, около 75 хиляди пътници не успяха да летят навреме - 128 милиона долара бяха изразходвани за изплащане на компенсации, без да се броят разходите, необходими за възстановяване на функционалността на центровете за данни. Историята на причините за спирането на тока е неясна. Ако се вярва на резултатите от вътрешното разследване, обявено от изпълнителния директор на International Airlines Group Уили Уолш, то се дължи на грешка на инженерите. Системата за непрекъсваемо захранване обаче трябваше да издържи на такова изключване - затова беше инсталирана. Центърът за данни беше управляван от специалисти от аутсорсинг компанията CBRE Managed Services, така че British Airways се опитаха да възстановят размера на щетите чрез лондонски съд.
Прекъсванията на електрозахранването възникват при подобни сценарии: първо има прекъсване на тока по вина на доставчика на електроенергия, понякога поради лошо време или вътрешни проблеми (включително човешки грешки), а след това системата за непрекъсваемо захранване не може да се справи с товара или късо -продължителното прекъсване на синусоидата причинява откази на много услуги, което води до възстановяване на които отнема много време и пари. Възможно ли е да се избегнат подобни инциденти? Несъмнено. Ако проектирате системата правилно, дори създателите на големи центрове за данни не са имунизирани от грешки.
Човешки фактор
Когато непосредствената причина за инцидент са неправилни действия на персонала на центъра за данни, проблемите най-често (но не винаги) засягат софтуерната част на ИТ инфраструктурата. Такива инциденти се случват дори в големите корпорации. През февруари 2017 г., поради неправилно набран член на екипа от групата за техническа експлоатация на един от центровете за данни, част от сървърите на Amazon Web Services бяха деактивирани. Възникна грешка при отстраняване на грешки в процеса на таксуване за клиенти на облачно хранилище на Amazon Simple Storage Service (S3). Служител се опита да изтрие редица виртуални сървъри, използвани от системата за таксуване, но удари по-голям клъстер.
В резултат на инженерна грешка сървърите, работещи с важни софтуерни модули за облачно съхранение на Amazon, бяха изтрити. Първата засегната беше подсистемата за индексиране, която съдържа информация за метаданните и местоположението на всички S3 обекти в американския регион US-EAST-1. Инцидентът също засегна подсистемата, използвана за хостване на данни и управление на наличното пространство за съхранение. След изтриването на виртуалните машини, тези две подсистеми изискваха пълно рестартиране и тогава инженерите на Amazon ги очакваше изненада - дълго време публичното облачно хранилище не можеше да обслужва клиентски заявки.
Въздействието беше широко разпространено, тъй като много големи ресурси използват Amazon S3. Прекъсванията засегнаха Trello, Coursera, IFTTT и най-неприятно услугите на основните партньори на Amazon от списъка на S&P 500. Щетите в такива случаи е трудно да се изчислят, но бяха от порядъка на стотици милиони щатски долари. Както можете да видите, една грешна команда е достатъчна, за да деактивирате услугата на най-голямата облачна платформа. Това не е изолиран случай, на 16 май 2019 г., по време на поддръжка, услугата Yandex.Cloud
Замразено охлаждане
През януари 2017 г. се случи голяма авария в центъра за данни в Дмитров на компанията Megafon. Тогава температурата в района на Москва падна до −35 °C, което доведе до повреда на охладителната система на съоръжението. Пресслужбата на оператора не говори особено за причините за инцидента - руските компании са изключително неохотни да говорят за аварии в съоръженията, които притежават, по отношение на публичността ние изоставаме много от Запада. В социалните мрежи се разпространи версия за замръзване на охладителна течност в положени по улицата тръби и изтичане на етиленгликол. Според нея експлоатационната служба не е успяла бързо да се снабди с 30 тона охлаждаща течност поради дългите празници и е излязла с импровизирани средства, организирайки импровизирано свободно охлаждане в нарушение на правилата за работа на системата. Силните студове изостриха проблема - през януари зимата внезапно удари Русия, въпреки че никой не го очакваше. В резултат на това персоналът трябваше да изключи захранването на част от сървърните стелажи, поради което някои услуги на оператора бяха недостъпни за два дни.
Вероятно тук може да се говори за метеорологична аномалия, но подобни студове не са нещо необичайно за столичния регион. Температурите през зимата в района на Москва могат да паднат до по-ниски нива, така че центровете за данни се изграждат с очакване за стабилна работа при −42°C. Най-често охладителните системи се провалят при студено време поради недостатъчно висока концентрация на гликоли и излишна вода в разтвора на охлаждащата течност. Има и проблеми с инсталирането на тръби или с грешни изчисления при проектирането и тестването на системата, свързани главно с желанието да се спестят пари. В резултат на това неочаквано се случва сериозна катастрофа, която можеше да бъде предотвратена.
Природни бедствия
Най-често гръмотевични бури и/или урагани нарушават инженерната инфраструктура на центъра за данни, което води до прекъсване на обслужването и/или физическа повреда на оборудването. Инцидентите, причинени от лошо време, се случват доста често. През 2012 г. ураганът Санди връхлетя западното крайбрежие на Съединените щати с обилни валежи. Разположен във висока сграда в Долен Манхатън, центърът за данни Peer 1
Горивната помпа също се повреди, така че персоналът прекара няколко дни в пренасяне на дизел към генераторите на ръка. Героизмът на екипа спаси центъра за данни от сериозна авария, но наистина ли беше необходимо? Живеем на планета с азотно-кислородна атмосфера и много вода. Гръмотевичните бури и ураганите са често срещани тук (особено в крайбрежните райони). Дизайнерите вероятно ще направят добре да вземат предвид свързаните рискове и да изградят подходяща система за непрекъсваемо захранване. Или поне изберете по-подходящо място за центъра за данни от небостъргач на остров.
Всичко друго
Uptime Institute идентифицира различни инциденти в тази категория, сред които е трудно да се избере типичен. Кражби на медни кабели, коли, които се блъскат в центрове за данни, опори на електропроводи и трафопостове, пожари, оператори на багери, повреждащи оптика, гризачи (плъхове, зайци и дори вомбати, които всъщност са торбести животни), както и тези, които обичат да тренират стрелба по жици - менюто е обширно. Прекъсванията на захранването могат дори да причинят
Източник: www.habr.com