Основната причина за инциденти в центровете за данни е уплътнението между компютъра и стола

Темата за големите аварии в съвременните центрове за данни повдига въпроси, които не получиха отговор в първата статия - решихме да я развием.

Основната причина за инциденти в центровете за данни е уплътнението между компютъра и стола

Според статистиката на Uptime Institute, по-голямата част от инцидентите в центровете за данни са свързани с повреди в захранващата система - те представляват 39% от инцидентите. След тях се нарежда човешкият фактор, който е причина за още 24% от катастрофите. Третата най-важна причина (15%) е повреда на климатичната система, а на четвърто място (12%) са природните бедствия. Общият дял на другите проблеми е само 10%. Без да поставяме под съмнение данните на уважавана организация, ще подчертаем нещо общо при различните произшествия и ще се опитаме да разберем дали те биха могли да бъдат избегнати. Спойлер: възможно е в повечето случаи.

Науката за контактите

Казано по-просто, проблемите със захранването са само два: или няма контакт там, където трябва, или има контакт там, където не трябва да има контакт. Можете да говорите дълго време за надеждността на съвременните системи за непрекъсваемо захранване, но те не винаги ви спасяват. Вземете нашумелия случай с центъра за данни, използван от British Airways, който е собственост на компанията майка International Airlines Group. Има два такива имота, разположени близо до летище Хийтроу - Boadicea House и Comet House. При първия от тях на 27 май 2017 г. се случи инцидентно прекъсване на електрозахранването, което доведе до претоварване и повреда на UPS системата. В резултат част от ИТ оборудването беше физически повредено, а отстраняването на последната авария отне три дни.

Авиокомпанията трябваше да отмени или пренасрочи повече от хиляда полета, около 75 хиляди пътници не успяха да летят навреме - 128 милиона долара бяха изразходвани за изплащане на компенсации, без да се броят разходите, необходими за възстановяване на функционалността на центровете за данни. Историята на причините за спирането на тока е неясна. Ако се вярва на резултатите от вътрешното разследване, обявено от изпълнителния директор на International Airlines Group Уили Уолш, то се дължи на грешка на инженерите. Системата за непрекъсваемо захранване обаче трябваше да издържи на такова изключване - затова беше инсталирана. Центърът за данни беше управляван от специалисти от аутсорсинг компанията CBRE Managed Services, така че British Airways се опитаха да възстановят размера на щетите чрез лондонски съд.

Основната причина за инциденти в центровете за данни е уплътнението между компютъра и стола

Прекъсванията на електрозахранването възникват при подобни сценарии: първо има прекъсване на тока по вина на доставчика на електроенергия, понякога поради лошо време или вътрешни проблеми (включително човешки грешки), а след това системата за непрекъсваемо захранване не може да се справи с товара или късо -продължителното прекъсване на синусоидата причинява откази на много услуги, което води до възстановяване на които отнема много време и пари. Възможно ли е да се избегнат подобни инциденти? Несъмнено. Ако проектирате системата правилно, дори създателите на големи центрове за данни не са имунизирани от грешки.

Човешки фактор

Когато непосредствената причина за инцидент са неправилни действия на персонала на центъра за данни, проблемите най-често (но не винаги) засягат софтуерната част на ИТ инфраструктурата. Такива инциденти се случват дори в големите корпорации. През февруари 2017 г., поради неправилно набран член на екипа от групата за техническа експлоатация на един от центровете за данни, част от сървърите на Amazon Web Services бяха деактивирани. Възникна грешка при отстраняване на грешки в процеса на таксуване за клиенти на облачно хранилище на Amazon Simple Storage Service (S3). Служител се опита да изтрие редица виртуални сървъри, използвани от системата за таксуване, но удари по-голям клъстер.

Основната причина за инциденти в центровете за данни е уплътнението между компютъра и стола

В резултат на инженерна грешка сървърите, работещи с важни софтуерни модули за облачно съхранение на Amazon, бяха изтрити. Първата засегната беше подсистемата за индексиране, която съдържа информация за метаданните и местоположението на всички S3 обекти в американския регион US-EAST-1. Инцидентът също засегна подсистемата, използвана за хостване на данни и управление на наличното пространство за съхранение. След изтриването на виртуалните машини, тези две подсистеми изискваха пълно рестартиране и тогава инженерите на Amazon ги очакваше изненада - дълго време публичното облачно хранилище не можеше да обслужва клиентски заявки.

Въздействието беше широко разпространено, тъй като много големи ресурси използват Amazon S3. Прекъсванията засегнаха Trello, Coursera, IFTTT и най-неприятно услугите на основните партньори на Amazon от списъка на S&P 500. Щетите в такива случаи е трудно да се изчислят, но бяха от порядъка на стотици милиони щатски долари. Както можете да видите, една грешна команда е достатъчна, за да деактивирате услугата на най-голямата облачна платформа. Това не е изолиран случай, на 16 май 2019 г., по време на поддръжка, услугата Yandex.Cloud изтрит виртуални машини на потребители в зоната ru-central1-c, които са били в статус ПРЕКРАЩЕН поне веднъж. Тук вече са повредени клиентски данни, част от които са безвъзвратно загубени. Разбира се, хората са несъвършени, но съвременните системи за информационна сигурност отдавна са в състояние да наблюдават действията на привилегированите потребители, преди да изпълнят въведените от тях команди. Ако такива решения са внедрени в Yandex или Amazon, подобни инциденти могат да бъдат избегнати.

Основната причина за инциденти в центровете за данни е уплътнението между компютъра и стола

Замразено охлаждане

През януари 2017 г. се случи голяма авария в центъра за данни в Дмитров на компанията Megafon. Тогава температурата в района на Москва падна до −35 °C, което доведе до повреда на охладителната система на съоръжението. Пресслужбата на оператора не говори особено за причините за инцидента - руските компании са изключително неохотни да говорят за аварии в съоръженията, които притежават, по отношение на публичността ние изоставаме много от Запада. В социалните мрежи се разпространи версия за замръзване на охладителна течност в положени по улицата тръби и изтичане на етиленгликол. Според нея експлоатационната служба не е успяла бързо да се снабди с 30 тона охлаждаща течност поради дългите празници и е излязла с импровизирани средства, организирайки импровизирано свободно охлаждане в нарушение на правилата за работа на системата. Силните студове изостриха проблема - през януари зимата внезапно удари Русия, въпреки че никой не го очакваше. В резултат на това персоналът трябваше да изключи захранването на част от сървърните стелажи, поради което някои услуги на оператора бяха недостъпни за два дни.

Основната причина за инциденти в центровете за данни е уплътнението между компютъра и стола

Вероятно тук може да се говори за метеорологична аномалия, но подобни студове не са нещо необичайно за столичния регион. Температурите през зимата в района на Москва могат да паднат до по-ниски нива, така че центровете за данни се изграждат с очакване за стабилна работа при −42°C. Най-често охладителните системи се провалят при студено време поради недостатъчно висока концентрация на гликоли и излишна вода в разтвора на охлаждащата течност. Има и проблеми с инсталирането на тръби или с грешни изчисления при проектирането и тестването на системата, свързани главно с желанието да се спестят пари. В резултат на това неочаквано се случва сериозна катастрофа, която можеше да бъде предотвратена.

Природни бедствия

Най-често гръмотевични бури и/или урагани нарушават инженерната инфраструктура на центъра за данни, което води до прекъсване на обслужването и/или физическа повреда на оборудването. Инцидентите, причинени от лошо време, се случват доста често. През 2012 г. ураганът Санди връхлетя западното крайбрежие на Съединените щати с обилни валежи. Разположен във висока сграда в Долен Манхатън, центърът за данни Peer 1 изгубено външно захранване, след като солена морска вода наводни мазетата. Аварийните генератори на съоръжението бяха разположени на 18-ия етаж и доставките на гориво бяха ограничени - правилата, въведени в Ню Йорк след терористичните атаки от 9 септември, забраняват съхраняването на големи количества гориво на горните етажи.

Горивната помпа също се повреди, така че персоналът прекара няколко дни в пренасяне на дизел към генераторите на ръка. Героизмът на екипа спаси центъра за данни от сериозна авария, но наистина ли беше необходимо? Живеем на планета с азотно-кислородна атмосфера и много вода. Гръмотевичните бури и ураганите са често срещани тук (особено в крайбрежните райони). Дизайнерите вероятно ще направят добре да вземат предвид свързаните рискове и да изградят подходяща система за непрекъсваемо захранване. Или поне изберете по-подходящо място за центъра за данни от небостъргач на остров.

Всичко друго

Uptime Institute идентифицира различни инциденти в тази категория, сред които е трудно да се избере типичен. Кражби на медни кабели, коли, които се блъскат в центрове за данни, опори на електропроводи и трафопостове, пожари, оператори на багери, повреждащи оптика, гризачи (плъхове, зайци и дори вомбати, които всъщност са торбести животни), както и тези, които обичат да тренират стрелба по жици - менюто е обширно. Прекъсванията на захранването могат дори да причинят кражба електричество незаконна плантация за марихуана. В повечето случаи конкретни хора стават виновници за инцидента, т.е. отново имаме работа с човешкия фактор, когато проблемът има име и фамилия. Дори ако на пръв поглед аварията е свързана с техническа неизправност или природни бедствия, тя може да бъде избегната, при условие че съоръжението е правилно проектирано и експлоатирано правилно. Единствените изключения са случаите на критична повреда на инфраструктурата на центъра за данни или разрушаване на сгради и конструкции поради природно бедствие. Това са наистина форсмажорни обстоятелства, а всички други проблеми са причинени от уплътнението между компютъра и стола - може би това е най-ненадеждната част от всяка сложна система.

Източник: www.habr.com

Добавяне на нов коментар