Главни узрок несрећа у дата центрима је заптивка између рачунара и столице

Тема великих несрећа у савременим дата центрима поставља питања на која у првом чланку није одговорено – одлучили смо да је развијемо.

Главни узрок несрећа у дата центрима је заптивка између рачунара и столице

Према статистичким подацима Уптиме Института, већина инцидената у центрима података повезана је са кваровима система напајања—они чине 39% инцидената. Следи људски фактор, који чини још 24 одсто незгода. Трећи најважнији разлог (15%) је квар на систему климатизације, а на четвртом месту (12%) елементарне непогоде. Укупан удео осталих невоља је само 10%. Не доводећи у питање податке угледне организације, истаћи ћемо нешто уобичајено у различитим несрећама и покушати да схватимо да ли су се оне могле избећи. Спојлер: могуће је у већини случајева.

Наука о контактима

Поједностављено речено, постоје само два проблема са напајањем: или нема контакта тамо где би требало да буде, или има контакта где не би требало да буде контакта. Можете дуго причати о поузданости савремених система непрекидног напајања, али они вас не штеде увек. Узмите случај високог профила дата центра који користи Бритисх Аирваис, а који је у власништву матичне компаније Интернатионал Аирлинес Гроуп. Постоје две такве некретнине које се налазе у близини аеродрома Хитроу - Боадицеа Хоусе и Цомет Хоусе. У првом од њих, 27. маја 2017. године, дошло је до случајног нестанка струје, што је довело до преоптерећења и квара УПС система. Као резултат тога, део ИТ опреме је физички оштећен, а најновија катастрофа је трајала три дана да се реши.

Авио-компанија је морала да откаже или поново закаже више од хиљаду летова, око 75 хиљада путника није могло да лети на време - 128 милиона долара потрошено је на плаћање компензације, не рачунајући трошкове потребне за обнављање функционалности дата центара. Историја разлога за замрачење је нејасна. Ако верујете резултатима интерне истраге коју је објавио извршни директор Интернационалне ерлајнс групе Вили Волш, то је била грешка инжењера. Међутим, систем непрекидног напајања морао је да издржи такво гашење - зато је постављен. Дата центром су управљали стручњаци из аутсорсинг компаније ЦБРЕ Манагед Сервицес, па је Бритиш ервејз преко лондонског суда покушао да поврати износ штете.

Главни узрок несрећа у дата центрима је заптивка између рачунара и столице

Прекиди струје се дешавају у сличним сценаријима: прво долази до нестанка због грешке добављача електричне енергије, понекад због лошег времена или унутрашњих проблема (укључујући људске грешке), а затим систем за непрекидно напајање не може да се носи са оптерећењем или кратким -временски прекид синусног таласа узрокује кварове многих сервиса, а за чију обнову је потребно много времена и новца. Да ли је могуће избећи такве незгоде? Несумњиво. Ако правилно дизајнирате систем, чак ни креатори великих дата центара нису имуни од грешака.

Људски фактор

Када је непосредан узрок инцидента неисправно поступање особља дата центра, проблеми најчешће (али не увек) утичу на софтверски део ИТ инфраструктуре. Такве незгоде се дешавају чак иу великим корпорацијама. У фебруару 2017. године, због погрешно ангажованог члана тима техничке оперативне групе једног од дата центара, онемогућен је део сервера Амазон Веб Сервицес. Дошло је до грешке приликом отклањања грешака у процесу наплате за купце Амазон Симпле Стораге Сервице (С3) складишта у облаку. Запослени је покушао да избрише неколико виртуелних сервера које користи систем наплате, али је погодио већи кластер.

Главни узрок несрећа у дата центрима је заптивка између рачунара и столице

Као резултат инжењерске грешке, сервери који користе важне Амазон софтверске модуле за складиштење у облаку су избрисани. Први погођен је подсистем за индексирање, који садржи информације о метаподацима и локацији свих С3 објеката у америчком региону УС-ЕАСТ-1. Инцидент је такође утицао на подсистем који се користи за хостовање података и управљање простором доступним за складиштење. Након брисања виртуелних машина, ова два подсистема су захтевала потпуно рестартовање, а онда су инжењери Амазона били изненађени – дуго времена, јавно складиште у облаку није било у стању да сервисира захтеве купаца.

Утицај је био широко распрострањен, јер многи велики ресурси користе Амазон С3. Прекиди су утицали на Трелло, Цоурсера, ИФТТТ и, што је најнепријатније, на услуге великих Амазон партнера са листе С&П 500 Штету је у таквим случајевима тешко израчунати, али је она износила стотине милиона америчких долара. Као што видите, једна погрешна команда је довољна да онемогућите услугу највеће клауд платформе. Ово није изолован случај 16. маја 2019. године, током радова на одржавању, сервис Иандек.Цлоуд избрисан виртуелне машине корисника у ру-централ1-ц зони који су бар једном били у статусу СУСПЕНДОВАНО. Овде су већ оштећени подаци о клијентима, од којих су неки неповратно изгубљени. Наравно, људи су несавршени, али савремени системи безбедности информација одавно могу да прате радње привилегованих корисника пре извршавања команди које су унели. Ако се таква решења имплементирају у Иандек-у или Амазон-у, такви инциденти се могу избећи.

Главни узрок несрећа у дата центрима је заптивка између рачунара и столице

Замрзнуто хлађење

У јануару 2017. догодила се велика несрећа у дата центру Дмитров компаније Мегафон. Тада је температура у Подмосковљу пала на -35 °Ц, што је довело до квара система за хлађење објекта. Прес-служба оператера није посебно говорила о разлозима инцидента - руске компаније изузетно нерадо говоре о несрећама у објектима које поседују у смислу публицитета, ми много заостајемо за Западом. Друштвеним мрежама је кружила верзија о смрзавању расхладне течности у цевима положеним дуж улице и цурењу етилен гликола. Према њеним речима, оперативна служба због дугих празника није успела да брзо набави 30 тона расхладне течности и изашла је импровизованим средствима, организујући импровизовано слободно хлађење кршећи правила рада система. Озбиљне хладноће су погоршале проблем - у јануару је Русију изненада погодила зима, иако то нико није очекивао. Због тога је особље морало да искључи струју на делу серверских рекова, због чега су неке услуге оператера биле недоступне два дана.

Главни узрок несрећа у дата центрима је заптивка између рачунара и столице

Овде се вероватно може говорити о временској аномалији, али такви мразеви нису нешто необично за престонички регион. Температуре зими у Подмосковљу могу пасти на ниже нивое, па се центри података граде уз очекивање стабилног рада на -42°Ц. Најчешће, системи за хлађење отказују у хладном времену због недовољно високе концентрације гликола и вишка воде у раствору расхладне течности. Постоје и проблеми са уградњом цеви или погрешним прорачунима у дизајну и тестирању система, углавном повезани са жељом да се уштеди новац. Као резултат тога, из ведра неба се дешава озбиљна несрећа која је могла бити спречена.

Природне катастрофе

Најчешће, грмљавине и/или урагани ометају инжењерску инфраструктуру дата центра, што доводи до прекида услуга и/или физичког оштећења опреме. Инциденти изазвани лошим временом дешавају се прилично често. 2012. године, ураган Сенди захватио је западну обалу Сједињених Држава са обилним падавинама. Смештен у високој згради у Доњем Менхетну, Пеер 1 дата центар изгубљено екстерно напајање, након што је слана морска вода поплавила подруме. Генератори за хитне случајеве у објекту били су смештени на 18. спрату, а њихово снабдевање горивом је било ограничено - правила уведена у Њујорку након терористичких напада 9. септембра забрањују складиштење великих количина горива на горњим спратовима.

Отказала је и пумпа за гориво, па је особље неколико дана ручно довлачило дизел до агрегата. Херојство тима спасило је центар података од озбиљне несреће, али да ли је то заиста било потребно? Живимо на планети са атмосфером азота и кисеоника и пуно воде. Грмљавине и урагани су овде уобичајени (посебно у приморским подручјима). Дизајнерима би вероватно било добро да узму у обзир ризике и изграде одговарајући систем непрекидног напајања. Или барем изаберите прикладнију локацију за центар података од вишеспратнице на острву.

Све остало

Уптиме Институте идентификује низ инцидената у овој категорији, међу којима је тешко изабрати типичан. Крађа бакарних каблова, ударање аутомобила у дата центре, носаче далековода и трафо-станице, пожари, руковаоци багера који оштећују оптику, глодари (пацови, зечеви, па чак и вомбати, који су заправо торбари), као и они који воле да вежбају пуцање на жице - мени је обиман. Нестанак струје може чак изазвати крађа електрична енергија илегална плантажа марихуане. У већини случајева кривци за инцидент постају конкретни људи, односно опет имамо посла са људским фактором, када проблем има име и презиме. Чак и ако је на први поглед незгода повезана са техничким кваром или елементарном непогодом, она се може избећи под условом да је објекат правилно пројектован и правилно функционисан. Једини изузетак су случајеви критичног оштећења инфраструктуре дата центра или уништења зграда и објеката услед елементарне непогоде. Ово су заиста околности више силе, а све остале проблеме изазива заптивка између рачунара и столице - можда је то најнепоузданији део сваког сложеног система.

Извор: ввв.хабр.цом

Додај коментар