Главната причина за несреќите во центрите за податоци е заптивката помеѓу компјутерот и столот

Темата за големи несреќи во современите центри за податоци покренува прашања на кои не беа одговорени во првата статија - решивме да ја развиеме.

Главната причина за несреќите во центрите за податоци е заптивката помеѓу компјутерот и столот

Според статистичките податоци од Институтот Uptime, најголемиот дел од инцидентите во центрите за податоци се поврзани со дефекти на системот за напојување - тие сочинуваат 39% од инцидентите. По нив следи човечкиот фактор на кој отпаѓаат уште 24% од несреќите. Третата најважна причина (15%) е дефект на системот за климатизација, а на четврто место (12%) се природните катастрофи. Вкупниот удел на други неволји е само 10%. Без да ги преиспитуваме податоците на почитувана организација, ќе истакнеме нешто вообичаено во различни несреќи и ќе се обидеме да разбереме дали можеле да се избегнат. Спојлер: тоа е можно во повеќето случаи.

Наука за контакти

Едноставно кажано, има само два проблеми со напојувањето: или нема контакт таму каде што треба, или има контакт каде што не треба да има контакт. Можете да зборувате долго време за сигурноста на модерните системи за непрекинато напојување, но тие не секогаш ве спасуваат. Земете го примерот од висок профил на центарот за податоци што го користи British Airways, кој е во сопственост на матичната компанија International Airlines Group. Постојат два такви имоти лоцирани во близина на аеродромот Хитроу - Boadicea House и Comet House. Во првиот од нив, на 27 година, дојде до случаен прекин на електричната енергија, што доведе до преоптоварување и откажување на системот UPS-от. Како резултат на тоа, дел од ИТ опремата беше физички оштетена, а на последната катастрофа беа потребни три дена за да се реши.

Авиокомпанијата мораше да откаже или презакаже повеќе од илјада летови, околу 75 илјади патници не можеа да летаат на време - 128 милиони долари беа потрошени за плаќање на компензација, не сметајќи ги трошоците потребни за враќање на функционалноста на центрите за податоци. Историјата на причините за затемнувањето е нејасна. Ако верувате во резултатите од внатрешната истрага објавени од извршниот директор на International Airlines Group Вили Волш, тоа се должи на грешка на инженерите. Сепак, системот за непрекинато напојување мораше да издржи такво исклучување - затоа беше инсталиран. Со центарот за податоци управуваа специјалисти од аутсорсинг компанијата CBRE Managed Services, па Бритиш ервејс се обиде да ја врати висината на штетата преку судот во Лондон.

Главната причина за несреќите во центрите за податоци е заптивката помеѓу компјутерот и столот

Прекините на струја се случуваат во слични сценарија: прво доаѓа до затемнување поради вина на снабдувачот со електрична енергија, понекогаш поради лошо време или внатрешни проблеми (вклучувајќи човечки грешки), а потоа системот за непрекинато напојување не може да се справи со товарот или краток -трајниот прекин на синусниот бран предизвикува дефекти на многу сервиси, чиешто обновување бара многу време и пари. Дали е можно да се избегнат вакви несреќи? Несомнено. Ако правилно го дизајнирате системот, дури и креаторите на големите центри за податоци не се имуни на грешки.

Човечки фактор

Кога непосредна причина за инцидентот се неточните постапки на персоналот на центарот за податоци, проблемите најчесто (но не секогаш) влијаат на софтверскиот дел од ИТ инфраструктурата. Такви несреќи се случуваат дури и во големите корпорации. Во февруари 2017 година, поради неправилно регрутиран тимски член на техничката оперативна група на еден од центрите за податоци, дел од серверите на веб-услугите на Amazon беше оневозможен. Настана грешка при дебагирање на процесот на наплата за клиентите за складирање облак на услугата за едноставно складирање на Amazon (S3). Вработен се обиде да избрише голем број виртуелни сервери што ги користи системот за наплата, но удри во поголем кластер.

Главната причина за несреќите во центрите за податоци е заптивката помеѓу компјутерот и столот

Како резултат на инженерска грешка, серверите со важни модули за софтвер за складирање облак на Amazon беа избришани. Првиот погоден беше потсистемот за индексирање, кој содржи информации за метаподатоците и локацијата на сите објекти S3 во американскиот регион US-EAST-1. Инцидентот влијаеше и на потсистемот што се користи за хостирање на податоци и управување со просторот достапен за складирање. По бришењето на виртуелните машини, овие два потсистеми бараа целосно рестартирање, а потоа инженерите на Амазон беа на изненадување - долго време, јавниот облак складиште не беше во можност да ги сервисира барањата на клиентите.

Влијанието беше широко распространето, бидејќи многу големи ресурси користат Amazon S3. Прекините ги погодија Trello, Coursera, IFTTT и, најнепријатно, услугите на главните партнери на Amazon од списокот S&P 500. Штетата во такви случаи е тешко да се пресмета, но таа изнесуваше стотици милиони американски долари. Како што можете да видите, една погрешна команда е доволна за да се оневозможи услугата на најголемата облак платформа. Ова не е изолиран случај; на 16 мај 2019 година, за време на одржувањето, услугата Yandex.Cloud избришани виртуелни машини на корисници во зоната ru-central1-c кои барем еднаш биле во статус SUSPENDED. Податоците на клиентите се веќе оштетени овде, од кои некои се неповратно изгубени. Се разбира, луѓето се несовршени, но современите системи за безбедност на информации долго време можат да ги следат активностите на привилегираните корисници пред да ги извршат командите што ги внесувале. Доколку таквите решенија се имплементираат во Yandex или Amazon, таквите инциденти може да се избегнат.

Главната причина за несреќите во центрите за податоци е заптивката помеѓу компјутерот и столот

Замрзнато ладење

Во јануари 2017 година, се случи голема несреќа во центарот за податоци Дмитров на компанијата Мегафон. Потоа температурата во московскиот регион падна на -35 °C, што доведе до дефект на системот за ладење на објектот. Прес-службата на операторот не зборуваше особено за причините за инцидентот - руските компании крајно не сакаат да зборуваат за несреќи во капацитетите што ги поседуваат; во однос на публицитетот, ние заостануваме многу зад Западот. На социјалните мрежи кружеше верзија за замрзнување на течноста за ладење во цевките поставени по улицата и истекување на етилен гликол. Според неа, оперативната служба не можела брзо да набави 30 тони течност за ладење поради долгите одмори и излегла со импровизирани средства, организирајќи импровизирано слободно ладење со кршење на правилата за работа на системот. Силниот студ го влоши проблемот - во јануари зимата ненадејно ја погоди Русија, иако никој не ја очекуваше. Како резултат на тоа, персоналот мораше да го исклучи напојувањето на дел од решетките за сервери, поради што некои услуги на операторот беа недостапни два дена.

Главната причина за несреќите во центрите за податоци е заптивката помеѓу компјутерот и столот

Веројатно овде може да се зборува за временска аномалија, но ваквите мразови не се нешто невообичаено за главниот град. Температурите во зима во московскиот регион може да паднат на пониски нивоа, така што центрите за податоци се градат со очекување стабилна работа на -42°C. Најчесто, системите за ладење не успеваат при ладно време поради недоволно висока концентрација на гликоли и вишок вода во растворот на течноста за ладење. Исто така, има проблеми со инсталацијата на цевки или со погрешни пресметки во дизајнот и тестирањето на системот, главно поврзани со желбата да се заштедат пари. Како резултат на тоа, од ведро небо се случува сериозна несреќа, која можеше да се спречи.

Природни непогоди

Најчесто, грмотевици и/или урагани ја нарушуваат инженерската инфраструктура на центарот за податоци, што доведува до прекини на сервисот и/или физичко оштетување на опремата. Доста често се случуваат инциденти предизвикани од лошо време. Во 2012 година, ураганот Сенди го зафати западниот брег на САД со обилни врнежи. Се наоѓа во висока зграда во Долниот Менхетен, центарот за податоци Peer 1 изгубено надворешно напојување, откако солената морска вода ги поплави подрумите. Генераторите за итни случаи на објектот се наоѓаа на 18-тиот кат, а нивното снабдување со гориво беше ограничено - правилата воведени во Њујорк по терористичките напади на 9 септември забрануваат складирање на големи количини гориво на горните катови.

Отпаднала и пумпата за гориво, па персоналот неколку дена рачно влечел дизел до генераторите. Херојството на тимот го спаси центарот за податоци од сериозна несреќа, но дали тоа навистина беше потребно? Живееме на планета со азотно-кислородна атмосфера и многу вода. Невремето со грмотевици и урагани се вообичаени овде (особено во крајбрежните области). Дизајнерите веројатно би направиле добро да ги земат предвид ризиците и да изградат соодветен систем за непрекинато напојување. Или барем изберете посоодветна локација за центарот за податоци отколку висококатница на остров.

Се останато

Институтот за време на работа идентификува различни инциденти во оваа категорија, меѓу кои е тешко да се избере типичен. Кражба на бакарни кабли, автомобили кои удираат во центри за податоци, потпори за далноводи и трансформаторски трафостаници, пожари, оператори на багери кои ја оштетуваат оптиката, глодари (стаорци, зајаци, па дури и вомбати, кои всушност се торбари), како и оние кои сакаат да вежбаат пукање во жици - менито е обемно. Прекинот на напојувањето дури може да предизвика крадење електрична енергија нелегална плантажа на марихуана. Во повеќето случаи, конкретни луѓе стануваат виновници за инцидентот, односно повторно се занимаваме со човечки фактор, кога проблемот има име и презиме. Дури и ако на прв поглед несреќата е поврзана со техничка неисправност или природни катастрофи, таа може да се избегне под услов објектот да биде правилно дизајниран и правилно да работи. Единствен исклучок се случаите на критични оштетувања на инфраструктурата на центарот за податоци или уништување на згради и објекти поради природна катастрофа. Ова се навистина околности на виша сила, а сите други проблеми се предизвикани од дихтунгот помеѓу компјутерот и столот - можеби ова е најнесигурниот дел од кој било сложен систем.

Извор: www.habr.com

Додадете коментар