Galvenais negadījumu cēlonis datu centros ir blīve starp datoru un krēslu

Tēma par lielām avārijām mūsdienu datu centros rada jautājumus, uz kuriem netika atbildēts pirmajā rakstā - mēs nolēmām to izstrādāt.

Galvenais negadījumu cēlonis datu centros ir blīve starp datoru un krēslu

Saskaņā ar Uptime Institute statistiku, lielākā daļa incidentu datu centros ir saistÄ«ti ar elektroapgādes sistēmas kļūmēm ā€” tie veido 39% incidentu. Tiem seko cilvēciskais faktors, kas veido vēl 24% negadÄ«jumu. TreÅ”ais svarÄ«gākais iemesls (15%) bija gaisa kondicionÄ“Å”anas sistēmas kļūme, bet ceturtajā vietā (12%) - dabas katastrofas. Kopējais citu nepatikÅ”anu Ä«patsvars ir tikai 10%. NeapÅ”aubot cienÄ«jamas organizācijas datus, izcelsim kaut ko kopÄ«gu dažādos negadÄ«jumos un mēģināsim saprast, vai no tiem varēja izvairÄ«ties. Spoileris: vairumā gadÄ«jumu tas ir iespējams.

Kontaktu zinātne

VienkārÅ”i sakot, ar baroÅ”anu ir tikai divas problēmas: vai nu nav kontakta tur, kur tam vajadzētu bÅ«t, vai arÄ« ir kontakts, kur kontaktam nevajadzētu bÅ«t. JÅ«s varat ilgi runāt par mÅ«sdienu nepārtrauktās baroÅ”anas sistēmu uzticamÄ«bu, taču tās ne vienmēr glābj. Ņemiet vērā plaÅ”i pazÄ«stamo datu centru, ko izmanto British Airways, kas pieder mātesuzņēmumam International Airlines Group. Netālu no HÄ«trovas lidostas atrodas divi Ŕādi Ä«paÅ”umi - Boadicea House un Comet House. Pirmajā no tiem 27. gada 2017. maijā notika nejauÅ”s strāvas padeves pārtraukums, kas izraisÄ«ja UPS sistēmas pārslodzi un atteici. Tā rezultātā daļa IT iekārtu tika fiziski bojāta, un pēdējās katastrofas novērÅ”ana prasÄ«ja trÄ«s dienas.

Aviokompānijai nācies atcelt vai pārcelt vairāk nekā tÅ«kstoti lidojumu, aptuveni 75 tÅ«kstoÅ”i pasažieru nespēja izlidot laikā ā€“ kompensāciju izmaksai iztērēti 128 miljoni dolāru, neskaitot izmaksas, kas nepiecieÅ”amas datu centru funkcionalitātes atjaunoÅ”anai. AptumÅ”oÅ”anās iemeslu vēsture nav skaidra. Ja ticēt iekŔējās izmeklÄ“Å”anas rezultātiem, ko paziņoja International Airlines Group izpilddirektors Villijs VolÅ”s, tas noticis inženieru kļūdas dēļ. Tomēr nepārtrauktās baroÅ”anas sistēmai bija jāiztur Ŕāda izslēgÅ”ana - tāpēc tā tika uzstādÄ«ta. Datu centru pārvaldÄ«ja ārpakalpojumu kompānijas CBRE Managed Services speciālisti, tāpēc British Airways ar Londonas tiesas starpniecÄ«bu centās atgÅ«t zaudējumu summu.

Galvenais negadījumu cēlonis datu centros ir blīve starp datoru un krēslu

Strāvas padeves pārtraukumi notiek lÄ«dzÄ«gos scenārijos: vispirms notiek strāvas padeves pārtraukums elektroenerÄ£ijas piegādātāja vainas dēļ, dažreiz sliktu laikapstākļu vai iekŔējo problēmu dēļ (arÄ« cilvēku kļūdas), un pēc tam nepārtrauktās baroÅ”anas sistēma nespēj tikt galā ar slodzi vai Ä«ssavienojumu. - sinusoidālā viļņa Ä«slaicÄ«gs pārtraukums izraisa daudzu pakalpojumu atteices, kuru atjaunoÅ”ana prasa daudz laika un naudas. Vai ir iespējams izvairÄ«ties no Ŕādiem negadÄ«jumiem? NeapÅ”aubāmi. Ja sistēmu projektējat pareizi, pat lielu datu centru veidotāji nav pasargāti no kļūdām.

Cilvēka faktors

Ja tieÅ”ais incidenta cēlonis ir datu centra personāla nepareiza rÄ«cÄ«ba, problēmas visbiežāk (bet ne vienmēr) skar IT infrastruktÅ«ras programmatÅ«ras daļu. Šādi negadÄ«jumi notiek pat lielās korporācijās. 2017. gada februārÄ« viena datu centra tehniskās darbÄ«bas grupas nepareizi savervēta komandas locekļa dēļ tika atspējota daļa Amazon Web Services serveru. Atkļūdojot Amazon Simple Storage Service (S3) mākoņkrātuves klientu norēķinu procesu, radās kļūda. Darbinieks mēģināja dzēst vairākus virtuālos serverus, ko izmantoja norēķinu sistēma, taču trāpÄ«ja lielākam klasterim.

Galvenais negadījumu cēlonis datu centros ir blīve starp datoru un krēslu

Inženiera kļūdas rezultātā tika izdzēsti serveri, kuros darbojas svarÄ«gi Amazon mākoņu krātuves programmatÅ«ras moduļi. Vispirms tika ietekmēta indeksÄ“Å”anas apakÅ”sistēma, kas satur informāciju par metadatiem un visu S3 objektu atraÅ”anās vietu ASV-EAST-1 Amerikas reÄ£ionā. Incidents skāra arÄ« apakÅ”sistēmu, kas tika izmantota datu mitināŔanai un glabāŔanai pieejamās vietas pārvaldÄ«bai. Pēc virtuālo maŔīnu dzÄ“Å”anas Ŕīm divām apakÅ”sistēmām bija nepiecieÅ”ama pilnÄ«ga restartÄ“Å”ana, un tad Amazon inženierus gaidÄ«ja pārsteigums ā€“ ilgu laiku publiskā mākoņkrātuve nespēja apkalpot klientu pieprasÄ«jumus.

Ietekme bija plaÅ”i izplatÄ«ta, jo daudzi lieli resursi izmanto Amazon S3. Pārtraukumi skāra Trello, Coursera, IFTTT un, visnepatÄ«kamāk, lielāko Amazon partneru pakalpojumus no S&P 500 saraksta. Zaudējumus Ŕādos gadÄ«jumos ir grÅ«ti aprēķināt, taču tie bija simtiem miljonu ASV dolāru apmērā. Kā redzat, pietiek ar vienu nepareizu komandu, lai atspējotu lielākās mākoņu platformas pakalpojumu. Å is nav atseviŔķs gadÄ«jums, 16. gada 2019. maijā apkopes darbu laikā Yandex.Cloud serviss dzēsts ru-central1-c zonas lietotāju virtuālās maŔīnas, kurām vismaz vienu reizi bija statuss APTURĒTA. Å eit jau ir bojāti klientu dati, no kuriem daži tika neatgriezeniski zaudēti. Protams, cilvēki ir nepilnÄ«gi, taču mÅ«sdienu informācijas droŔības sistēmas jau sen spēj uzraudzÄ«t priviliģēto lietotāju darbÄ«bas pirms viņu ievadÄ«to komandu izpildes. Ja Ŕādi risinājumi tiek ieviesti Yandex vai Amazon, no Ŕādiem incidentiem var izvairÄ«ties.

Galvenais negadījumu cēlonis datu centros ir blīve starp datoru un krēslu

Saldēta dzesÄ“Å”ana

2017. gada janvārÄ« uzņēmuma Megafon datu centrā Dmitrovas notika liela avārija. Pēc tam Maskavas reÄ£ionā temperatÅ«ra pazeminājās lÄ«dz ā€“35 Ā°C, kas izraisÄ«ja objekta dzesÄ“Å”anas sistēmas atteici. Operatora preses dienests Ä«paÅ”i nerunāja par incidenta iemesliem - Krievijas uzņēmumi ļoti nelabprāt runā par negadÄ«jumiem viņiem piederoÅ”ajos objektos, publicitātes ziņā mēs stipri atpaliekam no Rietumiem. Sociālajos tÄ«klos izskanēja versija par dzesÄ“Å”anas Ŕķidruma aizsalÅ”anu pa ielu izvilktajās caurulēs un etilēnglikola noplÅ«di. Pēc viņas teiktā, ekspluatācijas dienests garo brÄ«vdienu dēļ nav spējis ātri iegÅ«t 30 tonnas dzesÄ“Å”anas Ŕķidruma un izkļuvis ar improvizētiem lÄ«dzekļiem, organizējot improvizētu brÄ«vdzesÄ“Å”anu, pārkāpjot sistēmas darbÄ«bas noteikumus. SpēcÄ«gs aukstums problēmu saasināja ā€“ janvārÄ« Krieviju pēkŔņi piemeklēja ziema, lai gan neviens to nebija gaidÄ«jis. Rezultātā darbiniekiem nācās atslēgt strāvu daļai serveru plauktu, tāpēc daži operatoru pakalpojumi nebija pieejami divas dienas.

Galvenais negadījumu cēlonis datu centros ir blīve starp datoru un krēslu

Iespējams, te var runāt par laikapstākļu anomāliju, taču galvaspilsētas reÄ£ionam Ŕādas salnas nav nekas neparasts. TemperatÅ«ra ziemā Maskavas reÄ£ionā var pazemināties lÄ«dz zemākam lÄ«menim, tāpēc datu centri tiek bÅ«vēti, cerot uz stabilu darbÄ«bu pie ā€“42Ā°C. Visbiežāk dzesÄ“Å”anas sistēmas sabojājas aukstā laikā, jo dzesÄ“Å”anas Ŕķidruma Ŕķīdumā nav pietiekami augsta glikolu koncentrācija un liekā Å«dens. Problēmas ir arÄ« ar cauruļu uzstādÄ«Å”anu vai nepareiziem aprēķiniem sistēmas projektÄ“Å”anā un testÄ“Å”anā, kas galvenokārt saistÄ«tas ar vēlmi ietaupÄ«t. Rezultātā negaidÄ«ti notiek smaga avārija, kuru varēja novērst.

Dabas katastrofas

Visbiežāk pērkona negaiss un/vai viesuļvētras izjauc datu centra inženiertehnisko infrastruktÅ«ru, izraisot pakalpojuma pārtraukumus un/vai fiziskus aprÄ«kojuma bojājumus. NegadÄ«jumi, ko izraisa slikti laikapstākļi, notiek diezgan bieži. 2012. gadā viesuļvētra Sendija ar spēcÄ«gām lietusgāzēm plosÄ«jās pāri ASV rietumu krastam. Atrodas augstceltnē Lejas Manhetenā, datu centrā Peer 1 zaudēja ārējo baroÅ”anas avotu, pēc tam, kad sāļais jÅ«ras Å«dens appludināja pagrabus. Objekta avārijas Ä£eneratori atradās 18. stāvā, un to degvielas padeve bija ierobežota ā€“ Ņujorkā pēc 9. septembra teroraktiem ieviestie noteikumi aizliedz augŔējos stāvos uzglabāt lielu daudzumu degvielas.

ArÄ« degvielas sÅ«knis sabojājās, tāpēc darbinieki vairākas dienas pavadÄ«ja, ar roku velkot dÄ«zeļdegvielu pie Ä£eneratoriem. Komandas varonÄ«ba izglāba datu centru no nopietnas avārijas, bet vai tas tieŔām bija vajadzÄ«gs? Mēs dzÄ«vojam uz planētas ar slāpekļa-skābekļa atmosfēru un daudz Å«dens. Pērkona negaiss un viesuļvētras Å”eit ir izplatÄ«tas (Ä«paÅ”i piekrastes zonās). Dizaineriem, iespējams, bÅ«tu labi apsvērt saistÄ«tos riskus un izveidot atbilstoÅ”u nepārtrauktās baroÅ”anas sistēmu. Vai vismaz izvēlieties datu centram piemērotāku vietu nekā augstceltni uz salas.

Viss pārējais

Uptime Institute Å”ajā kategorijā identificē dažādus incidentus, starp kuriem ir grÅ«ti izvēlēties tipisku. Vara kabeļu zādzÄ«bas, automaŔīnu ietriekÅ”anās datu centros, elektrolÄ«niju balstos un transformatoru apakÅ”stacijās, ugunsgrēki, ekskavatoru operatori, kas sabojā optiku, grauzēji (žurkas, truÅ”i un pat vombati, kas patiesÄ«bā ir marsupials), kā arÄ« tie, kam patÄ«k vingrināties Å”auÅ”anā vadi - izvēlne ir plaÅ”a. Strāvas padeves traucējumi var pat izraisÄ«t zagÅ”ana elektrÄ«bas nelegālā marihuānas plantācija. Vairumā gadÄ«jumu par incidenta vainÄ«gajiem kļūst konkrēti cilvēki, t.i., atkal ir darÄ«Å”ana ar cilvēcisko faktoru, kad problēmai ir vārds un uzvārds. Pat ja no pirmā acu uzmetiena negadÄ«jums ir saistÄ«ts ar tehnisku kļūmi vai dabas katastrofām, no tā var izvairÄ«ties, ja objekts ir pareizi projektēts un pareizi ekspluatēts. VienÄ«gie izņēmumi ir datu centra infrastruktÅ«ras kritiski bojājumi vai ēku un bÅ«vju iznÄ«cināŔana dabas stihijas dēļ. Tie ir patiesi nepārvaramas varas apstākļi, un visas pārējās problēmas rada blÄ«ve starp datoru un krēslu ā€“ iespējams, Ŕī ir neuzticamākā jebkuras sarežģītas sistēmas daļa.

Avots: www.habr.com

Pievieno komentāru