Hovedårsaken til ulykker i datasentre er pakningen mellom datamaskinen og stolen

Temaet store ulykker i moderne datasentre reiser spørsmål som ikke ble besvart i den første artikkelen - vi bestemte oss for å utvikle det.

Hovedårsaken til ulykker i datasentre er pakningen mellom datamaskinen og stolen

I følge statistikk fra Uptime Institute er flertallet av hendelsene i datasentre relatert til strømforsyningssystemfeil – de står for 39 % av hendelsene. De blir fulgt av den menneskelige faktoren, som står for ytterligere 24 % av ulykkene. Den tredje viktigste årsaken (15 %) var svikt i klimaanlegget, og på fjerde plass (12 %) var naturkatastrofer. Den totale andelen av andre problemer er bare 10 %. Uten å stille spørsmål ved dataene til en respektert organisasjon, vil vi fremheve noe som er vanlig i forskjellige ulykker og prøve å forstå om de kunne vært unngått. Spoiler: det er mulig i de fleste tilfeller.

Vitenskapen om kontakter

For å si det enkelt er det bare to problemer med strømforsyningen: enten er det ingen kontakt der den skal være, eller så er det kontakt der det ikke skal være kontakt. Du kan snakke lenge om påliteligheten til moderne avbruddsfri strømforsyningssystemer, men de sparer deg ikke alltid. Ta den høyprofilerte saken om datasenteret som brukes av British Airways, som eies av morselskapet International Airlines Group. Det er to slike eiendommer som ligger i nærheten av Heathrow flyplass - Boadicea House og Comet House. I den første av disse, 27. mai 2017, skjedde det et utilsiktet strømbrudd, som førte til overbelastning og feil på UPS-systemet. Som et resultat ble noe av IT-utstyret fysisk skadet, og den siste katastrofen tok tre dager å løse.

Flyselskapet måtte kansellere eller omplanlegge mer enn tusen flyreiser, rundt 75 tusen passasjerer klarte ikke å fly i tide - 128 millioner dollar ble brukt på å betale kompensasjon, ikke medregnet kostnadene som kreves for å gjenopprette funksjonaliteten til datasentre. Historien om årsakene til strømbruddet er uklar. Hvis du tror resultatene av den interne etterforskningen annonsert av International Airlines Group-sjef Willie Walsh, skyldtes det en feil fra ingeniører. Imidlertid måtte det avbruddsfrie strømforsyningssystemet tåle en slik nedleggelse - det er derfor det ble installert. Datasenteret ble administrert av spesialister fra outsourcingselskapet CBRE Managed Services, så British Airways prøvde å gjenopprette skadebeløpet gjennom en domstol i London.

Hovedårsaken til ulykker i datasentre er pakningen mellom datamaskinen og stolen

Strømbrudd oppstår i lignende scenarier: først er det strømbrudd på grunn av feil fra strømleverandøren, noen ganger på grunn av dårlig vær eller interne problemer (inkludert menneskelige feil), og deretter kan det avbruddsfrie strømforsyningssystemet ikke takle belastningen eller en kortslutning -Tidsavbrudd av sinusbølgen forårsaker feil på mange tjenester, noe som forårsaker gjenoppretting som tar mye tid og penger. Er det mulig å unngå slike ulykker? Utvilsomt. Hvis du designer systemet riktig, er ikke selv skaperne av store datasentre immune mot feil.

Menneskelig faktor

Når den umiddelbare årsaken til en hendelse er feil handlinger fra datasenterpersonell, påvirker problemene oftest (men ikke alltid) programvaredelen av IT-infrastrukturen. Slike ulykker skjer selv i store selskaper. I februar 2017, på grunn av et feilrekruttert teammedlem i den tekniske driftsgruppen til et av datasentrene, ble en del av Amazon Web Services-servere deaktivert. Det oppstod en feil under feilsøking av faktureringsprosessen for Amazon Simple Storage Service (S3) skylagringskunder. En ansatt prøvde å slette en rekke virtuelle servere brukt av faktureringssystemet, men traff en større klynge.

Hovedårsaken til ulykker i datasentre er pakningen mellom datamaskinen og stolen

Som et resultat av en ingeniørfeil ble servere som kjører viktige Amazons skylagringsprogramvare, slettet. Det første som ble berørt var indekseringsundersystemet, som inneholder informasjon om metadata og plassering av alle S3-objekter i US-EAST-1 amerikanske regionen. Hendelsen påvirket også delsystemet som ble brukt til å være vert for data og administrere plassen som er tilgjengelig for lagring. Etter å ha slettet de virtuelle maskinene, krevde disse to undersystemene en fullstendig omstart, og da fikk Amazons ingeniører en overraskelse – lenge klarte ikke den offentlige skylagringen å betjene kundeforespørsler.

Virkningen var utbredt, ettersom mange store ressurser bruker Amazon S3. Strømbruddene påvirket Trello, Coursera, IFTTT og, mest ubehagelig, tjenestene til store Amazon-partnere fra S&P 500-listen. Skaden i slike tilfeller er vanskelig å beregne, men den var i området hundrevis av millioner av amerikanske dollar. Som du kan se, er en feil kommando nok til å deaktivere tjenesten til den største skyplattformen. Dette er ikke et isolert tilfelle; den 16. mai 2019, under vedlikeholdsarbeid, ble Yandex.Cloud-tjenesten slettet virtuelle maskiner til brukere i ru-central1-c-sonen som var i SUSPENDERT-statusen minst én gang. Klientdata har allerede blitt skadet her, hvorav noen gikk uopprettelig tapt. Selvfølgelig er folk ufullkomne, men moderne informasjonssikkerhetssystemer har lenge vært i stand til å overvåke handlingene til privilegerte brukere før de utfører kommandoene de skrev inn. Hvis slike løsninger implementeres i Yandex eller Amazon, kan slike hendelser unngås.

Hovedårsaken til ulykker i datasentre er pakningen mellom datamaskinen og stolen

Frossen kjøling

I januar 2017 skjedde en stor ulykke i Dmitrov-datasenteret til Megafon-selskapet. Deretter falt temperaturen i Moskva-regionen til -35 °C, noe som førte til svikt i anleggets kjølesystem. Operatørens pressetjeneste snakket ikke spesielt om årsakene til hendelsen - russiske selskaper er ekstremt motvillige til å snakke om ulykker ved anleggene de eier; når det gjelder publisitet, ligger vi langt bak Vesten. Det var en versjon som sirkulerte på sosiale nettverk om frysing av kjølevæske i rør lagt langs gaten og lekkasje av etylenglykol. Ifølge henne klarte ikke operasjonstjenesten raskt å skaffe 30 tonn kjølevæske på grunn av lange ferier og kom seg ut med improviserte midler, organiserte improvisert frikjøling i strid med reglene for drift av systemet. Sterk kulde forverret problemet - i januar traff vinteren plutselig Russland, selv om ingen ventet det. Som et resultat måtte personalet slå av strømmen til deler av serverrackene, og derfor var enkelte operatørtjenester utilgjengelige i to dager.

Hovedårsaken til ulykker i datasentre er pakningen mellom datamaskinen og stolen

Sannsynligvis kan vi snakke om et væravvik her, men slik frost er ikke noe uvanlig for hovedstadsregionen. Temperaturer om vinteren i Moskva-regionen kan falle til lavere nivåer, så datasentre er bygget med forventning om stabil drift ved -42°C. Oftest svikter kjølesystemer i kaldt vær på grunn av en utilstrekkelig høy konsentrasjon av glykoler og overflødig vann i kjølevæskeløsningen. Det er også problemer med installasjon av rør eller med feilberegninger i design og testing av systemet, hovedsakelig knyttet til ønsket om å spare penger. Som et resultat skjer en alvorlig ulykke ut av det blå, som kunne vært forhindret.

Naturkatastrofer

Oftest forstyrrer tordenvær og/eller orkaner den tekniske infrastrukturen til et datasenter, noe som fører til tjenesteavbrudd og/eller fysisk skade på utstyr. Hendelser forårsaket av dårlig vær forekommer ganske ofte. I 2012 feide orkanen Sandy over vestkysten av USA med mye nedbør. Peer 1-datasenteret ligger i et høyhus på Lower Manhattan mistet ekstern strømforsyning, etter at salt sjøvann oversvømmet kjellerne. Anleggets nødgeneratorer var plassert i 18. etasje, og deres drivstofftilførsel var begrenset – regler innført i New York etter terrorangrepene 9/11 forbyr lagring av store mengder drivstoff i de øvre etasjene.

Drivstoffpumpen sviktet også, så personalet brukte flere dager på å frakte diesel til generatorene for hånd. Teamets heltemot reddet datasenteret fra en alvorlig ulykke, men var det virkelig nødvendig? Vi lever på en planet med nitrogen-oksygen atmosfære og mye vann. Tordenvær og orkaner er vanlig her (spesielt i kystområder). Designere vil sannsynligvis gjøre klokt i å vurdere risikoen og bygge et passende avbruddsfri strømforsyningssystem. Eller velg i det minste et mer passende sted for datasenteret enn et høyhus på en øy.

Alt annet

Uptime Institute identifiserer en rekke hendelser i denne kategorien, blant dem er det vanskelig å velge en typisk. Tyveri av kobberkabler, biler som krasjer inn i datasentre, kraftledningsstøtter og transformatorstasjoner, branner, gravemaskinførere som skader optikk, gnagere (rotter, kaniner og til og med wombats, som faktisk er pungdyr), samt de som liker å øve på å skyte på ledninger - menyen er omfattende. Strømbrudd kan til og med forårsake stjele elektrisitet ulovlig marihuana plantasje. I de fleste tilfeller blir spesifikke personer de skyldige i hendelsen, det vil si at vi igjen har å gjøre med den menneskelige faktoren, når problemet har et navn og etternavn. Selv om ulykken ved første øyekast er forbundet med en teknisk feil eller naturkatastrofer, kan den unngås forutsatt at anlegget er riktig utformet og drevet på riktig måte. De eneste unntakene er tilfeller av kritisk skade på datasenterets infrastruktur eller ødeleggelse av bygninger og strukturer på grunn av en naturkatastrofe. Dette er virkelig force majeure-omstendigheter, og alle andre problemer er forårsaket av pakningen mellom datamaskinen og stolen - kanskje dette er den mest upålitelige delen av et komplekst system.

Kilde: www.habr.com

Legg til en kommentar