Temaet store ulykker i moderne datasentre reiser spørsmål som ikke ble besvart i den første artikkelen - vi bestemte oss for å utvikle det.
I følge statistikk fra Uptime Institute er flertallet av hendelsene i datasentre relatert til strømforsyningssystemfeil – de står for 39 % av hendelsene. De blir fulgt av den menneskelige faktoren, som står for ytterligere 24 % av ulykkene. Den tredje viktigste årsaken (15 %) var svikt i klimaanlegget, og på fjerde plass (12 %) var naturkatastrofer. Den totale andelen av andre problemer er bare 10 %. Uten å stille spørsmål ved dataene til en respektert organisasjon, vil vi fremheve noe som er vanlig i forskjellige ulykker og prøve å forstå om de kunne vært unngått. Spoiler: det er mulig i de fleste tilfeller.
Vitenskapen om kontakter
For å si det enkelt er det bare to problemer med strømforsyningen: enten er det ingen kontakt der den skal være, eller så er det kontakt der det ikke skal være kontakt. Du kan snakke lenge om påliteligheten til moderne avbruddsfri strømforsyningssystemer, men de sparer deg ikke alltid. Ta den høyprofilerte saken om datasenteret som brukes av British Airways, som eies av morselskapet International Airlines Group. Det er to slike eiendommer som ligger i nærheten av Heathrow flyplass - Boadicea House og Comet House. I den første av disse, 27. mai 2017, skjedde det et utilsiktet strømbrudd, som førte til overbelastning og feil på UPS-systemet. Som et resultat ble noe av IT-utstyret fysisk skadet, og den siste katastrofen tok tre dager å løse.
Flyselskapet måtte kansellere eller omplanlegge mer enn tusen flyreiser, rundt 75 tusen passasjerer klarte ikke å fly i tide - 128 millioner dollar ble brukt på å betale kompensasjon, ikke medregnet kostnadene som kreves for å gjenopprette funksjonaliteten til datasentre. Historien om årsakene til strømbruddet er uklar. Hvis du tror resultatene av den interne etterforskningen annonsert av International Airlines Group-sjef Willie Walsh, skyldtes det en feil fra ingeniører. Imidlertid måtte det avbruddsfrie strømforsyningssystemet tåle en slik nedleggelse - det er derfor det ble installert. Datasenteret ble administrert av spesialister fra outsourcingselskapet CBRE Managed Services, så British Airways prøvde å gjenopprette skadebeløpet gjennom en domstol i London.
Strømbrudd oppstår i lignende scenarier: først er det strømbrudd på grunn av feil fra strømleverandøren, noen ganger på grunn av dårlig vær eller interne problemer (inkludert menneskelige feil), og deretter kan det avbruddsfrie strømforsyningssystemet ikke takle belastningen eller en kortslutning -Tidsavbrudd av sinusbølgen forårsaker feil på mange tjenester, noe som forårsaker gjenoppretting som tar mye tid og penger. Er det mulig å unngå slike ulykker? Utvilsomt. Hvis du designer systemet riktig, er ikke selv skaperne av store datasentre immune mot feil.
Menneskelig faktor
Når den umiddelbare årsaken til en hendelse er feil handlinger fra datasenterpersonell, påvirker problemene oftest (men ikke alltid) programvaredelen av IT-infrastrukturen. Slike ulykker skjer selv i store selskaper. I februar 2017, på grunn av et feilrekruttert teammedlem i den tekniske driftsgruppen til et av datasentrene, ble en del av Amazon Web Services-servere deaktivert. Det oppstod en feil under feilsøking av faktureringsprosessen for Amazon Simple Storage Service (S3) skylagringskunder. En ansatt prøvde å slette en rekke virtuelle servere brukt av faktureringssystemet, men traff en større klynge.
Som et resultat av en ingeniørfeil ble servere som kjører viktige Amazons skylagringsprogramvare, slettet. Det første som ble berørt var indekseringsundersystemet, som inneholder informasjon om metadata og plassering av alle S3-objekter i US-EAST-1 amerikanske regionen. Hendelsen påvirket også delsystemet som ble brukt til å være vert for data og administrere plassen som er tilgjengelig for lagring. Etter å ha slettet de virtuelle maskinene, krevde disse to undersystemene en fullstendig omstart, og da fikk Amazons ingeniører en overraskelse – lenge klarte ikke den offentlige skylagringen å betjene kundeforespørsler.
Virkningen var utbredt, ettersom mange store ressurser bruker Amazon S3. Strømbruddene påvirket Trello, Coursera, IFTTT og, mest ubehagelig, tjenestene til store Amazon-partnere fra S&P 500-listen. Skaden i slike tilfeller er vanskelig å beregne, men den var i området hundrevis av millioner av amerikanske dollar. Som du kan se, er en feil kommando nok til å deaktivere tjenesten til den største skyplattformen. Dette er ikke et isolert tilfelle; den 16. mai 2019, under vedlikeholdsarbeid, ble Yandex.Cloud-tjenesten
Frossen kjøling
I januar 2017 skjedde en stor ulykke i Dmitrov-datasenteret til Megafon-selskapet. Deretter falt temperaturen i Moskva-regionen til -35 °C, noe som førte til svikt i anleggets kjølesystem. Operatørens pressetjeneste snakket ikke spesielt om årsakene til hendelsen - russiske selskaper er ekstremt motvillige til å snakke om ulykker ved anleggene de eier; når det gjelder publisitet, ligger vi langt bak Vesten. Det var en versjon som sirkulerte på sosiale nettverk om frysing av kjølevæske i rør lagt langs gaten og lekkasje av etylenglykol. Ifølge henne klarte ikke operasjonstjenesten raskt å skaffe 30 tonn kjølevæske på grunn av lange ferier og kom seg ut med improviserte midler, organiserte improvisert frikjøling i strid med reglene for drift av systemet. Sterk kulde forverret problemet - i januar traff vinteren plutselig Russland, selv om ingen ventet det. Som et resultat måtte personalet slå av strømmen til deler av serverrackene, og derfor var enkelte operatørtjenester utilgjengelige i to dager.
Sannsynligvis kan vi snakke om et væravvik her, men slik frost er ikke noe uvanlig for hovedstadsregionen. Temperaturer om vinteren i Moskva-regionen kan falle til lavere nivåer, så datasentre er bygget med forventning om stabil drift ved -42°C. Oftest svikter kjølesystemer i kaldt vær på grunn av en utilstrekkelig høy konsentrasjon av glykoler og overflødig vann i kjølevæskeløsningen. Det er også problemer med installasjon av rør eller med feilberegninger i design og testing av systemet, hovedsakelig knyttet til ønsket om å spare penger. Som et resultat skjer en alvorlig ulykke ut av det blå, som kunne vært forhindret.
Naturkatastrofer
Oftest forstyrrer tordenvær og/eller orkaner den tekniske infrastrukturen til et datasenter, noe som fører til tjenesteavbrudd og/eller fysisk skade på utstyr. Hendelser forårsaket av dårlig vær forekommer ganske ofte. I 2012 feide orkanen Sandy over vestkysten av USA med mye nedbør. Peer 1-datasenteret ligger i et høyhus på Lower Manhattan
Drivstoffpumpen sviktet også, så personalet brukte flere dager på å frakte diesel til generatorene for hånd. Teamets heltemot reddet datasenteret fra en alvorlig ulykke, men var det virkelig nødvendig? Vi lever på en planet med nitrogen-oksygen atmosfære og mye vann. Tordenvær og orkaner er vanlig her (spesielt i kystområder). Designere vil sannsynligvis gjøre klokt i å vurdere risikoen og bygge et passende avbruddsfri strømforsyningssystem. Eller velg i det minste et mer passende sted for datasenteret enn et høyhus på en øy.
Alt annet
Uptime Institute identifiserer en rekke hendelser i denne kategorien, blant dem er det vanskelig å velge en typisk. Tyveri av kobberkabler, biler som krasjer inn i datasentre, kraftledningsstøtter og transformatorstasjoner, branner, gravemaskinførere som skader optikk, gnagere (rotter, kaniner og til og med wombats, som faktisk er pungdyr), samt de som liker å øve på å skyte på ledninger - menyen er omfattende. Strømbrudd kan til og med forårsake
Kilde: www.habr.com