Hovedårsagen til ulykker i datacentre er pakningen mellem computeren og stolen

Emnet om større ulykker i moderne datacentre rejser spørgsmål, som ikke blev besvaret i den første artikel - vi besluttede at udvikle det.

Hovedårsagen til ulykker i datacentre er pakningen mellem computeren og stolen

Ifølge statistikker fra Uptime Institute er størstedelen af ​​hændelser i datacentre relateret til strømforsyningssystemfejl – de tegner sig for 39 % af hændelserne. De efterfølges af den menneskelige faktor, som tegner sig for yderligere 24 % af ulykkerne. Den tredje vigtigste årsag (15%) var svigt af klimaanlægget, og på fjerdepladsen (12%) var naturkatastrofer. Den samlede andel af andre problemer er kun 10%. Uden at stille spørgsmålstegn ved dataene fra en respekteret organisation vil vi fremhæve noget, der er almindeligt i forskellige ulykker og forsøge at forstå, om de kunne have været undgået. Spoiler: det er muligt i de fleste tilfælde.

Videnskaben om kontakter

For at sige det enkelt er der kun to problemer med strømforsyningen: enten er der ingen kontakt, hvor den skal være, eller også er der kontakt, hvor der ikke skal være kontakt. Du kan tale i lang tid om pålideligheden af ​​moderne uafbrydelige strømforsyningssystemer, men de sparer dig ikke altid. Tag den højprofilerede sag om datacentret, der bruges af British Airways, som er ejet af moderselskabet International Airlines Group. Der er to sådanne ejendomme beliggende nær Heathrow Lufthavn - Boadicea House og Comet House. I den første af disse, den 27. maj 2017, skete der et utilsigtet strømafbrydelse, som førte til en overbelastning og svigt af UPS-systemet. Som følge heraf blev noget af IT-udstyret fysisk beskadiget, og den seneste katastrofe tog tre dage at løse.

Flyselskabet var nødt til at aflyse eller omlægge mere end tusinde flyvninger, omkring 75 tusinde passagerer var ude af stand til at flyve til tiden - 128 millioner dollars blev brugt på at betale kompensation, ikke medregnet de omkostninger, der kræves for at genoprette funktionaliteten af ​​datacentre. Historien om årsagerne til blackoutet er uklar. Hvis du tror på resultaterne af den interne undersøgelse annonceret af International Airlines Group CEO Willie Walsh, skyldtes det en fejl fra ingeniører. Imidlertid skulle det uafbrydelige strømforsyningssystem modstå en sådan nedlukning - det er derfor, det blev installeret. Datacentret blev styret af specialister fra outsourcingfirmaet CBRE Managed Services, så British Airways forsøgte at inddrive skaden gennem en domstol i London.

Hovedårsagen til ulykker i datacentre er pakningen mellem computeren og stolen

Strømafbrydelser forekommer i lignende scenarier: Først er der strømafbrydelse på grund af elleverandørens fejl, nogle gange på grund af dårligt vejr eller interne problemer (herunder menneskelige fejl), og derefter kan det uafbrydelige strømforsyningssystem ikke klare belastningen eller en kortslutning -tidsafbrydelse af sinusbølgen forårsager fejl i mange tjenester, hvilket forårsager genoprettelse, som tager meget tid og penge. Er det muligt at undgå sådanne ulykker? Utvivlsomt. Hvis du designer systemet korrekt, er selv skaberne af store datacentre ikke immune over for fejl.

Menneskelig faktor

Når den umiddelbare årsag til en hændelse er datacenterpersonalets forkerte handlinger, påvirker problemerne oftest (men ikke altid) softwaredelen af ​​IT-infrastrukturen. Sådanne ulykker sker selv i store virksomheder. I februar 2017 blev en del af Amazon Web Services-serverne deaktiveret på grund af et forkert rekrutteret teammedlem af den tekniske driftsgruppe i et af datacentrene. Der opstod en fejl under fejlretning af faktureringsprocessen for Amazon Simple Storage Service (S3) cloud storage-kunder. En medarbejder forsøgte at slette en række virtuelle servere, der blev brugt af faktureringssystemet, men ramte en større klynge.

Hovedårsagen til ulykker i datacentre er pakningen mellem computeren og stolen

Som et resultat af en ingeniørfejl blev servere, der kører vigtige Amazon cloud storage-softwaremoduler, slettet. Det første berørte var indekseringsundersystemet, som indeholder oplysninger om metadata og placering af alle S3-objekter i den amerikanske region US-EAST-1. Hændelsen påvirkede også det undersystem, der blev brugt til at hoste data og administrere den tilgængelige plads til opbevaring. Efter sletning af de virtuelle maskiner krævede disse to undersystemer en fuldstændig genstart, og så var Amazons ingeniører ventet på en overraskelse – i lang tid var det offentlige cloudlager ikke i stand til at servicere kundernes anmodninger.

Påvirkningen var udbredt, da mange store ressourcer bruger Amazon S3. Afbrydelserne påvirkede Trello, Coursera, IFTTT og, mest ubehageligt, tjenesterne fra store Amazon-partnere fra S&P 500-listen. Skaden i sådanne tilfælde er svær at beregne, men den var i omegnen af ​​hundredvis af millioner af amerikanske dollars. Som du kan se, er en forkert kommando nok til at deaktivere tjenesten på den største cloudplatform. Dette er ikke et isoleret tilfælde; den 16. maj 2019, under vedligeholdelsesarbejde, blev Yandex.Cloud-tjenesten slettet virtuelle maskiner for brugere i ru-central1-c-zonen, der var i statussen SUSPENDED mindst én gang. Kundedata er allerede blevet beskadiget her, hvoraf nogle er gået uigenkaldeligt tabt. Selvfølgelig er folk ufuldkomne, men moderne informationssikkerhedssystemer har længe været i stand til at overvåge privilegerede brugeres handlinger, før de udfører de kommandoer, de indtastede. Hvis sådanne løsninger implementeres i Yandex eller Amazon, kan sådanne hændelser undgås.

Hovedårsagen til ulykker i datacentre er pakningen mellem computeren og stolen

Frosset afkøling

I januar 2017 skete der en større ulykke i Dmitrov-datacentret i firmaet Megafon. Derefter faldt temperaturen i Moskva-regionen til -35 °C, hvilket førte til svigt af anlæggets kølesystem. Operatørens pressetjeneste talte ikke specielt om årsagerne til hændelsen - russiske virksomheder er ekstremt tilbageholdende med at tale om ulykker på de faciliteter, de ejer; med hensyn til omtale halter vi langt bagefter Vesten. Der cirkulerede en version på sociale netværk om frysning af kølevæske i rør lagt langs gaden og lækage af ethylenglycol. Ifølge hende var driftstjenesten ikke i stand til hurtigt at skaffe 30 tons kølevæske på grund af lange ferier og kom ud ved hjælp af improviserede midler og organiserede improviseret frikøling i strid med reglerne for drift af systemet. Stærk kulde forværrede problemet - i januar ramte vinteren pludselig Rusland, selvom ingen havde forventet det. Som følge heraf måtte personalet slukke for strømmen til en del af serverrackene, hvorfor nogle operatørtjenester var utilgængelige i to dage.

Hovedårsagen til ulykker i datacentre er pakningen mellem computeren og stolen

Sandsynligvis kan vi tale om en vejranomali her, men sådan frost er ikke noget usædvanligt for hovedstadsregionen. Temperaturer om vinteren i Moskva-regionen kan falde til lavere niveauer, så datacentre er bygget med forventning om stabil drift ved -42°C. Oftest svigter kølesystemer i koldt vejr på grund af en utilstrækkelig høj koncentration af glykoler og overskydende vand i kølevæskeopløsningen. Der er også problemer med installation af rør eller med fejlberegninger i design og test af systemet, hovedsageligt forbundet med ønsket om at spare penge. Som følge heraf sker der en alvorlig ulykke ud af det blå, som kunne have været forhindret.

Naturkatastrofer

Oftest forstyrrer tordenvejr og/eller orkaner den tekniske infrastruktur i et datacenter, hvilket fører til serviceafbrydelser og/eller fysisk skade på udstyr. Hændelser forårsaget af dårligt vejr forekommer ret ofte. I 2012 fejede orkanen Sandy ind over USAs vestkyst med kraftig nedbør. Beliggende i et højhus på Lower Manhattan, Peer 1-datacentret mistet ekstern strømforsyning, efter at salt havvand oversvømmede kældrene. Anlæggets nødgeneratorer var placeret på 18. etage, og deres brændstofforsyning var begrænset – regler indført i New York efter terrorangrebene den 9. september forbyder opbevaring af store mængder brændstof på de øverste etager.

Brændstofpumpen svigtede også, så personalet brugte flere dage på at trække diesel til generatorerne i hånden. Holdets heltemod reddede datacentret fra en alvorlig ulykke, men var det virkelig nødvendigt? Vi lever på en planet med en nitrogen-ilt atmosfære og meget vand. Tordenvejr og orkaner er almindelige her (især i kystområder). Designere ville sandsynligvis gøre klogt i at overveje de involverede risici og bygge et passende uafbrydeligt strømforsyningssystem. Eller vælg i det mindste en mere passende placering til datacentret end et højhus på en ø.

Alt andet

Uptime Institute identificerer en række hændelser i denne kategori, blandt hvilke det er svært at vælge en typisk. Tyveri af kobberkabler, biler, der styrter ind i datacentre, elledningsstøtter og transformerstationer, brande, gravemaskineoperatører, der beskadiger optik, gnavere (rotter, kaniner og endda vombatter, som faktisk er pungdyr), samt dem, der kan lide at øve sig i at skyde på ledninger - menuen er omfattende. Strømsvigt kan endda forårsage stjæle elektricitet ulovlig marihuana plantage. I de fleste tilfælde bliver specifikke personer synderne bag hændelsen, dvs. vi har igen at gøre med den menneskelige faktor, når problemet har et navn og efternavn. Selvom uheldet ved første øjekast er forbundet med en teknisk fejl eller naturkatastrofer, kan det undgås, forudsat at anlægget er korrekt designet og drevet korrekt. De eneste undtagelser er tilfælde af kritisk skade på datacenterets infrastruktur eller ødelæggelse af bygninger og strukturer på grund af en naturkatastrofe. Disse er virkelig force majeure-forhold, og alle andre problemer er forårsaget af pakningen mellem computeren og stolen - måske er dette den mest upålidelige del af et komplekst system.

Kilde: www.habr.com

Tilføj en kommentar