Den främsta orsaken till olyckor i datacenter är packningen mellan datorn och stolen

Ämnet större olyckor i moderna datacenter väcker frågor som inte besvarades i den första artikeln - vi bestämde oss för att utveckla det.

Den främsta orsaken till olyckor i datacenter är packningen mellan datorn och stolen

Enligt statistik från Uptime Institute är majoriteten av incidenterna i datacenter relaterade till strömförsörjningsfel – de står för 39 % av incidenterna. De följs av den mänskliga faktorn, som står för ytterligare 24 % av olyckorna. Den tredje viktigaste orsaken (15 %) var fel på luftkonditioneringssystemet, och på fjärde plats (12 %) var naturkatastrofer. Den totala andelen andra problem är bara 10%. Utan att ifrågasätta data från en respekterad organisation kommer vi att lyfta fram något som är vanligt vid olika olyckor och försöka förstå om de hade kunnat undvikas. Spoiler: det är möjligt i de flesta fall.

Vetenskapen om kontakter

Enkelt uttryckt finns det bara två problem med strömförsörjningen: antingen finns det ingen kontakt där den ska vara, eller så finns det kontakt där det inte ska vara kontakt. Du kan prata länge om tillförlitligheten hos moderna avbrottsfria strömförsörjningssystem, men de räddar dig inte alltid. Ta det uppmärksammade fallet med datacentret som används av British Airways, som ägs av moderbolaget International Airlines Group. Det finns två sådana fastigheter som ligger nära Heathrow Airport - Boadicea House och Comet House. I den första av dessa, den 27 maj 2017, inträffade ett oavsiktligt strömavbrott, vilket ledde till överbelastning och fel på UPS-systemet. Som ett resultat skadades en del av IT-utrustningen fysiskt och den senaste katastrofen tog tre dagar att lösa.

Flygbolaget var tvungen att ställa in eller boka om mer än tusen flygningar, cirka 75 tusen passagerare kunde inte flyga i tid - 128 miljoner dollar spenderades på att betala kompensation, utan att räkna kostnaderna som krävdes för att återställa funktionaliteten i datacenter. Historien om orsakerna till strömavbrottet är oklar. Om du tror på resultaten av den interna utredning som tillkännagavs av International Airlines Groups vd Willie Walsh, berodde det på ett fel från ingenjörer. Det avbrottsfria strömförsörjningssystemet måste dock motstå en sådan avstängning - det var därför det installerades. Datacentret sköttes av specialister från outsourcingföretaget CBRE Managed Services, så British Airways försökte återkräva skadan genom en domstol i London.

Den främsta orsaken till olyckor i datacenter är packningen mellan datorn och stolen

Strömavbrott inträffar i liknande scenarier: först blir det strömavbrott på grund av elleverantörens fel, ibland på grund av dåligt väder eller interna problem (inklusive mänskliga fel), och sedan klarar inte det avbrottsfria strömförsörjningssystemet belastningen eller kortslutning - Tidsavbrott i sinusvågen orsakar fel på många tjänster, vilket orsakar att återställningen tar mycket tid och pengar. Är det möjligt att undvika sådana olyckor? Otvivelaktigt. Om du designar systemet korrekt är inte ens skaparna av stora datacenter immuna från misstag.

Den mänskliga faktorn

När den omedelbara orsaken till en incident är felaktiga handlingar från datacenterpersonal påverkar problemen oftast (men inte alltid) mjukvarudelen av IT-infrastrukturen. Sådana olyckor inträffar även i stora företag. I februari 2017, på grund av en felaktigt rekryterad teammedlem i den tekniska driftgruppen för ett av datacentren, inaktiverades en del av Amazon Web Services-servrarna. Ett fel uppstod vid felsökning av faktureringsprocessen för Amazon Simple Storage Service (S3) molnlagringskunder. En anställd försökte ta bort ett antal virtuella servrar som används av faktureringssystemet, men träffade ett större kluster.

Den främsta orsaken till olyckor i datacenter är packningen mellan datorn och stolen

Som ett resultat av ett ingenjörsfel raderades servrar som kör viktiga Amazon molnlagringsprogramvarumoduler. Det första som drabbades var indexeringsundersystemet, som innehåller information om metadata och plats för alla S3-objekt i den amerikanska regionen US-EAST-1. Incidenten påverkade också det delsystem som användes för att vara värd för data och hantera det tillgängliga utrymmet för lagring. Efter att ha tagit bort de virtuella maskinerna krävde dessa två delsystem en fullständig omstart, och sedan fick Amazons ingenjörer en överraskning – under en lång tid kunde den offentliga molnlagringen inte betjäna kundernas önskemål.

Effekten var utbredd, eftersom många stora resurser använder Amazon S3. Avbrotten påverkade Trello, Coursera, IFTTT och, mest obehagligt, tjänsterna från stora Amazon-partners från S&P 500-listan. Skadan i sådana fall är svår att beräkna, men den var i storleksordningen hundratals miljoner amerikanska dollar. Som du kan se räcker ett fel kommando för att inaktivera tjänsten för den största molnplattformen. Detta är inte ett isolerat fall; den 16 maj 2019, under underhållsarbete, användes Yandex.Cloud-tjänsten raderade virtuella maskiner för användare i ru-central1-c-zonen som var i AVSTÄNGD status minst en gång. Kunddata har redan skadats här, varav en del har förlorats oåterkalleligt. Naturligtvis är människor ofullkomliga, men moderna informationssäkerhetssystem har länge kunnat övervaka privilegierade användares handlingar innan de utförde kommandona de angav. Om sådana lösningar implementeras i Yandex eller Amazon kan sådana incidenter undvikas.

Den främsta orsaken till olyckor i datacenter är packningen mellan datorn och stolen

Fryst kylning

I januari 2017 inträffade en stor olycka i Megafon-företagets Dmitrov-datacenter. Sedan sjönk temperaturen i Moskva-regionen till -35 °C, vilket ledde till att anläggningens kylsystem misslyckades. Operatörens presstjänst pratade inte särskilt om orsakerna till incidenten - ryska företag är extremt ovilliga att prata om olyckor vid de anläggningar de äger; när det gäller publicitet ligger vi långt efter väst. Det cirkulerade en version på sociala nätverk om frysning av kylvätska i rör som lagts längs gatan och läckage av etylenglykol. Enligt henne kunde drifttjänsten inte snabbt få 30 ton kylvätska på grund av långa semester och kom ut med improviserade medel och organiserade improviserad frikylning i strid med reglerna för drift av systemet. Svår kyla förvärrade problemet - i januari slog vintern plötsligt till Ryssland, även om ingen förväntade sig det. Som ett resultat av detta fick personalen stänga av strömmen till en del av serverracken, varför vissa operatörstjänster var otillgängliga under två dagar.

Den främsta orsaken till olyckor i datacenter är packningen mellan datorn och stolen

Förmodligen kan vi prata om en väderavvikelse här, men sådan frost är inget ovanligt för huvudstadsregionen. Temperaturerna på vintern i Moskvaregionen kan sjunka till lägre nivåer, så datacenter byggs med förväntan om stabil drift vid -42°C. Oftast misslyckas kylsystem i kallt väder på grund av en otillräckligt hög koncentration av glykoler och överskott av vatten i kylvätskelösningen. Det finns också problem med installation av rör eller med felberäkningar i design och testning av systemet, främst förknippade med önskan att spara pengar. Som ett resultat inträffar en allvarlig olycka i det blå, som hade kunnat förhindras.

Naturkatastrofer

Oftast stör åskväder och/eller orkaner den tekniska infrastrukturen i ett datacenter, vilket leder till tjänstavbrott och/eller fysisk skada på utrustning. Incidenter orsakade av dåligt väder inträffar ganska ofta. 2012 svepte orkanen Sandy över USA:s västkust med kraftiga regn. Beläget i ett höghus på Lower Manhattan, Peer 1-datacentret förlorad extern strömförsörjning, efter att salt havsvatten översvämmade källarna. Anläggningens nödgeneratorer var placerade på 18:e våningen, och deras bränsletillförsel var begränsad - regler som infördes i New York efter terrorattackerna den 9 september förbjuder lagring av stora mängder bränsle på de övre våningarna.

Bränslepumpen gick också sönder, så personalen ägnade flera dagar åt att transportera diesel till generatorerna för hand. Teamets hjältemod räddade datacentret från en allvarlig olycka, men var det verkligen nödvändigt? Vi lever på en planet med kväve-syre atmosfär och mycket vatten. Åska och orkaner är vanliga här (särskilt i kustområden). Konstruktörer skulle förmodligen göra klokt i att överväga riskerna och bygga ett lämpligt avbrottsfritt strömförsörjningssystem. Eller i alla fall välja en lämpligare plats för datacentret än ett höghus på en ö.

Allt annat

Uptime Institute identifierar en mängd olika incidenter i denna kategori, bland vilka det är svårt att välja en typisk. Stöld av kopparkablar, bilar som kraschar in i datacenter, kraftledningsstöd och transformatorstationer, bränder, grävmaskinister som skadar optiken, gnagare (råttor, kaniner och till och med wombats, som faktiskt är pungdjur), samt de som gillar att öva på att skjuta på trådar - menyn är omfattande. Strömavbrott kan till och med orsaka stjäla el illegal marijuana plantage. I de flesta fall blir specifika personer de skyldiga till händelsen, det vill säga vi har återigen att göra med den mänskliga faktorn, när problemet har ett namn och efternamn. Även om olyckan vid första anblicken är förknippad med ett tekniskt fel eller naturkatastrofer kan det undvikas under förutsättning att anläggningen är korrekt utformad och drivs på rätt sätt. De enda undantagen är fall av kritisk skada på datacentrets infrastruktur eller förstörelse av byggnader och strukturer på grund av en naturkatastrof. Dessa är verkligen force majeure-förhållanden, och alla andra problem orsakas av packningen mellan datorn och stolen - kanske är detta den mest opålitliga delen av ett komplext system.

Källa: will.com

Lägg en kommentar