Store ulykker i datasentre: årsaker og konsekvenser

Moderne datasentre er pålitelige, men alt utstyr bryter ned fra tid til annen. I denne korte artikkelen har vi samlet de viktigste hendelsene i 2018.

Store ulykker i datasentre: årsaker og konsekvenser

Digitale teknologiers innflytelse på økonomien øker, mengden informasjon som behandles øker, nye anlegg bygges, og dette er bra så lenge alt fungerer. Dessverre har den økonomiske effekten av datasenterfeil også økt siden folk begynte å hoste forretningskritisk IT-infrastruktur som en uunngåelig konsekvens av digitalisering. Vi publiserer et lite utvalg av de mest bemerkelsesverdige ulykkene som skjedde i forskjellige land i fjor.

USA

Dette landet er en anerkjent leder innen datasenterkonstruksjon. USA har det største antallet store kommersielle og bedriftsdatasentre som betjener globale tjenester, så konsekvensene av hendelser der er de mest betydelige. I begynnelsen av mars opplevde fire Equinix-anlegg strømbrudd på grunn av en kraftig syklon. Plassen ble brukt til Amazon Web Services (AWS) utstyr; ulykken førte til utilgjengelighet av mange populære tjenester: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio og mCapital One, samt Amazon Alexa virtuelle assistent, ble berørt.

I september rammet væruregelmessigheter Microsofts datasentre i Texas. Da ble strømforsyningssystemet i hele regionen forstyrret på grunn av et tordenvær, og i datasenteret som gikk over til strøm fra dieselgeneratorsettet, er det ukjent hvorfor kjølingen slått av. Det tok flere dager å eliminere konsekvensene av ulykken, og selv om denne feilen, takket være lastbalansering, ikke ble kritisk, ble en liten nedgang i driften av Microsofts skytjenester lagt merke til av brukere over hele verden.

Russland

Den alvorligste ulykken skjedde 20. august i et av Rostelecoms datasentre. På grunn av det stoppet serverne til Unified State Register of Real Estate i 66 timer, og derfor måtte de overføres til en sikkerhetskopi. Rosreestr var i stand til å gjenopprette behandlingen av søknader mottatt gjennom alle kanaler først 3. september - regjeringsorganisasjonen prøver å inndrive et stort beløp fra Rostelecom for brudd på tjenestenivåavtalen.

16. februar, på grunn av problemer i Lenenergos nettverk, ble reservestrømforsyningssystemet i datasenteret til Xelnet (St. Petersburg) slått på. Et kortvarig avbrudd av sinusbølgen førte til forstyrrelser i driften av mange tjenester: spesielt den store skyleverandøren 1cloud ble berørt, men det mest merkbare problemet for det russiske Internett-publikummet var manglende evne til å få tilgang til VKontakte sosiale nettverksside . Det mest interessante er at det tok omtrent 12 timer å eliminere konsekvensene av et kortvarig strømbrudd fullstendig.

EU

Det ble registrert flere alvorlige hendelser i EU i 2018. I mars var det en feil ved datasenteret til flyselskapet KLM: Strømforsyningen ble avbrutt i 10 minutter, og strømmen til dieselgeneratorsett var utilstrekkelig til å drive utstyret. Noen servere gikk ned, og flyselskapet måtte kansellere eller omplanlegge flere titalls avganger.

Dette er ikke den eneste hendelsen knyttet til flyreiser - allerede i april oppsto det en feil i strømforsyningssystemet til Eurocontrol-datasenteret. Organisasjonen kontrollerer bevegelsen av fly i EU, og mens spesialister brukte 5 timer på å eliminere konsekvensene av ulykken, måtte passasjerene igjen tåle forsinkelser og omlagte flyreiser.

Svært alvorlige problemer oppstår på grunn av ulykker i datasentre som betjener finanssektoren. Kostnaden for avbrudd i transaksjoner her er vanligvis høy, og pålitelighetsnivået til anleggene er passende, men dette forhindrer ikke hendelser. Den 18. april kunne den nordiske NASDAQ-børsen (Helsingfors, Finland) ikke handle i hele Nord-Europa på dagtid på grunn av uautorisert aktivering av et gassbrannslokkesystem i DigiPlex kommersielle datasenter, som plutselig ble strømløs.

Den 7. juni tvang datasenterbrudd London Stock Exchange (LSE) til å utsette starten av handelen i en time. I tillegg, i juni, i Europa, på grunn av en feil i et datasenter, ble tjenestene til det internasjonale betalingssystemet VISA deaktivert for hele dagen, og detaljene om hendelsen ble aldri avslørt.

Japan

Sommeren 2018 oppsto en brann i underjordiske nivåer av et Amazon-datasenter under bygging i en Tokyo-forstad, og drepte 5 arbeidere og skadet minst 50. Brannen skadet rundt 5000 m2 av anlegget. Etterforskningen viste at årsaken til brannen var menneskelige feil: På grunn av uforsiktig håndtering av acetylenfakler antente isolasjonen.

Årsaker til feil

Listen over hendelser er langt fra komplett; på grunn av ulykker i datasentre, lider kunder av banker og telekomoperatører, tjenester fra skyleverandører går offline, og til og med arbeidet til nødtjenestene blir forstyrret. Et lite driftsbrudd kan føre til store tap, og flertallet av driftsstansene (39 %) er relatert til det elektriske systemet, ifølge Uptime Institute. På andreplass (24%) er den menneskelige faktoren, og på tredjeplass (15%) er klimaanlegget. Kun 12 % av ulykkene i datasentre kan tilskrives naturfenomener, og bare 10 % av dem skjer av andre årsaker enn de som er oppført.

Til tross for strenge pålitelighets- og sikkerhetsstandarder, er ingen anlegg immun mot hendelser. De fleste av dem oppstår på grunn av strømbrudd eller menneskelige feil. Eiere av datasentre og serverrom bør først og fremst ta hensyn til disse to faktorene, og kundene bør forstå: selv markedsledere kan ikke garantere absolutt pålitelighet. Hvis utstyr eller en skytjeneste betjener forretningskritiske prosesser, bør du tenke på en backupside.

Bildekilde: telecombloger.ru

Kilde: www.habr.com

Legg til en kommentar