Grote ongevallen in datacenters: oorzaken en gevolgen

Moderne datacenters zijn betrouwbaar, maar apparatuur gaat wel eens kapot. In dit korte artikel hebben we de belangrijkste incidenten van 2018 verzameld.

Grote ongevallen in datacenters: oorzaken en gevolgen

De invloed van digitale technologieën op de economie groeit, de hoeveelheid verwerkte informatie neemt toe, er worden nieuwe faciliteiten gebouwd, en dit is goed zolang alles werkt. Helaas is de economische impact van het falen van datacenters ook toegenomen sinds mensen bedrijfskritische IT-infrastructuur zijn gaan hosten als onvermijdelijk gevolg van de digitalisering. We publiceren een kleine selectie van de meest opmerkelijke ongevallen die het afgelopen jaar in verschillende landen hebben plaatsgevonden.

Verenigde Staten van Amerika

Dit land is een erkende leider op het gebied van datacenterconstructie. De Verenigde Staten hebben het grootste aantal grote commerciële en zakelijke datacentra die wereldwijde diensten leveren, dus de gevolgen van incidenten daar zijn het grootst. Begin maart hadden vier Equinix-faciliteiten te maken met stroomstoringen als gevolg van een krachtige cycloon. De ruimte werd gebruikt voor apparatuur van Amazon Web Services (AWS); het ongeval leidde tot de onbeschikbaarheid van veel populaire diensten: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio en mCapital One, evenals de virtuele assistent Amazon Alexa, waren beïnvloed.

In september troffen weersafwijkingen de datacenters van Microsoft in Texas. Vervolgens werd door een onweersbui het stroomvoorzieningssysteem van de hele regio verstoord, en in het datacenter dat overschakelde op stroom via de dieselgenerator is onbekend waarom de koeling is uitgeschakeld. Het duurde enkele dagen om de gevolgen van het ongeval weg te nemen, en hoewel deze mislukking dankzij load-balancing niet kritiek werd, werd een lichte vertraging in de werking van de Microsoft-cloudservices opgemerkt door gebruikers over de hele wereld.

Rusland

Het ernstigste ongeval vond plaats op 20 augustus in een van de datacenters van Rostelecom. Hierdoor stopten de servers van het Unified State Register of Real Estate gedurende 66 uur en moesten ze daarom worden overgebracht naar een back-upsite. Rosreestr kon de verwerking van aanvragen die via alle kanalen waren ontvangen pas op 3 september herstellen - de overheidsorganisatie probeert een groot bedrag terug te vorderen van Rostelecom wegens het schenden van de Service Level Agreement.

Op 16 februari werd vanwege problemen in de netwerken van Lenenergo het back-upstroomvoorzieningssysteem in het datacentrum van Xelnet (St. Petersburg) ingeschakeld. Een korte onderbreking van de sinusgolf leidde tot verstoringen in de werking van veel diensten: met name de grote cloudprovider 1cloud werd getroffen, maar het meest opvallende probleem voor het Russische internetpubliek was het onvermogen om toegang te krijgen tot de sociale netwerksite VKontakte . Het meest interessante is dat het ongeveer 12 uur duurde om de gevolgen van een kortstondige stroomstoring volledig te elimineren.

EU

In 2018 zijn er in de EU verschillende ernstige incidenten geregistreerd. In maart was er een storing in het datacenter van luchtvaartmaatschappij KLM: de stroomvoorziening viel tien minuten uit en het vermogen van de dieselgeneratorsets was onvoldoende om de apparatuur te laten werken. Sommige servers vielen uit en de luchtvaartmaatschappij moest enkele tientallen vluchten annuleren of opnieuw plannen.

Dit is niet het enige incident met betrekking tot vliegreizen: al in april deed zich een storing voor in het stroomvoorzieningssysteem van het datacenter van Eurocontrol. De organisatie controleert de bewegingen van vliegtuigen in de Europese Unie, en terwijl specialisten vijf uur bezig waren met het elimineren van de gevolgen van het ongeval, kregen passagiers opnieuw te maken met vertragingen en moesten vluchten opnieuw worden gepland.

Er ontstaan ​​zeer ernstige problemen door ongelukken in datacentra ten behoeve van de financiële sector. De kosten van onderbrekingen in transacties zijn hier doorgaans hoog en het betrouwbaarheidsniveau van de faciliteiten is adequaat, maar dit voorkomt geen incidenten. Op 18 april kon de Noordse NASDAQ-beurs (Helsinki, Finland) overdag niet handelen in heel Noord-Europa vanwege de ongeoorloofde activering van een gasbrandblussysteem in het commerciële DigiPlex-datacenter, dat plotseling werd uitgeschakeld.

Op 7 juni dwongen storingen in het datacenter de London Stock Exchange (LSE) ertoe de start van de handel een uur uit te stellen. Bovendien waren in juni in Europa, als gevolg van een storing in een datacenter, de diensten van het internationale betalingssysteem VISA de hele dag uitgeschakeld en werden de details van het incident nooit bekendgemaakt.

Japan

In de zomer van 2018 vond er een brand plaats in de ondergrondse verdiepingen van een Amazon-datacenter in aanbouw in een buitenwijk van Tokio, waarbij vijf werknemers om het leven kwamen en minstens 5 gewond raakten. De brand beschadigde ongeveer 50 m5000 van de faciliteit. Uit het onderzoek bleek dat de oorzaak van de brand een menselijke fout was: door onzorgvuldig omgaan met acetyleenbranders ontvlamde de isolatie.

Oorzaken van mislukkingen

Bovenstaande lijst met incidenten is verre van compleet; door ongelukken in datacenters lijden klanten van banken en telecomoperatoren, gaan diensten van cloudproviders offline en zelfs het werk van hulpdiensten wordt verstoord. Een kleine servicestoring kan tot aanzienlijke verliezen leiden, en volgens het Uptime Institute heeft het merendeel van de storingen (39%) te maken met het elektrische systeem. Op de tweede plaats (24%) staat de menselijke factor, en op de derde plaats (15%) staat het airconditioningsysteem. Slechts 12% van de ongevallen in datacenters kan worden toegeschreven aan natuurlijke fenomenen, en slechts 10% daarvan vindt plaats om andere dan de genoemde redenen.

Ondanks strikte betrouwbaarheids- en veiligheidsnormen is geen enkele faciliteit immuun voor incidenten. De meeste daarvan ontstaan ​​als gevolg van stroomstoringen of menselijke fouten. Eigenaren van datacenters en serverruimtes moeten allereerst op deze twee factoren letten, en klanten moeten begrijpen: zelfs marktleiders kunnen geen absolute betrouwbaarheid garanderen. Als apparatuur of een clouddienst bedrijfskritische processen bedient, moet u denken aan een back-upsite.

Fotobron: telecombloger.ru

Bron: www.habr.com

Voeg een reactie