Stora olyckor i datacenter: orsaker och konsekvenser

Moderna datacenter är pålitliga, men all utrustning går sönder då och då. I den här korta artikeln har vi samlat de mest betydande incidenterna under 2018.

Stora olyckor i datacenter: orsaker och konsekvenser

Den digitala teknikens inflytande på ekonomin växer, mängden information som bearbetas ökar, nya anläggningar byggs och det är bra så länge allt fungerar. Tyvärr har den ekonomiska effekten av datacenterhaverier också ökat sedan människor började hosta affärskritisk IT-infrastruktur som en oundviklig konsekvens av digitaliseringen. Vi publicerar ett litet urval av de mest uppmärksammade olyckorna som inträffade i olika länder förra året.

USA

Detta land är en erkänd ledare inom området för konstruktion av datacenter. USA har det största antalet stora kommersiella och företagsdatacenter som betjänar globala tjänster, så konsekvenserna av incidenter där är mest betydande. I början av mars drabbades fyra Equinix-anläggningar av strömavbrott på grund av en kraftig cyklon. Utrymmet användes för Amazon Web Services (AWS)-utrustning; olyckan ledde till att många populära tjänster inte var tillgängliga: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio och mCapital One, samt Amazon Alexa virtuella assistent, drabbades.

I september drabbade väderfel i Microsofts datacenter i Texas. Sedan, på grund av ett åskväder, stördes strömförsörjningssystemet i hela regionen, och i datacentret som bytte till ström från dieselgeneratorn är det okänt varför kylningen stängdes av. Det tog flera dagar att eliminera konsekvenserna av olyckan, och även om, tack vare lastbalansering, detta misslyckande inte blev kritiskt, märktes en liten nedgång i driften av Microsofts molntjänster av användare över hela världen.

Ryssland

Den allvarligaste olyckan inträffade den 20 augusti i ett av Rostelecoms datacenter. På grund av det stannade servrarna för Unified State Register of Real Estate i 66 timmar, och därför var de tvungna att överföras till en backup-webbplats. Rosreestr kunde återställa behandlingen av ansökningar som mottogs via alla kanaler först den 3 september - regeringsorganisationen försöker få tillbaka ett stort belopp från Rostelecom för att ha brutit mot servicenivåavtalet.

Den 16 februari, på grund av problem i Lenenergos nätverk, slogs reservströmförsörjningssystemet i datacentret i Xelnet (St. Petersburg) på. Ett kortvarigt avbrott av sinusvågen ledde till avbrott i driften av många tjänster: i synnerhet drabbades den stora molnleverantören 1cloud, men det mest märkbara problemet för den ryska internetpubliken var oförmågan att komma åt VKontaktes sociala nätverkssida . Det mest intressanta är att det tog cirka 12 timmar att helt eliminera konsekvenserna av ett kortvarigt strömavbrott.

Europeiska unionen

Flera allvarliga incidenter registrerades i EU under 2018. I mars inträffade ett fel i flygbolaget KLMs datacenter: strömförsörjningen stängdes av i 10 minuter och strömmen till dieselgeneratorer var otillräcklig för att driva utrustningen. Vissa servrar gick ner och flygbolaget var tvunget att ställa in eller boka om flera dussin flygningar.

Detta är inte den enda incidenten relaterad till flygresor - redan i april inträffade ett fel i strömförsörjningssystemet till Eurocontrols datacenter. Organisationen kontrollerar flygplanens rörelser i Europeiska unionen, och medan specialister tillbringade 5 timmar på att eliminera konsekvenserna av olyckan, fick passagerarna återigen utstå förseningar och omplanerade flyg.

Mycket allvarliga problem uppstår på grund av olyckor i datacenter som betjänar finanssektorn. Kostnaden för avbrott i transaktioner här är vanligtvis hög, och anläggningarnas tillförlitlighetsnivå är lämplig, men detta förhindrar inte incidenter. Den 18 april kunde den nordiska NASDAQ-börsen (Helsingfors, Finland) inte handla i hela Nordeuropa under dagen på grund av den otillåtna aktiveringen av ett gasbrandsläckningssystem i DigiPlex kommersiella datacenter, som plötsligt blev strömlös.

Den 7 juni tvingade datacenteravbrott Londonbörsen (LSE) att skjuta upp handelsstarten i en timme. Dessutom, i juni, i Europa, på grund av ett fel i ett datacenter, inaktiverades tjänsterna för det internationella betalningssystemet VISA för hela dagen, och detaljerna om incidenten avslöjades aldrig.

Japan

Sommaren 2018 inträffade en brand i underjordiska nivåer av ett Amazon-datacenter under uppbyggnad i en förort till Tokyo, där 5 arbetare dödades och minst 50 skadades. Branden skadade cirka 5000 2 mXNUMX av anläggningen. Undersökningen visade att brandorsaken var mänskliga misstag: på grund av vårdslös hantering av acetylenfacklar antändes isoleringen.

Orsaker till misslyckanden

Ovanstående lista över incidenter är långt ifrån komplett; på grund av olyckor i datacenter drabbas kunder hos banker och telekomoperatörer, molnleverantörers tjänster går offline och till och med räddningstjänstens arbete störs. Ett litet serviceavbrott kan leda till stora förluster, och majoriteten av avbrotten (39 %) är relaterade till elsystemet, enligt Uptime Institute. På andra plats (24 %) finns den mänskliga faktorn och på tredje plats (15 %) är luftkonditioneringssystemet. Endast 12 % av olyckorna i datacenter kan hänföras till naturfenomen, och endast 10 % av dem inträffar av andra orsaker än de som anges.

Trots strikta tillförlitlighets- och säkerhetsstandarder är ingen anläggning immun mot incidenter. De flesta av dem uppstår på grund av strömavbrott eller mänskliga fel. Ägare av datacenter och serverrum bör först och främst vara uppmärksamma på dessa två faktorer, och kunderna bör förstå: även marknadsledare kan inte garantera absolut tillförlitlighet. Om utrustning eller en molntjänst tjänar affärskritiska processer bör du tänka på en backup-sajt.

Bildkälla: telecombloger.ru

Källa: will.com

Lägg en kommentar