Suuronnettomuudet palvelinkeskuksissa: syyt ja seuraukset

Nykyaikaiset datakeskukset ovat luotettavia, mutta kaikki laitteet hajoavat ajoittain. Tähän lyhyeen artikkeliin olemme koonneet vuoden 2018 merkittävimmät tapahtumat.

Suuronnettomuudet palvelinkeskuksissa: syyt ja seuraukset

Digitaalisten teknologioiden vaikutus talouteen kasvaa, käsiteltävän tiedon määrä kasvaa, uusia tiloja rakennetaan, ja tämä on hyvä niin kauan kuin kaikki toimii. Valitettavasti myös datakeskusten epäonnistumisten taloudellinen vaikutus on kasvanut sen jälkeen, kun ihmiset ovat alkaneet isännöidä liiketoimintakriittistä IT-infrastruktuuria digitalisaation väistämättömänä seurauksena. Julkaisemme pienen valikoiman merkittävimmistä eri maissa viime vuonna sattuneista onnettomuuksista.

Yhdysvallat

Tämä maa on tunnustettu johtaja palvelinkeskusten rakentamisen alalla. Yhdysvalloissa on eniten suuria globaaleja palveluita palvelevia kaupallisia ja yritysten datakeskuksia, joten siellä tapahtuvien tapausten seuraukset ovat merkittävimmät. Maaliskuun alussa neljässä Equinixin toimipaikassa oli sähkökatkoja voimakkaan syklonin vuoksi. Tilaa käytettiin Amazon Web Services (AWS) -laitteille; onnettomuus johti siihen, että monet suositut palvelut eivät ole käytettävissä: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio ja mCapital One sekä Amazon Alexa -virtuaaliassistentti, vaikuttivat.

Syyskuussa sääpoikkeamat iskivät Teksasissa sijaitseviin Microsoftin palvelinkeskuksiin, sitten ukkosmyrskyn vuoksi koko alueen sähkönsyöttö katkesi ja dieselgeneraattorista sähköön siirtyneessä palvelinkeskuksessa ei tiedetä miksi jäähdytys sammui. Onnettomuuden seurausten poistaminen kesti useita päiviä, ja vaikka tämä vika ei kuormituksen tasapainottamisen ansiosta tullut kriittiseksi, käyttäjät ympäri maailmaa havaitsivat Microsoftin pilvipalveluiden toiminnan lievän hidastumisen.

Venäjä

Vakavin onnettomuus tapahtui 20. elokuuta yhdessä Rostelecomin palvelinkeskuksista. Sen vuoksi Yhdistetyn valtion kiinteistörekisterin palvelimet pysähtyivät 66 tunniksi, ja siksi ne jouduttiin siirtämään varasivustolle. Rosreestr pystyi palauttamaan kaikkien kanavien kautta vastaanotettujen hakemusten käsittelyn vasta 3. syyskuuta - hallituksen organisaatio yrittää periä Rostelecomilta suuren summan palvelutasosopimuksen rikkomisesta.

Helmikuun 16. päivänä Lenenergon verkkojen ongelmien vuoksi Xelnetin (Pietari) datakeskuksen varavirtalähde kytkettiin päälle. Lyhytaikainen siniaallon keskeytys johti häiriöihin monien palvelujen toiminnassa: kärsii erityisesti suuri pilvipalveluntarjoaja 1cloud, mutta venäläisen Internet-yleisön huomattavin ongelma oli kyvyttömyys päästä VKontakte-verkkosivustolle. . Mielenkiintoisin asia on, että lyhytaikaisen sähkökatkon seurausten eliminoiminen kesti noin 12 tuntia.

Euroopan unioni

EU:ssa kirjattiin useita vakavia vaaratilanteita vuonna 2018. Maaliskuussa lentoyhtiö KLM:n palvelinkeskuksessa tapahtui vika: virransyöttö katkesi 10 minuutiksi ja dieselgeneraattoreiden teho ei riittänyt laitteiden toimintaan. Jotkut palvelimet hajosivat, ja lentoyhtiön oli peruutettava tai siirrettävä useita kymmeniä lentoja.

Tämä ei ole ainoa lentomatkustukseen liittyvä tapaus - jo huhtikuussa Eurocontrolin palvelinkeskuksen sähkönsyöttöjärjestelmässä tapahtui vika. Organisaatio valvoo lentokoneiden liikennöintiä Euroopan unionissa, ja vaikka asiantuntijat viettivät 5 tuntia onnettomuuden seurausten poistamiseen, matkustajat joutuivat jälleen kestämään viivästyksiä ja lentojen uudelleenjärjestelyjä.

Erittäin vakavia ongelmia syntyy finanssisektoria palvelevien datakeskusten onnettomuuksista. Tapahtuman keskeytykset ovat täällä yleensä korkeat ja tilojen luotettavuustaso on sopiva, mutta tämä ei estä tapauksia. Pohjoismainen NASDAQ-pörssi (Helsinki) ei pystynyt 18. huhtikuuta käymään kauppaa koko Pohjois-Euroopassa päivän aikana, koska DigiPlexin kaupallisessa palvelinkeskuksessa käynnistyi luvaton kaasusammutusjärjestelmä, joka katkesi yllättäen.

Kesäkuun 7. päivänä palvelinkeskusten katkokset pakottivat Lontoon pörssin (LSE) lykkäämään kaupankäynnin alkamista tunnilla. Lisäksi kesäkuussa Euroopassa palvelinkeskuksen vian vuoksi kansainvälisen VISA-maksujärjestelmän palvelut olivat poissa käytöstä koko päivän ajan, eikä tapauksen yksityiskohtia kerrottu koskaan.

Japani

Kesällä 2018 Tokion esikaupunkialueella rakenteilla olevan Amazon-palvelinkeskuksen maanalaisissa kerroksissa tapahtui tulipalo, jossa kuoli 5 työntekijää ja loukkaantui ainakin 50. Palossa vaurioitui noin 5000 2 neliömetriä laitosta. Tutkimus osoitti, että tulipalon syynä oli inhimillinen virhe: asetyleenipolttimien huolimattomasta käsittelystä johtuen eristys syttyi.

Epäonnistumisen syyt

Yllä oleva luettelo tapauksista ei ole läheskään täydellinen, konesalien onnettomuuksien vuoksi pankkien ja teleoperaattoreiden asiakkaat kärsivät, pilvipalveluntarjoajien palvelut menevät offline-tilaan ja jopa hätäpalveluiden työ häiriintyy. Pieni palvelukatkos voi johtaa suuriin tappioihin, ja suurin osa katkoksista (39 %) liittyy Uptime Instituten mukaan sähköjärjestelmään. Toisella sijalla (24 %) on inhimillinen tekijä ja kolmannella (15 %) ilmastointijärjestelmä. Vain 12 % konesalien onnettomuuksista johtuu luonnonilmiöistä, ja vain 10 % niistä tapahtuu muista kuin luetelluista syistä.

Tiukista luotettavuudesta ja turvallisuusstandardeista huolimatta mikään laitos ei ole suojassa tapaturmilta. Suurin osa niistä johtuu sähkökatkoksista tai inhimillisistä virheistä. Konesalien ja palvelinhuoneiden omistajien tulee ensin kiinnittää huomiota näihin kahteen tekijään, ja asiakkaiden tulee ymmärtää: edes markkinajohtajat eivät voi taata ehdotonta luotettavuutta. Jos laite tai pilvipalvelu palvelee liiketoimintakriittisiä prosesseja, kannattaa miettiä varmuuskopiointisivustoa.

Kuvan lähde: telecombloger.ru

Lähde: will.com

Lisää kommentti