Suurõnnetused andmekeskustes: põhjused ja tagajärjed

Kaasaegsed andmekeskused on töökindlad, kuid kõik seadmed lähevad aeg-ajalt katki. Selles lühikeses artiklis oleme kokku kogunud 2018. aasta olulisemad juhtumid.

Suurõnnetused andmekeskustes: põhjused ja tagajärjed

Digitehnoloogiate mõju majandusele kasvab, töödeldava teabe maht suureneb, rajatakse uusi rajatisi ja see on hea seni, kuni kõik toimib. Kahjuks on andmekeskuste rikete majanduslik mõju kasvanud ka sellest ajast, kui inimesed hakkasid digitaliseerimise vältimatu tagajärjena majutama ärikriitilist IT-taristut. Avaldame väikese valiku möödunud aastal eri riikides toimunud tähelepanuväärsematest õnnetustest.

USA

See riik on andmekeskuste ehitamise valdkonnas tunnustatud liider. Ameerika Ühendriikides on kõige rohkem suuri äri- ja korporatiivseid andmekeskusi, mis teenindavad globaalseid teenuseid, seega on seal aset leidnud vahejuhtumite tagajärjed kõige olulisemad. Märtsi alguses tekkis võimsa tsükloni tõttu elektrikatkestus neljas Equinixi rajatises. Ruumi kasutati Amazon Web Servicesi (AWS) seadmete jaoks; õnnetuse tõttu ei olnud saadaval paljud populaarsed teenused: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio ja mCapital One, samuti Amazon Alexa virtuaalne assistent, olid mõjutatud.

Septembris tabasid ilmaanomaaliad Texases asuvaid Microsofti andmekeskusi, siis oli äikesetormi tõttu häiritud kogu regiooni toitesüsteem ning diiselgeneraatorikomplektilt voolule lülitunud andmekeskuses on teadmata, miks jahutus lülitati välja. Õnnetuse tagajärgede likvideerimiseks kulus mitu päeva ja kuigi tänu koormuse tasakaalustamisele see rike kriitiliseks ei muutunud, märkasid kasutajad üle maailma Microsofti pilveteenuste töö mõningast aeglustumist.

Venemaa

Raskeim õnnetus juhtus 20. augustil ühes Rostelecomi andmekeskuses. Selle tõttu peatusid ühtse riikliku kinnisvararegistri serverid 66 tunniks ja seetõttu tuli need varukohale üle viia. Rosreestr suutis kõigi kanalite kaudu laekunud taotluste menetlemise taastada alles 3. septembril - valitsusorganisatsioon üritab Rostelecomilt teenusetaseme lepingu rikkumise eest sisse nõuda suurt summat.

16. veebruaril lülitati Lenenergo võrkudes ilmnenud probleemide tõttu Xelneti (Peterburi) andmekeskuses sisse varutoitesüsteem. Siinuslaine lühiajaline katkestus tõi kaasa häireid paljude teenuste töös: eelkõige sai kannatada suur pilveteenuse pakkuja 1cloud, kuid Venemaa Interneti-publiku jaoks oli kõige märgatavam probleem suutmatus pääseda juurde suhtlusvõrgustikule VKontakte. . Kõige huvitavam on see, et lühiajalise elektrikatkestuse tagajärgede täielikuks kõrvaldamiseks kulus umbes 12 tundi.

Euroopa Liit

2018. aastal registreeriti ELis mitu tõsist intsidenti. Märtsis juhtus lennufirma KLM andmekeskuses rike: 10 minutiks katkes toide ja diiselgeneraatorite võimsusest ei piisa seadmete tööks. Mõned serverid läksid üles ja lennufirma pidi mitukümmend lendu tühistama või ümber planeerima.

See pole ainuke lennureisidega seotud intsident - juba aprillis tekkis rike Eurocontroli andmekeskuse toitesüsteemis. Organisatsioon kontrollib lennukite liikumist Euroopa Liidus ning kui spetsialistid kulutasid õnnetuse tagajärgede likvideerimisele 5 tundi, siis reisijatel tuli taas taluda hilinemisi ja lendude ümberkorraldamist.

Väga tõsised probleemid tekivad õnnetuste tõttu finantssektorit teenindavates andmekeskustes. Siin on tehingute katkestuste maksumus tavaliselt kõrge ja rajatiste töökindluse tase on sobiv, kuid see ei hoia intsidente ära. Põhjamaade NASDAQ börsil (Helsingi, Soome) ei saanud 18. aprillil päeval kaubelda kogu Põhja-Euroopas, kuna DigiPlexi kommertsandmekeskuses aktiveerus omavoliliselt gaaskustutussüsteem, mis ootamatult pingest välja lülitati.

7. juunil sundisid andmekeskuse seisakud Londoni börsi (LSE) kauplemise algust tund aega edasi lükkama. Lisaks keelati juunis Euroopas andmekeskuse rikke tõttu rahvusvahelise maksesüsteemi VISA teenused terveks päevaks ning juhtunu üksikasju ei avalikustatud.

Jaapan

2018. aasta suvel toimus Tokyo eeslinnas ehitatava Amazoni andmekeskuse maa-alustel tasapindadel tulekahju, milles hukkus 5 ja sai vigastada vähemalt 50 töötajat. Tules sai kahjustada umbes 5000 m2 rajatist. Uurimine näitas, et põlengu põhjuseks oli inimlik eksimus: atsetüleenpõletitega hooletust ümberkäimisest süttis isolatsioon.

Ebaõnnestumise põhjused

Ülaltoodud juhtumite loetelu pole kaugeltki täielik, andmekeskustes juhtuvate õnnetuste tõttu kannatavad pankade ja sideoperaatorite kliendid, pilveteenuse pakkujate teenused lähevad võrgust välja ning isegi hädaabiteenistuste töö on häiritud. Väike teenusekatkestus võib kaasa tuua suuri kahjusid ning suurem osa katkestustest (39%) on Uptime Institute andmetel seotud elektrisüsteemiga. Teisel kohal (24%) on inimfaktor ja kolmandal (15%) kliimaseade. Vaid 12% andmekeskustes juhtuvatest õnnetustest on tingitud loodusnähtustest ja ainult 10% neist leiab aset muudel kui loetletud põhjustel.

Vaatamata rangetele töökindlus- ja ohutusstandarditele ei ole ükski rajatis intsidentide eest kaitstud. Enamik neist tekib elektrikatkestuse või inimlike vigade tõttu. Andmekeskuste ja serveriruumide omanikud peaksid eelkõige tähelepanu pöörama neile kahele tegurile ning kliendid peaksid mõistma: absoluutset usaldusväärsust ei suuda tagada isegi turuliidrid. Kui seadmed või pilveteenus teenindavad ärikriitilisi protsesse, peaksite mõtlema varundamissaidile.

Foto allikas: telecombloger.ru

Allikas: www.habr.com

Lisa kommentaar