Glavni uzrok nesreća u podatkovnim centrima je brtva između računala i stolice

Tema velikih nesreća u modernim podatkovnim centrima postavlja pitanja na koja nismo dobili odgovor u prvom članku – odlučili smo ga razviti.

Glavni uzrok nesreća u podatkovnim centrima je brtva između računala i stolice

Prema statistici Instituta Uptime, većina incidenata u podatkovnim centrima povezana je s kvarovima sustava napajanja—na njih otpada 39% incidenata. Slijedi ljudski faktor koji čini još 24% nesreća. Treći najvažniji razlog (15%) je kvar klimatizacijskog sustava, a na četvrtom mjestu (12%) elementarne nepogode. Ukupan udio ostalih nevolja je samo 10%. Ne dovodeći u pitanje podatke cijenjene organizacije, istaknut ćemo nešto zajedničko u različitim nesrećama i pokušati shvatiti jesu li se one mogle izbjeći. Spoiler: moguće je u većini slučajeva.

Znanost o kontaktima

Pojednostavljeno rečeno, samo su dva problema s napajanjem: ili nema kontakta gdje bi trebao biti ili ima kontakta gdje ga ne bi trebalo biti. Možete dugo razgovarati o pouzdanosti modernih sustava neprekidnog napajanja, ali oni vas ne spašavaju uvijek. Uzmimo slučaj visokog profila podatkovnog centra koji koristi British Airways, a koji je u vlasništvu matične tvrtke International Airlines Group. Dvije su takve nekretnine smještene u blizini zračne luke Heathrow - Boadicea House i Comet House. U prvom od njih, 27. svibnja 2017., dogodio se slučajni nestanak struje, što je dovelo do preopterećenja i kvara UPS sustava. Zbog toga je dio informatičke opreme fizički oštećen, a posljednja havarija rješavala se tri dana.

Zrakoplovna tvrtka morala je otkazati ili promijeniti više od tisuću letova, oko 75 tisuća putnika nije moglo letjeti na vrijeme - 128 milijuna dolara potrošeno je na plaćanje odštete, ne računajući troškove potrebne za vraćanje funkcionalnosti podatkovnih centara. Povijest razloga za nestanak struje nije jasna. Ako je vjerovati rezultatima interne istrage koju je objavio izvršni direktor International Airlines Groupa Willie Walsh, do toga je došlo zbog pogreške inženjera. Međutim, sustav neprekidnog napajanja morao je izdržati takvo gašenje - zato je i instaliran. Podatkovnim centrom upravljali su stručnjaci iz outsourcing tvrtke CBRE Managed Services, pa je British Airways iznos štete pokušao naplatiti preko londonskog suda.

Glavni uzrok nesreća u podatkovnim centrima je brtva između računala i stolice

Do prekida u napajanju dolazi u sličnim scenarijima: prvo dođe do nestanka struje zbog krivnje opskrbljivača električnom energijom, ponekad zbog lošeg vremena ili unutarnjih problema (uključujući ljudske pogreške), a zatim sustav neprekidnog napajanja ne može podnijeti opterećenje ili kratki spoj -trajni prekid sinusnog vala uzrokuje kvarove mnogih servisa, zbog čega popravak zahtijeva puno vremena i novca. Je li moguće izbjeći takve nesreće? nedvojbeno. Ako pravilno dizajnirate sustav, ni tvorci velikih podatkovnih centara nisu imuni na pogreške.

Ljudski faktor

Kada je neposredni uzrok incidenta neispravno postupanje osoblja podatkovnog centra, problemi najčešće (ali ne uvijek) pogađaju softverski dio IT infrastrukture. Takve se nesreće događaju čak iu velikim korporacijama. U veljači 2017. godine, zbog pogrešno angažiranog člana tima tehničke operativne grupe jednog od podatkovnih centara, dio poslužitelja Amazon Web Services je onemogućen. Došlo je do pogreške tijekom otklanjanja pogrešaka u procesu naplate za klijente usluge pohrane u oblaku Amazon Simple Storage Service (S3). Zaposlenik je pokušao izbrisati nekoliko virtualnih poslužitelja koje koristi sustav naplate, ali je pogodio veći klaster.

Glavni uzrok nesreća u podatkovnim centrima je brtva između računala i stolice

Kao rezultat pogreške inženjera, izbrisani su poslužitelji koji pokreću važne softverske module Amazonove pohrane u oblaku. Prvi je pogođen podsustav indeksiranja, koji sadrži informacije o metapodacima i lokaciji svih S3 objekata u američkoj regiji US-EAST-1. Incident je također utjecao na podsustav koji se koristi za smještaj podataka i upravljanje prostorom dostupnim za pohranu. Nakon brisanja virtualnih strojeva, ova dva podsustava zahtijevala su potpuno ponovno pokretanje, a tada je inženjere Amazona čekalo iznenađenje - dugo vremena javna pohrana u oblaku nije mogla servisirati zahtjeve korisnika.

Utjecaj je bio široko rasprostranjen jer mnogi veliki resursi koriste Amazon S3. Ispadi su zahvatili Trello, Coursera, IFTTT i, što je najneugodnije, usluge velikih partnera Amazona s liste S&P 500. Štetu u takvim slučajevima teško je izračunati, no ona se mjerila stotinama milijuna dolara. Kao što vidite, dovoljna je jedna pogrešna naredba da onemogući uslugu najveće platforme u oblaku. Ovo nije izoliran slučaj; 16. svibnja 2019., tijekom radova na održavanju, usluga Yandex.Cloud izbrisano virtualna računala korisnika u zoni ru-central1-c koji su barem jednom bili u statusu OBUSTAVLJENO. Ovdje su već oštećeni podaci o klijentima, od kojih su neki nepovratno izgubljeni. Naravno, ljudi su nesavršeni, ali moderni sustavi informacijske sigurnosti već odavno mogu pratiti radnje povlaštenih korisnika prije nego što izvrše naredbe koje su unijeli. Ako se takva rješenja implementiraju u Yandex ili Amazon, takvi se incidenti mogu izbjeći.

Glavni uzrok nesreća u podatkovnim centrima je brtva između računala i stolice

Smrznuto hlađenje

U siječnju 2017. dogodila se velika nesreća u podatkovnom centru Dmitrov tvrtke Megafon. Tada je temperatura u moskovskoj regiji pala na -35 °C, što je dovelo do kvara sustava hlađenja objekta. Tiskovna služba operatera nije posebno govorila o razlozima incidenta - ruske kompanije izuzetno nerado govore o nesrećama u objektima u njihovom vlasništvu; u pogledu publiciteta daleko zaostajemo za Zapadom. Društvenim mrežama kružila je verzija o smrzavanju rashladne tekućine u cijevima položenim duž ulice i curenju etilen glikola. Prema njezinim riječima, operativna služba zbog dugih praznika nije uspjela brzo nabaviti 30 tona rashladne tekućine te se izvukla improviziranim sredstvima, organizirajući improvizirani free-cooling kršeći pravila rada sustava. Jaka hladnoća pogoršala je problem - u siječnju je zima iznenada zahvatila Rusiju, iako to nitko nije očekivao. Zbog toga je osoblje moralo isključiti struju na dijelu poslužiteljskih regala, zbog čega su neke usluge operatera bile nedostupne dva dana.

Glavni uzrok nesreća u podatkovnim centrima je brtva između računala i stolice

Vjerojatno se ovdje može govoriti o vremenskoj anomaliji, ali ovakvi mrazevi nisu ništa neobično za regiju glavnog grada. Temperature zimi u moskovskoj regiji mogu pasti na niže razine, pa se podatkovni centri grade s očekivanjem stabilnog rada na -42°C. Sustavi za hlađenje najčešće otkazuju po hladnom vremenu zbog nedovoljno visoke koncentracije glikola i viška vode u otopini rashladne tekućine. Također postoje problemi s ugradnjom cijevi ili s pogrešnim proračunima u projektiranju i testiranju sustava, uglavnom povezanim sa željom da se uštedi novac. Kao rezultat toga, iznenada se događa teška nesreća koja se mogla spriječiti.

Prirodne katastrofe

Najčešće grmljavinske oluje i/ili uragani ometaju inženjersku infrastrukturu podatkovnog centra, što dovodi do prekida usluge i/ili fizičkog oštećenja opreme. Incidenti uzrokovani lošim vremenom događaju se vrlo često. Godine 2012. uragan Sandy zahvatio je zapadnu obalu Sjedinjenih Država s obilnom kišom. Smješten u visokoj zgradi u Donjem Manhattanu, Peer 1 podatkovni centar izgubljeno vanjsko napajanje, nakon što je slana morska voda poplavila podrume. Generatori za hitne slučajeve bili su smješteni na 18. katu, a njihova zaliha goriva bila je ograničena - pravila uvedena u New Yorku nakon terorističkih napada 9. rujna zabranjuju skladištenje velikih količina goriva na gornjim katovima.

Otkazala je i pumpa za gorivo, pa je osoblje nekoliko dana ručno dovlačilo dizel do generatora. Herojstvo tima spasilo je podatkovni centar od ozbiljne nesreće, no je li to doista bilo potrebno? Živimo na planetu s atmosferom dušik-kisik i puno vode. Grmljavinske oluje i uragani ovdje su česti (osobito u obalnim područjima). Dizajnerima bi vjerojatno bilo dobro da uzmu u obzir rizike i naprave odgovarajući sustav neprekidnog napajanja. Ili barem odaberite prikladniju lokaciju za podatkovni centar od visoke zgrade na otoku.

Sve ostalo

Uptime Institut identificira niz incidenata u ovoj kategoriji, među kojima je teško odabrati tipičan. Krađe bakrenih kablova, zalijetanje automobila u podatkovne centre, nosače dalekovoda i trafostanice, požari, bageristi koji oštećuju optiku, glodavci (štakori, zečevi pa čak i vombati, koji su zapravo tobolčari), kao i oni koji vole vježbati pucanje na žice - izbornik je opsežan . Nestanci struje mogu čak uzrokovati krađa električna energija ilegalna plantaža marihuane. U većini slučajeva konkretni ljudi postaju krivci incidenta, odnosno opet je riječ o ljudskom faktoru, kada problem ima ime i prezime. Čak i ako se nesreća na prvi pogled povezuje s tehničkim kvarom ili elementarnim nepogodama, može se izbjeći pod uvjetom da je postrojenje pravilno projektirano i pravilno upravljano. Jedina iznimka su slučajevi kritične štete na infrastrukturi podatkovnog centra ili uništenja zgrada i struktura uslijed prirodne katastrofe. Ovo su doista okolnosti više sile, a sve druge probleme uzrokuje brtva između računala i stolice - možda je to najnepouzdaniji dio bilo kojeg složenog sustava.

Izvor: www.habr.com

Dodajte komentar