Glavni uzrok nesreća u data centrima je brtva između računara i stolice

Tema velikih nesreća u modernim data centrima postavlja pitanja na koja u prvom članku nismo dobili odgovor - odlučili smo da je razvijemo.

Glavni uzrok nesreća u data centrima je brtva između računara i stolice

Prema statističkim podacima Uptime Instituta, većina incidenata u podatkovnim centrima povezana je s kvarovima na sistemu napajanja – oni čine 39% incidenata. Slijedi ljudski faktor, koji čini još 24% nesreća. Treći najvažniji razlog (15%) je kvar na sistemu klimatizacije, a na četvrtom mjestu (12%) elementarne nepogode. Ukupan udio ostalih nevolja je samo 10%. Ne dovodeći u pitanje podatke ugledne organizacije, istaći ćemo nešto uobičajeno u različitim nesrećama i pokušati shvatiti da li su se one mogle izbjeći. Spojler: moguće je u većini slučajeva.

Nauka o kontaktima

Pojednostavljeno, postoje samo dva problema sa napajanjem: ili nema kontakta tamo gde bi trebalo da bude, ili ima kontakta gde ne bi trebalo da bude kontakta. Možete dugo pričati o pouzdanosti modernih sistema neprekidnog napajanja, ali oni vas ne spašavaju uvijek. Uzmite slučaj visokog profila data centra koji koristi British Airways, a koji je u vlasništvu matične kompanije International Airlines Group. Postoje dvije takve nekretnine koje se nalaze u blizini aerodroma Heathrow - Boadicea House i Comet House. U prvom od njih, 27. maja 2017. godine, došlo je do slučajnog nestanka struje, što je dovelo do preopterećenja i kvara UPS sistema. Kao rezultat toga, dio IT opreme je fizički oštećen, a za rješavanje najnovije katastrofe bilo je potrebno tri dana.

Aviokompanija je morala da otkaže ili ponovo zakaže više od hiljadu letova, oko 75 hiljada putnika nije moglo da leti na vreme - 128 miliona dolara potrošeno je na plaćanje odštete, ne računajući troškove potrebne za vraćanje funkcionalnosti data centara. Istorija razloga za zamračenje je nejasna. Ako vjerujete rezultatima interne istrage koju je objavio izvršni direktor International Airlines grupe Willie Walsh, to je bila greška inženjera. Međutim, sistem neprekidnog napajanja morao je izdržati takvo gašenje - zato je postavljen. Data centrom su upravljali stručnjaci iz outsourcing kompanije CBRE Managed Services, pa je British Airways pokušao naplatiti iznos štete preko londonskog suda.

Glavni uzrok nesreća u data centrima je brtva između računara i stolice

Prekidi električne energije se dešavaju u sličnim scenarijima: prvo dođe do nestanka zbog greške dobavljača električne energije, ponekad zbog lošeg vremena ili unutrašnjih problema (uključujući ljudske greške), a zatim se sistem neprekidnog napajanja ne može nositi s opterećenjem ili kratkim spojem. -vremenski prekid sinusnog vala uzrokuje kvarove mnogih servisa, a za čiju obnovu je potrebno mnogo vremena i novca. Da li je moguće izbjeći ovakve nezgode? Bez sumnje. Ako pravilno dizajnirate sistem, čak ni kreatori velikih data centara nisu imuni od grešaka.

Ljudski faktor

Kada je neposredni uzrok incidenta neispravno postupanje osoblja data centra, problemi najčešće (ali ne uvek) utiču na softverski deo IT infrastrukture. Takve nezgode se dešavaju čak iu velikim korporacijama. U februaru 2017. godine, zbog pogrešno angažovanog člana tima tehničke operativne grupe jednog od data centara, onemogućen je dio servera Amazon Web Services. Došlo je do greške prilikom otklanjanja grešaka u procesu naplate za korisnike Amazon Simple Storage Service (S3) pohrane u oblaku. Zaposlenik je pokušao da izbriše nekoliko virtuelnih servera koje koristi sistem naplate, ali je pogodio veći klaster.

Glavni uzrok nesreća u data centrima je brtva između računara i stolice

Kao rezultat inženjerske greške, serveri koji koriste važne Amazonove softverske module za pohranu u oblaku su izbrisani. Prvi pogođen je podsistem za indeksiranje, koji sadrži informacije o metapodacima i lokaciji svih S3 objekata u US-EAST-1 američkoj regiji. Incident je također uticao na podsistem koji se koristi za smještaj podataka i upravljanje prostorom dostupnim za pohranu. Nakon brisanja virtuelnih mašina, ova dva podsistema zahtevala su potpuno ponovno pokretanje, a onda je Amazon inženjere čekalo iznenađenje – javno skladište u oblaku dugo vremena nije bilo u stanju da servisira zahteve korisnika.

Uticaj je bio široko rasprostranjen, jer mnogi veliki resursi koriste Amazon S3. Prekidi su zahvatili Trello, Coursera, IFTTT i, što je najneprijatnije, usluge velikih Amazon partnera sa liste S&P 500. Štetu u takvim slučajevima teško je izračunati, ali se radilo o stotinama miliona američkih dolara. Kao što vidite, jedna pogrešna komanda je dovoljna da onemogućite uslugu najveće platforme u oblaku. Ovo nije usamljen slučaj; 16. maja 2019., tokom radova na održavanju, servis Yandex.Cloud izbrisano virtuelne mašine korisnika u ru-central1-c zoni koji su barem jednom bili u statusu SUSPENDOVANO. Ovdje su već oštećeni podaci o klijentima, od kojih su neki nepovratno izgubljeni. Naravno, ljudi su nesavršeni, ali savremeni sistemi informacione bezbednosti odavno mogu da prate radnje privilegovanih korisnika pre nego što izvrše komande koje su uneli. Ako se takva rješenja implementiraju u Yandexu ili Amazonu, takvi se incidenti mogu izbjeći.

Glavni uzrok nesreća u data centrima je brtva između računara i stolice

Smrznuto hlađenje

U januaru 2017. godine dogodila se velika nesreća u data centru Dmitrov kompanije Megafon. Tada je temperatura u Podmoskovlju pala na -35 °C, što je dovelo do kvara sistema za hlađenje objekta. Pres služba operatera nije posebno govorila o razlozima incidenta - ruske kompanije izuzetno nerado govore o nesrećama u objektima koje posjeduju; u smislu publiciteta, mi daleko zaostajemo za Zapadom. Društvenim mrežama je kružila verzija o smrzavanju rashladne tečnosti u cijevima položenim duž ulice i curenju etilen glikola. Prema njenim riječima, operativna služba zbog dugih praznika nije uspjela brzo da nabavi 30 tona rashladne tečnosti i izašla je improvizovanim sredstvima, organizujući improvizovano slobodno hlađenje kršeći pravila rada sistema. Jake hladnoće su pogoršale problem - u januaru je Rusiju iznenada zahvatila zima, iako to niko nije očekivao. Kao rezultat toga, osoblje je moralo isključiti napajanje dijela serverskih rekova, zbog čega su neke usluge operatera bile nedostupne dva dana.

Glavni uzrok nesreća u data centrima je brtva između računara i stolice

Vjerovatno se ovdje može govoriti o vremenskoj anomaliji, ali ovakvi mrazevi nisu nešto neobično za regiju glavnog grada. Temperature zimi u Podmoskovlju mogu pasti na niže nivoe, pa se data centri grade uz očekivanje stabilnog rada na -42°C. Najčešće rashladni sistemi otkazuju po hladnom vremenu zbog nedovoljno visoke koncentracije glikola i viška vode u otopini rashladne tekućine. Postoje i problemi s ugradnjom cijevi ili s pogrešnim proračunima u dizajnu i testiranju sistema, uglavnom povezani sa željom da se uštedi novac. Kao rezultat toga, iz vedra neba se događa ozbiljna nesreća koja je mogla biti spriječena.

Prirodnih katastrofa

Najčešće, grmljavine i/ili uragani ometaju inženjersku infrastrukturu data centra, što dovodi do prekida usluga i/ili fizičkog oštećenja opreme. Incidenti uzrokovani lošim vremenom događaju se prilično često. 2012. godine, uragan Sandy zahvatio je zapadnu obalu Sjedinjenih Država sa obilnim padavinama. Smješten u visokoj zgradi u Donjem Menhetnu, Peer 1 data centar izgubljeno eksterno napajanje, nakon što je slana morska voda poplavila podrume. Generatori za hitne slučajeve u objektu bili su locirani na 18. spratu, a njihova zaliha goriva bila je ograničena - pravila uvedena u Njujorku nakon terorističkih napada 9. septembra zabranjuju skladištenje velikih količina goriva na gornjim spratovima.

Otkazala je i pumpa za gorivo, pa je osoblje nekoliko dana ručno dovlačilo dizel do agregata. Herojstvo tima spasilo je data centar od ozbiljne nesreće, ali da li je to zaista bilo potrebno? Živimo na planeti sa atmosferom azota i kiseonika i puno vode. Grmljavine i uragani su ovdje česti (posebno u primorskim područjima). Dizajnerima bi verovatno bilo dobro da uzmu u obzir rizike i izgrade odgovarajući sistem neprekidnog napajanja. Ili barem odaberite prikladniju lokaciju za podatkovni centar od nebodera na otoku.

Sve ostalo

Uptime Institute identifikuje niz incidenata u ovoj kategoriji, među kojima je teško izabrati tipičan. Krađa bakrenih kablova, udaranje automobila u data centre, nosače dalekovoda i trafostanice, požari, rukovaoci bagera koji oštećuju optiku, glodari (pacovi, zečevi, pa čak i vombati, koji su zapravo tobolčari), kao i oni koji vole da vežbaju pucanje na žice - meni je obiman. Nestanak struje može čak uzrokovati krađu električna energija ilegalna plantaža marihuane. U većini slučajeva krivci za incident postaju konkretni ljudi, odnosno opet imamo posla sa ljudskim faktorom, kada problem ima ime i prezime. Čak i ako je na prvi pogled nesreća povezana sa tehničkim kvarom ili elementarnom nepogodom, ona se može izbjeći pod uvjetom da je objekat pravilno projektiran i ispravno funkcionisao. Jedini izuzetak su slučajevi kritičnog oštećenja infrastrukture podatkovnog centra ili uništenja zgrada i objekata uslijed prirodne katastrofe. Ovo su zaista okolnosti više sile, a sve ostale probleme uzrokuje brtva između kompjutera i stolice - možda je to najnepouzdaniji dio svakog složenog sistema.

izvor: www.habr.com

Dodajte komentar