Tema velikih nesreća u modernim data centrima postavlja pitanja na koja u prvom članku nismo dobili odgovor - odlučili smo da je razvijemo.
Prema statističkim podacima Uptime Instituta, većina incidenata u podatkovnim centrima povezana je s kvarovima na sistemu napajanja – oni čine 39% incidenata. Slijedi ljudski faktor, koji čini još 24% nesreća. Treći najvažniji razlog (15%) je kvar na sistemu klimatizacije, a na četvrtom mjestu (12%) elementarne nepogode. Ukupan udio ostalih nevolja je samo 10%. Ne dovodeći u pitanje podatke ugledne organizacije, istaći ćemo nešto uobičajeno u različitim nesrećama i pokušati shvatiti da li su se one mogle izbjeći. Spojler: moguće je u većini slučajeva.
Nauka o kontaktima
Pojednostavljeno, postoje samo dva problema sa napajanjem: ili nema kontakta tamo gde bi trebalo da bude, ili ima kontakta gde ne bi trebalo da bude kontakta. Možete dugo pričati o pouzdanosti modernih sistema neprekidnog napajanja, ali oni vas ne spašavaju uvijek. Uzmite slučaj visokog profila data centra koji koristi British Airways, a koji je u vlasništvu matične kompanije International Airlines Group. Postoje dvije takve nekretnine koje se nalaze u blizini aerodroma Heathrow - Boadicea House i Comet House. U prvom od njih, 27. maja 2017. godine, došlo je do slučajnog nestanka struje, što je dovelo do preopterećenja i kvara UPS sistema. Kao rezultat toga, dio IT opreme je fizički oštećen, a za rješavanje najnovije katastrofe bilo je potrebno tri dana.
Aviokompanija je morala da otkaže ili ponovo zakaže više od hiljadu letova, oko 75 hiljada putnika nije moglo da leti na vreme - 128 miliona dolara potrošeno je na plaćanje odštete, ne računajući troškove potrebne za vraćanje funkcionalnosti data centara. Istorija razloga za zamračenje je nejasna. Ako vjerujete rezultatima interne istrage koju je objavio izvršni direktor International Airlines grupe Willie Walsh, to je bila greška inženjera. Međutim, sistem neprekidnog napajanja morao je izdržati takvo gašenje - zato je postavljen. Data centrom su upravljali stručnjaci iz outsourcing kompanije CBRE Managed Services, pa je British Airways pokušao naplatiti iznos štete preko londonskog suda.
Prekidi električne energije se dešavaju u sličnim scenarijima: prvo dođe do nestanka zbog greške dobavljača električne energije, ponekad zbog lošeg vremena ili unutrašnjih problema (uključujući ljudske greške), a zatim se sistem neprekidnog napajanja ne može nositi s opterećenjem ili kratkim spojem. -vremenski prekid sinusnog vala uzrokuje kvarove mnogih servisa, a za čiju obnovu je potrebno mnogo vremena i novca. Da li je moguće izbjeći ovakve nezgode? Bez sumnje. Ako pravilno dizajnirate sistem, čak ni kreatori velikih data centara nisu imuni od grešaka.
Ljudski faktor
Kada je neposredni uzrok incidenta neispravno postupanje osoblja data centra, problemi najčešće (ali ne uvek) utiču na softverski deo IT infrastrukture. Takve nezgode se dešavaju čak iu velikim korporacijama. U februaru 2017. godine, zbog pogrešno angažovanog člana tima tehničke operativne grupe jednog od data centara, onemogućen je dio servera Amazon Web Services. Došlo je do greške prilikom otklanjanja grešaka u procesu naplate za korisnike Amazon Simple Storage Service (S3) pohrane u oblaku. Zaposlenik je pokušao da izbriše nekoliko virtuelnih servera koje koristi sistem naplate, ali je pogodio veći klaster.
Kao rezultat inženjerske greške, serveri koji koriste važne Amazonove softverske module za pohranu u oblaku su izbrisani. Prvi pogođen je podsistem za indeksiranje, koji sadrži informacije o metapodacima i lokaciji svih S3 objekata u US-EAST-1 američkoj regiji. Incident je također uticao na podsistem koji se koristi za smještaj podataka i upravljanje prostorom dostupnim za pohranu. Nakon brisanja virtuelnih mašina, ova dva podsistema zahtevala su potpuno ponovno pokretanje, a onda je Amazon inženjere čekalo iznenađenje – javno skladište u oblaku dugo vremena nije bilo u stanju da servisira zahteve korisnika.
Uticaj je bio široko rasprostranjen, jer mnogi veliki resursi koriste Amazon S3. Prekidi su zahvatili Trello, Coursera, IFTTT i, što je najneprijatnije, usluge velikih Amazon partnera sa liste S&P 500. Štetu u takvim slučajevima teško je izračunati, ali se radilo o stotinama miliona američkih dolara. Kao što vidite, jedna pogrešna komanda je dovoljna da onemogućite uslugu najveće platforme u oblaku. Ovo nije usamljen slučaj; 16. maja 2019., tokom radova na održavanju, servis Yandex.Cloud
Smrznuto hlađenje
U januaru 2017. godine dogodila se velika nesreća u data centru Dmitrov kompanije Megafon. Tada je temperatura u Podmoskovlju pala na -35 °C, što je dovelo do kvara sistema za hlađenje objekta. Pres služba operatera nije posebno govorila o razlozima incidenta - ruske kompanije izuzetno nerado govore o nesrećama u objektima koje posjeduju; u smislu publiciteta, mi daleko zaostajemo za Zapadom. Društvenim mrežama je kružila verzija o smrzavanju rashladne tečnosti u cijevima položenim duž ulice i curenju etilen glikola. Prema njenim riječima, operativna služba zbog dugih praznika nije uspjela brzo da nabavi 30 tona rashladne tečnosti i izašla je improvizovanim sredstvima, organizujući improvizovano slobodno hlađenje kršeći pravila rada sistema. Jake hladnoće su pogoršale problem - u januaru je Rusiju iznenada zahvatila zima, iako to niko nije očekivao. Kao rezultat toga, osoblje je moralo isključiti napajanje dijela serverskih rekova, zbog čega su neke usluge operatera bile nedostupne dva dana.
Vjerovatno se ovdje može govoriti o vremenskoj anomaliji, ali ovakvi mrazevi nisu nešto neobično za regiju glavnog grada. Temperature zimi u Podmoskovlju mogu pasti na niže nivoe, pa se data centri grade uz očekivanje stabilnog rada na -42°C. Najčešće rashladni sistemi otkazuju po hladnom vremenu zbog nedovoljno visoke koncentracije glikola i viška vode u otopini rashladne tekućine. Postoje i problemi s ugradnjom cijevi ili s pogrešnim proračunima u dizajnu i testiranju sistema, uglavnom povezani sa željom da se uštedi novac. Kao rezultat toga, iz vedra neba se događa ozbiljna nesreća koja je mogla biti spriječena.
Prirodnih katastrofa
Najčešće, grmljavine i/ili uragani ometaju inženjersku infrastrukturu data centra, što dovodi do prekida usluga i/ili fizičkog oštećenja opreme. Incidenti uzrokovani lošim vremenom događaju se prilično često. 2012. godine, uragan Sandy zahvatio je zapadnu obalu Sjedinjenih Država sa obilnim padavinama. Smješten u visokoj zgradi u Donjem Menhetnu, Peer 1 data centar
Otkazala je i pumpa za gorivo, pa je osoblje nekoliko dana ručno dovlačilo dizel do agregata. Herojstvo tima spasilo je data centar od ozbiljne nesreće, ali da li je to zaista bilo potrebno? Živimo na planeti sa atmosferom azota i kiseonika i puno vode. Grmljavine i uragani su ovdje česti (posebno u primorskim područjima). Dizajnerima bi verovatno bilo dobro da uzmu u obzir rizike i izgrade odgovarajući sistem neprekidnog napajanja. Ili barem odaberite prikladniju lokaciju za podatkovni centar od nebodera na otoku.
Sve ostalo
Uptime Institute identifikuje niz incidenata u ovoj kategoriji, među kojima je teško izabrati tipičan. Krađa bakrenih kablova, udaranje automobila u data centre, nosače dalekovoda i trafostanice, požari, rukovaoci bagera koji oštećuju optiku, glodari (pacovi, zečevi, pa čak i vombati, koji su zapravo tobolčari), kao i oni koji vole da vežbaju pucanje na žice - meni je obiman. Nestanak struje može čak uzrokovati
izvor: www.habr.com