Peamine õnnetuste põhjus andmekeskustes on arvuti ja tooli vaheline tihend

Tänapäevaste andmekeskuste suurõnnetuste teema tekitab küsimusi, millele esimeses artiklis vastust ei leitud – otsustasime selle edasi arendada.

Peamine õnnetuste põhjus andmekeskustes on arvuti ja tooli vaheline tihend

Uptime Institute'i statistika kohaselt on suurem osa andmekeskustes juhtuvatest juhtumitest seotud toitesüsteemi riketega – need moodustavad 39% juhtudest. Neile järgneb inimfaktor, mis moodustab veel 24% õnnetustest. Kolmas põhjus (15%) oli kliimaseadme rike ja neljandal (12%) looduskatastroofid. Muude hädade osakaal kokku on vaid 10%. Ilma lugupeetud organisatsiooni andmetes kahtluse alla seadmata toome välja midagi ühist erinevates õnnetustes ja püüame mõista, kas neid oleks saanud vältida. Spoiler: enamikul juhtudel on see võimalik.

Kontaktide teadus

Lihtsamalt öeldes on toiteallikaga ainult kaks probleemi: kas pole kontakti seal, kus see peaks olema, või on kontakt seal, kus kontakti ei tohiks olla. Kaasaegsete katkematu toitesüsteemide töökindlusest võite rääkida pikka aega, kuid need ei päästa teid alati. Võtkem näiteks British Airwaysi kasutatav andmekeskus, mis kuulub emaettevõttele International Airlines Group. Heathrow lennujaama lähedal on kaks sellist kinnisvara – Boadicea House ja Comet House. Neist esimeses, 27. mail 2017, toimus juhuslik elektrikatkestus, mis tõi kaasa UPS-i süsteemi ülekoormuse ja rikke. Selle tulemusena sai osa IT-seadmeid füüsiliselt kahjustada ning viimase katastroofi lahendamiseks kulus kolm päeva.

Lennufirma pidi tühistama või ümber planeerima üle tuhande lennu, umbes 75 tuhat reisijat ei saanud õigeks ajaks lennata – hüvitise maksmiseks kulus 128 miljonit dollarit, arvestamata andmekeskuste funktsionaalsuse taastamiseks vajalikke kulusid. Elektrikatkestuse põhjuste ajalugu on ebaselge. Kui uskuda International Airlines Groupi tegevjuhi Willie Walshi välja kuulutatud sisejuurdluse tulemusi, oli see tingitud inseneride veast. Katkematu toitesüsteem pidi aga sellisele seiskamisele vastu pidama - sellepärast see paigaldati. Andmekeskust haldasid allhankefirma CBRE Managed Services spetsialistid, mistõttu üritas British Airways Londoni kohtu kaudu kahjusumma sisse nõuda.

Peamine õnnetuste põhjus andmekeskustes on arvuti ja tooli vaheline tihend

Elektrikatkestused tekivad sarnaste stsenaariumide korral: esmalt tekib elektrikatkestus elektritarnija süül, mõnikord halbade ilmastikuolude või sisemiste probleemide tõttu (sh inimlikud vead) ning seejärel ei tule katkematu toitesüsteem koormuse või lühise tõttu toime. -Siinuslaine tähtajaline katkestus põhjustab paljude teenuste tõrkeid, mistõttu nende taastamine võtab palju aega ja raha. Kas selliseid õnnetusi on võimalik vältida? Kahtlemata. Kui süsteem õigesti kujundada, pole vigade eest kaitstud ka suurte andmekeskuste loojad.

Inimtegur

Kui intsidendi vahetuks põhjuseks on andmekeskuse töötajate ebakorrektne tegevus, mõjutavad probleemid kõige sagedamini (kuid mitte alati) IT-taristu tarkvaraosa. Selliseid õnnetusi juhtub isegi suurkorporatsioonides. 2017. aasta veebruaris keelati osa Amazon Web Servicesi serveritest ühe andmekeskuse tehnilise töö rühma valesti värvatud meeskonnaliikme tõttu. Amazon Simple Storage Service (S3) pilvesalvestusteenuse klientide arveldusprotsessi silumisel ilmnes viga. Töötaja üritas kustutada mitmeid arveldussüsteemis kasutatud virtuaalservereid, kuid tabas suuremat klastrit.

Peamine õnnetuste põhjus andmekeskustes on arvuti ja tooli vaheline tihend

Insenerivea tagajärjel kustutati serverid, mis käitasid olulisi Amazoni pilvesalvestustarkvara mooduleid. Esimene mõjutatud oli indekseerimise alamsüsteem, mis sisaldab teavet kõigi US-EAST-3 Ameerika piirkonna S1 objektide metaandmete ja asukoha kohta. Juhtum mõjutas ka alamsüsteemi, mida kasutatakse andmete majutamiseks ja salvestusruumi haldamiseks. Pärast virtuaalmasinate kustutamist nõudsid need kaks alamsüsteemi täielikku taaskäivitamist ja siis ootas Amazoni insenere üllatus – avalik pilvesalvestus ei suutnud pikka aega klientide soove rahuldada.

Mõju oli laialt levinud, kuna paljud suured ressursid kasutavad Amazon S3. Katkestused puudutasid Trellot, Coursera, IFTTT ja mis kõige ebameeldivam S&P 500 nimekirjas olevate Amazoni suuremate partnerite teenuseid.Kahju on sellistel puhkudel raske välja arvutada, kuid see jäi sadade miljonite USA dollarite piiresse. Nagu näete, piisab suurima pilveplatvormi teenuse keelamiseks ühest valest käsust. See ei ole üksikjuhtum, 16. mail 2019 hooldustööde ajal Yandex.Cloud teenus kustutatud tsoonis ru-central1-c olevate kasutajate virtuaalmasinad, mis olid vähemalt korra olekus PEATATUD. Kliendiandmed on siin juba kahjustatud, millest osa läks pöördumatult kaotsi. Muidugi on inimesed ebatäiuslikud, kuid tänapäevased infoturbesüsteemid on juba ammu suutnud jälgida privilegeeritud kasutajate tegevust enne nende sisestatud käskude täitmist. Kui sellised lahendused on Yandexis või Amazonis kasutusele võetud, saab selliseid juhtumeid vältida.

Peamine õnnetuste põhjus andmekeskustes on arvuti ja tooli vaheline tihend

Külmutatud jahutus

2017. aasta jaanuaris juhtus suurõnnetus Megafoni ettevõtte Dmitrovi andmekeskuses. Seejärel langes temperatuur Moskva oblastis –35 °C-ni, mis viis rajatise jahutussüsteemi rikkeni. Operaatori pressiteenistus vahejuhtumi põhjustest eriti ei rääkinud - Venemaa ettevõtted räägivad äärmiselt tõrksalt õnnetustest neile kuuluvates rajatistes, avalikustamise osas jääme läänest kaugele maha. Sotsiaalvõrgustikes levis versioon jahutusvedeliku külmumisest tänava äärde paigaldatud torudes ja etüleenglükooli lekkimisest. Tema sõnul ei õnnestunud talitusel pikkade pühade tõttu kiiresti hankida 30 tonni jahutusvedelikku ning väljus improviseeritud vahenditega, korraldades süsteemi tööreegleid rikkudes improviseeritud vabajahutuse. Tugev külm süvendas probleemi – jaanuaris tabas Venemaad ootamatult talv, kuigi keegi seda ei oodanud. Selle tulemusena pidid töötajad osalt serveririiulitelt voolu välja lülitama, mistõttu osa operaatoriteenuseid ei olnud kaks päeva saadaval.

Peamine õnnetuste põhjus andmekeskustes on arvuti ja tooli vaheline tihend

Tõenäoliselt võib siin rääkida ilmastikuanomaaliast, kuid sellised külmad pole pealinna regiooni jaoks midagi ebatavalist. Talvised temperatuurid võivad Moskva regioonis langeda madalamale tasemele, nii et andmekeskused ehitatakse eeldusel, et –42°C juures töötatakse stabiilselt. Kõige sagedamini rikuvad jahutussüsteemid külma ilmaga glükoolide ebapiisavalt kõrge kontsentratsiooni ja liigse vee tõttu jahutusvedeliku lahuses. Samuti on probleeme torude paigaldamisega või valearvestustega süsteemi projekteerimisel ja testimisel, mis on peamiselt seotud sooviga raha säästa. Selle tulemusena juhtub ootamatult raske õnnetus, mida oleks saanud ära hoida.

Looduskatastroofid

Kõige sagedamini häirivad äikesetormid ja/või orkaanid andmekeskuse inseneritaristut, põhjustades teenuse katkestusi ja/või seadmete füüsilist kahju. Halvast ilmast tingitud intsidente tuleb ette üsna sageli. 2012. aastal pühkis orkaan Sandy tugevate vihmasadudega üle USA lääneranniku. Asub kõrghoones Alam-Manhattanil, Peer 1 andmekeskus kadunud väline toiteallikas, pärast seda, kui soolane merevesi ujutas keldrid üle. Rajatise avariigeneraatorid asusid 18. korrusel ning nende kütusevaru oli piiratud – New Yorgis pärast 9. septembri terrorirünnakuid kehtestatud reeglid keelavad ülemistel korrustel hoida suurtes kogustes kütust.

Samuti ütles üles kütusepump, mistõttu töötajad vedasid mitu päeva käsitsi diislit generaatorite juurde. Meeskonna kangelaslikkus päästis andmekeskuse raskest õnnetusest, kuid kas see oli tõesti vajalik? Me elame planeedil, kus on lämmastiku-hapniku atmosfäär ja palju vett. Äikesetormid ja orkaanid on siin tavalised (eriti rannikualadel). Tõenäoliselt oleks disaineritel hea kaaluda kaasnevaid riske ja ehitada sobiv katkematu toitesüsteem. Või vähemalt valida andmekeskusele sobivam asukoht kui kõrghoone saarel.

Kõik muu

Uptime Institute tuvastab selles kategoorias mitmesuguseid juhtumeid, mille hulgast on raske valida tüüpilist. Vaskkaablite vargused, autode kokkupõrked andmekeskustesse, elektriliinide tugedesse ja trafoalajaamadesse, tulekahjud, optikat kahjustavad ekskavaatorioperaatorid, närilised (rotid, küülikud ja isegi vombatid, mis on tegelikult kukkurloomad), aga ka need, kellele meeldib harjutada laskmist. juhtmed - menüü on ulatuslik . Elektrikatkestused võivad isegi põhjustada varastamine elektri ebaseaduslik marihuaanaistandus. Enamasti saavad juhtunu süüdlasteks konkreetsed inimesed, st tegemist on taas inimfaktoriga, kui probleemil on ees- ja perekonnanimi. Isegi kui esmapilgul on õnnetus seotud tehnilise rikke või loodusõnnetusega, saab seda vältida, kui rajatis on nõuetekohaselt projekteeritud ja õigesti käitatud. Ainsad erandid on andmekeskuse infrastruktuuri kriitilised kahjud või hoonete ja rajatiste hävimine loodusõnnetuse tõttu. Need on tõesti vääramatu jõu asjaolud ja kõik muud probleemid on põhjustatud arvuti ja tooli vahelisest tihendist – võib-olla on see keerulise süsteemi kõige ebausaldusväärsem osa.

Allikas: www.habr.com

Lisa kommentaar