Pääasiallinen onnettomuuksien syy konesaleissa on tietokoneen ja tuolin välinen tiiviste

Aihe nykyaikaisten datakeskusten suuronnettomuuksista herättää kysymyksiä, joihin ei vastattu ensimmäisessä artikkelissa - päätimme kehittää sitä.

Pääasiallinen onnettomuuksien syy konesaleissa on tietokoneen ja tuolin välinen tiiviste

Uptime Instituten tilastojen mukaan suurin osa palvelinkeskusten tapauksista liittyy virtalähdejärjestelmän vioihin – niiden osuus on 39 % tapauksista. Niitä seuraa inhimillinen tekijä, joka aiheuttaa vielä 24 prosenttia onnettomuuksista. Kolmanneksi tärkein syy (15 %) oli ilmastointijärjestelmän vika ja neljännellä sijalla (12 %) luonnonkatastrofit. Muiden ongelmien kokonaisosuus on vain 10 %. Arvostetun organisaation tietoja kyseenalaistamatta nostamme esiin jotain yhteistä eri onnettomuuksissa ja yritämme ymmärtää, olisiko ne voitu välttää. Spoileri: se on mahdollista useimmissa tapauksissa.

Kontaktien tiede

Yksinkertaisesti sanottuna virransyötössä on vain kaksi ongelmaa: joko ei ole kosketusta siellä, missä sen pitäisi olla, tai on kosketusta siellä, missä ei pitäisi olla. Voit puhua pitkään nykyaikaisten keskeytymättömien virtalähteiden luotettavuudesta, mutta ne eivät aina pelasta sinua. Otetaan emoyhtiön International Airlines Groupin omistaman British Airwaysin käyttämän datakeskuksen korkean profiilin tapaus. Heathrow'n lentokentän lähellä on kaksi tällaista kiinteistöä - Boadicea House ja Comet House. Näistä ensimmäisessä, 27, tapahtui vahingossa sähkökatkos, joka johti UPS-järjestelmän ylikuormitukseen ja vikaantumiseen. Tämän seurauksena osa IT-laitteista vaurioitui fyysisesti, ja viimeisimmän katastrofin ratkaiseminen kesti kolme päivää.

Lentoyhtiö joutui peruuttamaan tai siirtämään uudelleen yli tuhat lentoa, noin 75 tuhatta matkustajaa ei päässyt lentää ajoissa - 128 miljoonaa dollaria käytettiin korvausten maksamiseen, kun ei oteta huomioon datakeskusten toiminnan palauttamiseen tarvittavia kustannuksia. Sähkökatkon syiden historia on epäselvä. Jos uskot International Airlines Groupin toimitusjohtajan Willie Walshin ilmoittaman sisäisen tutkimuksen tuloksia, se johtui insinöörien virheestä. Katkottoman virransyöttöjärjestelmän piti kuitenkin kestää tällainen sammutus - siksi se asennettiin. Palvelinkeskusta hallinnoivat ulkoistusyrityksen CBRE Managed Services -asiantuntijat, joten British Airways yritti periä vahingon määrän Lontoon tuomioistuimen kautta.

Pääasiallinen onnettomuuksien syy konesaleissa on tietokoneen ja tuolin välinen tiiviste

Sähkökatkoksia esiintyy vastaavissa skenaarioissa: ensin tulee sähkökatkos sähköntoimittajan, joskus huonon sään tai sisäisten ongelmien (mukaan lukien inhimilliset virheet) vuoksi, ja sitten keskeytymätön sähkönsyöttöjärjestelmä ei kestä kuormitusta tai oikosulkua. -siniaallon määräaikainen keskeytys aiheuttaa monissa palveluissa häiriöitä, minkä vuoksi niiden palauttaminen vie paljon aikaa ja rahaa. Onko mahdollista välttää tällaisia ​​onnettomuuksia? Epäilemättä. Jos suunnittelet järjestelmän oikein, suurten datakeskusten luojatkaan eivät ole suojassa virheiltä.

Ihmisen tekijä

Kun tapahtuman välitön syy on konesalin henkilökunnan virheellinen toiminta, ongelmat vaikuttavat useimmiten (mutta ei aina) IT-infrastruktuurin ohjelmistoosaan. Tällaisia ​​onnettomuuksia tapahtuu jopa suurissa yrityksissä. Helmikuussa 2017 osa Amazon Web Services -palvelimista poistettiin käytöstä yhden palvelinkeskuksen teknisen toiminnan ryhmän väärin rekrytoidun tiimin jäsenen vuoksi. Amazon Simple Storage Service (S3) -pilvitallennuspalveluasiakkaiden laskutusprosessin virheenkorjauksessa tapahtui virhe. Työntekijä yritti poistaa useita laskutusjärjestelmän käyttämiä virtuaalisia palvelimia, mutta osui suurempaan klusteriin.

Pääasiallinen onnettomuuksien syy konesaleissa on tietokoneen ja tuolin välinen tiiviste

Insinöörivirheen seurauksena tärkeitä Amazonin pilvitallennusohjelmistomoduuleita käyttävät palvelimet poistettiin. Ensimmäinen vaikutus oli indeksointialijärjestelmä, joka sisältää tiedot kaikkien US-EAST-3-Amerikan alueen S1-objektien metatiedoista ja sijainnista. Tapahtuma vaikutti myös alijärjestelmään, jota käytettiin tietojen isännöimiseen ja tallennustilan hallintaan. Virtuaalikoneiden poistamisen jälkeen nämä kaksi alijärjestelmää vaativat täydellisen uudelleenkäynnistyksen, ja sitten Amazonin insinöörit joutuivat yllättämään - julkinen pilvitallennus ei pitkään aikaan pystynyt palvelemaan asiakkaiden pyyntöjä.

Vaikutus oli laajalle levinnyt, koska monet suuret resurssit käyttävät Amazon S3:a. Katkot vaikuttivat Trelloon, Courseraan, IFTTT:hen ja mikä ikävintä S&P 500 -listalta kuuluvien Amazonin suurten kumppaneiden palveluihin, vahinkoja näissä tapauksissa on vaikea laskea, mutta se oli satojen miljoonien dollarien luokkaa. Kuten näet, yksi väärä komento riittää poistamaan suurimman pilvialustan palvelun. Tämä ei ole yksittäistapaus, vaan 16 huoltotöiden aikana Yandex.Cloud-palvelu poistettu ru-central1-c-vyöhykkeen käyttäjien virtuaalikoneet, jotka olivat vähintään kerran KESKEYTETTY-tilassa. Asiakkaan tiedot ovat jo vaurioituneet täällä, joista osa on menetetty peruuttamattomasti. Tietenkin ihmiset ovat epätäydellisiä, mutta nykyaikaiset tietoturvajärjestelmät ovat jo pitkään pystyneet valvomaan etuoikeutettujen käyttäjien toimia ennen heidän antamiensa komentojen suorittamista. Jos tällaiset ratkaisut otetaan käyttöön Yandexissa tai Amazonissa, tällaiset tapaukset voidaan välttää.

Pääasiallinen onnettomuuksien syy konesaleissa on tietokoneen ja tuolin välinen tiiviste

Jäähdytetty jäähdytys

Tammikuussa 2017 Megafon-yhtiön Dmitrovin datakeskuksessa tapahtui suuri onnettomuus. Sitten lämpötila Moskovan alueella putosi -35 °C:seen, mikä johti laitoksen jäähdytysjärjestelmän vikaantumiseen. Operaattorin lehdistöpalvelu ei erityisesti puhunut tapahtuman syistä - venäläiset yritykset ovat erittäin haluttomia puhumaan omistamissaan tiloissa tapahtuneista onnettomuuksista, julkisuudessa olemme kaukana lännestä. Sosiaalisissa verkostoissa levisi versio jäähdytysnesteen jäätymisestä kadulle lasketuissa putkissa ja etyleeniglykolin vuotamisesta. Hänen mukaansa käyttöpalvelu ei pystynyt saamaan nopeasti 30 tonnia jäähdytysnestettä pitkien lomien vuoksi ja pääsi ulos improvisoiduin keinoin järjestämällä improvisoitua vapaajäähdytystä järjestelmän käyttösääntöjen vastaisesti. Kova kylmä pahensi ongelmaa - tammikuussa talvi iski yhtäkkiä Venäjälle, vaikka kukaan ei odottanut sitä. Tämän seurauksena henkilökunta joutui katkaisemaan virran osasta palvelintelineitä, minkä vuoksi osa operaattoripalveluista oli poissa kahteen päivään.

Pääasiallinen onnettomuuksien syy konesaleissa on tietokoneen ja tuolin välinen tiiviste

Todennäköisesti täällä voidaan puhua sääpoikkeavuudesta, mutta tällaiset pakkaset eivät ole pääkaupunkiseudulla mitään epätavallista. Talvisin lämpötilat Moskovan alueella voivat laskea alemmille tasoille, joten palvelinkeskuksia rakennetaan siten, että odotetaan vakaata toimintaa -42 °C:ssa. Useimmiten jäähdytysjärjestelmät epäonnistuvat kylmällä säällä, koska jäähdytysnesteliuoksessa ei ole riittävästi glykoleja ja ylimääräistä vettä. Myös putkien asennuksessa tai järjestelmän suunnittelussa ja testauksessa on ongelmia, jotka liittyvät pääasiassa haluun säästää rahaa. Tämän seurauksena sattuu yllättäen vakava onnettomuus, joka olisi voitu estää.

Luonnonkatastrofit

Useimmiten ukkosmyrskyt ja/tai hurrikaanit häiritsevät datakeskuksen teknistä infrastruktuuria, mikä johtaa palvelukatkoihin ja/tai laitteiston fyysisiin vaurioihin. Huonon sään aiheuttamia tapauksia sattuu melko usein. Vuonna 2012 hurrikaani Sandy pyyhkäisi Yhdysvaltojen länsirannikon yli runsaiden sateiden myötä. Sijaitsee korkeassa rakennuksessa Lower Manhattanilla, Peer 1 -palvelinkeskuksessa ulkoinen virtalähde katosi, kun suolainen merivesi tulvi kellareihin. Laitoksen hätägeneraattorit sijaitsivat 18. kerroksessa, ja niiden polttoaineen saanti oli rajoitettua – New Yorkissa 9/11 terrori-iskujen jälkeen käyttöönotetut säännöt kieltävät suurten polttoainemäärien varastoinnin ylemmissä kerroksissa.

Myös polttoainepumppu epäonnistui, joten henkilökunta vietti useita päiviä kuljettaen dieseliä generaattoreihin käsin. Tiimin sankaruus pelasti palvelinkeskuksen vakavalta onnettomuudelta, mutta oliko se todella tarpeellista? Elämme planeetalla, jolla on typpi-happi-ilmakehä ja paljon vettä. Ukkosmyrskyt ja hurrikaanit ovat yleisiä täällä (etenkin rannikkoalueilla). Suunnittelijoiden olisi todennäköisesti hyvä harkita asiaan liittyviä riskejä ja rakentaa sopiva keskeytymättömän virtalähdejärjestelmän. Tai ainakin valitse palvelinkeskukselle sopivampi paikka kuin saarella sijaitseva kerrostalo.

Kaikki muu

Uptime Institute tunnistaa useita tähän kategoriaan kuuluvia tapauksia, joista on vaikea valita tyypillistä. Kuparikaapeleiden varkaudet, palvelinkeskuksiin törmäävät autot, voimajohtojen tuet ja muuntaja-asemat, tulipalot, optiikkaa vahingoittavat kaivinkoneen käyttäjät, jyrsijät (rotat, kanit ja jopa vombatit, jotka ovat itse asiassa pussieläimiä) sekä ampumista harrastavat. johdot - valikko on laaja. Sähkökatkot voivat jopa aiheuttaa varastamista sähkö laiton marihuanaviljelmä. Useimmissa tapauksissa tapahtuman syyllisiksi tulevat tietyt henkilöt, eli kyseessä on taas inhimillinen tekijä, kun ongelmalla on etu- ja sukunimi. Vaikka onnettomuus ensi silmäyksellä liittyisi tekniseen vikaan tai luonnonkatastrofeihin, se voidaan välttää, jos laitos on oikein suunniteltu ja sitä käytetään oikein. Ainoat poikkeukset ovat palvelinkeskuksen infrastruktuurin kriittiset vauriot tai rakennusten ja rakenteiden tuhoutuminen luonnonkatastrofin vuoksi. Nämä ovat todella ylivoimaisia ​​esteitä, ja kaikki muut ongelmat johtuvat tietokoneen ja tuolin välisestä tiivisteestä - ehkä tämä on monimutkaisen järjestelmän epäluotettavin osa.

Lähde: will.com

Lisää kommentti