Die hoofoorsaak van ongelukke in datasentrums is die pakking tussen die rekenaar en die stoel

Die onderwerp van groot ongelukke in moderne datasentrums laat vrae ontstaan ​​wat nie in die eerste artikel beantwoord is nie – ons het besluit om dit te ontwikkel.

Die hoofoorsaak van ongelukke in datasentrums is die pakking tussen die rekenaar en die stoel

Volgens statistieke van die Uptime Institute hou die meerderheid voorvalle in datasentrums verband met kragtoevoerstelselfoute—dit is verantwoordelik vir 39% van die voorvalle. Hulle word gevolg deur die menslike faktor, wat verantwoordelik is vir nog 24% van ongelukke. Die derde belangrikste rede (15%) was mislukking van die lugversorgingstelsel, en in die vierde plek (12%) was natuurrampe. Die totale aandeel van ander probleme is slegs 10%. Sonder om die data van 'n gerespekteerde organisasie te bevraagteken, sal ons iets wat algemeen voorkom in verskillende ongelukke uitlig en probeer verstaan ​​of dit vermy kon word. Bederf: dit is moontlik in die meeste gevalle.

Die wetenskap van kontakte

Om dit eenvoudig te stel, is daar net twee probleme met kragtoevoer: óf daar is geen kontak waar dit moet wees nie, óf daar is kontak waar daar nie kontak behoort te wees nie. Jy kan lank praat oor die betroubaarheid van moderne ononderbroke kragtoevoerstelsels, maar dit red jou nie altyd nie. Neem die hoëprofielsaak van die datasentrum wat deur British Airways gebruik word, wat deur die moedermaatskappy International Airlines Group besit word. Daar is twee sulke eiendomme naby Heathrow-lughawe geleë - Boadicea House en Comet House. In die eerste hiervan, op 27 Mei 2017, het 'n toevallige kragonderbreking plaasgevind, wat gelei het tot 'n oorlading en mislukking van die UPS-stelsel. Gevolglik is van die IT-toerusting fisies beskadig, en die jongste ramp het drie dae geneem om op te los.

Die lugredery moes meer as ’n duisend vlugte kanselleer of herskeduleer, sowat 75 duisend passasiers kon nie betyds vlieg nie – $128 miljoen is bestee aan die betaling van vergoeding, nie die koste ingesluit wat nodig is om die funksionaliteit van datasentrums te herstel nie. Die geskiedenis van die redes vir die stroomonderbreking is onduidelik. As jy glo die resultate van die interne ondersoek wat deur Willie Walsh, uitvoerende hoof van International Airlines Group, aangekondig is, was dit weens 'n fout deur ingenieurs. Die ononderbroke kragtoevoerstelsel moes egter so 'n afskakeling weerstaan ​​- dit is hoekom dit geïnstalleer is. Die datasentrum is bestuur deur spesialiste van die uitkontrakteringsmaatskappy CBRE Managed Services, so British Airways het probeer om die bedrag skade deur 'n Londense hof te verhaal.

Die hoofoorsaak van ongelukke in datasentrums is die pakking tussen die rekenaar en die stoel

Kragonderbrekings kom in soortgelyke scenario's voor: eers is daar 'n verduistering as gevolg van die elektrisiteitsverskaffer se fout, soms weens slegte weer of interne probleme (insluitend menslike foute), en dan kan die ononderbroke kragtoevoerstelsel nie die las of 'n kortsluiting hanteer nie. -termyn onderbreking van die sinusgolf veroorsaak mislukkings van baie dienste, wat veroorsaak dat die herstel daarvan baie tyd en geld verg. Is dit moontlik om sulke ongelukke te vermy? Ongetwyfeld. As jy die stelsel korrek ontwerp, is selfs die skeppers van groot datasentrums nie immuun teen foute nie.

Menslike faktor

Wanneer die onmiddellike oorsaak van 'n voorval die verkeerde optrede van datasentrumpersoneel is, raak die probleme meestal (maar nie altyd nie) die sagteware-deel van die IT-infrastruktuur. Sulke ongelukke vind selfs in groot korporasies plaas. In Februarie 2017, as gevolg van 'n verkeerdelik gewerfde spanlid van die tegniese bedryfsgroep van een van die datasentrums, is 'n deel van die Amazon Web Services-bedieners gedeaktiveer. 'n Fout het voorgekom tydens die ontfouting van die faktuurproses vir Amazon Simple Storage Service (S3) wolkbergingkliënte. 'n Werknemer het probeer om 'n aantal virtuele bedieners wat deur die faktureringstelsel gebruik word, uit te vee, maar het 'n groter groep getref.

Die hoofoorsaak van ongelukke in datasentrums is die pakking tussen die rekenaar en die stoel

As gevolg van 'n ingenieursfout is bedieners wat belangrike Amazon-wolkbergingsagtewaremodules gebruik, uitgevee. Die eerste wat geraak is, was die indekseringssubstelsel, wat inligting bevat oor die metadata en ligging van alle S3-voorwerpe in die US-EAST-1 Amerikaanse streek. Die voorval het ook die substelsel beïnvloed wat gebruik word om data te huisves en die beskikbare spasie vir berging te bestuur. Nadat die virtuele masjiene uitgevee is, het hierdie twee substelsels 'n volledige herbegin vereis, en toe was Amazon-ingenieurs in 'n verrassing - vir 'n lang tyd kon die publieke wolkberging nie kliënteversoeke bedien nie.

Die impak was wydverspreid, aangesien baie groot hulpbronne Amazon S3 gebruik. Die onderbrekings het Trello, Coursera, IFTTT en, mees onaangenaam, die dienste van groot Amazon-vennote van die S&P 500-lys geraak. Die skade in sulke gevalle is moeilik om te bereken, maar dit was in die omgewing van honderde miljoene Amerikaanse dollars. Soos u kan sien, is een verkeerde opdrag genoeg om die diens van die grootste wolkplatform te deaktiveer. Dit is nie 'n geïsoleerde geval nie; op 16 Mei 2019, tydens instandhoudingswerk, het die Yandex.Cloud-diens verwyder virtuele masjiene van gebruikers in die ru-central1-c-sone wat ten minste een keer in die OPGESKORSTE status was. Kliëntdata is reeds hier beskadig, waarvan sommige onherstelbaar verlore gegaan het. Natuurlik is mense onvolmaak, maar moderne inligtingsekuriteitstelsels is lank reeds in staat om die optrede van bevoorregte gebruikers te monitor voordat hulle die opdragte wat hulle ingevoer het, uitgevoer word. As sulke oplossings in Yandex of Amazon geïmplementeer word, kan sulke voorvalle vermy word.

Die hoofoorsaak van ongelukke in datasentrums is die pakking tussen die rekenaar en die stoel

Bevrore verkoeling

In Januarie 2017 het 'n groot ongeluk in die Dmitrov-datasentrum van die Megafon-maatskappy plaasgevind. Toe het die temperatuur in die Moskou-streek tot -35 °C gedaal, wat gelei het tot die mislukking van die fasiliteit se verkoelingstelsel. Die operateur se persdiens het nie juis gepraat oor die redes vir die voorval nie - Russiese maatskappye is uiters huiwerig om te praat oor ongelukke by die fasiliteite wat hulle besit; in terme van publisiteit is ons ver agter die Weste. Daar was 'n weergawe wat op sosiale netwerke gesirkuleer het oor die vries van koelmiddel in pype wat langs die straat gelê is en die lekkasie van etileenglikol. Volgens haar was die bedryfsdiens weens lang vakansies nie in staat om vinnig 30 ton koelmiddel te kry nie en het met geïmproviseerde middele uitgekom en geïmproviseerde vryverkoeling georganiseer in stryd met die reëls vir die werking van die stelsel. Erge koue het die probleem vererger – in Januarie het die winter Rusland skielik getref, hoewel niemand dit verwag het nie. Gevolglik moes die personeel krag na 'n deel van die bedienerrakke afskakel, en daarom was sommige operateurdienste vir twee dae nie beskikbaar nie.

Die hoofoorsaak van ongelukke in datasentrums is die pakking tussen die rekenaar en die stoel

Waarskynlik kan ons hier oor 'n weeranomalie praat, maar sulke ryp is nie iets ongewoons vir die hoofstad nie. Temperature in die winter in die Moskou-streek kan tot laer vlakke daal, dus word datasentrums gebou met die verwagting van stabiele werking by -42°C. Meestal misluk verkoelingstelsels in koue weer as gevolg van 'n onvoldoende hoë konsentrasie glikole en oortollige water in die koelmiddeloplossing. Daar is ook probleme met die installering van pype of met verkeerde berekeninge in die ontwerp en toetsing van die stelsel, hoofsaaklik geassosieer met die begeerte om geld te spaar. Gevolglik vind 'n ernstige ongeluk uit die bloute plaas, wat voorkom kon word.

Natuurrampe

Meestal ontwrig donderstorms en/of orkane die ingenieursinfrastruktuur van 'n datasentrum, wat lei tot diensonderbrekings en/of fisiese skade aan toerusting. Voorvalle wat deur slegte weer veroorsaak word, kom redelik gereeld voor. In 2012 het orkaan Sandy oor die Weskus van die Verenigde State gespoel met swaar reënval. Geleë in 'n hoë gebou in Lower Manhattan, die Peer 1-datasentrum eksterne kragtoevoer verloor, nadat sout seewater die kelders oorstroom het. Die fasiliteit se noodopwekkers was op die 18de vloer geleë, en hul brandstofvoorraad was beperk – reëls wat in New York ingestel is ná die 9/11 terreuraanvalle verbied die berging van groot hoeveelhede brandstof op die boonste verdiepings.

Die brandstofpomp het ook onklaar geraak, so die personeel het etlike dae spandeer om diesel met die hand na die kragopwekkers te vervoer. Die span se heldhaftigheid het die datasentrum van 'n ernstige ongeluk gered, maar was dit regtig nodig? Ons leef op 'n planeet met 'n stikstof-suurstof atmosfeer en baie water. Donderstorms en orkane kom hier algemeen voor (veral in kusgebiede). Ontwerpers sal waarskynlik goed doen om die betrokke risiko's te oorweeg en 'n toepaslike ononderbroke kragtoevoerstelsel te bou. Of kies ten minste 'n meer geskikte ligging vir die datasentrum as 'n hoë gebou op 'n eiland.

Alles anders

Uptime Institute identifiseer 'n verskeidenheid voorvalle in hierdie kategorie, waaronder dit moeilik is om 'n tipiese een te kies. Diefstal van koperkabels, motors wat in datasentrums vasval, kraglynstutte en transformatorsubstasies, brande, graafoperateurs wat optika beskadig, knaagdiere (rotte, hase en selfs baarmoeders, wat eintlik buideldiere is), asook diegene wat daarvan hou om te oefen om te skiet op drade - die spyskaart is omvattend. Kragonderbrekings kan selfs veroorsaak steel elektrisiteit onwettige dagga plantasie. In die meeste gevalle word spesifieke mense die skuldiges van die voorval, dit wil sê ons het weer te doen met die menslike faktor, wanneer die probleem 'n naam en van het. Selfs al word die ongeluk met die eerste oogopslag geassosieer met 'n tegniese wanfunksie of natuurrampe, kan dit vermy word mits die fasiliteit behoorlik ontwerp en korrek bedryf word. Die enigste uitsonderings is gevalle van kritieke skade aan die datasentrum-infrastruktuur of vernietiging van geboue en strukture weens 'n natuurramp. Dit is werklik force majeure-omstandighede, en alle ander probleme word veroorsaak deur die pakking tussen die rekenaar en die stoel - miskien is dit die mees onbetroubare deel van enige komplekse stelsel.

Bron: will.com

Voeg 'n opmerking