D'Haaptursaach fir Accidenter an de Rechenzentren ass d'Dichtung tëscht dem Computer an dem Stull

D'Thema vun grouss Accidenter an modern Daten Zentren stellt Froen, déi am éischten Artikel net geäntwert goufen - mir decidéiert et ze entwéckelen.

D'Haaptursaach fir Accidenter an de Rechenzentren ass d'Dichtung tëscht dem Computer an dem Stull

Laut Statistiken vum Uptime Institut sinn d'Majoritéit vun den Tëschefäll an de Rechenzentren mat Stroumversuergungssystemfehler verbonnen - si stellen 39% vun Tëschefäll aus. Si ginn gefollegt vum mënschleche Faktor, deen nach 24% vun den Accidenter ausmécht. Déi drëtt wichtegst Ursaach (15%) war Echec vun der Klimaanlag System, an op der véierter Plaz (12%) Naturkatastrophen. De Gesamtdeel vun anere Probleemer ass nëmmen 10%. Ouni d'Date vun enger respektéierter Organisatioun a Fro ze stellen, wäerte mir eppes gemeinsam a verschiddenen Accidenter markéieren a probéieren ze verstoen ob se evitéiert kënne ginn. Spoiler: et ass méiglech am meeschte Fäll.

D'Wëssenschaft vu Kontakter

Fir et einfach ze soen, et ginn nëmmen zwee Probleemer mat der Energieversuergung: entweder gëtt et kee Kontakt wou et soll sinn, oder et gëtt Kontakt wou et kee Kontakt soll sinn. Dir kënnt fir eng laang Zäit iwwer d'Zouverlässegkeet vun modernen uninterruptible Energieversuergung Systemer schwätzen, mä si retten Iech net ëmmer. Huelt den héichprofiléierte Fall vum Datenzenter, dee vu British Airways benotzt gëtt, deen vun der Muttergesellschaft International Airlines Group gehéiert. Et ginn zwou sou Eegeschafte bei Heathrow Fluchhafen - Boadicea House a Comet House. An der éischter vun dësen, de 27. Mee 2017, ass en zoufälleg Stroumausfall geschitt, wat zu enger Iwwerlaascht an Ausfall vum UPS-System gefouert huet. Als Resultat gouf e puer vun der IT-Ausrüstung kierperlech beschiedegt, an déi lescht Katastroph huet dräi Deeg gedauert fir ze léisen.

D'Airline huet misse méi wéi dausend Flich annuléieren oder nei plangen, ongeféier 75 Tausend Passagéier konnten net op Zäit fléien - $ 128 Millioune goufen ausginn fir Kompensatioun ze bezuelen, net zielt d'Käschte fir d'Funktionalitéit vun den Datenzenteren ze restauréieren. D'Geschicht vun de Grënn fir de Blackout ass onkloer. Wann Dir d'Resultater vun der interner Enquête gleeft, déi vum International Airlines Group CEO Willie Walsh ugekënnegt gouf, war et wéinst engem Feeler vun Ingenieuren. Wéi och ëmmer, den onënnerbrachbare Stroumversuergungssystem huet esou e Shutdown ze widderstoen - dofir ass et installéiert. Den Datenzenter gouf vu Spezialisten vun der Outsourcingfirma CBRE Managed Services geréiert, sou datt British Airways probéiert huet d'Quantitéit vum Schued duerch e Londoner Geriicht ze recuperéieren.

D'Haaptursaach fir Accidenter an de Rechenzentren ass d'Dichtung tëscht dem Computer an dem Stull

Stroumausfall geschitt an ähnlechen Szenarie: als éischt gëtt et e Blackout wéinst der Schold vum Stroumliwwerer, heiansdo wéinst schlechtem Wieder oder internen Probleemer (inklusiv mënschleche Feeler), an dann kann den onënnerbrachbare Stroumversuergungssystem net mat der Belaaschtung oder enger Kuerz eens ginn. -Begrëff Ënnerbriechung vun der Sinuswelle verursaacht Feeler vu ville Servicer, verursaacht d'Restauratioun vun deenen vill Zäit a Suen dauert. Ass et méiglech esou Accidenter ze vermeiden? ouni Zweiwel. Wann Dir de System richteg designt, sinn och d'Creatoren vu groussen Datenzenter net immun vu Feeler.

Mënschleche Faktor

Wann déi direkt Ursaach vun engem Zwëschefall déi falsch Handlunge vum Datecenterpersonal ass, beaflossen d'Problemer am meeschten (awer net ëmmer) de Softwaredeel vun der IT-Infrastruktur. Esou Accidenter geschéien och a grousse Entreprisen. Am Februar 2017, wéinst engem falsch rekrutéierten Teammember vun der technescher Operatiounsgrupp vun engem vun den Datenzenteren, gouf en Deel vun den Amazon Web Services Serveren ausgeschalt. E Feeler ass geschitt beim Debugging vum Rechnungsprozess fir Amazon Simple Storage Service (S3) Cloud Storage Clienten. En Employé huet probéiert eng Zuel vu virtuelle Serveren ze läschen, déi vum Rechnungssystem benotzt goufen, awer e gréissere Cluster getraff.

D'Haaptursaach fir Accidenter an de Rechenzentren ass d'Dichtung tëscht dem Computer an dem Stull

Als Resultat vun engem Ingenieursfehler goufen Serveren, déi wichteg Amazon Cloud Storage Software Moduler lafen, geläscht. Déi éischt betraff war den Indexéierungssubsystem, deen Informatioun iwwer d'Metadaten an d'Plaz vun all S3 Objeten an der US-EAST-1 amerikanesch Regioun enthält. Den Tëschefall huet och den Ënnersystem beaflosst, deen benotzt gëtt fir Daten ze hosten an de Raum fir d'Späichere ze verwalten. Nodeems d'virtuelle Maschinnen geläscht hunn, hunn dës zwee Subsystemer e komplette Restart erfuerdert, an dunn waren d'Amazon Ingenieuren fir eng Iwwerraschung - fir eng laang Zäit war d'ëffentlech Wolleklagerung net fäeg d'Clientsufroen ze servéieren.

Den Impakt war verbreet, well vill grouss Ressourcen Amazon S3 benotzen. D'Ausbréch betraff Trello, Coursera, IFTTT an, am meeschten désagréabel, d'Servicer vun groussen Amazon Partner aus der Lëscht S&P 500. De Schued an esou Fäll ass schwéier ze berechnen, mä et war an der Géigend vun honnerte vu Millioune US Dollar. Wéi Dir gesitt, ass ee falsche Kommando genuch fir de Service vun der gréisster Cloud Plattform auszeschalten. Dëst ass keen isoléierte Fall; de 16. Mee 2019, während Ënnerhaltsaarbechten, Yandex.Cloud Service geläscht virtuelle Maschinne vu Benotzer an der ru-central1-c Zone déi op d'mannst eemol am SUSPENDED Status waren. D'Clientdaten sinn hei scho beschiedegt ginn, vun deenen e puer irretrievably verluer gaangen sinn. Natierlech sinn d'Leit imperfekt, awer modern Informatiounssécherheetssystemer konnten d'Aktiounen vu privilegiéierte Benotzer scho laang iwwerwaachen ier se d'Befehle ausféieren, déi se aginn hunn. Wann esou Léisungen an Yandex oder Amazon implementéiert ginn, kënnen esou Tëschefäll vermeit ginn.

D'Haaptursaach fir Accidenter an de Rechenzentren ass d'Dichtung tëscht dem Computer an dem Stull

Gefruer Ofkillung

Am Januar 2017 ass e groussen Accident am Dmitrov Datenzenter vun der Megafon Firma geschitt. Duerno ass d'Temperatur an der Moskauer Regioun op -35 °C gefall, wat zum Ausfall vum Killsystem vun der Ariichtung gefouert huet. D'Pressdéngscht vum Bedreiwer huet net besonnesch iwwer d'Grënn fir den Tëschefall geschwat - Russesch Firmen sinn extrem zréckbehalen iwwer Accidenter an den Ariichtungen ze schwätzen, déi se besëtzen; wat d'Publizitéit ugeet, si mir wäit hannert dem Westen. Et war eng Versioun, déi op sozialen Netzwierker zirkuléiert iwwer d'Gefrierung vum Kühlmittel an de Päifen, déi laanscht d'Strooss geluecht sinn, an d'Lecke vun Ethylenglycol. Laut hirem, konnt den Operatiounsdéngscht wéinst laanger Vakanz net séier 30 Tonnen Kältemëttel kréien a koum mat improviséierte Mëttelen eraus, organiséiert improviséierter Fräikillung am Violatioun vun de Regele fir de System ze bedreiwen. Schwéier Keelt huet de Problem verschäerft - am Januar huet de Wanter op eemol op Russland geschloen, obwuel keen et erwaart huet. Als Resultat hunn d'Personal d'Kraaft op en Deel vun de Serverracken missen ausschalten, dofir waren e puer Bedreiwer Servicer fir zwee Deeg net verfügbar.

D'Haaptursaach fir Accidenter an de Rechenzentren ass d'Dichtung tëscht dem Computer an dem Stull

Wahrscheinlech kann een hei vun enger Wiederanomalie schwätzen, mä esou Frascht sinn net ongewéinlech fir d'Haaptstad. Temperaturen am Wanter an der Moskauer Regioun kënnen op méi nidderegen Niveauen falen, sou datt Datenzentere mat der Erwaardung vun enger stabiler Operatioun bei -42 ° C gebaut ginn. Déi meescht Oft falen d'Kältesystemer a kale Wieder wéinst enger net genuch héich Konzentratioun vu Glykolen an iwwerschësseg Waasser an der Kälteléisung. Et ginn och Probleemer mat der Installatioun vu Päifen oder mat Fehlberechnungen am Design an Tester vum System, haaptsächlech verbonne mat dem Wonsch fir Geld ze spueren. Als Resultat kënnt et aus dem Bloen zu engem schwéieren Accident, dee kéint verhënnert ginn.

Naturkatastrophen

Déi meescht Oft stéieren Donnerwiederen an/oder Hurrikanen d'Ingenieursinfrastruktur vun engem Datenzenter, wat zu Service Ënnerbriechungen an/oder kierperleche Schued un Ausrüstung féiert. Tëschefäll duerch schlecht Wieder kommen zimlech dacks op. Am Joer 2012 huet den Hurrikan Sandy iwwer d'Westküst vun den USA mat staarkem Reen gefall. Läit an engem Héichhaus zu Lower Manhattan, de Peer 1 Datacenter verluer extern Energieversuergung, nodeems salzeg Mierwaasser d'Kelleren iwwerschwemmt huet. D'Noutgeneratoren vun der Ariichtung waren um 18. Stack, an hir Brennstoffversuergung war limitéiert - Regelen, déi zu New York no den 9/11 Terrorattacken agefouert goufen, verbidden d'Späichere vu grousse Quantitéite Brennstoff op den ieweschte Stäck.

D'Brennstoffpompel huet och gescheitert, sou datt d'Personal e puer Deeg den Diesel an d'Generatoren mat der Hand zéien. Den Heldentum vun der Equipe huet den Datacenter vun engem schwéieren Accident gerett, awer war et wierklech néideg? Mir liewen op engem Planéit mat enger Stickstoff-Sauerstoffatmosphär a vill Waasser. Donnerwiederen an Hurrikaner sinn hei heefeg (besonnesch a Küstegebidder). D'Designer wäerte méiglecherweis gutt maachen fir d'Risiken ze berücksichtegen an e passenden onënnerbrachbare Stroumversuergungssystem ze bauen. Oder op d'mannst eng méi gëeegent Plaz fir den Rechenzentrum wielen wéi en Héichhaus op enger Insel.

Alles anescht

Uptime Institut identifizéiert eng Vielfalt vun Tëschefäll an dëser Kategorie, ënner deenen et schwéier ass eng typesch ze wielen. Déifstall vu Kupferkabel, Autoen, déi an d'Datenzentren ofstëmmen, Stroumleitungen an Transformator-Ënnerstatiounen, Bränn, Baggerbetreiber, déi Optik schueden, Nager (Ratten, Kanéngercher a souguer Wombats, déi eigentlech Päiperleken sinn), souwéi déi, déi gär op Schéissen üben. Drot - de Menü ass extensiv. Stroumausfall kënne souguer verursaachen klauen Stroum illegal Marihuana Plantatioun. An deene meeschte Fäll ginn spezifesch Leit d'Täter vum Tëschefall, dat heescht datt mir erëm mam mënschleche Faktor ze dinn hunn, wann de Problem en Numm a Familljen huet. Och wann op den éischte Bléck den Accident mat enger technescher Feelfunktioun oder Naturkatastrophen verbonnen ass, kann et vermeit ginn, wann d'Anlag richteg entworf a richteg funktionéiert ass. Déi eenzeg Ausnahmen si Fäll vu kriteschen Schued un der Infrastruktur vun der Datenzenter oder Zerstéierung vu Gebaier a Strukturen duerch eng Naturkatastroph. Dëst si wierklech Force Majeure Ëmstänn, an all aner Probleemer ginn duerch d'Dichtung tëscht dem Computer an dem Stull verursaacht - vläicht ass dëst den onverlässlechsten Deel vun all komplexe System.

Source: will.com

Setzt e Commentaire