A causa principale di l'accidenti in i centri di dati hè a gasket trà l'urdinatore è a sedia

U tema di l'accidenti maiò in i centri di dati muderni suscite dumande chì ùn sò micca risposti in u primu articulu - avemu decisu di sviluppà.

A causa principale di l'accidenti in i centri di dati hè a gasket trà l'urdinatore è a sedia

Sicondu statistiche di l'Istitutu Uptime, a maiò parte di l'incidenti in i centri di dati sò ligati à i fallimenti di u sistema di alimentazione - cuntanu u 39% di l'incidenti. Sò seguiti da u fattore umanu, chì cuntene un altru 24% di l'accidenti. U terzu mutivu più impurtante (15%) era fallimentu di u sistema di climatizazione, è in quartu postu (12%) eranu disastri naturali. A parte tutale di altri prublemi hè solu 10%. Senza interrogà i dati di una urganizazione rispettata, metteremu in risaltu qualcosa di cumuni in diversi accidenti è pruvate à capisce s'ellu puderia esse evitata. Spoiler: hè pussibule in a maiò parte di i casi.

A Scienza di i Cuntatti

Per esse simpliciamente, ci sò solu dui prublemi cù l'alimentazione elettrica: o ùn ci hè micca un cuntattu induve deve esse, o ci hè un cuntattu induve ùn deve esse cuntattu. Pudete parlà per un bellu pezzu annantu à l'affidabilità di i moderni sistemi di alimentazione ininterrotta, ma ùn vi salvanu micca sempre. Pigliate u casu d'altu prufilu di u centru di dati utilizatu da British Airways, chì hè pussidutu da a parent company International Airlines Group. Ci sò duie tali proprietà situate vicinu à l'aeroportu di Heathrow - Boadicea House è Comet House. In u primu di questi, u 27 di maghju di u 2017, hè accadutu una mancanza di energia accidintali, chì hà purtatu à una sobrecarga è fallimentu di u sistema UPS. In u risultatu, una parte di l'equipaggiu di l'IT hè stata fisicamente danatu, è l'ultimu disastru hà pigliatu trè ghjorni per risolve.

A compagnia aerea avia da annullà o riprogrammà più di mille voli, circa 75 mila passageri ùn anu pussutu vulà à tempu - $ 128 milioni sò stati spesi per pagà una compensazione, senza cuntà i costi necessarii per restaurà a funziunalità di i centri di dati. A storia di i motivi di u blackout ùn hè micca chjaru. Se crede chì i risultati di l'inchiesta interna annunziata da u CEO di International Airlines Group Willie Walsh, hè stata per un errore di l'ingegneri. In ogni casu, u sistema di alimentazione ininterruttibile hà duvutu sustene un tali chjusu - per quessa hè statu stallatu. U centru di dati hè stata amministrata da specialisti da a cumpagnia di outsourcing CBRE Managed Services, cusì British Airways hà pruvatu à ricuperà a quantità di danni attraversu un tribunale di Londra.

A causa principale di l'accidenti in i centri di dati hè a gasket trà l'urdinatore è a sedia

L'interruzioni di energia si verificanu in scenarii simili: prima ci hè un blackout per culpa di u fornitore di l'electricità, qualchì volta per u malu tempu o per prublemi interni (cumpresi l'errori umani), è dopu u sistema di alimentazione ininterrotta ùn pò micca affruntà a carica o un cortu. -term interruption di l 'onda sinusoidale causa fallimenti di parechji servizii, pruvucannu risturazione di quali pigghia assai tempu è soldi. Hè pussibule di evitari tali accidenti? Senza dubbitu. Se cuncepite u sistema currettamente, ancu i creatori di grandi centri di dati ùn sò micca immune da i sbagli.

Fattore umanu

Quandu a causa immediata di un incidente hè l'azzioni incorrecte di u persunale di u centru di dati, i prublemi più spessu (ma micca sempre) affettanu a parte di u software di l'infrastruttura IT. Tali accidenti sò ancu in grandi corporazioni. In u frivaru di u 2017, per via di un membru di l'equipa reclutatu incorrectamente di u gruppu di l'operazione tecnica di unu di i centri di dati, una parte di i servitori Amazon Web Services hè stata disattivata. Un errore hè accadutu durante a debugging di u prucessu di fatturazione per i clienti di almacenamiento in nuvola di Amazon Simple Storage Service (S3). Un impiigatu hà pruvatu à sguassà una quantità di servitori virtuali utilizati da u sistema di fatturazione, ma hà culpitu un cluster più grande.

A causa principale di l'accidenti in i centri di dati hè a gasket trà l'urdinatore è a sedia

In u risultatu di un errore di l'ingegneria, i servitori chì eseguivanu impurtanti moduli di software di almacenamentu in nuvola di Amazon sò stati eliminati. U primu affettatu era u subsistema di indexazione, chì cuntene infurmazioni nantu à i metadati è u locu di tutti l'uggetti S3 in a regione americana US-EAST-1. L'incidentu hà ancu affettatu u subsistema utilizatu per ospitu dati è gestisce u spaziu dispunibule per u almacenamentu. Dopu avè sguassatu e macchine virtuali, sti dui sottosistemi necessitavanu un riavviu cumpletu, è allora l'ingegneri di Amazon eranu in una sorpresa - per un bellu pezzu, l'almacenamiento in nuvola publica ùn era micca capaci di serviziu à e dumande di i clienti.

L'impattu era generalizatu, cum'è assai risorse grandi utilizanu Amazon S3. L'outages affettanu Trello, Coursera, IFTTT è, più dispiacevule, i servizii di i principali partenarii di Amazon da a lista S & P 500. U dannu in tali casi hè difficiule di calculà, ma era in a regione di cintunari di milioni di dollari americani. Comu pudete vede, un cumandamentu sbagliatu hè abbastanza per disattivà u serviziu di a più grande piattaforma di nuvola. Questu ùn hè micca un casu isolatu; u 16 di maghju 2019, durante u travagliu di mantenimentu, u serviziu Yandex.Cloud sguassatu macchine virtuale di l'utilizatori in a zona ru-central1-c chì eranu in u statu SUSPENDED almenu una volta. I dati di u cliente sò digià stati dannati quì, alcuni di i quali sò stati persu irrecuperablemente. Di sicuru, a ghjente hè imperfetta, ma i sistemi di sicurezza di l'informazioni muderni sò longu capaci di monitorà l'azzioni di l'utilizatori privilegiati prima di eseguisce i cumandamenti chì anu intrutu. Se tali soluzioni sò implementate in Yandex o Amazon, tali incidenti ponu esse evitati.

A causa principale di l'accidenti in i centri di dati hè a gasket trà l'urdinatore è a sedia

Raffreddamentu congelatu

In ghjennaghju 2017, un accidente maiò hè accadutu in u centru di dati Dmitrov di a cumpagnia Megafon. Allora a temperatura in a regione di Mosca hè cascata à -35 ° C, chì hà purtatu à u fallimentu di u sistema di rinfrescante di a facilità. U serviziu di stampa di l'operatore ùn hà micca particularmente parlatu di i motivi di l'incidentu - l'imprese russi sò estremamente riluttanti à parlà d'accidenti in e strutture chì pussedenu; in termini di publicità, simu assai luntanu da l'Occidenti. Ci era una versione chì circulava nantu à e rete soziale nantu à a congelazione di u refrigerante in i tubi posti longu a strada è a fuga di etilene glycol. Sicondu ella, u serviziu di u funziunamentu ùn era micca capaci di ottene rapidamente 30 tunnellate di refrigerante per via di e vacanze longu è esce cù i mezi improvisati, urganizà un free-cooling improvisatu in violazione di e regule per u funziunamentu di u sistema. U friddu severu hà aggravatu u prublema - in ghjennaghju, l'inguernu hà colpu di colpu in Russia, ancu s'ellu nimu l'aspittava. In u risultatu, u persunale hà avutu disattivà u putere à una parte di i rack di u servitore, chì hè per quessa chì certi servizii di l'operatore ùn sò micca dispunibili per dui ghjorni.

A causa principale di l'accidenti in i centri di dati hè a gasket trà l'urdinatore è a sedia

Probabilmente, pudemu parlà di una anomalia climatica quì, ma tali ghjàllichi ùn sò micca qualcosa inusual per a regione di a capitale. Temperature in l'inguernu in a regione di Mosca pò falà à livelli più bassi, cusì i centri di dati sò custruiti cù l'aspettazione di un funziunamentu stabile à -42 ° C. A maiò spessu, i sistemi di rinfrescante fallenu in u clima fretu per via di una cuncentrazione insufficiente di glicoli è l'acqua eccessiva in a suluzione di refrigerante. Ci hè ancu prublemi cù a stallazione di pipi o cù miscalculations in u disignu è a prova di u sistema, principarmenti assuciati cù u desideriu di salvà soldi. In u risultatu, un accidentu seriu si faci fora di u turchinu, chì puderia esse impeditu.

Disastri naturali

A maiò spessu, e tempeste è / o uragani disturbanu l'infrastruttura di l'ingegneria di un centru di dati, purtendu à interruzioni di serviziu è / o danni fisichi à l'equipaggiu. Incidenti causati da u malu tempu si sò abbastanza spessu. In u 2012, l'uraganu Sandy hà spazzatu a costa occidentale di i Stati Uniti cù forti precipitazioni. Situatu in un edifiziu altu in Lower Manhattan, u centru di dati Peer 1 persu l'alimentazione esterna, dopu chì l'acqua di mare salata hà inundatu i sotano. I generatori d'urgenza di l'installazione sò stati situati à u 18u pianu, è u so suministru di carburante era limitatu - e regule introdutte in New York dopu l'attacchi terroristi di l'9 di settembre pruibiscenu l'almacenamiento di grande quantità di carburante in i piani superiori.

A pompa di carburante hà ancu fallutu, cusì u persunale hà passatu parechji ghjorni à trasportà u diesel à i generatori cù a manu. L'eroisimu di a squadra hà salvatu u centru di dati da un accidentu seriu, ma era veramente necessariu? Vivemu nantu à un pianeta cù una atmosfera di nitrogenu-ossigenu è assai acqua. I timpeste è l'uragani sò cumuni quì (in particulare in i zoni custieri). I diseggiani prubabilmente farianu bè per cunsiderà i risichi implicati è custruiscenu un sistema di alimentazione senza interruzzione adattatu. O, almenu, sceglite un locu più adattatu per u centru di dati chè un altu in una isula.

Tuttu u restu

Uptime Institute identifica una varietà di incidenti in questa categuria, trà quale hè difficiule di sceglie un tipu tipicu. Furtu di cavi di rame, vitture chì si scontranu in centri di dati, supporti di linee elettriche è sottostazioni di trasformatori, incendi, operatori di escavatori chì dannu l'ottica, roditori (ratti, cunigli è ancu wombats, chì sò in realtà marsupiali), è ancu quelli chì piacenu à praticà u tiru fili - u menu hè largu. I fallimenti di energia pò ancu causà arrubà elettricità piantazione illegale di marijuana. In a maiò parte di i casi, e persone specifiche diventanu i culpiti di l'incidentu, vale à dì chì simu di novu trattà cù u fattore umanu, quandu u prublema hà un nome è un cognome. Ancu s'è à u primu sguardu l'accidentu hè assuciatu cù un malfunzionamentu tecnicu o disastri naturali, pò esse evitata, basta chì a facilità hè cuncepita è operata currettamente. L'unicu eccezzioni sò casi di dannu criticu à l'infrastruttura di u centru di dati o di distruzzioni di edifici è strutture per un disastru naturali. Quessi sò veramente circustanze di forza maiò, è tutti l'altri prublemi sò causati da a gasket trà l'urdinatore è a sedia - forsi questu hè a parte più inaffidabile di qualsiasi sistema cumplessu.

Source: www.habr.com

Add a comment