La principale causa di incidenti nei data center è la guarnizione tra il computer e la sedia

Il tema degli incidenti gravi nei moderni data center solleva domande a cui non è stata data risposta nel primo articolo: abbiamo deciso di svilupparlo.

La principale causa di incidenti nei data center è la guarnizione tra il computer e la sedia

Secondo le statistiche dell’Uptime Institute, la maggior parte degli incidenti nei data center sono legati a guasti del sistema di alimentazione: rappresentano il 39% degli incidenti. Segue il fattore umano, che rappresenta un altro 24% degli incidenti. Il terzo motivo più importante (15%) è stato il guasto dell'impianto di climatizzazione, mentre al quarto posto (12%) i disastri naturali. La quota totale degli altri problemi è solo del 10%. Senza mettere in discussione i dati di un'organizzazione rispettata, evidenzieremo qualcosa di comune nei diversi incidenti e cercheremo di capire se avrebbero potuto essere evitati. Spoiler: è possibile nella maggior parte dei casi.

La scienza dei contatti

Per dirla semplicemente, ci sono solo due problemi con l'alimentazione: o non c'è contatto dove dovrebbe essere, oppure c'è contatto dove non dovrebbe esserci contatto. Puoi parlare a lungo dell'affidabilità dei moderni sistemi di continuità, ma non sempre ti salvano. Prendiamo il caso di alto profilo del data center utilizzato da British Airways, di proprietà della società madre International Airlines Group. Ci sono due di questi immobili situati vicino all'aeroporto di Heathrow: Boadicea House e Comet House. Nel primo di questi, il 27 maggio 2017, si è verificata un'interruzione accidentale della corrente elettrica, che ha portato ad un sovraccarico e al guasto del sistema UPS. Di conseguenza, alcune apparecchiature IT sono state danneggiate fisicamente e ci sono voluti tre giorni per risolvere l'ultimo disastro.

La compagnia aerea ha dovuto cancellare o riprogrammare più di mille voli, circa 75mila passeggeri non sono riusciti a volare in tempo: sono stati spesi 128 milioni di dollari per risarcire, senza contare i costi necessari per ripristinare la funzionalità dei data center. La storia delle ragioni del blackout non è chiara. Se si crede ai risultati dell'indagine interna annunciati dal CEO del gruppo International Airlines Willie Walsh, ciò è dovuto ad un errore degli ingegneri. Tuttavia, il sistema di alimentazione senza interruzioni doveva resistere a tale arresto: ecco perché è stato installato. Il data center era gestito da specialisti della società di outsourcing CBRE Managed Services, quindi British Airways ha cercato di risarcire l'importo del danno tramite un tribunale di Londra.

La principale causa di incidenti nei data center è la guarnizione tra il computer e la sedia

Le interruzioni di corrente si verificano in scenari simili: prima si verifica un blackout per colpa del fornitore di energia elettrica, a volte per cattive condizioni atmosferiche o problemi interni (compresi errori umani), e poi il sistema di continuità del gruppo di continuità non può far fronte al carico o un breve L'interruzione a lungo termine dell'onda sinusoidale provoca guasti a molti servizi, il cui ripristino richiede molto tempo e denaro. È possibile evitare tali incidenti? Indubbiamente. Se si progetta correttamente il sistema, anche i creatori di grandi data center non sono immuni da errori.

Fattore umano

Quando la causa immediata di un incidente sono le azioni errate del personale del data center, i problemi molto spesso (ma non sempre) riguardano la parte software dell'infrastruttura IT. Tali incidenti si verificano anche nelle grandi aziende. Nel febbraio 2017, a causa di un membro del team erroneamente reclutato nel gruppo operativo tecnico di uno dei data center, una parte dei server di Amazon Web Services è stata disabilitata. Si è verificato un errore durante il debug del processo di fatturazione per i clienti di archiviazione nel cloud Amazon Simple Storage Service (S3). Un dipendente ha tentato di eliminare una serie di server virtuali utilizzati dal sistema di fatturazione, ma si è imbattuto in un cluster più grande.

La principale causa di incidenti nei data center è la guarnizione tra il computer e la sedia

A causa di un errore del tecnico, i server che eseguivano importanti moduli software di archiviazione cloud di Amazon sono stati eliminati. Il primo ad essere interessato è stato il sottosistema di indicizzazione, che contiene informazioni sui metadati e sulla posizione di tutti gli oggetti S3 nella regione americana US-EAST-1. L'incidente ha interessato anche il sottosistema utilizzato per ospitare i dati e gestire lo spazio disponibile per l'archiviazione. Dopo aver eliminato le macchine virtuali, questi due sottosistemi hanno richiesto un riavvio completo e poi gli ingegneri di Amazon hanno avuto una sorpresa: per molto tempo il cloud pubblico non è stato in grado di soddisfare le richieste dei clienti.

L'impatto è stato ampio, poiché molte grandi risorse utilizzano Amazon S3. Le interruzioni hanno colpito Trello, Coursera, IFTTT e, cosa più spiacevole, i servizi dei principali partner Amazon dell'elenco S&P 500. In questi casi il danno è difficile da calcolare, ma ammonta a centinaia di milioni di dollari. Come puoi vedere, basta un comando sbagliato per disabilitare il servizio della più grande piattaforma cloud. Non si tratta di un caso isolato; il 16 maggio 2019, durante lavori di manutenzione, il servizio Yandex.Cloud soppresso macchine virtuali degli utenti nella zona ru-central1-c che si trovavano nello stato SOSPESO almeno una volta. Qui i dati dei clienti sono già stati danneggiati, alcuni dei quali sono andati irrimediabilmente persi. Naturalmente, le persone sono imperfette, ma i moderni sistemi di sicurezza informatica sono da tempo in grado di monitorare le azioni degli utenti privilegiati prima di eseguire i comandi da loro immessi. Se tali soluzioni vengono implementate in Yandex o Amazon, tali incidenti possono essere evitati.

La principale causa di incidenti nei data center è la guarnizione tra il computer e la sedia

Raffreddamento congelato

Nel gennaio 2017 si è verificato un grave incidente nel data center Dmitrov dell'azienda Megafon. Successivamente la temperatura nella regione di Mosca è scesa a -35°C, provocando il guasto del sistema di raffreddamento dell’impianto. Il servizio stampa dell'operatore non ha parlato particolarmente delle ragioni dell'incidente: le aziende russe sono estremamente riluttanti a parlare di incidenti nelle strutture di loro proprietà, in termini di pubblicità siamo molto indietro rispetto all'Occidente. Sui social network circolava una versione sul congelamento del liquido di raffreddamento nei tubi posati lungo la strada e sulla perdita di glicole etilenico. Secondo lei, il servizio operativo non è riuscito a procurarsi rapidamente 30 tonnellate di liquido refrigerante a causa delle lunghe vacanze ed è uscito con mezzi improvvisati, organizzando un freecooling improvvisato in violazione delle regole di funzionamento del sistema. Il forte freddo ha aggravato il problema: a gennaio l'inverno ha improvvisamente colpito la Russia, anche se nessuno se lo aspettava. Di conseguenza, il personale ha dovuto interrompere l'alimentazione di una parte dei rack dei server, motivo per cui alcuni servizi dell'operatore non sono rimasti disponibili per due giorni.

La principale causa di incidenti nei data center è la guarnizione tra il computer e la sedia

Probabilmente qui si può parlare di un'anomalia meteorologica, ma tali gelate non sono qualcosa di insolito per la regione della capitale. Le temperature in inverno nella regione di Mosca possono scendere a livelli più bassi, quindi i data center vengono costruiti con l'aspettativa di un funzionamento stabile a -42°C. Molto spesso, i sistemi di raffreddamento si guastano quando fa freddo a causa di una concentrazione non sufficientemente elevata di glicoli e di acqua in eccesso nella soluzione di raffreddamento. Ci sono anche problemi con l'installazione dei tubi o con errori di calcolo nella progettazione e nel collaudo del sistema, principalmente legati al desiderio di risparmiare denaro. Di conseguenza, all'improvviso si verifica un grave incidente che avrebbe potuto essere evitato.

Disastri naturali

Molto spesso, temporali e/o uragani interrompono l'infrastruttura tecnica di un data center, causando interruzioni del servizio e/o danni fisici alle apparecchiature. Gli incidenti causati dal maltempo si verificano abbastanza spesso. Nel 2012, l’uragano Sandy ha colpito la costa occidentale degli Stati Uniti con forti piogge. Situato in un grattacielo a Lower Manhattan, il data center Peer 1 perdita di alimentazione esterna, dopo che l'acqua salata del mare ha allagato gli scantinati. I generatori di emergenza della struttura erano situati al 18° piano e la loro fornitura di carburante era limitata: le regole introdotte a New York dopo gli attacchi terroristici dell'9 settembre vietano di immagazzinare grandi quantità di carburante ai piani superiori.

Anche la pompa del carburante si è guastata, quindi il personale ha trascorso diversi giorni a trasportare manualmente il diesel ai generatori. L'eroismo del team ha salvato il data center da un grave incidente, ma era davvero necessario? Viviamo su un pianeta con un'atmosfera di azoto-ossigeno e molta acqua. Qui sono comuni temporali e uragani (soprattutto nelle zone costiere). I progettisti probabilmente farebbero bene a considerare i rischi connessi e a costruire un adeguato sistema di continuità. O almeno scegliere una posizione più adatta per il data center rispetto a un grattacielo su un'isola.

Tutto il resto

Uptime Institute identifica in questa categoria una serie di incidenti, tra i quali è difficile sceglierne uno tipico. Furti di cavi di rame, automobili che si schiantano contro data center, tralicci di linee elettriche e sottostazioni di trasformazione, incendi, operatori di escavatori che danneggiano ottiche, roditori (ratti, conigli e persino vombati, che in realtà sono marsupiali), così come coloro che amano esercitarsi a sparare fili: il menu è ampio. Le interruzioni di corrente possono anche causare rubare piantagione illegale di marijuana elettrica. Nella maggior parte dei casi, i colpevoli dell'incidente diventano persone specifiche, ad es. si tratta ancora una volta del fattore umano, quando il problema ha un nome e un cognome. Anche se a prima vista l'incidente è associato a un malfunzionamento tecnico o a una catastrofe naturale, può essere evitato a condizione che l'impianto sia progettato e gestito correttamente. Le uniche eccezioni sono i casi di danni critici all'infrastruttura del data center o la distruzione di edifici e strutture a causa di una catastrofe naturale. Queste sono veramente circostanze di forza maggiore e tutti gli altri problemi sono causati dalla guarnizione tra il computer e la sedia: forse questa è la parte più inaffidabile di qualsiasi sistema complesso.

Fonte: habr.com

Aggiungi un commento