Incidenti gravi nei data center: cause e conseguenze

I moderni data center sono affidabili, ma di tanto in tanto le apparecchiature si guastano. In questo breve articolo abbiamo raccolto gli incidenti più significativi del 2018.

Incidenti gravi nei data center: cause e conseguenze

Cresce l’influenza delle tecnologie digitali sull’economia, aumenta il volume delle informazioni elaborate, si costruiscono nuove strutture, e questo è un bene finché tutto funziona. Sfortunatamente, anche l’impatto economico dei guasti dei data center è aumentato da quando le persone hanno iniziato a ospitare infrastrutture IT business-critical come inevitabile conseguenza della digitalizzazione. Pubblichiamo una piccola selezione degli incidenti più importanti accaduti in diversi paesi lo scorso anno.

Stati Uniti

Questo paese è un leader riconosciuto nel campo della costruzione di data center. Gli Stati Uniti hanno il maggior numero di grandi data center commerciali e aziendali che servono servizi globali, quindi le conseguenze degli incidenti sono più significative. All'inizio di marzo, quattro strutture Equinix hanno subito interruzioni di corrente a causa di un potente ciclone. Lo spazio era utilizzato per apparecchiature Amazon Web Services (AWS); l'incidente ha portato all'indisponibilità di molti servizi popolari: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio e mCapital One, nonché l'assistente virtuale Amazon Alexa, sono stati colpiti.

A settembre, anomalie meteorologiche hanno colpito i data center Microsoft in Texas, poi, a causa di un temporale, il sistema di alimentazione elettrica dell'intera regione è stato interrotto e nel data center che è passato all'alimentazione dal gruppo elettrogeno diesel, non si sa perché il raffreddamento è stato disattivato. Ci sono voluti diversi giorni per eliminare le conseguenze dell'incidente e, sebbene grazie al bilanciamento del carico, questo guasto non sia diventato critico, gli utenti di tutto il mondo hanno notato un leggero rallentamento nel funzionamento dei servizi cloud Microsoft.

Russia

L’incidente più grave è avvenuto il 20 agosto in uno dei data center di Rostelecom. Per questo motivo, i server del Registro immobiliare dello Stato unificato si sono fermati per 66 ore e pertanto hanno dovuto essere trasferiti su un sito di backup. Rosreestr è riuscita a ripristinare l'elaborazione delle richieste ricevute attraverso tutti i canali solo il 3 settembre: l'organizzazione governativa sta cercando di recuperare una grossa somma da Rostelecom per aver violato l'accordo sul livello di servizio.

Il 16 febbraio, a causa di problemi nelle reti di Lenenergo, è stato attivato il sistema di alimentazione di backup nel data center di Xelnet (San Pietroburgo). Un'interruzione a breve termine dell'onda sinusoidale ha portato a interruzioni nel funzionamento di molti servizi: in particolare, è stato colpito il grande fornitore di servizi cloud 1cloud, ma il problema più evidente per il pubblico Internet russo è stata l'impossibilità di accedere al sito di social networking VKontakte . La cosa più interessante è che ci sono volute circa 12 ore per eliminare completamente le conseguenze di un'interruzione di corrente a breve termine.

UE

Nel 2018 si sono registrati diversi incidenti gravi nell’UE. A marzo si è verificato un guasto nel data center della compagnia aerea KLM: l'alimentazione elettrica è stata interrotta per 10 minuti e la potenza dei gruppi elettrogeni diesel non era sufficiente per far funzionare le apparecchiature. Alcuni server sono andati in tilt e la compagnia aerea ha dovuto cancellare o riprogrammare diverse dozzine di voli.

Questo non è l'unico incidente legato ai viaggi aerei: già ad aprile si è verificato un guasto nel sistema di alimentazione del data center Eurocontrol. L'organizzazione controlla il movimento degli aerei nell'Unione Europea e, mentre gli specialisti hanno impiegato 5 ore per eliminare le conseguenze dell'incidente, i passeggeri hanno dovuto nuovamente sopportare ritardi e voli riprogrammati.

Problemi molto seri sorgono a causa degli incidenti nei data center che servono il settore finanziario. Il costo delle interruzioni delle transazioni qui è generalmente elevato e il livello di affidabilità delle strutture è adeguato, ma ciò non impedisce gli incidenti. Il 18 aprile, la borsa nordica NASDAQ (Helsinki, Finlandia) non ha potuto effettuare negoziazioni in tutto il Nord Europa durante il giorno a causa dell'attivazione non autorizzata di un sistema antincendio a gas nel data center commerciale DigiPlex, che è stato improvvisamente diseccitato.

Il 7 giugno, le interruzioni dei data center hanno costretto la Borsa di Londra (LSE) a ritardare l’inizio delle negoziazioni di un’ora. Inoltre, nel mese di giugno, in Europa, a causa di un guasto in un data center, i servizi del sistema di pagamento internazionale VISA sono stati disabilitati per l'intera giornata, e i dettagli dell'incidente non sono mai stati resi noti.

Giappone

Nell’estate del 2018, si è verificato un incendio nei piani sotterranei di un data center di Amazon in costruzione in un sobborgo di Tokyo, uccidendo 5 lavoratori e ferendone almeno 50. L’incendio ha danneggiato circa 5000 m2 della struttura. L'indagine ha dimostrato che la causa dell'incendio è stato un errore umano: a causa di una manipolazione imprudente delle torce ad acetilene, l'isolamento ha preso fuoco.

Ragioni per i fallimenti

L’elenco degli incidenti sopra riportato è lungi dall’essere completo: a causa degli incidenti nei data center, i clienti delle banche e degli operatori di telecomunicazioni soffrono, i servizi dei fornitori di servizi cloud vanno offline e persino il lavoro dei servizi di emergenza viene interrotto. Una piccola interruzione del servizio può portare a gravi perdite e, secondo l’Uptime Institute, la maggior parte delle interruzioni (39%) sono legate al sistema elettrico. Al secondo posto (24%) c'è il fattore umano, al terzo (15%) il sistema di climatizzazione. Solo il 12% degli incidenti nei data center è attribuibile a fenomeni naturali e solo il 10% di essi si verifica per ragioni diverse da quelle elencate.

Nonostante i rigorosi standard di affidabilità e sicurezza, nessuna struttura è immune da incidenti. La maggior parte di essi si verifica a causa di interruzioni di corrente o errori umani. I proprietari di data center e sale server dovrebbero innanzitutto prestare attenzione a questi due fattori e i clienti dovrebbero capire: anche i leader di mercato non possono garantire un'affidabilità assoluta. Se le apparecchiature o un servizio cloud servono processi aziendali critici, dovresti pensare a un sito di backup.

Fonte foto: telecombloger.ru

Fonte: habr.com

Aggiungi un commento