Μεγάλα ατυχήματα σε κέντρα δεδομένων: αιτίες και συνέπειες

Τα σύγχρονα κέντρα δεδομένων είναι αξιόπιστα, αλλά κάθε εξοπλισμός χαλάει από καιρό σε καιρό. Σε αυτό το σύντομο άρθρο συλλέξαμε τα πιο σημαντικά περιστατικά του 2018.

Μεγάλα ατυχήματα σε κέντρα δεδομένων: αιτίες και συνέπειες

Η επιρροή των ψηφιακών τεχνολογιών στην οικονομία αυξάνεται, ο όγκος των πληροφοριών που υποβάλλονται σε επεξεργασία αυξάνεται, νέες εγκαταστάσεις κατασκευάζονται και αυτό είναι καλό εφόσον όλα λειτουργούν. Δυστυχώς, ο οικονομικός αντίκτυπος των αστοχιών των κέντρων δεδομένων έχει επίσης αυξηθεί από τότε που οι άνθρωποι άρχισαν να φιλοξενούν κρίσιμες για τις επιχειρήσεις υποδομές πληροφορικής ως αναπόφευκτη συνέπεια της ψηφιοποίησης. Δημοσιεύουμε μια μικρή επιλογή από τα πιο αξιοσημείωτα ατυχήματα που συνέβησαν σε διάφορες χώρες πέρυσι.

ΗΠΑ

Αυτή η χώρα είναι αναγνωρισμένος ηγέτης στον τομέα της κατασκευής κέντρων δεδομένων. Οι Ηνωμένες Πολιτείες διαθέτουν τον μεγαλύτερο αριθμό μεγάλων εμπορικών και εταιρικών κέντρων δεδομένων που εξυπηρετούν παγκόσμιες υπηρεσίες, επομένως οι συνέπειες των περιστατικών εκεί είναι πιο σημαντικές. Στις αρχές Μαρτίου, τέσσερις εγκαταστάσεις της Equinix παρουσίασαν διακοπές ρεύματος λόγω ενός ισχυρού κυκλώνα. Ο χώρος χρησιμοποιήθηκε για εξοπλισμό Amazon Web Services (AWS)· το ατύχημα οδήγησε στη μη διαθεσιμότητα πολλών δημοφιλών υπηρεσιών: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio και mCapital One, καθώς και του εικονικού βοηθού Amazon Alexa, επηρεάστηκαν.

Τον Σεπτέμβριο, οι καιρικές ανωμαλίες έπληξαν τα κέντρα δεδομένων της Microsoft που βρίσκονται στο Τέξας. Στη συνέχεια, λόγω καταιγίδας, το σύστημα τροφοδοσίας ολόκληρης της περιοχής διαταράχθηκε και στο κέντρο δεδομένων που τέθηκε σε ισχύ από το σετ γεννήτριας ντίζελ, δεν είναι γνωστό γιατί η ψύξη απενεργοποιήθηκε. Χρειάστηκαν αρκετές ημέρες για την εξάλειψη των συνεπειών του ατυχήματος και παρόλο που, χάρη στην εξισορρόπηση φορτίου, αυτή η αποτυχία δεν έγινε κρίσιμη, παρατηρήθηκε μια μικρή επιβράδυνση στη λειτουργία των υπηρεσιών cloud της Microsoft από χρήστες σε όλο τον κόσμο.

Ρωσία

Το πιο σοβαρό ατύχημα σημειώθηκε στις 20 Αυγούστου σε ένα από τα κέντρα δεδομένων της Rostelecom. Εξαιτίας αυτού, οι διακομιστές του Ενιαίου Κρατικού Μητρώου Ακίνητης Περιουσίας σταμάτησαν για 66 ώρες και ως εκ τούτου έπρεπε να μεταφερθούν σε έναν εφεδρικό ιστότοπο. Η Rosreestr μπόρεσε να αποκαταστήσει την επεξεργασία των αιτήσεων που ελήφθησαν μέσω όλων των καναλιών μόνο στις 3 Σεπτεμβρίου - ο κυβερνητικός οργανισμός προσπαθεί να ανακτήσει ένα μεγάλο ποσό από τη Rostelecom για παραβίαση της συμφωνίας επιπέδου υπηρεσίας.

Στις 16 Φεβρουαρίου, λόγω προβλημάτων στα δίκτυα της Lenenergo, ενεργοποιήθηκε το εφεδρικό σύστημα τροφοδοσίας στο κέντρο δεδομένων του Xelnet (Αγία Πετρούπολη). Μια βραχυπρόθεσμη διακοπή του ημιτονοειδούς κύματος οδήγησε σε διακοπές στη λειτουργία πολλών υπηρεσιών: συγκεκριμένα, επηρεάστηκε ο μεγάλος πάροχος cloud 1cloud, αλλά το πιο αξιοσημείωτο πρόβλημα για το ρωσικό κοινό του Διαδικτύου ήταν η αδυναμία πρόσβασης στον ιστότοπο κοινωνικής δικτύωσης VKontakte . Το πιο ενδιαφέρον είναι ότι χρειάστηκαν περίπου 12 ώρες για να εξαλειφθούν πλήρως οι συνέπειες μιας βραχυπρόθεσμης διακοπής ρεύματος.

Η Ευρωπαϊκή Ένωση

Αρκετά σοβαρά περιστατικά καταγράφηκαν στην ΕΕ το 2018. Τον Μάρτιο, σημειώθηκε βλάβη στο κέντρο δεδομένων της αεροπορικής εταιρείας KLM: η παροχή ρεύματος διακόπηκε για 10 λεπτά και η ισχύς των σετ γεννητριών ντίζελ ήταν ανεπαρκής για τη λειτουργία του εξοπλισμού. Κάποιοι διακομιστές διακόπηκαν και η αεροπορική εταιρεία χρειάστηκε να ακυρώσει ή να επαναπρογραμματίσει αρκετές δεκάδες πτήσεις.

Αυτό δεν είναι το μόνο περιστατικό που σχετίζεται με αεροπορικά ταξίδια - ήδη τον Απρίλιο, σημειώθηκε βλάβη στο σύστημα τροφοδοσίας του κέντρου δεδομένων Eurocontrol. Ο οργανισμός ελέγχει την κίνηση των αεροσκαφών στην Ευρωπαϊκή Ένωση και ενώ οι ειδικοί αφιέρωσαν 5 ώρες για να εξαλείψουν τις συνέπειες του ατυχήματος, οι επιβάτες έπρεπε και πάλι να υπομείνουν καθυστερήσεις και επαναπρογραμματισμένες πτήσεις.

Πολύ σοβαρά προβλήματα προκύπτουν λόγω ατυχημάτων σε κέντρα δεδομένων που εξυπηρετούν τον χρηματοπιστωτικό τομέα. Το κόστος των διακοπών στις συναλλαγές εδώ είναι συνήθως υψηλό και το επίπεδο αξιοπιστίας των εγκαταστάσεων είναι κατάλληλο, αλλά αυτό δεν αποτρέπει περιστατικά. Στις 18 Απριλίου, το χρηματιστήριο Nordic NASDAQ (Ελσίνκι, Φινλανδία) δεν μπόρεσε να πραγματοποιήσει συναλλαγές σε ολόκληρη τη Βόρεια Ευρώπη κατά τη διάρκεια της ημέρας λόγω της μη εξουσιοδοτημένης ενεργοποίησης ενός συστήματος πυρόσβεσης αερίου στο εμπορικό κέντρο δεδομένων DigiPlex, το οποίο ξαφνικά απενεργοποιήθηκε.

Στις 7 Ιουνίου, διακοπές στα κέντρα δεδομένων ανάγκασαν το Χρηματιστήριο του Λονδίνου (LSE) να καθυστερήσει την έναρξη των συναλλαγών για μία ώρα. Επιπλέον, τον Ιούνιο, στην Ευρώπη, λόγω βλάβης σε κέντρο δεδομένων, οι υπηρεσίες του διεθνούς συστήματος πληρωμών VISA απενεργοποιήθηκαν για όλη την ημέρα και οι λεπτομέρειες του συμβάντος δεν αποκαλύφθηκαν ποτέ.

Ιαπωνία

Το καλοκαίρι του 2018, πυρκαγιά σημειώθηκε στα υπόγεια επίπεδα ενός υπό κατασκευή κέντρου δεδομένων της Amazon σε προάστιο του Τόκιο, σκοτώνοντας 5 εργάτες και τραυματίζοντας τουλάχιστον 50. Η φωτιά κατέστρεψε περίπου 5000 m2 της εγκατάστασης. Η έρευνα έδειξε ότι η αιτία της πυρκαγιάς ήταν ανθρώπινο λάθος: λόγω απρόσεκτου χειρισμού των πυρσών ασετυλίνης, η μόνωση αναφλέχθηκε.

Αιτίες αποτυχιών

Ο παραπάνω κατάλογος περιστατικών απέχει πολύ από το να είναι πλήρης· λόγω ατυχημάτων σε κέντρα δεδομένων, υποφέρουν πελάτες τραπεζών και τηλεπικοινωνιακών φορέων, οι υπηρεσίες παρόχων cloud τίθενται εκτός σύνδεσης, ενώ ακόμη και η εργασία των υπηρεσιών έκτακτης ανάγκης διακόπτεται. Μια μικρή διακοπή λειτουργίας μπορεί να οδηγήσει σε μεγάλες απώλειες και η πλειονότητα των διακοπών (39%) σχετίζεται με το ηλεκτρικό σύστημα, σύμφωνα με το Ινστιτούτο Uptime. Στη δεύτερη θέση (24%) βρίσκεται ο ανθρώπινος παράγοντας και στην τρίτη (15%) το σύστημα κλιματισμού. Μόνο το 12% των ατυχημάτων σε κέντρα δεδομένων μπορεί να αποδοθεί σε φυσικά φαινόμενα και μόνο το 10% από αυτά συμβαίνουν για λόγους διαφορετικούς από αυτούς που αναφέρονται.

Παρά τα αυστηρά πρότυπα αξιοπιστίας και ασφάλειας, καμία εγκατάσταση δεν είναι προστατευμένη από συμβάντα. Τα περισσότερα από αυτά συμβαίνουν λόγω διακοπής ρεύματος ή ανθρώπινων λαθών. Οι ιδιοκτήτες κέντρων δεδομένων και δωματίων διακομιστών θα πρέπει πρώτα απ 'όλα να δώσουν προσοχή σε αυτούς τους δύο παράγοντες και οι πελάτες θα πρέπει να κατανοήσουν: ακόμη και οι ηγέτες της αγοράς δεν μπορούν να εγγυηθούν την απόλυτη αξιοπιστία. Εάν ο εξοπλισμός ή μια υπηρεσία cloud εξυπηρετεί κρίσιμες για τις επιχειρήσεις διαδικασίες, θα πρέπει να σκεφτείτε έναν ιστότοπο δημιουργίας αντιγράφων ασφαλείας.

Πηγή φωτογραφίας: telecombloger.ru

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο