Η κύρια αιτία ατυχημάτων στα κέντρα δεδομένων είναι η φλάντζα μεταξύ του υπολογιστή και της καρέκλας

Το θέμα των μεγάλων ατυχημάτων στα σύγχρονα κέντρα δεδομένων εγείρει ερωτήματα που δεν απαντήθηκαν στο πρώτο άρθρο - αποφασίσαμε να το αναπτύξουμε.

Η κύρια αιτία ατυχημάτων στα κέντρα δεδομένων είναι η φλάντζα μεταξύ του υπολογιστή και της καρέκλας

Σύμφωνα με στατιστικά στοιχεία από το Ινστιτούτο Uptime, η πλειονότητα των περιστατικών στα κέντρα δεδομένων σχετίζονται με βλάβες του συστήματος τροφοδοσίας ρεύματος - αντιπροσωπεύουν το 39% των συμβάντων. Ακολουθούν ο ανθρώπινος παράγοντας που ευθύνεται για άλλο 24% των ατυχημάτων. Ο τρίτος σημαντικότερος λόγος (15%) ήταν η βλάβη του συστήματος κλιματισμού και στην τέταρτη θέση (12%) οι φυσικές καταστροφές. Το συνολικό μερίδιο των άλλων προβλημάτων είναι μόνο 10%. Χωρίς να αμφισβητήσουμε τα δεδομένα ενός αξιοσέβαστου οργανισμού, θα επισημάνουμε κάτι κοινό σε διαφορετικά ατυχήματα και θα προσπαθήσουμε να καταλάβουμε εάν θα μπορούσαν να είχαν αποφευχθεί. Spoiler: είναι δυνατό στις περισσότερες περιπτώσεις.

Η Επιστήμη των Επαφών

Για να το θέσω απλά, υπάρχουν μόνο δύο προβλήματα με την παροχή ρεύματος: είτε δεν υπάρχει επαφή εκεί που θα έπρεπε, είτε υπάρχει επαφή όπου δεν πρέπει να υπάρχει επαφή. Μπορείτε να μιλήσετε για πολύ καιρό για την αξιοπιστία των σύγχρονων συστημάτων αδιάλειπτης παροχής ρεύματος, αλλά δεν σας σώζουν πάντα. Πάρτε την περίφημη περίπτωση του κέντρου δεδομένων που χρησιμοποιεί η British Airways, η οποία ανήκει στη μητρική εταιρεία International Airlines Group. Υπάρχουν δύο τέτοια ακίνητα που βρίσκονται κοντά στο αεροδρόμιο Heathrow - το Boadicea House και το Comet House. Στην πρώτη από αυτές, στις 27 Μαΐου 2017, σημειώθηκε τυχαία διακοπή ρεύματος, η οποία οδήγησε σε υπερφόρτωση και αστοχία του συστήματος UPS. Ως αποτέλεσμα, μέρος του εξοπλισμού πληροφορικής υπέστη φυσική ζημιά και η τελευταία καταστροφή χρειάστηκε τρεις ημέρες για να επιλυθεί.

Η αεροπορική εταιρεία έπρεπε να ακυρώσει ή να επαναπρογραμματίσει περισσότερες από χίλιες πτήσεις, περίπου 75 χιλιάδες επιβάτες δεν μπόρεσαν να πετάξουν εγκαίρως - 128 εκατομμύρια δολάρια δαπανήθηκαν για την πληρωμή αποζημίωσης, χωρίς να υπολογίζονται τα έξοδα που απαιτούνται για την αποκατάσταση της λειτουργικότητας των κέντρων δεδομένων. Το ιστορικό των λόγων για το μπλακ άουτ είναι ασαφές. Εάν πιστεύετε τα αποτελέσματα της εσωτερικής έρευνας που ανακοίνωσε ο Διευθύνων Σύμβουλος του Ομίλου International Airlines, Willie Walsh, οφειλόταν σε λάθος των μηχανικών. Ωστόσο, το σύστημα αδιάλειπτης παροχής ρεύματος έπρεπε να αντέξει μια τέτοια διακοπή λειτουργίας - γι 'αυτό εγκαταστάθηκε. Το κέντρο δεδομένων διαχειρίζονταν ειδικοί της εταιρείας outsourcing CBRE Managed Services, έτσι η British Airways προσπάθησε να ανακτήσει το ποσό της ζημίας μέσω δικαστηρίου του Λονδίνου.

Η κύρια αιτία ατυχημάτων στα κέντρα δεδομένων είναι η φλάντζα μεταξύ του υπολογιστή και της καρέκλας

Διακοπές ρεύματος συμβαίνουν σε παρόμοια σενάρια: πρώτα υπάρχει διακοπή ρεύματος λόγω υπαιτιότητας του προμηθευτή ηλεκτρικής ενέργειας, μερικές φορές λόγω κακοκαιρίας ή εσωτερικών προβλημάτων (συμπεριλαμβανομένων ανθρώπινων σφαλμάτων) και στη συνέχεια το σύστημα αδιάλειπτης παροχής ρεύματος δεν μπορεί να αντιμετωπίσει το φορτίο ή βραχυκύκλωμα -η χρονική διακοπή του ημιτονοειδούς κύματος προκαλεί βλάβες πολλών υπηρεσιών, προκαλώντας την αποκατάσταση των οποίων απαιτεί πολύ χρόνο και χρήμα. Είναι δυνατόν να αποφευχθούν τέτοια ατυχήματα; Αναμφίβολα. Εάν σχεδιάσετε σωστά το σύστημα, ακόμη και οι δημιουργοί μεγάλων κέντρων δεδομένων δεν έχουν απαλλαγή από λάθη.

Ανθρώπινος παράγοντας

Όταν η άμεση αιτία ενός συμβάντος είναι οι λανθασμένες ενέργειες του προσωπικού του κέντρου δεδομένων, τα προβλήματα τις περισσότερες φορές (αλλά όχι πάντα) επηρεάζουν το τμήμα λογισμικού της υποδομής πληροφορικής. Τέτοια ατυχήματα συμβαίνουν ακόμη και σε μεγάλες εταιρείες. Τον Φεβρουάριο του 2017, λόγω λανθασμένα στρατολογημένου μέλους ομάδας της ομάδας τεχνικής λειτουργίας ενός από τα κέντρα δεδομένων, μέρος των διακομιστών του Amazon Web Services απενεργοποιήθηκε. Παρουσιάστηκε σφάλμα κατά τον εντοπισμό σφαλμάτων της διαδικασίας χρέωσης για πελάτες αποθήκευσης cloud της Amazon Simple Storage Service (S3). Ένας υπάλληλος προσπάθησε να διαγράψει έναν αριθμό εικονικών διακομιστών που χρησιμοποιούνται από το σύστημα χρέωσης, αλλά χτύπησε ένα μεγαλύτερο σύμπλεγμα.

Η κύρια αιτία ατυχημάτων στα κέντρα δεδομένων είναι η φλάντζα μεταξύ του υπολογιστή και της καρέκλας

Ως αποτέλεσμα ενός σφάλματος μηχανικού, διαγράφηκαν διακομιστές που εκτελούσαν σημαντικές ενότητες λογισμικού αποθήκευσης cloud της Amazon. Το πρώτο που επηρεάστηκε ήταν το υποσύστημα ευρετηρίασης, το οποίο περιέχει πληροφορίες σχετικά με τα μεταδεδομένα και τη θέση όλων των αντικειμένων S3 στην περιοχή US-EAST-1 της Αμερικής. Το περιστατικό επηρέασε επίσης το υποσύστημα που χρησιμοποιείται για τη φιλοξενία δεδομένων και τη διαχείριση του διαθέσιμου χώρου αποθήκευσης. Μετά τη διαγραφή των εικονικών μηχανών, αυτά τα δύο υποσυστήματα απαιτούσαν πλήρη επανεκκίνηση και, στη συνέχεια, οι μηχανικοί της Amazon αντιμετώπισαν έκπληξη - για μεγάλο χρονικό διάστημα, ο δημόσιος χώρος αποθήκευσης cloud δεν ήταν σε θέση να εξυπηρετήσει τα αιτήματα των πελατών.

Ο αντίκτυπος ήταν ευρέως διαδεδομένος, καθώς πολλοί μεγάλοι πόροι χρησιμοποιούν το Amazon S3. Οι διακοπές επηρέασαν τις Trello, Coursera, IFTTT και, το πιο δυσάρεστο, τις υπηρεσίες μεγάλων εταίρων της Amazon από τη λίστα S&P 500. Η ζημιά σε τέτοιες περιπτώσεις είναι δύσκολο να υπολογιστεί, αλλά ήταν της τάξης των εκατοντάδων εκατομμυρίων δολαρίων ΗΠΑ. Όπως μπορείτε να δείτε, μια λάθος εντολή είναι αρκετή για να απενεργοποιήσετε την υπηρεσία της μεγαλύτερης πλατφόρμας cloud. Δεν πρόκειται για μεμονωμένη περίπτωση. Στις 16 Μαΐου 2019, κατά τη διάρκεια εργασιών συντήρησης, η υπηρεσία Yandex.Cloud διαγράφηκε εικονικές μηχανές χρηστών στη ζώνη ru-central1-c που βρίσκονταν σε κατάσταση SUSPENDED τουλάχιστον μία φορά. Τα δεδομένα πελατών έχουν ήδη καταστραφεί εδώ, μερικά από τα οποία χάθηκαν ανεπανόρθωτα. Φυσικά, οι άνθρωποι είναι ατελείς, αλλά τα σύγχρονα συστήματα ασφάλειας πληροφοριών έχουν από καιρό τη δυνατότητα να παρακολουθούν τις ενέργειες των προνομιούχων χρηστών πριν εκτελέσουν τις εντολές που εισήγαγαν. Εάν εφαρμοστούν τέτοιες λύσεις σε Yandex ή Amazon, τέτοια περιστατικά μπορούν να αποφευχθούν.

Η κύρια αιτία ατυχημάτων στα κέντρα δεδομένων είναι η φλάντζα μεταξύ του υπολογιστή και της καρέκλας

Παγωμένη ψύξη

Τον Ιανουάριο του 2017, ένα μεγάλο ατύχημα συνέβη στο κέντρο δεδομένων Dmitrov της εταιρείας Megafon. Στη συνέχεια, η θερμοκρασία στην περιοχή της Μόσχας έπεσε στους -35 °C, γεγονός που οδήγησε σε βλάβη του συστήματος ψύξης της εγκατάστασης. Η υπηρεσία Τύπου του χειριστή δεν μίλησε ιδιαίτερα για τους λόγους του συμβάντος - οι ρωσικές εταιρείες είναι εξαιρετικά απρόθυμες να μιλήσουν για ατυχήματα στις εγκαταστάσεις που διαθέτουν· όσον αφορά τη δημοσιότητα, υστερούμε πολύ πίσω από τη Δύση. Στα κοινωνικά δίκτυα κυκλοφορούσε μια εκδοχή σχετικά με το πάγωμα του ψυκτικού σε σωλήνες που τοποθετούνται κατά μήκος του δρόμου και τη διαρροή αιθυλενογλυκόλης. Σύμφωνα με αυτήν, η υπηρεσία λειτουργίας δεν μπόρεσε να αποκτήσει γρήγορα 30 τόνους ψυκτικού υγρού λόγω μεγάλων διακοπών και βγήκε χρησιμοποιώντας αυτοσχέδια μέσα, οργανώνοντας αυτοσχέδια δωρεάν ψύξη κατά παράβαση των κανόνων λειτουργίας του συστήματος. Το σοβαρό κρύο επιδείνωσε το πρόβλημα - τον Ιανουάριο, ο χειμώνας χτύπησε ξαφνικά τη Ρωσία, αν και κανείς δεν το περίμενε. Ως αποτέλεσμα, το προσωπικό έπρεπε να κλείσει την τροφοδοσία σε μέρος των ραφιών διακομιστή, και γι' αυτό ορισμένες υπηρεσίες χειριστή δεν ήταν διαθέσιμες για δύο ημέρες.

Η κύρια αιτία ατυχημάτων στα κέντρα δεδομένων είναι η φλάντζα μεταξύ του υπολογιστή και της καρέκλας

Πιθανώς, μπορούμε να μιλήσουμε για μια καιρική ανωμαλία εδώ, αλλά τέτοιοι παγετοί δεν είναι κάτι ασυνήθιστο για την περιοχή της πρωτεύουσας. Οι θερμοκρασίες το χειμώνα στην περιοχή της Μόσχας μπορεί να πέσουν σε χαμηλότερα επίπεδα, επομένως τα κέντρα δεδομένων κατασκευάζονται με την προσδοκία σταθερής λειτουργίας στους -42°C. Τις περισσότερες φορές, τα συστήματα ψύξης αποτυγχάνουν σε κρύο καιρό λόγω ανεπαρκώς υψηλής συγκέντρωσης γλυκόλων και περίσσειας νερού στο διάλυμα ψυκτικού. Υπάρχουν επίσης προβλήματα με την εγκατάσταση σωλήνων ή με λανθασμένους υπολογισμούς στο σχεδιασμό και τη δοκιμή του συστήματος, που σχετίζονται κυρίως με την επιθυμία εξοικονόμησης χρημάτων. Ως αποτέλεσμα, συμβαίνει ένα σοβαρό ατύχημα, το οποίο θα μπορούσε να είχε αποτραπεί.

Φυσικές καταστροφές

Τις περισσότερες φορές, οι καταιγίδες και/ή οι τυφώνες διαταράσσουν τη μηχανική υποδομή ενός κέντρου δεδομένων, οδηγώντας σε διακοπές λειτουργίας ή/και φυσική ζημιά στον εξοπλισμό. Περιστατικά που προκαλούνται από κακοκαιρία συμβαίνουν αρκετά συχνά. Το 2012, ο τυφώνας Σάντι σάρωσε τη δυτική ακτή των Ηνωμένων Πολιτειών με έντονες βροχοπτώσεις. Το κέντρο δεδομένων Peer 1 βρίσκεται σε ένα πολυώροφο κτίριο στο Κάτω Μανχάταν απώλεια εξωτερικής τροφοδοσίας, αφού το αλμυρό θαλασσινό νερό πλημμύρισε τα υπόγεια. Οι γεννήτριες έκτακτης ανάγκης της εγκατάστασης βρίσκονταν στον 18ο όροφο και η παροχή καυσίμων ήταν περιορισμένη - οι κανόνες που θεσπίστηκαν στη Νέα Υόρκη μετά τις τρομοκρατικές επιθέσεις της 9ης Σεπτεμβρίου απαγορεύουν την αποθήκευση μεγάλων ποσοτήτων καυσίμου στους επάνω ορόφους.

Η αντλία καυσίμου επίσης απέτυχε, έτσι το προσωπικό πέρασε αρκετές ημέρες μεταφέροντας ντίζελ στις γεννήτριες με το χέρι. Ο ηρωισμός της ομάδας έσωσε το κέντρο δεδομένων από ένα σοβαρό ατύχημα, αλλά ήταν πραγματικά απαραίτητο; Ζούμε σε έναν πλανήτη με ατμόσφαιρα αζώτου-οξυγόνου και πολύ νερό. Οι καταιγίδες και οι τυφώνες είναι συνηθισμένοι εδώ (ειδικά στις παράκτιες περιοχές). Οι σχεδιαστές μάλλον θα έκαναν καλά να εξετάσουν τους κινδύνους και να κατασκευάσουν ένα κατάλληλο σύστημα αδιάλειπτης παροχής ρεύματος. Ή τουλάχιστον επιλέξτε μια πιο κατάλληλη τοποθεσία για το κέντρο δεδομένων από ένα πολυώροφο σε ένα νησί.

Οτιδήποτε άλλο

Το Uptime Institute εντοπίζει μια ποικιλία περιστατικών σε αυτήν την κατηγορία, μεταξύ των οποίων είναι δύσκολο να επιλέξετε ένα τυπικό. Κλοπή χάλκινων καλωδίων, αυτοκίνητα που προσκρούουν σε κέντρα δεδομένων, υποστηρίγματα γραμμών ηλεκτρικού ρεύματος και υποσταθμοί μετασχηματιστών, πυρκαγιές, χειριστές εκσκαφέων που βλάπτουν οπτικά, τρωκτικά (αρουραίους, κουνέλια και ακόμη και θηλυκούς, που είναι στην πραγματικότητα μαρσιποφόρα), καθώς και εκείνοι που τους αρέσει να εξασκούνται στη σκοποβολή καλώδια - το μενού είναι εκτεταμένο. Διακοπή ρεύματος μπορεί ακόμη και να προκαλέσει κλοπή ηλεκτρική ενέργεια παράνομη φυτεία μαριχουάνας. Στην πλειονότητα των περιπτώσεων, συγκεκριμένοι άνθρωποι γίνονται οι ένοχοι του περιστατικού, δηλ. έχουμε να κάνουμε πάλι με τον ανθρώπινο παράγοντα, όταν το πρόβλημα έχει όνομα και επίθετο. Ακόμα κι αν με την πρώτη ματιά το ατύχημα σχετίζεται με τεχνική δυσλειτουργία ή φυσικές καταστροφές, μπορεί να αποφευχθεί με την προϋπόθεση ότι η εγκατάσταση έχει σχεδιαστεί σωστά και λειτουργεί σωστά. Οι μόνες εξαιρέσεις αποτελούν περιπτώσεις σοβαρής ζημιάς στην υποδομή του κέντρου δεδομένων ή καταστροφής κτιρίων και κατασκευών λόγω φυσικής καταστροφής. Αυτές είναι πραγματικά περιστάσεις ανωτέρας βίας και όλα τα άλλα προβλήματα προκαλούνται από τη φλάντζα μεταξύ του υπολογιστή και της καρέκλας - ίσως αυτό είναι το πιο αναξιόπιστο μέρος οποιουδήποτε πολύπλοκου συστήματος.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο