Disaster Resilient Cloud: Πώς λειτουργεί

Γεια σου Χαμπρ!

Μετά τις διακοπές της Πρωτοχρονιάς, επανακυκλοφορήσαμε ένα σύννεφο προστασίας από καταστροφές που βασίζεται σε δύο τοποθεσίες. Σήμερα θα σας πούμε πώς λειτουργεί και θα δείξουμε τι συμβαίνει με τις εικονικές μηχανές πελατών όταν αποτυγχάνουν μεμονωμένα στοιχεία του συμπλέγματος και ολόκληρος ο ιστότοπος διακόπτεται (spoiler - όλα είναι καλά με αυτά).

Disaster Resilient Cloud: Πώς λειτουργεί
Σύστημα αποθήκευσης cloud ανθεκτικό σε καταστροφές στην τοποθεσία OST.

Τι είναι μέσα

Κάτω από την κουκούλα, το σύμπλεγμα έχει διακομιστές Cisco UCS με έναν υπερεπόπτη VMware ESXi, δύο συστήματα αποθήκευσης INFINIDAT InfiniBox F2240, εξοπλισμό δικτύου Cisco Nexus, καθώς και διακόπτες Brocade SAN. Το σύμπλεγμα χωρίζεται σε δύο τοποθεσίες - OST και NORD, δηλαδή κάθε κέντρο δεδομένων έχει ένα πανομοιότυπο σύνολο εξοπλισμού. Στην πραγματικότητα, αυτό είναι που το κάνει ανθεκτικό στις καταστροφές.

Σε έναν ιστότοπο, τα κύρια στοιχεία είναι επίσης διπλά (κεντρικοί υπολογιστές, μεταγωγείς SAN, δικτύωση).
Οι δύο τοποθεσίες συνδέονται με αποκλειστικές διαδρομές οπτικών ινών, επίσης δεσμευμένες.

Λίγα λόγια για τα συστήματα αποθήκευσης. Κατασκευάσαμε την πρώτη έκδοση ενός cloud ανθεκτικού σε καταστροφές στο NetApp. Εδώ επιλέξαμε το INFINIDAT και να γιατί:

  • Ενεργή-Ενεργή επιλογή αναπαραγωγής. Επιτρέπει στην εικονική μηχανή να παραμείνει λειτουργική ακόμη και αν ένα από τα συστήματα αποθήκευσης αποτύχει εντελώς. Θα σας πω περισσότερα για την αναπαραγωγή αργότερα.
  • Τρεις ελεγκτές δίσκου για αύξηση της ανοχής σφαλμάτων συστήματος. Συνήθως είναι δύο.
  • Έτοιμη λύση. Λάβαμε ένα προσυναρμολογημένο rack που πρέπει απλώς να συνδεθεί στο δίκτυο και να ρυθμιστεί.
  • Προσεκτική τεχνική υποστήριξη. Οι μηχανικοί του INFINIDAT αναλύουν συνεχώς τα αρχεία καταγραφής και τα συμβάντα του συστήματος αποθήκευσης, εγκαθιστούν νέες εκδόσεις υλικολογισμικού και βοηθούν στη διαμόρφωση.

Ακολουθούν μερικές φωτογραφίες από την αποσυσκευασία:

Disaster Resilient Cloud: Πώς λειτουργεί

Disaster Resilient Cloud: Πώς λειτουργεί

Πώς λειτουργεί

Το σύννεφο είναι ήδη ανεκτικό σε σφάλματα από μόνο του. Προστατεύει τον πελάτη από μεμονωμένες αστοχίες υλικού και λογισμικού. Η ανθεκτικότητα σε καταστροφές θα βοηθήσει στην προστασία από τεράστιες βλάβες σε έναν ιστότοπο: για παράδειγμα, αστοχία ενός συστήματος αποθήκευσης (ή ενός συμπλέγματος SDS, που συμβαίνει αρκετά συχνά 🙂), μαζικά σφάλματα σε ένα δίκτυο αποθήκευσης κ.λπ. Λοιπόν, και το πιο σημαντικό: ένα τέτοιο σύννεφο εξοικονομεί όταν μια ολόκληρη τοποθεσία γίνεται απρόσιτη λόγω πυρκαγιάς, συσκότισης, κατάληψης από επιδρομείς ή προσγείωσης εξωγήινων.

Σε όλες αυτές τις περιπτώσεις, οι εικονικές μηχανές πελάτη συνεχίζουν να λειτουργούν και να γιατί.

Η σχεδίαση συμπλέγματος έχει σχεδιαστεί έτσι ώστε κάθε κεντρικός υπολογιστής ESXi με εικονικές μηχανές πελάτη να μπορεί να έχει πρόσβαση σε οποιοδήποτε από τα δύο συστήματα αποθήκευσης. Εάν το σύστημα αποθήκευσης στην τοποθεσία OST αποτύχει, οι εικονικές μηχανές θα συνεχίσουν να λειτουργούν: οι κεντρικοί υπολογιστές στους οποίους εκτελούνται θα έχουν πρόσβαση στο σύστημα αποθήκευσης στο NORD για δεδομένα.

Disaster Resilient Cloud: Πώς λειτουργεί
Έτσι φαίνεται το διάγραμμα σύνδεσης σε ένα σύμπλεγμα.

Αυτό είναι δυνατό λόγω του γεγονότος ότι ένας σύνδεσμος Inter-Switch έχει διαμορφωθεί μεταξύ των υφασμάτων SAN των δύο τοποθεσιών: ο διακόπτης Fabric A OST SAN συνδέεται με το διακόπτη Fabric A NORD SAN και ομοίως για τους διακόπτες Fabric B SAN.

Λοιπόν, για να έχουν νόημα όλες αυτές οι περιπλοκές των εργοστασίων SAN, η αναπαραγωγή Active-Active διαμορφώνεται μεταξύ των δύο συστημάτων αποθήκευσης: οι πληροφορίες εγγράφονται σχεδόν ταυτόχρονα στα τοπικά και απομακρυσμένα συστήματα αποθήκευσης, RPO = 0. Αποδεικνύεται ότι τα αρχικά δεδομένα αποθηκεύονται σε ένα σύστημα αποθήκευσης και το αντίγραφό του αποθηκεύεται στο άλλο. Τα δεδομένα αναπαράγονται στο επίπεδο των τόμων αποθήκευσης και τα δεδομένα VM (οι δίσκοι του, το αρχείο διαμόρφωσης, το αρχείο ανταλλαγής κ.λπ.) αποθηκεύονται σε αυτά.

Ο κεντρικός υπολογιστής ESXi βλέπει τον κύριο τόμο και το αντίγραφό του ως μία συσκευή δίσκου (Συσκευή αποθήκευσης). Υπάρχουν 24 διαδρομές από τον κεντρικό υπολογιστή ESXi σε κάθε συσκευή δίσκου:

12 διαδρομές το συνδέουν με το τοπικό σύστημα αποθήκευσης (βέλτιστες διαδρομές) και οι υπόλοιπες 12 με το σύστημα απομακρυσμένης αποθήκευσης (μη βέλτιστες διαδρομές). Σε μια κανονική κατάσταση, το ESXi έχει πρόσβαση σε δεδομένα στο τοπικό σύστημα αποθήκευσης χρησιμοποιώντας «βέλτιστες» διαδρομές. Όταν αυτό το σύστημα αποθήκευσης αποτύχει, το ESXi χάνει τις βέλτιστες διαδρομές και μεταβαίνει σε «μη βέλτιστες». Έτσι φαίνεται στο διάγραμμα.

Disaster Resilient Cloud: Πώς λειτουργεί
Σχέδιο ενός συμπλέγματος ανθεκτικό στις καταστροφές.

Όλα τα δίκτυα πελατών συνδέονται και στις δύο τοποθεσίες μέσω ενός κοινού ιστού δικτύου. Κάθε ιστότοπος εκτελεί ένα Provider Edge (PE), στο οποίο τερματίζονται τα δίκτυα του πελάτη. Οι PE ενώνονται σε ένα κοινό σύμπλεγμα. Εάν ένα PE αποτύχει σε έναν ιστότοπο, όλη η επισκεψιμότητα ανακατευθύνεται στον δεύτερο ιστότοπο. Χάρη σε αυτό, οι εικονικές μηχανές από τον ιστότοπο που έχουν μείνει χωρίς PE παραμένουν προσβάσιμες μέσω του δικτύου στον πελάτη.

Ας δούμε τώρα τι θα συμβεί με τις εικονικές μηχανές πελατών κατά τη διάρκεια διαφόρων αστοχιών. Ας ξεκινήσουμε με τις πιο ελαφριές επιλογές και ας τελειώσουμε με την πιο σοβαρή - αποτυχία ολόκληρου του ιστότοπου. Στα παραδείγματα, η κύρια πλατφόρμα θα είναι το OST και η εφεδρική πλατφόρμα, με αντίγραφα δεδομένων, θα είναι το NORD.

Τι συμβαίνει στην εικονική μηχανή πελάτη εάν...

Ο σύνδεσμος αναπαραγωγής αποτυγχάνει. Η αναπαραγωγή μεταξύ των συστημάτων αποθήκευσης των δύο τοποθεσιών σταματά.
Το ESXi θα λειτουργεί μόνο με τοπικές συσκευές δίσκου (μέσω βέλτιστων διαδρομών).
Οι εικονικές μηχανές συνεχίζουν να λειτουργούν.

Disaster Resilient Cloud: Πώς λειτουργεί

Το ISL (Inter-Switch Link) χαλάει. Η υπόθεση είναι απίθανη. Εκτός κι αν κάποιος τρελός εκσκαφέας σκάψει πολλές οπτικές διαδρομές ταυτόχρονα, οι οποίες εκτελούνται σε ανεξάρτητες διαδρομές και μεταφέρονται στις τοποθεσίες μέσω διαφορετικών εισόδων. Αλλά τέλος πάντων. Σε αυτήν την περίπτωση, οι κεντρικοί υπολογιστές ESXi χάνουν τις μισές διαδρομές και μπορούν να έχουν πρόσβαση μόνο στα τοπικά τους συστήματα αποθήκευσης. Συλλέγονται αντίγραφα, αλλά οι οικοδεσπότες δεν θα έχουν πρόσβαση σε αυτά.

Τα εικονικά μηχανήματα λειτουργούν κανονικά.

Disaster Resilient Cloud: Πώς λειτουργεί

Ο διακόπτης SAN αποτυγχάνει σε μία από τις τοποθεσίες. Οι κεντρικοί υπολογιστές ESXi χάνουν ορισμένες από τις διαδρομές προς το σύστημα αποθήκευσης. Σε αυτήν την περίπτωση, οι κεντρικοί υπολογιστές στην τοποθεσία όπου απέτυχε ο διακόπτης θα λειτουργούν μόνο μέσω ενός από τα HBA τους.

Οι εικονικές μηχανές συνεχίζουν να λειτουργούν κανονικά.

Disaster Resilient Cloud: Πώς λειτουργεί

Όλοι οι διακόπτες SAN σε έναν από τους ιστότοπους αποτυγχάνουν. Ας πούμε ότι συνέβη μια τέτοια καταστροφή στο site του OST. Σε αυτήν την περίπτωση, οι κεντρικοί υπολογιστές ESXi σε αυτόν τον ιστότοπο θα χάσουν όλες τις διαδρομές προς τις συσκευές δίσκου τους. Ο τυπικός μηχανισμός VMware vSphere HA μπαίνει στο παιχνίδι: θα επανεκκινήσει όλες τις εικονικές μηχανές της τοποθεσίας OST στο NORD σε 140 δευτερόλεπτα το πολύ.

Οι εικονικές μηχανές που εκτελούνται σε κεντρικούς υπολογιστές τοποθεσιών NORD λειτουργούν κανονικά.

Disaster Resilient Cloud: Πώς λειτουργεί

Ο κεντρικός υπολογιστής ESXi αποτυγχάνει σε μία τοποθεσία. Εδώ ο μηχανισμός vSphere HA λειτουργεί ξανά: οι εικονικές μηχανές από τον αποτυχημένο κεντρικό υπολογιστή επανεκκινούνται σε άλλους κεντρικούς υπολογιστές - στον ίδιο ή απομακρυσμένο ιστότοπο. Ο χρόνος επανεκκίνησης της εικονικής μηχανής είναι έως και 1 λεπτό.

Εάν αποτύχουν όλοι οι κεντρικοί υπολογιστές ESXi στον ιστότοπο OST, δεν υπάρχουν επιλογές: τα VM επανεκκινούνται σε άλλο. Ο χρόνος επανεκκίνησης είναι ο ίδιος.

Disaster Resilient Cloud: Πώς λειτουργεί

Το σύστημα αποθήκευσης αποτυγχάνει σε μία τοποθεσία. Ας υποθέσουμε ότι το σύστημα αποθήκευσης αποτυγχάνει στην τοποθεσία OST. Στη συνέχεια, οι κεντρικοί υπολογιστές ESXi της τοποθεσίας OST αλλάζουν σε εργασία με αντίγραφα αποθήκευσης στο NORD. Αφού το αποτυχημένο σύστημα αποθήκευσης επιστρέψει στην υπηρεσία, θα συμβεί αναγκαστική αναπαραγωγή και οι κεντρικοί υπολογιστές ESXi OST θα αρχίσουν ξανά να έχουν πρόσβαση στο τοπικό σύστημα αποθήκευσης.

Οι εικονικές μηχανές δούλευαν κανονικά όλο αυτό το διάστημα.

Disaster Resilient Cloud: Πώς λειτουργεί

Ένας από τους ιστότοπους αποτυγχάνει. Σε αυτήν την περίπτωση, όλες οι εικονικές μηχανές θα επανεκκινηθούν στον ιστότοπο δημιουργίας αντιγράφων ασφαλείας μέσω του μηχανισμού vSphere HA. Ο χρόνος επανεκκίνησης VM είναι 140 δευτερόλεπτα. Σε αυτήν την περίπτωση, όλες οι ρυθμίσεις δικτύου της εικονικής μηχανής θα αποθηκευτούν και θα παραμείνει προσβάσιμη στον πελάτη μέσω του δικτύου.

Για να διασφαλιστεί ότι η επανεκκίνηση των μηχανημάτων στην τοποθεσία δημιουργίας αντιγράφων ασφαλείας θα πραγματοποιηθεί ομαλά, κάθε τοποθεσία είναι γεμάτη μόνο κατά το ήμισυ. Το δεύτερο μισό είναι ένα αποθεματικό σε περίπτωση που όλες οι εικονικές μηχανές μετακινηθούν από τη δεύτερη, κατεστραμμένη τοποθεσία.

Disaster Resilient Cloud: Πώς λειτουργεί

Ένα cloud ανθεκτικό στις καταστροφές που βασίζεται σε δύο κέντρα δεδομένων προστατεύει από τέτοιες αστοχίες.

Αυτή η ευχαρίστηση δεν είναι φθηνή, καθώς, εκτός από τους κύριους πόρους, χρειάζεται και ένα αποθεματικό στη δεύτερη τοποθεσία. Επομένως, οι κρίσιμες για τις επιχειρήσεις υπηρεσίες τοποθετούνται σε ένα τέτοιο νέφος, του οποίου ο μακροπρόθεσμος χρόνος διακοπής προκαλεί μεγάλες οικονομικές απώλειες και απώλειες φήμης ή εάν το σύστημα πληροφοριών υπόκειται σε απαιτήσεις ανθεκτικότητας σε καταστροφές από ρυθμιστικές αρχές ή εσωτερικούς εταιρικούς κανονισμούς.

Πηγές:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο