Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Γεια σας, αναγνώστες του Habr! Το θέμα αυτού του άρθρου θα είναι η εφαρμογή εργαλείων αποκατάστασης καταστροφών στα συστήματα αποθήκευσης AERODISK Engine. Αρχικά, θέλαμε να γράψουμε σε ένα άρθρο και για τα δύο εργαλεία: την αναπαραγωγή και το metrocluster, αλλά, δυστυχώς, το άρθρο αποδείχθηκε πολύ μεγάλο, οπότε χωρίσαμε το άρθρο σε δύο μέρη. Ας πάμε από το απλό στο σύνθετο. Σε αυτό το άρθρο, θα ρυθμίσουμε και θα δοκιμάσουμε τη σύγχρονη αναπαραγωγή - θα αφήσουμε ένα κέντρο δεδομένων και επίσης θα σπάσουμε το κανάλι επικοινωνίας μεταξύ των κέντρων δεδομένων και θα δούμε τι συμβαίνει.

Οι πελάτες μας μάς κάνουν συχνά διάφορες ερωτήσεις σχετικά με την αναπαραγωγή, επομένως προτού προχωρήσουμε στη ρύθμιση και τη δοκιμή της υλοποίησης των αντιγράφων, θα σας πούμε λίγα λόγια για το τι είναι η αναπαραγωγή στο χώρο αποθήκευσης.

Λίγο θεωρίας

Η αναπαραγωγή σε συστήματα αποθήκευσης είναι μια συνεχής διαδικασία διασφάλισης ταυτότητας δεδομένων σε πολλά συστήματα αποθήκευσης ταυτόχρονα. Τεχνικά, η αναπαραγωγή επιτυγχάνεται με δύο τρόπους.

Σύγχρονη αντιγραφή – πρόκειται για αντιγραφή δεδομένων από το κύριο σύστημα αποθήκευσης στο εφεδρικό σύστημα, ακολουθούμενη από υποχρεωτική επιβεβαίωση και από τα δύο συστήματα αποθήκευσης ότι τα δεδομένα έχουν καταγραφεί και επιβεβαιωθεί. Μετά από επιβεβαίωση και από τις δύο πλευρές (και τα δύο συστήματα αποθήκευσης) τα δεδομένα θεωρούνται καταγεγραμμένα και μπορούν να εργαστούν με αυτά. Αυτό εξασφαλίζει εγγυημένη ταυτότητα δεδομένων σε όλα τα συστήματα αποθήκευσης που συμμετέχουν στο αντίγραφο.

Τα πλεονεκτήματα αυτής της μεθόδου:

  • Τα δεδομένα είναι πάντα πανομοιότυπα σε όλα τα συστήματα αποθήκευσης

Μειονεκτήματα:

  • Υψηλό κόστος της λύσης (γρήγορα κανάλια επικοινωνίας, ακριβές οπτικές ίνες, πομποδέκτες μεγάλου κύματος κ.λπ.)
  • Περιορισμοί απόστασης (εντός πολλών δεκάδων χιλιομέτρων)
  • Δεν υπάρχει προστασία από την καταστροφή λογικής δεδομένων (εάν τα δεδομένα έχουν καταστραφεί (σκόπιμα ή κατά λάθος) στο κύριο σύστημα αποθήκευσης, θα καταστραφούν αυτόματα και αμέσως στο εφεδρικό σύστημα, καθώς τα δεδομένα είναι πάντα πανομοιότυπα (αυτό είναι το παράδοξο)

Ασύγχρονη αντιγραφή – αυτό είναι επίσης αντιγραφή δεδομένων από το κύριο σύστημα αποθήκευσης στο εφεδρικό, αλλά με κάποια καθυστέρηση και χωρίς να χρειάζεται να επιβεβαιώσετε την εγγραφή στην άλλη πλευρά. Μπορείτε να εργαστείτε με δεδομένα αμέσως μετά την εγγραφή τους στο κύριο σύστημα αποθήκευσης και στο σύστημα αποθήκευσης αντιγράφων ασφαλείας τα δεδομένα θα είναι διαθέσιμα μετά από κάποιο χρονικό διάστημα. Η ταυτότητα των δεδομένων σε αυτή την περίπτωση, φυσικά, δεν διασφαλίζεται καθόλου. Τα δεδομένα στο σύστημα αποθήκευσης αντιγράφων ασφαλείας είναι πάντα λίγο «στο παρελθόν».

Πλεονεκτήματα της ασύγχρονης αναπαραγωγής:

  • Λύση χαμηλού κόστους (οποιαδήποτε κανάλια επικοινωνίας, οπτικά προαιρετικά)
  • Χωρίς περιορισμούς απόστασης
  • Στο σύστημα αποθήκευσης αντιγράφων ασφαλείας, τα δεδομένα δεν αλλοιώνονται εάν καταστραφούν στο κύριο (τουλάχιστον για κάποιο χρονικό διάστημα), εάν τα δεδομένα καταστραφούν, μπορείτε πάντα να σταματήσετε το αντίγραφο για να αποτρέψετε την καταστροφή δεδομένων στο σύστημα αποθήκευσης αντιγράφων ασφαλείας

Μειονεκτήματα:

  • Τα δεδομένα σε διαφορετικά κέντρα δεδομένων δεν είναι πάντα ίδια

Έτσι, η επιλογή του τρόπου αναπαραγωγής εξαρτάται από τους επιχειρηματικούς στόχους. Εάν είναι κρίσιμο για εσάς το εφεδρικό κέντρο δεδομένων να περιέχει ακριβώς τα ίδια δεδομένα με το κύριο κέντρο δεδομένων (δηλαδή, επιχειρηματική απαίτηση για RPO = 0), τότε θα πρέπει να εξοφλήσετε τα μετρητά και να αντέξετε τους περιορισμούς μιας σύγχρονης πανομοιότυπο. Και αν η καθυστέρηση στην κατάσταση δεδομένων είναι αποδεκτή ή απλά δεν υπάρχουν χρήματα, τότε σίγουρα πρέπει να χρησιμοποιήσετε την ασύγχρονη μέθοδο.

Ας επισημάνουμε επίσης ξεχωριστά έναν τέτοιο τρόπο λειτουργίας (ακριβέστερα, μια τοπολογία) ως ένα metrocluster. Στη λειτουργία metrocluster, χρησιμοποιείται η σύγχρονη αναπαραγωγή, αλλά, σε αντίθεση με ένα κανονικό αντίγραφο, ένα metrocluster επιτρέπει και στα δύο συστήματα αποθήκευσης να λειτουργούν σε ενεργή λειτουργία. Εκείνοι. δεν έχετε διαχωρισμό μεταξύ ενεργών και αναμονής κέντρων δεδομένων. Οι εφαρμογές λειτουργούν ταυτόχρονα με δύο συστήματα αποθήκευσης, τα οποία βρίσκονται φυσικά σε διαφορετικά κέντρα δεδομένων. Οι χρόνοι διακοπής λειτουργίας κατά τη διάρκεια ατυχημάτων σε μια τέτοια τοπολογία είναι πολύ μικρές (RTO, συνήθως λεπτά). Σε αυτό το άρθρο δεν θα εξετάσουμε την εφαρμογή του metrocluster από εμάς, καθώς πρόκειται για ένα πολύ μεγάλο και ευρύχωρο θέμα, επομένως θα αφιερώσουμε ένα ξεχωριστό, επόμενο άρθρο σε αυτό, στη συνέχεια αυτού.

Επίσης, πολύ συχνά, όταν μιλάμε για αναπαραγωγή με χρήση συστημάτων αποθήκευσης, πολλοί άνθρωποι έχουν μια εύλογη ερώτηση: > «Πολλές εφαρμογές έχουν τα δικά τους εργαλεία αναπαραγωγής, γιατί να χρησιμοποιείται η αναπαραγωγή σε συστήματα αποθήκευσης; Είναι καλύτερο ή χειρότερο;

Δεν υπάρχει σαφής απάντηση εδώ, επομένως εδώ είναι τα επιχειρήματα υπέρ και κατά:

Επιχειρήματα ΓΙΑ αντιγραφή αποθήκευσης:

  • Η απλότητα της λύσης. Με ένα εργαλείο, μπορείτε να αναπαράγετε ολόκληρο το σύνολο δεδομένων σας, ανεξάρτητα από τον τύπο φορτίου και την εφαρμογή. Εάν χρησιμοποιείτε ένα αντίγραφο από εφαρμογές, θα πρέπει να διαμορφώσετε κάθε εφαρμογή ξεχωριστά. Εάν υπάρχουν περισσότερα από 2 από αυτά, τότε αυτό είναι εξαιρετικά απαιτητικό και ακριβό (η αναπαραγωγή εφαρμογών συνήθως απαιτεί ξεχωριστή και όχι δωρεάν άδεια για κάθε εφαρμογή. Αλλά περισσότερα για αυτό παρακάτω).
  • Μπορείτε να αναπαράγετε οτιδήποτε - οποιαδήποτε εφαρμογή, οποιαδήποτε δεδομένα - και θα είναι πάντα συνεπές. Πολλές (οι περισσότερες) εφαρμογές δεν έχουν δυνατότητες αναπαραγωγής και τα αντίγραφα από το σύστημα αποθήκευσης είναι ο μόνος τρόπος παροχής προστασίας από καταστροφές.
  • Δεν χρειάζεται να πληρώσετε υπερβολικά για τη λειτουργία αναπαραγωγής της εφαρμογής. Κατά κανόνα, δεν είναι φθηνό, όπως ακριβώς οι άδειες για ένα αντίγραφο συστήματος αποθήκευσης. Αλλά πρέπει να πληρώσετε για μια άδεια για αναπαραγωγή αποθήκευσης μία φορά και μια άδεια για αντίγραφο εφαρμογής πρέπει να αγοραστεί για κάθε εφαρμογή ξεχωριστά. Εάν υπάρχουν πολλές τέτοιες εφαρμογές, τότε κοστίζει μια αρκετά δεκάρα και το κόστος των αδειών για αναπαραγωγή αποθήκευσης γίνεται σταγόνα στον ωκεανό.

Επιχειρήματα κατά της αναπαραγωγής αποθήκευσης:

  • Το replica μέσω εφαρμογών έχει περισσότερη λειτουργικότητα από την άποψη των ίδιων των εφαρμογών, η εφαρμογή γνωρίζει καλύτερα τα δεδομένα της (προφανώς), άρα υπάρχουν περισσότερες επιλογές για εργασία μαζί τους.
  • Οι κατασκευαστές ορισμένων εφαρμογών δεν εγγυώνται τη συνέπεια των δεδομένων τους εάν η αναπαραγωγή γίνεται με εργαλεία τρίτων. *

* - αμφιλεγόμενη διατριβή. Για παράδειγμα, ένας γνωστός κατασκευαστής DBMS δηλώνει επίσημα εδώ και πολύ καιρό ότι το DBMS του μπορεί να αναπαραχθεί μόνο κανονικά χρησιμοποιώντας τα μέσα του και ότι η υπόλοιπη αναπαραγωγή (συμπεριλαμβανομένων των συστημάτων αποθήκευσης) "δεν είναι αλήθεια". Όμως η ζωή έδειξε ότι δεν είναι έτσι. Πιθανότατα (αλλά αυτό δεν είναι σίγουρο) αυτή δεν είναι απλώς η πιο ειλικρινής προσπάθεια να πουληθούν περισσότερες άδειες σε πελάτες.

Ως αποτέλεσμα, στις περισσότερες περιπτώσεις, η αναπαραγωγή από το σύστημα αποθήκευσης είναι καλύτερη, επειδή Αυτή είναι μια απλούστερη και λιγότερο δαπανηρή επιλογή, αλλά υπάρχουν πολύπλοκες περιπτώσεις όπου απαιτείται συγκεκριμένη λειτουργικότητα εφαρμογής και είναι απαραίτητο να εργαστείτε με αναπαραγωγή σε επίπεδο εφαρμογής.

Τελείωσε η θεωρία, τώρα η πράξη

Θα διαμορφώσουμε το αντίγραφο στο εργαστήριό μας. Σε εργαστηριακές συνθήκες, μιμηθήκαμε δύο κέντρα δεδομένων (στην πραγματικότητα, δύο γειτονικά rack που φαινόταν να βρίσκονται σε διαφορετικά κτίρια). Το περίπτερο αποτελείται από δύο συστήματα αποθήκευσης κινητήρα N2, τα οποία συνδέονται μεταξύ τους με οπτικά καλώδια. Ένας φυσικός διακομιστής με Windows Server 2016 είναι συνδεδεμένος και στα δύο συστήματα αποθήκευσης χρησιμοποιώντας Ethernet 10 Gb. Το περίπτερο είναι αρκετά απλό, αλλά αυτό δεν αλλάζει την ουσία.

Σχηματικά μοιάζει με αυτό:

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Λογικά, η αναπαραγωγή οργανώνεται ως εξής:

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Τώρα ας δούμε τη λειτουργία αναπαραγωγής που έχουμε τώρα.
Υποστηρίζονται δύο λειτουργίες: ασύγχρονη και σύγχρονη. Είναι λογικό ότι η σύγχρονη λειτουργία περιορίζεται από απόσταση και κανάλι επικοινωνίας. Συγκεκριμένα, η σύγχρονη λειτουργία απαιτεί τη χρήση οπτικών ινών ως φυσικής και 10 Gigabit Ethernet (ή υψηλότερη).

Η υποστηριζόμενη απόσταση για τη σύγχρονη αναπαραγωγή είναι 40 χιλιόμετρα, η τιμή καθυστέρησης του οπτικού καναλιού μεταξύ των κέντρων δεδομένων είναι έως και 2 χιλιοστά του δευτερολέπτου. Γενικά, θα λειτουργήσει με μεγάλες καθυστερήσεις, αλλά μετά θα υπάρξουν έντονες επιβραδύνσεις κατά την εγγραφή (κάτι που είναι και λογικό), οπότε αν σχεδιάζετε σύγχρονη αναπαραγωγή μεταξύ των κέντρων δεδομένων, θα πρέπει να ελέγξετε την ποιότητα των οπτικών και τις καθυστερήσεις.

Οι απαιτήσεις για ασύγχρονη αναπαραγωγή δεν είναι τόσο σοβαρές. Πιο συγκεκριμένα, δεν υπάρχουν καθόλου. Οποιαδήποτε σύνδεση Ethernet λειτουργεί.

Επί του παρόντος, το σύστημα αποθήκευσης AERODISK ENGINE υποστηρίζει αναπαραγωγή για συσκευές μπλοκ (LUN) μέσω του πρωτοκόλλου Ethernet (με χαλκό ή οπτικό). Για έργα όπου απαιτείται αναπαραγωγή μέσω ενός υφάσματος SAN μέσω καναλιού οπτικών ινών, αυτή τη στιγμή προσθέτουμε μια κατάλληλη λύση, αλλά δεν είναι ακόμη έτοιμη, επομένως στην περίπτωσή μας, μόνο Ethernet.

Η αναπαραγωγή μπορεί να λειτουργήσει μεταξύ οποιωνδήποτε συστημάτων αποθήκευσης της σειράς ENGINE (N1, N2, N4) από junior συστήματα σε παλαιότερα και αντίστροφα.

Η λειτουργικότητα και των δύο τρόπων αναπαραγωγής είναι εντελώς πανομοιότυπη. Ακολουθούν περισσότερες λεπτομέρειες σχετικά με το τι είναι διαθέσιμο:

  • Αντιγραφή «ένα προς ένα» ή «ένα προς ένα», δηλαδή την κλασική έκδοση με δύο κέντρα δεδομένων, το κύριο και το εφεδρικό
  • Η αναπαραγωγή είναι «ένας προς πολλούς» ή «ένας προς πολλούς», δηλ. ένα LUN μπορεί να αναπαραχθεί σε πολλά συστήματα αποθήκευσης ταυτόχρονα
  • Ενεργοποίηση, απενεργοποίηση και «αντίστροφη» αναπαραγωγή, αντίστοιχα, για ενεργοποίηση, απενεργοποίηση ή αλλαγή της κατεύθυνσης αναπαραγωγής
  • Η αναπαραγωγή είναι διαθέσιμη τόσο για τις ομάδες RDG (Raid Distributed Group) όσο και για το DDP (Dynamic Disk Pool). Ωστόσο, τα LUN μιας ομάδας RDG μπορούν να αναπαραχθούν μόνο σε ένα άλλο RDG. Το ίδιο με το DDP.

Υπάρχουν πολλά ακόμη μικρά χαρακτηριστικά, αλλά δεν έχει νόημα να τα αναφέρουμε· θα τα αναφέρουμε καθώς ρυθμίζουμε.

Ρύθμιση αναπαραγωγής

Η διαδικασία εγκατάστασης είναι αρκετά απλή και αποτελείται από τρία στάδια.

  1. Διαμόρφωση δικτύου
  2. Ρύθμιση αποθηκευτικού χώρου
  3. Ρύθμιση κανόνων (συνδέσεις) και χαρτογράφηση

Ένα σημαντικό σημείο στη ρύθμιση της αναπαραγωγής είναι ότι τα δύο πρώτα στάδια πρέπει να επαναληφθούν στο σύστημα απομακρυσμένης αποθήκευσης, το τρίτο στάδιο - μόνο στο κύριο.

Ρύθμιση πόρων δικτύου

Το πρώτο βήμα είναι να διαμορφώσετε τις θύρες δικτύου μέσω των οποίων θα μεταδίδεται η κυκλοφορία αναπαραγωγής. Για να το κάνετε αυτό, πρέπει να ενεργοποιήσετε τις θύρες και να ορίσετε τις διευθύνσεις IP τους στην ενότητα Προσαρμογείς Front-end.

Μετά από αυτό, πρέπει να δημιουργήσουμε ένα pool (στην περίπτωσή μας RDG) και μια εικονική IP για αναπαραγωγή (VIP). Το VIP είναι μια κινητή διεύθυνση IP που συνδέεται με δύο «φυσικές» διευθύνσεις ελεγκτών αποθήκευσης (τις θύρες που μόλις διαμορφώσαμε). Αυτή θα είναι η κύρια διεπαφή αναπαραγωγής. Μπορείτε επίσης να λειτουργήσετε όχι με VIP, αλλά με VLAN, εάν χρειάζεται να εργαστείτε με επισκεψιμότητα με ετικέτα.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Η διαδικασία δημιουργίας ενός VIP για ένα αντίγραφο δεν διαφέρει πολύ από τη δημιουργία ενός VIP για I/O (NFS, SMB, iSCSI). Σε αυτήν την περίπτωση, δημιουργούμε ένα κανονικό VIP (χωρίς VLAN), αλλά φροντίστε να υποδείξουμε ότι είναι για αναπαραγωγή (χωρίς αυτόν τον δείκτη δεν θα μπορούμε να προσθέσουμε VIP στον κανόνα στο επόμενο βήμα).

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Το VIP πρέπει να βρίσκεται στο ίδιο υποδίκτυο με τις θύρες IP μεταξύ των οποίων κινείται.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Επαναλαμβάνουμε αυτές τις ρυθμίσεις σε ένα σύστημα απομακρυσμένης αποθήκευσης, με διαφορετική IP φυσικά.
Τα VIP από διαφορετικά συστήματα αποθήκευσης μπορούν να βρίσκονται σε διαφορετικά υποδίκτυα, το κύριο πράγμα είναι ότι υπάρχει δρομολόγηση μεταξύ τους. Στην περίπτωσή μας, αυτό το παράδειγμα φαίνεται ακριβώς (192.168.3.XX και 192.168.2.XX)

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Αυτό ολοκληρώνει την προετοιμασία του τμήματος δικτύου.

Ρύθμιση χώρου αποθήκευσης

Η ρύθμιση του χώρου αποθήκευσης για ένα αντίγραφο διαφέρει από τη συνηθισμένη μόνο στο ότι κάνουμε τη χαρτογράφηση μέσω ενός ειδικού μενού "Replication Mapping". Διαφορετικά όλα είναι ίδια με την κανονική ρύθμιση. Τώρα, με τη σειρά.

Στο R02 που δημιουργήθηκε προηγουμένως, πρέπει να δημιουργήσετε ένα LUN. Ας το δημιουργήσουμε και ας το ονομάσουμε LUN1.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Πρέπει επίσης να δημιουργήσουμε το ίδιο LUN σε ένα απομακρυσμένο σύστημα αποθήκευσης ίδιου μεγέθους. Δημιουργούμε. Για να αποφύγουμε τη σύγχυση, ας καλέσουμε το απομακρυσμένο LUN LUN1R

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Εάν χρειαζόταν να πάρουμε ένα LUN που υπάρχει ήδη, τότε κατά τη ρύθμιση του αντιγράφου, θα έπρεπε να αποπροσαρτήσουμε αυτό το παραγωγικό LUN από τον κεντρικό υπολογιστή και απλώς να δημιουργήσουμε ένα κενό LUN ίδιου μεγέθους στο σύστημα απομακρυσμένης αποθήκευσης.

Η ρύθμιση αποθήκευσης έχει ολοκληρωθεί, ας προχωρήσουμε στη δημιουργία ενός κανόνα αναπαραγωγής.

Ρύθμιση κανόνων αναπαραγωγής ή συνδέσμων αναπαραγωγής

Αφού δημιουργήσουμε LUN στο σύστημα αποθήκευσης, το οποίο θα είναι το κύριο προς το παρόν, διαμορφώνουμε τον κανόνα αναπαραγωγής LUN1 στο σύστημα αποθήκευσης 1 στο LUN1R στο σύστημα αποθήκευσης 2.

Η ρύθμιση γίνεται στο μενού "Remote Replication".

Ας δημιουργήσουμε έναν κανόνα. Για να το κάνετε αυτό, πρέπει να καθορίσετε τον παραλήπτη του αντιγράφου. Εκεί ορίζουμε επίσης το όνομα της σύνδεσης και τον τύπο της αναπαραγωγής (σύγχρονη ή ασύγχρονη).

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Στο πεδίο «απομακρυσμένα συστήματα» προσθέτουμε το σύστημα αποθήκευσης2. Για να προσθέσετε, πρέπει να χρησιμοποιήσετε τα συστήματα αποθήκευσης IP διαχείρισης (MGR) και το όνομα του απομακρυσμένου LUN στο οποίο θα πραγματοποιήσουμε αναπαραγωγή (στην περίπτωσή μας, LUN1R). Οι διευθύνσεις IP ελέγχου απαιτούνται μόνο στο στάδιο της προσθήκης μιας σύνδεσης· η κυκλοφορία αναπαραγωγής δεν θα μεταδίδεται μέσω αυτών· το VIP που έχει ρυθμιστεί προηγουμένως θα χρησιμοποιηθεί για αυτό.

Ήδη σε αυτό το στάδιο μπορούμε να προσθέσουμε περισσότερα από ένα απομακρυσμένα συστήματα για την τοπολογία «ένα προς πολλά»: κάντε κλικ στο κουμπί «προσθήκη κόμβου», όπως στο παρακάτω σχήμα.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Στην περίπτωσή μας, υπάρχει μόνο ένα απομακρυσμένο σύστημα, επομένως περιοριζόμαστε σε αυτό.

Ο κανόνας είναι έτοιμος. Λάβετε υπόψη ότι προστίθεται αυτόματα σε όλους τους συμμετέχοντες αναπαραγωγής (στην περίπτωσή μας υπάρχουν δύο από αυτούς). Μπορείτε να δημιουργήσετε όσους κανόνες θέλετε, για οποιονδήποτε αριθμό LUN και προς οποιαδήποτε κατεύθυνση. Για παράδειγμα, για να εξισορροπηθεί το φορτίο, μπορούμε να αντιγράψουμε μέρος των LUN από το σύστημα αποθήκευσης 1 στο σύστημα αποθήκευσης 2 και το άλλο μέρος, αντίθετα, από το σύστημα αποθήκευσης 2 στο σύστημα αποθήκευσης 1.

Σύστημα αποθήκευσης 1. Αμέσως μετά τη δημιουργία ξεκίνησε ο συγχρονισμός.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Σύστημα αποθήκευσης 2. Βλέπουμε τον ίδιο κανόνα, αλλά ο συγχρονισμός έχει ήδη τελειώσει.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Το LUN1 στο σύστημα αποθήκευσης 1 βρίσκεται στον πρωτεύοντα ρόλο, δηλαδή είναι ενεργό. Το LUN1R στο σύστημα αποθήκευσης 2 βρίσκεται σε ρόλο δευτερεύοντος, δηλαδή είναι σε αναμονή σε περίπτωση που το σύστημα αποθήκευσης 1 αποτύχει.
Τώρα μπορούμε να συνδέσουμε το LUN μας στον κεντρικό υπολογιστή.

Θα συνδεθούμε μέσω iSCSI, αν και μπορεί να γίνει και μέσω FC. Η ρύθμιση της χαρτογράφησης μέσω iSCSI LUN σε ένα αντίγραφο πρακτικά δεν διαφέρει από το συνηθισμένο σενάριο, επομένως δεν θα το εξετάσουμε λεπτομερώς εδώ. Αν μη τι άλλο, αυτή η διαδικασία περιγράφεται στο άρθρο "Γρήγορη εγκατάσταση».

Η μόνη διαφορά είναι ότι δημιουργούμε χαρτογράφηση στο μενού "Replication Mapping".

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Ρυθμίσαμε τη χαρτογράφηση και δώσαμε το LUN στον οικοδεσπότη. Ο οικοδεσπότης είδε το LUN.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Το μορφοποιούμε σε τοπικό σύστημα αρχείων.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Αυτό είναι όλο, η ρύθμιση έχει ολοκληρωθεί. Θα ακολουθήσουν οι δοκιμές.

Δοκιμές

Θα δοκιμάσουμε τρία βασικά σενάρια.

  1. Τακτική εναλλαγή ρόλων Δευτερεύον > Πρωτεύον. Απαιτείται τακτική εναλλαγή ρόλων σε περίπτωση που, για παράδειγμα, χρειαστεί να εκτελέσουμε κάποιες προληπτικές λειτουργίες στο κύριο κέντρο δεδομένων και σε αυτό το διάστημα, για να είναι διαθέσιμα τα δεδομένα, μεταφέρουμε το φορτίο στο backup data center.
  2. Εναλλαγή ρόλου έκτακτης ανάγκης Δευτερεύον > Πρωτεύον (αστοχία κέντρου δεδομένων). Αυτό είναι το κύριο σενάριο για το οποίο υπάρχει αναπαραγωγή, το οποίο μπορεί να βοηθήσει στην επιβίωση μιας πλήρους αποτυχίας του κέντρου δεδομένων χωρίς να σταματήσει την εταιρεία για μεγάλο χρονικό διάστημα.
  3. Καταστροφή των καναλιών επικοινωνίας μεταξύ των κέντρων δεδομένων. Έλεγχος της σωστής συμπεριφοράς δύο συστημάτων αποθήκευσης σε συνθήκες όπου για κάποιο λόγο το κανάλι επικοινωνίας μεταξύ των κέντρων δεδομένων δεν είναι διαθέσιμο (για παράδειγμα, ένας εκσκαφέας έσκαψε σε λάθος μέρος και έσπασε τα σκοτεινά οπτικά στοιχεία).

Αρχικά, θα αρχίσουμε να γράφουμε δεδομένα στο LUN μας (εγγραφή αρχείων με τυχαία δεδομένα). Βλέπουμε αμέσως ότι αξιοποιείται το κανάλι επικοινωνίας μεταξύ των συστημάτων αποθήκευσης. Αυτό είναι εύκολο να γίνει κατανοητό αν ανοίξετε την παρακολούθηση φορτίου των θυρών που είναι υπεύθυνες για την αναπαραγωγή.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Και τα δύο συστήματα αποθήκευσης έχουν πλέον «χρήσιμα» δεδομένα, μπορούμε να ξεκινήσουμε τη δοκιμή.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Για κάθε ενδεχόμενο, ας δούμε τα αθροίσματα κατακερματισμού ενός από τα αρχεία και ας τα γράψουμε.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Τακτική εναλλαγή ρόλων

Η λειτουργία εναλλαγής ρόλων (αλλαγή της κατεύθυνσης αναπαραγωγής) μπορεί να γίνει με οποιοδήποτε σύστημα αποθήκευσης, αλλά θα πρέπει να μεταβείτε και στα δύο, αφού θα πρέπει να απενεργοποιήσετε την αντιστοίχιση στο Κύριο και να την ενεργοποιήσετε στο Δευτερεύον (που θα γίνει Κύριο ).

Ίσως τώρα προκύπτει ένα εύλογο ερώτημα: γιατί να μην αυτοματοποιηθεί; Η απάντηση είναι: είναι απλό, η αναπαραγωγή είναι ένα απλό μέσο ανθεκτικότητας στις καταστροφές, που βασίζεται αποκλειστικά σε χειροκίνητες λειτουργίες. Για την αυτοματοποίηση αυτών των λειτουργιών, υπάρχει μια λειτουργία metrocluster· είναι πλήρως αυτοματοποιημένη, αλλά η διαμόρφωσή της είναι πολύ πιο περίπλοκη. Θα γράψουμε για τη δημιουργία ενός metrocluster στο επόμενο άρθρο.

Στο κύριο σύστημα αποθήκευσης, απενεργοποιούμε τη χαρτογράφηση για να διασφαλίσουμε ότι η εγγραφή σταματά.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Στη συνέχεια, σε ένα από τα συστήματα αποθήκευσης (δεν έχει σημασία, στο κύριο ή εφεδρικό) στο μενού "Remote Replication", επιλέξτε τη σύνδεσή μας REPL1 και κάντε κλικ στο "Change role".

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Μετά από λίγα δευτερόλεπτα, το LUN1R (σύστημα αποθήκευσης αντιγράφων ασφαλείας) γίνεται Κύριο.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Χαρτογραφούμε το LUN1R με σύστημα αποθήκευσης2.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Μετά από αυτό, η μονάδα μας E: συνδέεται αυτόματα στον κεντρικό υπολογιστή, μόνο που αυτή τη φορά "έφθασε" από το LUN1R.

Για κάθε περίπτωση, συγκρίνουμε τα αθροίσματα κατακερματισμού.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Πανομοιότυπα. Το τεστ πέρασε.

Failover. Αποτυχία κέντρου δεδομένων

Αυτή τη στιγμή, το κύριο σύστημα αποθήκευσης μετά την κανονική εναλλαγή είναι το σύστημα αποθήκευσης 2 και το LUN1R, αντίστοιχα. Για να προσομοιώσουμε ένα ατύχημα, θα απενεργοποιήσουμε την τροφοδοσία και στους δύο ελεγκτές αποθήκευσης2.
Δεν υπάρχει πλέον πρόσβαση σε αυτό.

Ας δούμε τι συμβαίνει στο σύστημα αποθήκευσης 1 (το εφεδρικό αυτήν τη στιγμή).

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Βλέπουμε ότι το Κύριο LUN (LUN1R) δεν είναι διαθέσιμο. Εμφανίστηκε ένα μήνυμα σφάλματος στα αρχεία καταγραφής, στον πίνακα πληροφοριών, καθώς και στον ίδιο τον κανόνα αναπαραγωγής. Συνεπώς, τα δεδομένα από τον κεντρικό υπολογιστή δεν είναι προς το παρόν διαθέσιμα.

Αλλάξτε το ρόλο του LUN1 σε Primary.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Κάνω χαρτογράφηση στον οικοδεσπότη.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Βεβαιωθείτε ότι η μονάδα E εμφανίζεται στον κεντρικό υπολογιστή.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Ελέγχουμε το hash.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Ολα ειναι καλά. Το σύστημα αποθήκευσης επέζησε με επιτυχία από την πτώση του κέντρου δεδομένων, το οποίο ήταν ενεργό. Ο κατά προσέγγιση χρόνος που αφιερώσαμε για τη σύνδεση της «αντιστροφής» αναπαραγωγής και τη σύνδεση του LUN από το εφεδρικό κέντρο δεδομένων ήταν περίπου 3 λεπτά. Είναι σαφές ότι στην πραγματική παραγωγή όλα είναι πολύ πιο περίπλοκα και εκτός από ενέργειες με συστήματα αποθήκευσης, πρέπει να εκτελέσετε πολλές περισσότερες λειτουργίες στο δίκτυο, σε κεντρικούς υπολογιστές, σε εφαρμογές. Και στη ζωή αυτό το χρονικό διάστημα θα είναι πολύ μεγαλύτερο.

Εδώ θα ήθελα να γράψω ότι όλα, η δοκιμή ολοκληρώθηκε με επιτυχία, αλλά ας μην βιαζόμαστε. Το κύριο σύστημα αποθήκευσης είναι το "ψέματα", γνωρίζουμε ότι όταν "έπεσε", ήταν στον Κύριο ρόλο. Τι θα συμβεί αν ανάψει ξαφνικά; Θα υπάρχουν δύο κύριοι ρόλοι, που ισοδυναμεί με καταστροφή δεδομένων; Ας το ελέγξουμε τώρα.
Ας ενεργοποιήσουμε ξαφνικά το υποκείμενο σύστημα αποθήκευσης.

Φορτώνει για λίγα λεπτά και μετά επιστρέφει στην υπηρεσία μετά από σύντομο συγχρονισμό, αλλά σε ρόλο Δευτερεύοντος.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Ολα καλά. Διχασμός εγκεφάλου δεν συνέβη. Το σκεφτήκαμε αυτό και πάντα μετά από μια πτώση το σύστημα αποθήκευσης ανεβαίνει στο ρόλο του Δευτεροβάθμιου, ανεξάρτητα από τον ρόλο που είχε «κατά τη διάρκεια της ζωής». Τώρα μπορούμε να πούμε με βεβαιότητα ότι η δοκιμή αποτυχίας του κέντρου δεδομένων ήταν επιτυχής.

Αστοχία καναλιών επικοινωνίας μεταξύ κέντρων δεδομένων

Το κύριο καθήκον αυτής της δοκιμής είναι να βεβαιωθεί ότι το σύστημα αποθήκευσης δεν αρχίζει να λειτουργεί παράξενα εάν χάσει προσωρινά τα κανάλια επικοινωνίας μεταξύ δύο συστημάτων αποθήκευσης και στη συνέχεια εμφανιστεί ξανά.
Ετσι. Αποσυνδέουμε τα καλώδια μεταξύ των συστημάτων αποθήκευσης (ας φανταστούμε ότι τα έσκαψε ένας εκσκαφέας).

Στο Primary βλέπουμε ότι δεν υπάρχει σύνδεση με το Secondary.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Στο δευτερεύον βλέπουμε ότι δεν υπάρχει σύνδεση με το Primary.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Όλα λειτουργούν καλά και συνεχίζουμε να γράφουμε δεδομένα στο κύριο σύστημα αποθήκευσης, δηλαδή είναι εγγυημένο ότι διαφέρουν από το εφεδρικό, δηλαδή έχουν "χωρίσει".

Σε λίγα λεπτά «επισκευάζουμε» το κανάλι επικοινωνίας. Μόλις τα συστήματα αποθήκευσης δουν το ένα το άλλο, ο συγχρονισμός δεδομένων ενεργοποιείται αυτόματα. Δεν απαιτείται τίποτα από τον διαχειριστή εδώ.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Μετά από κάποιο χρονικό διάστημα, ο συγχρονισμός ολοκληρώνεται.

Κινητήρας AERODISK: Αντοχή σε καταστροφές. Μέρος 1

Η σύνδεση αποκαταστάθηκε, η απώλεια καναλιών επικοινωνίας δεν προκάλεσε καταστάσεις έκτακτης ανάγκης και μετά την ενεργοποίηση, ο συγχρονισμός πραγματοποιήθηκε αυτόματα.

Ευρήματα

Αναλύσαμε τη θεωρία - τι χρειάζεται και γιατί, πού είναι τα πλεονεκτήματα και πού τα μειονεκτήματα. Στη συνέχεια ρυθμίζουμε τη σύγχρονη αναπαραγωγή μεταξύ δύο συστημάτων αποθήκευσης.

Στη συνέχεια, πραγματοποιήθηκαν βασικές δοκιμές για κανονική μεταγωγή, αστοχία κέντρου δεδομένων και αστοχία καναλιού επικοινωνίας. Σε όλες τις περιπτώσεις, το σύστημα αποθήκευσης λειτούργησε καλά. Δεν υπάρχει απώλεια δεδομένων και οι διαχειριστικές λειτουργίες περιορίζονται στο ελάχιστο για ένα μη αυτόματο σενάριο.

Την επόμενη φορά θα περιπλέξουμε την κατάσταση και θα δείξουμε πώς λειτουργεί όλη αυτή η λογική σε ένα αυτοματοποιημένο metrocluster σε ενεργή-ενεργή λειτουργία, δηλαδή όταν και τα δύο συστήματα αποθήκευσης είναι κύρια και η συμπεριφορά σε περίπτωση αστοχίας του συστήματος αποθήκευσης είναι πλήρως αυτοματοποιημένη.

Παρακαλώ γράψτε σχόλια, θα χαρούμε να λάβουμε σοβαρή κριτική και πρακτικές συμβουλές.

Τα λέμε.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο