Γιατί είναι σημαντικό να επικυρώνετε λογισμικό στον χώρο αποθήκευσης υψηλής διαθεσιμότητας (99,9999%)

Γιατί είναι σημαντικό να επικυρώνετε λογισμικό στον χώρο αποθήκευσης υψηλής διαθεσιμότητας (99,9999%)

Ποια έκδοση υλικολογισμικού είναι η πιο «σωστή» και «λειτουργική»; Εάν ένα σύστημα αποθήκευσης εγγυάται ανοχή σφαλμάτων 99,9999%, αυτό σημαίνει ότι θα λειτουργεί αδιάκοπα ακόμη και χωρίς ενημέρωση λογισμικού; Ή, αντίθετα, για να έχετε τη μέγιστη ανοχή σφαλμάτων, θα πρέπει πάντα να εγκαθιστάτε το πιο πρόσφατο υλικολογισμικό; Θα προσπαθήσουμε να απαντήσουμε σε αυτές τις ερωτήσεις με βάση την εμπειρία μας.

Μικρή εισαγωγή

Όλοι καταλαβαίνουμε ότι κάθε έκδοση λογισμικού, είτε πρόκειται για λειτουργικό σύστημα είτε για πρόγραμμα οδήγησης για μια συσκευή, συχνά περιέχει ελαττώματα/bugs και άλλες «χαρακτηριστικές» που μπορεί να μην «εμφανιστούν» μέχρι το τέλος της διάρκειας ζωής του εξοπλισμού ή «ανοιχτό». μόνο υπό ορισμένες προϋποθέσεις. Ο αριθμός και η σημασία τέτοιων αποχρώσεων εξαρτάται από την πολυπλοκότητα (λειτουργικότητα) του λογισμικού και από την ποιότητα των δοκιμών κατά την ανάπτυξή του. 

Συχνά, οι χρήστες παραμένουν στο "υλικολογισμικό από το εργοστάσιο" (το περίφημο "δουλεύει, οπότε μην το μπερδεύετε") ή εγκαθιστούν πάντα την πιο πρόσφατη έκδοση (κατά την κατανόησή τους, η πιο πρόσφατη σημαίνει την πιο λειτουργική). Χρησιμοποιούμε μια διαφορετική προσέγγιση - εξετάζουμε τις σημειώσεις έκδοσης για οτιδήποτε χρησιμοποιείται στο σύννεφο mClouds εξοπλισμό και επιλέξτε προσεκτικά το κατάλληλο υλικολογισμικό για κάθε εξοπλισμό.

Σε αυτό το συμπέρασμα καταλήξαμε, όπως λένε, με πείρα. Χρησιμοποιώντας το παράδειγμά μας λειτουργίας, θα σας πούμε γιατί η υποσχόμενη αξιοπιστία 99,9999% των συστημάτων αποθήκευσης δεν σημαίνει τίποτα εάν δεν παρακολουθείτε έγκαιρα τις ενημερώσεις και τις περιγραφές λογισμικού. Η περίπτωσή μας είναι κατάλληλη για χρήστες συστημάτων αποθήκευσης οποιουδήποτε προμηθευτή, καθώς παρόμοια κατάσταση μπορεί να συμβεί με υλικό οποιουδήποτε κατασκευαστή.

Επιλογή νέου συστήματος αποθήκευσης

Στα τέλη του περασμένου έτους, ένα ενδιαφέρον σύστημα αποθήκευσης δεδομένων προστέθηκε στην υποδομή μας: ένα junior μοντέλο από τη σειρά IBM FlashSystem 5000, το οποίο τη στιγμή της αγοράς ονομαζόταν Storwize V5010e. Τώρα πωλείται με το όνομα FlashSystem 5010, αλλά στην πραγματικότητα είναι η ίδια βάση υλικού με το ίδιο Spectrum Virtualize μέσα. 

Η παρουσία ενός ενοποιημένου συστήματος διαχείρισης είναι, παρεμπιπτόντως, η κύρια διαφορά μεταξύ του IBM FlashSystem. Για τα μοντέλα της νεότερης σειράς, πρακτικά δεν διαφέρει από τα μοντέλα πιο παραγωγικών. Η επιλογή ενός συγκεκριμένου μοντέλου παρέχει μόνο την κατάλληλη βάση υλικού, τα χαρακτηριστικά της οποίας καθιστούν δυνατή τη χρήση μιας ή άλλης λειτουργικότητας ή την παροχή υψηλότερου επιπέδου επεκτασιμότητας. Το λογισμικό προσδιορίζει το υλικό και παρέχει την απαραίτητη και επαρκή λειτουργικότητα για αυτήν την πλατφόρμα.

Γιατί είναι σημαντικό να επικυρώνετε λογισμικό στον χώρο αποθήκευσης υψηλής διαθεσιμότητας (99,9999%)IBM FlashSystem 5010

Εν συντομία για το μοντέλο μας 5010. Πρόκειται για ένα σύστημα αποθήκευσης μπλοκ διπλού ελεγκτή εισαγωγικού επιπέδου. Μπορεί να φιλοξενήσει δίσκους NLSAS, SAS, SSD. Η τοποθέτηση NVMe δεν είναι διαθέσιμη σε αυτό, καθώς αυτό το μοντέλο αποθήκευσης είναι τοποθετημένο για την επίλυση προβλημάτων που δεν απαιτούν την απόδοση των μονάδων NVMe.

Το σύστημα αποθήκευσης αγοράστηκε για να φιλοξενήσει αρχειακές πληροφορίες ή δεδομένα στα οποία δεν υπάρχει συχνή πρόσβαση. Ως εκ τούτου, το τυπικό σύνολο της λειτουργικότητάς του ήταν αρκετό για εμάς: Tiering (Easy Tier), Thin Provision. Η απόδοση σε δίσκους NLSAS στο επίπεδο 1000-2000 IOPS ήταν επίσης αρκετά ικανοποιητική για εμάς.

Η εμπειρία μας - πώς δεν ενημερώσαμε εγκαίρως το υλικολογισμικό

Τώρα σχετικά με την ίδια την ενημέρωση λογισμικού. Κατά τη στιγμή της αγοράς, το σύστημα διέθετε ήδη μια ελαφρώς ξεπερασμένη έκδοση του λογισμικού Spectrum Virtualize, συγκεκριμένα, 8.2.1.3.

Μελετήσαμε τις περιγραφές υλικολογισμικού και προγραμματίσαμε μια ενημέρωση 8.2.1.9. Εάν ήμασταν λίγο πιο αποτελεσματικοί, αυτό το άρθρο δεν θα υπήρχε - το σφάλμα δεν θα είχε παρουσιαστεί σε ένα πιο πρόσφατο υλικολογισμικό. Ωστόσο, για συγκεκριμένους λόγους, η ενημέρωση αυτού του συστήματος αναβλήθηκε.

Ως αποτέλεσμα, μια μικρή καθυστέρηση ενημέρωσης οδήγησε σε μια εξαιρετικά δυσάρεστη εικόνα, όπως στην περιγραφή στον σύνδεσμο: https://www.ibm.com/support/pages/node/6172341

Ναι, στο υλικολογισμικό αυτής της έκδοσης ήταν σχετικό το λεγόμενο APAR (Authorized Program Analysis Report) HU02104. Εμφανίζεται ως εξής. Υπό φόρτωση, υπό ορισμένες συνθήκες, η κρυφή μνήμη αρχίζει να ξεχειλίζει και, στη συνέχεια, το σύστημα μεταβαίνει σε λειτουργία προστασίας, κατά την οποία απενεργοποιεί την είσοδο/έξοδο για την πισίνα. Στην περίπτωσή μας, έμοιαζε με την αποσύνδεση 3 δίσκων για μια ομάδα RAID σε λειτουργία RAID 6. Η αποσύνδεση γίνεται για 6 λεπτά. Στη συνέχεια, αποκαθίσταται η πρόσβαση στους τόμους στο Pool.

Εάν κάποιος δεν είναι εξοικειωμένος με τη δομή και την ονομασία των λογικών οντοτήτων στο πλαίσιο του IBM Spectrum Virtualize, θα σας εξηγήσω τώρα εν συντομία.

Γιατί είναι σημαντικό να επικυρώνετε λογισμικό στον χώρο αποθήκευσης υψηλής διαθεσιμότητας (99,9999%)Δομή των λογικών στοιχείων του συστήματος αποθήκευσης

Οι δίσκοι συλλέγονται σε ομάδες που ονομάζονται MDisk (Managed Disk). Το MDisk μπορεί να είναι ένα κλασικό RAID (0,1,10,5,6) ή ένα εικονικοποιημένο - DRAID (Distributed RAID). Η χρήση του DRAID σάς επιτρέπει να αυξήσετε την απόδοση του πίνακα, επειδή... Όλοι οι δίσκοι της ομάδας θα χρησιμοποιηθούν και ο χρόνος ανακατασκευής θα μειωθεί, λόγω του γεγονότος ότι μόνο ορισμένα μπλοκ θα πρέπει να επαναφέρονται και όχι όλα τα δεδομένα από τον αποτυχημένο δίσκο.

Γιατί είναι σημαντικό να επικυρώνετε λογισμικό στον χώρο αποθήκευσης υψηλής διαθεσιμότητας (99,9999%)Κατανομή μπλοκ δεδομένων σε δίσκους κατά τη χρήση Κατανεμημένου RAID (DRAID) σε λειτουργία RAID-5.

Και αυτό το διάγραμμα δείχνει τη λογική του πώς λειτουργεί μια ανακατασκευή DRAID σε περίπτωση αποτυχίας ενός δίσκου:

Γιατί είναι σημαντικό να επικυρώνετε λογισμικό στον χώρο αποθήκευσης υψηλής διαθεσιμότητας (99,9999%)Λογική αναδόμησης DRAID όταν ένας δίσκος αποτυγχάνει

Στη συνέχεια, ένας ή περισσότεροι MDdisk σχηματίζουν ένα λεγόμενο Pool. Μέσα στο ίδιο pool, δεν συνιστάται η χρήση MDisk με διαφορετικά επίπεδα RAID/DRAID σε δίσκους ίδιου τύπου. Δεν θα υπεισέλθουμε σε αυτό πολύ βαθιά, γιατί… σκοπεύουμε να το καλύψουμε σε ένα από τα ακόλουθα άρθρα. Λοιπόν, στην πραγματικότητα, το Pool χωρίζεται σε τόμους, οι οποίοι παρουσιάζονται χρησιμοποιώντας ένα ή άλλο πρωτόκολλο πρόσβασης μπλοκ στους κεντρικούς υπολογιστές.

Έτσι, εμείς, ως αποτέλεσμα της κατάστασης που περιγράφεται στο APAR HU02104, λόγω της λογικής αστοχίας τριών δίσκων, το MDisk έπαψε να λειτουργεί, κάτι που με τη σειρά του είχε ως αποτέλεσμα την αστοχία του Pool και των αντίστοιχων Volumes.

Επειδή αυτά τα συστήματα είναι αρκετά έξυπνα, μπορούν να συνδεθούν με το σύστημα παρακολούθησης που βασίζεται σε σύννεφο IBM Storage Insights, το οποίο στέλνει αυτόματα ένα αίτημα υπηρεσίας στην υποστήριξη της IBM, εάν παρουσιαστεί πρόβλημα. Δημιουργείται μια εφαρμογή και οι ειδικοί της IBM πραγματοποιούν απομακρυσμένα διαγνωστικά και επικοινωνούν με τον χρήστη του συστήματος. 

Χάρη σε αυτό, το πρόβλημα επιλύθηκε αρκετά γρήγορα και ελήφθη μια άμεση σύσταση από την υπηρεσία υποστήριξης για ενημέρωση του συστήματός μας στο προηγουμένως επιλεγμένο υλικολογισμικό 8.2.1.9, το οποίο εκείνη τη στιγμή είχε ήδη επιδιορθωθεί. Επιβεβαιώνει αντίστοιχο Σημείωμα Έκδοσης.

Αποτελέσματα και προτάσεις μας

Όπως λέει και η παροιμία: «Όλα καλά που τελειώνουν καλά». Το σφάλμα στο υλικολογισμικό δεν προκάλεσε σοβαρά προβλήματα - οι διακομιστές αποκαταστάθηκαν το συντομότερο δυνατό και χωρίς απώλεια δεδομένων. Ορισμένοι πελάτες χρειάστηκε να επανεκκινήσουν τις εικονικές μηχανές, αλλά γενικά ήμασταν προετοιμασμένοι για πιο αρνητικές συνέπειες, αφού κάνουμε καθημερινά αντίγραφα ασφαλείας όλων των στοιχείων υποδομής και των μηχανών πελατών. 

Λάβαμε επιβεβαίωση ότι ακόμη και αξιόπιστα συστήματα με 99,9999% υποσχόμενη διαθεσιμότητα απαιτούν προσοχή και έγκαιρη συντήρηση. Με βάση την κατάσταση, έχουμε βγάλει ορισμένα συμπεράσματα για εμάς και μοιραζόμαστε τις συστάσεις μας:

  • Είναι επιτακτική η παρακολούθηση της κυκλοφορίας των ενημερώσεων, η μελέτη των Σημειώσεων Έκδοσης για διορθώσεις δυνητικά κρίσιμων ζητημάτων και η έγκαιρη εκτέλεση προγραμματισμένων ενημερώσεων.

    Αυτό είναι ένα οργανωτικό και μάλιστα αρκετά προφανές σημείο, στο οποίο, όπως φαίνεται, δεν αξίζει να εστιάσουμε. Ωστόσο, σε αυτό το "επίπεδο έδαφος" μπορείτε να σκοντάψετε πολύ εύκολα. Στην πραγματικότητα, ήταν αυτή η στιγμή που πρόσθεσε τα προβλήματα που περιγράφηκαν παραπάνω. Να είστε πολύ προσεκτικοί κατά τη σύνταξη των κανονισμών ενημέρωσης και να παρακολουθείτε τη συμμόρφωση με αυτούς όχι λιγότερο προσεκτικά. Αυτό το σημείο σχετίζεται περισσότερο με την έννοια της «πειθαρχίας».

  • Είναι πάντα καλύτερο να διατηρείτε το σύστημα με την πιο πρόσφατη έκδοση λογισμικού. Επιπλέον, η τρέχουσα δεν είναι αυτή που έχει μεγαλύτερο αριθμητικό προσδιορισμό, αλλά μάλλον αυτή με μεταγενέστερη ημερομηνία κυκλοφορίας. 

    Για παράδειγμα, η IBM διατηρεί τουλάχιστον δύο εκδόσεις λογισμικού ενημερωμένες για τα συστήματα αποθήκευσης της. Τη στιγμή που γράφεται αυτό το άρθρο, αυτά είναι τα 8.2 και 8.3. Οι ενημερώσεις για την 8.2 βγαίνουν νωρίτερα. Μια παρόμοια ενημέρωση για το 8.3 κυκλοφορεί συνήθως με μια μικρή καθυστέρηση.

    Η έκδοση 8.3 έχει μια σειρά από λειτουργικά πλεονεκτήματα, για παράδειγμα, τη δυνατότητα επέκτασης του MDisk (σε λειτουργία DRAID) με την προσθήκη ενός ή περισσότερων νέων δίσκων (αυτή η δυνατότητα έχει εμφανιστεί από την έκδοση 8.3.1). Αυτή είναι μια αρκετά βασική λειτουργικότητα, αλλά στο 8.2, δυστυχώς, δεν υπάρχει τέτοιο χαρακτηριστικό.

  • Εάν δεν είναι δυνατή η ενημέρωση για κάποιο λόγο, τότε για εκδόσεις του λογισμικού Spectrum Virtualize πριν από τις εκδόσεις 8.2.1.9 και 8.3.1.0 (όπου το σφάλμα που περιγράφεται παραπάνω είναι σχετικό), για να μειωθεί ο κίνδυνος εμφάνισής του, η τεχνική υποστήριξη της IBM συνιστά περιορίζοντας την απόδοση του συστήματος σε επίπεδο πισίνας, όπως φαίνεται στο παρακάτω σχήμα (η φωτογραφία τραβήχτηκε στη ρωσοποιημένη έκδοση του GUI). Η τιμή των 10000 IOPS εμφανίζεται ως παράδειγμα και επιλέγεται σύμφωνα με τα χαρακτηριστικά του συστήματός σας.

Γιατί είναι σημαντικό να επικυρώνετε λογισμικό στον χώρο αποθήκευσης υψηλής διαθεσιμότητας (99,9999%)Περιορισμός της απόδοσης αποθήκευσης της IBM

  • Είναι απαραίτητο να υπολογιστεί σωστά το φορτίο στα συστήματα αποθήκευσης και να αποφευχθεί η υπερφόρτωση. Για να το κάνετε αυτό, μπορείτε να χρησιμοποιήσετε είτε το μέγεθος του IBM (εάν έχετε πρόσβαση σε αυτό), είτε τη βοήθεια συνεργατών ή πόρους τρίτων. Είναι επιτακτική ανάγκη να κατανοήσετε το προφίλ φορτίου στο σύστημα αποθήκευσης, γιατί Η απόδοση σε MB/s και IOPS ποικίλλει σημαντικά ανάλογα με τουλάχιστον τις ακόλουθες παραμέτρους:

    • τύπος λειτουργίας: ανάγνωση ή εγγραφή,

    • μέγεθος μπλοκ λειτουργίας,

    • ποσοστό των λειτουργιών ανάγνωσης και εγγραφής στη συνολική ροή εισόδου/εξόδου.

    Επίσης, η ταχύτητα των λειτουργιών επηρεάζεται από τον τρόπο ανάγνωσης των μπλοκ δεδομένων: διαδοχικά ή με τυχαία σειρά. Όταν εκτελείτε πολλαπλές λειτουργίες πρόσβασης δεδομένων στην πλευρά της εφαρμογής, υπάρχει η έννοια των εξαρτημένων λειτουργιών. Καλό είναι επίσης να ληφθεί υπόψη αυτό. Όλα αυτά μπορούν να βοηθήσουν στην προβολή του συνόλου των δεδομένων από τους μετρητές απόδοσης του λειτουργικού συστήματος, του συστήματος αποθήκευσης, των διακομιστών/υπερεπόπτη, καθώς και στην κατανόηση των λειτουργικών χαρακτηριστικών των εφαρμογών, των DBMS και άλλων «καταναλωτών» πόρων δίσκου.

  • Και τέλος, φροντίστε να έχετε ενημερωμένα και λειτουργικά αντίγραφα ασφαλείας. Το πρόγραμμα δημιουργίας αντιγράφων ασφαλείας θα πρέπει να διαμορφωθεί με βάση τις αποδεκτές τιμές RPO για την επιχείρηση και θα πρέπει να επαληθεύονται περιοδικοί έλεγχοι ακεραιότητας των αντιγράφων ασφαλείας (αρκετοί προμηθευτές λογισμικού εφεδρικών αντιγράφων έχουν εφαρμόσει αυτοματοποιημένη επαλήθευση στα προϊόντα τους) για να εξασφαλίσουν μια αποδεκτή τιμή RTO.

Σας ευχαριστώ που διαβάσατε μέχρι το τέλος.
Είμαστε έτοιμοι να απαντήσουμε στις ερωτήσεις και τα σχόλιά σας στα σχόλια. Επίσης Σας προσκαλούμε να εγγραφείτε στο κανάλι μας στο τηλεγράφημα, στις οποίες πραγματοποιούμε τακτικές προσφορές (εκπτώσεις στο IaaS και δώρα για κωδικούς προσφοράς έως και 100% στο VPS), γράφουμε ενδιαφέροντα νέα και ανακοινώνουμε νέα άρθρα στο ιστολόγιο Habr.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο