Slurm SRE. Συνεχές πείραμα με ειδικούς από την Booking.com και το Google.com

Η ομάδα μας λατρεύει τα πειράματα. Κάθε Slurm δεν είναι μια στατική επανάληψη των προηγούμενων, αλλά ένας προβληματισμός για την εμπειρία και μια μετάβαση από το καλό στο καλύτερο. Αλλά με Slurm SRE αποφασίσαμε να εφαρμόσουμε μια εντελώς νέα μορφή - να δώσουμε στους συμμετέχοντες συνθήκες όσο το δυνατόν πλησιέστερες στην «μάχη».

Αν περιγράψουμε εν συντομία τι κάναμε κατά τη διάρκεια του εντατικού μαθήματος: «Χτίζουμε, σπάμε, επισκευάζουμε,
εμεις διαβαζουμε." Το SRE αξίζει ελάχιστα σε απλή θεωρία - μόνο πρακτική, πραγματικές λύσεις, πραγματικά προβλήματα.

Οι συμμετέχοντες χωρίστηκαν σε ομάδες έτσι ώστε ένα έντονο ανταγωνιστικό πνεύμα να μην επιτρέψει σε κανέναν να αποκοιμηθεί ή να ξεκινήσει το "Angry Birds" στο iPhone, ακολουθώντας το παράδειγμα του Ντμίτρι Ανατόλιεβιτς.

Προβλήματα, δυσλειτουργίες, σφάλματα και εργασίες δόθηκαν στους συμμετέχοντες από τέσσερις μέντορες. Ivan Kruglov, Κύριος προγραμματιστής στο Booking.com (Ολλανδία). Ben Tyler, Κύριος προγραμματιστής στο Booking.com (ΗΠΑ). Eduard Medvedev, CTO στο Tungsten Labs (Γερμανία). Evgeniy Varavva, γενικός προγραμματιστής στην Google (Σαν Φρανσίσκο).

Επιπλέον, οι συμμετέχοντες χωρίζονται σε ομάδες και ανταγωνίζονται μεταξύ τους. Ενδιαφέρων?

Slurm SRE. Συνεχές πείραμα με ειδικούς από την Booking.com και το Google.com
Ο Ivan, ο Ben, ο Eduard και ο Evgeniy κοιτάζουν τους φτωχούς συμμετέχοντες στο Slurm SRE με ευγενικούς λενινιστικούς στραβισμούς πριν από την έναρξη του διαγωνισμού.

Η εργασία λοιπόν:

Είμαστε δικοί μας, θα χτίσουμε έναν νέο κόσμο...

Υπάρχει ένας ιστότοπος συγκέντρωσης εισιτηρίων κινηματογράφου. Τα περιστατικά επινοούνται από μέντορες σε ένα προκατεργασμένο σενάριο (αν και κανείς δεν αποκλείει τον ιδιαίτερα εξελιγμένο και ύπουλο αυτοσχεδιασμό), η απόδοση του ιστότοπου περιγράφεται με διάφορες μετρήσεις. Τα προβλήματα μπορεί να είναι πολύ διαφορετικά: τα εισιτήρια για το θέατρο Moulin Rouge δεν φορτώνονται στη βάση δεδομένων. Οι αφίσες ταινιών και παραστάσεων φορτώνονται στη βάση δεδομένων σε περισσότερα από 10 δευτερόλεπτα. η περιγραφή μιας μεμονωμένης ταινίας παγώνει. Το 0,1% των παραγγελιών είναι ήδη δεσμευμένο. Από καιρό σε καιρό το σύστημα επεξεργασίας πληρωμών κολλάει για ένα ή δύο λεπτά. Και πολλά, πολλά, πολλά δυσάρεστα πράγματα που μπορεί να συμβούν σε έναν συμμετέχοντα Slurm SRE στην πραγματική του δουλειά.

Slurm SRE. Συνεχές πείραμα με ειδικούς από την Booking.com και το Google.com
Είμαστε έτοιμοι να χειριστούμε τα πάντα...και όλους.

Ο πολύπαθος ιστότοπός μας αποτελείται από πολλές μικροϋπηρεσίες. Ο στόχος του είναι να συγκεντρώνει δεδομένα για παραστάσεις, τιμές και διαθέσιμες θέσεις από όλους τους κινηματογράφους· εμφανίζει ανακοινώσεις ταινιών, σας επιτρέπει να επιλέξετε κινηματογράφο, παράσταση, αίθουσα και μέρος, να κάνετε κράτηση και να πληρώσετε εισιτήρια. Γενικά όλα όσα ο θεατής μπορεί μόνο να ονειρευτεί. Αλλά ο χρήστης δεν υποψιάζεται καν τι τιτάνιο αγώνα για τη σταθερότητα και την προσβασιμότητα του ιστότοπου γίνεται μέσα.

Για τον εντατικό ιστότοπο, δημιουργήσαμε δείκτες SLO, SLI, SLA, αναπτύξαμε αρχιτεκτονική και υποδομή, αναπτύξαμε τον ιστότοπο, δημιουργήσαμε παρακολούθηση και ειδοποίηση. Και φεύγουμε.

SLO, SLI, SLA

SLI - δείκτες επιπέδου εξυπηρέτησης. Οι SLO είναι στόχοι επιπέδου υπηρεσιών. SLA - συμφωνίες επιπέδου υπηρεσιών.

Το SLA είναι ένας όρος μεθοδολογίας ITIL που υποδηλώνει μια επίσημη συμφωνία μεταξύ του πελάτη μιας υπηρεσίας και του προμηθευτή της, η οποία περιέχει μια περιγραφή της υπηρεσίας, τα δικαιώματα και τις υποχρεώσεις των μερών και, κυρίως, το συμφωνημένο επίπεδο ποιότητας για την παροχή αυτής της υπηρεσίας. υπηρεσία.

Ένα SLO είναι ένας στόχος επιπέδου υπηρεσίας: μια τιμή στόχος ή εύρος τιμών για ένα επίπεδο υπηρεσίας που μετράται από το SLI. Μια κανονική τιμή για το SLO είναι "SLI ≤ Target" ή "Lower Limit ≤ SLI ≤ Upper Limit".

Το SLI είναι ένας δείκτης επιπέδου υπηρεσίας—ένα προσεκτικά καθορισμένο ποσοτικό μέτρο μιας πτυχής του επιπέδου της παρεχόμενης υπηρεσίας. Για τις περισσότερες υπηρεσίες, το κλειδί SLI θεωρείται ως καθυστέρηση αιτήματος - πόσος χρόνος χρειάζεται για να επιστραφεί μια απάντηση σε ένα αίτημα. Άλλα κοινά SLI περιλαμβάνουν το ποσοστό σφάλματος, που συχνά εκφράζεται ως κλάσμα όλων των αιτημάτων που λαμβάνονται, και τη διεκπεραίωση του συστήματος, που συνήθως μετράται σε αιτήματα ανά δευτερόλεπτο.

Πρώτα από όλα θα σπάσουμε τα αεροπλάνα και μετά τα κορίτσια και μετά τα κορίτσια...

Εσωτερικοί και εξωτερικοί παράγοντες άρχισαν να «χαλάζουν» το SLO από τα πρώτα κιόλας λεπτά. Όλα έπεσαν στα κεφάλια των διαχειριστών—λάθη προγραμματιστών, αστοχίες υποδομής, εισροή επισκεπτών και επιθέσεις DDoS. Όλα όσα χειροτερεύουν το SLO.

Slurm SRE. Συνεχές πείραμα με ειδικούς από την Booking.com και το Google.com
"- Αγαπητοί συμμετέχοντες, βιάζομαι να σας ευχαριστήσω, το πρώτο πράγμα που αποτυγχάνετε είναι... τα πάντα!"

Στην πορεία, οι ομιλητές συζήτησαν τη σταθερότητα, τον προϋπολογισμό σφαλμάτων, την πρακτική δοκιμών, τη διαχείριση των διακοπών και το λειτουργικό φόρτο.

Δεν είμαστε μάστορες, ούτε ξυλουργοί...

Στη συνέχεια, οι συμμετέχοντες άρχισαν να διορθώνουν τα πράγματα - το κύριο πράγμα είναι να καταλάβουμε τι να αρπάξουμε πρώτα.

Slurm SRE. Συνεχές πείραμα με ειδικούς από την Booking.com και το Google.com
«- Κύριε, δεν το έχω δει ποτέ να σπάει έτσι, σε αυτή τη μορφή και σε τέτοια θέση!»

Έτσι, συνέβη ένα ατύχημα. Η υπηρεσία επεξεργασίας πληρωμών είναι εκτός λειτουργίας. Πώς να ενεργήσετε για να επαναφέρετε τη λειτουργικότητα στο συντομότερο δυνατό χρονικό διάστημα;

Slurm SRE. Συνεχές πείραμα με ειδικούς από την Booking.com και το Google.com
Οι ειδικοί, κοιτάζοντας με στοργή τους συμμετέχοντες, ετοιμάζουν άλλο ένα κόλπο.

Κάθε ομάδα οργανώνει τις εργασίες της ομάδας για την εξάλειψη του ατυχήματος - εμπλέκει συναδέλφους, ειδοποιεί τα ενδιαφερόμενα μέρη (ενδιαφερόμενα μέρη). Ταυτόχρονα τίθενται προτεραιότητες. Με αυτόν τον τρόπο, οι συμμετέχοντες εκπαιδεύτηκαν να εργάζονται υπό πίεση κάτω από εξαιρετικά περιορισμένες χρονικές συνθήκες.

Slurm SRE. Συνεχές πείραμα με ειδικούς από την Booking.com και το Google.com
«Τι είδους φρίκη έχει βγει;»

Εκπνεύστε... και ολοκληρώστε την άσκηση

Μαζί με τους ομιλητές, μετά την επίλυση κάθε προβλήματος και την προσωρινή σταθεροποίηση του ιστότοπου, η ομάδα μελέτησε τα περιστατικά από την άποψη του SRE. Αναλύσαμε τα προβλήματα λεπτομερώς - τις αιτίες εμφάνισης, την πρόοδο της εξάλειψης. Μετά από αυτό, τόσο ομάδα-ομάδα όσο και συλλογικά, λάβαμε αποφάσεις για το πώς θα τα αποτρέψουμε περαιτέρω: πώς να βελτιώσουμε την παρακολούθηση, πώς να αλλάξουμε με σύνεση την αρχιτεκτονική, πώς να προσαρμόσουμε την προσέγγιση ανάπτυξης και λειτουργίας, πώς να διορθώσουμε τους κανονισμούς. Οι ομιλητές επέδειξαν την πρακτική της διενέργειας νεκροψίας.

Slurm SRE. Συνεχές πείραμα με ειδικούς από την Booking.com και το Google.com
«Ποιος άλλος θέλει μαρτύριο! - ΕΓΩ!"

Οι επιτυχίες των ομάδων καταγράφηκαν αυστηρά και ξεκάθαρα στον ηλεκτρονικό πίνακα αποτελεσμάτων.

Slurm SRE. Συνεχές πείραμα με ειδικούς από την Booking.com και το Google.com

Για τις πρώτες θέσεις - ένα μπόνους από τους ενδιαφερόμενους.

Slurm SRE. Συνεχές πείραμα με ειδικούς από την Booking.com και το Google.com

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο