ProHoster > Blog > διαχείριση > «Η ελπίδα είναι μια κακή στρατηγική». Εντατική SRE στη Μόσχα, 3-5 Φεβρουαρίου
«Η ελπίδα είναι μια κακή στρατηγική». Εντατική SRE στη Μόσχα, 3-5 Φεβρουαρίου
Ανακοινώνουμε το πρώτο πρακτικό μάθημα για SRE στη Ρωσία: Slurm SRE.
Κατά τη διάρκεια της εντατικής θα περάσουμε τρεις ημέρες για την κατασκευή, την καταστροφή, την επισκευή και τη βελτίωση μιας ιστοσελίδας συγκέντρωσης για την πώληση εισιτηρίων ταινιών.
Επιλέξαμε ένα πρόγραμμα συγκέντρωσης εισιτηρίων επειδή έχει πολλά σενάρια αποτυχίας: εισροή επισκεπτών και επιθέσεις DDoS, αποτυχία μιας από τις πολλές κρίσιμες μικροϋπηρεσίες (εξουσιοδότηση, κρατήσεις, διεκπεραίωση πληρωμών), μη διαθεσιμότητα ενός από τους πολλούς κινηματογράφους (ανταλλαγή δεδομένων σχετικά διαθέσιμες θέσεις και κρατήσεις) και πιο κάτω στη λίστα.
Θα διαμορφώσουμε την έννοια της Αξιοπιστίας για τον ιστότοπο συγκέντρωσης, τον οποίο θα αναπτύξουμε περαιτέρω στη Μηχανική, θα αναλύσουμε τη σχεδίαση από την άποψη του SRE, θα επιλέξουμε μετρήσεις, θα ρυθμίσουμε την παρακολούθησή τους, θα εξαλείψουμε τα αναδυόμενα περιστατικά, θα πραγματοποιήσουμε εκπαίδευση για ομαδική εργασία με περιστατικά σε συνθήκες κοντά στη μάχη, οργανώστε μια ενημέρωση .
Το πρόγραμμα διευθύνεται από υπαλλήλους της Booking.com και της Google.
Αυτή τη φορά δεν θα υπάρχει εξ αποστάσεως συμμετοχή: το μάθημα βασίζεται στην προσωπική αλληλεπίδραση και την ομαδική εργασία.
Λεπτομέρειες κάτω από το κόψιμο
Ηχεία
Ιβάν Κρούγκλοφ
Κύριος προγραμματιστής στο Booking.com (Ολλανδία)
Από τότε που μπήκε στην Booking.com το 2013, έχει εργαστεί σε έργα υποδομής, όπως διανομή και επεξεργασία μηνυμάτων, BigData και web-stack, αναζήτηση.
Επί του παρόντος εργάζεται σε ζητήματα δημιουργίας εσωτερικού cloud και Service Mesh.
Μπεν Τάιλερ
Κύριος προγραμματιστής στο Booking.com (ΗΠΑ)
Ασχολείται με την εσωτερική ανάπτυξη της πλατφόρμας Booking.com.
Εξειδικεύεται στην ανακάλυψη πλέγματος υπηρεσιών/υπηρεσιών, στον προγραμματισμό εργασιών παρτίδας, στην απόκριση περιστατικών και στη μεταθανάτια διαδικασία.
Μιλάει και διδάσκει στα ρωσικά.
Ευγένιος Βαράββα
Γενικός προγραμματιστής στην Google (Σαν Φρανσίσκο).
Εμπειρία από έργα web υψηλού φορτίου έως έρευνα στην όραση υπολογιστών και τη ρομποτική.
Από το 2011, ασχολείται με τη δημιουργία και λειτουργία κατανεμημένων συστημάτων στη Google, συμμετέχοντας στον πλήρη κύκλο ζωής του έργου: εννοιολόγηση, σχεδιασμός και αρχιτεκτονική, εκτόξευση, αναδίπλωση και όλα τα ενδιάμεσα στάδια.
Εντουάρ Μεντβέντεφ
CTO στο Tungsten Labs (Γερμανία)
Εργάστηκε ως μηχανικός στο StackStorm, υπεύθυνος για τη λειτουργικότητα ChatOps της πλατφόρμας. Ανέπτυξε και υλοποίησε ChatOps για αυτοματοποίηση κέντρων δεδομένων. Ομιλητής σε ρωσικά και διεθνή συνέδρια.
Πρόγραμμα
Το πρόγραμμα αναπτύσσεται ενεργά. Τώρα φαίνεται έτσι, μέχρι τον Φεβρουάριο μπορεί να βελτιωθεί και να επεκταθεί.
Θέμα #1: Βασικές αρχές και μέθοδοι SRE
Τι χρειάζεται για να γίνεις SRE;
DevOps εναντίον SRE
Γιατί οι προγραμματιστές εκτιμούν το SRE και είναι πολύ λυπημένοι όταν δεν συμμετέχουν στο έργο
SLI, SLO και SLA
Προϋπολογισμός σφάλματος και ο ρόλος του στο SRE
Θέμα #2: Σχεδιασμός κατανεμημένων συστημάτων
Αρχιτεκτονική και λειτουργικότητα εφαρμογών
Μη αφηρημένος σχεδιασμός μεγάλου συστήματος
Λειτουργικότητα / Σχεδιασμός για αποτυχία
gRPC ή REST
Εκδόσεις και συμβατότητα προς τα πίσω
Θέμα #3: Πώς γίνεται αποδεκτό ένα έργο SRE
Βέλτιστες πρακτικές από την SRE
Λίστα ελέγχου αποδοχής έργου
Καταγραφή, μετρήσεις, ιχνηλάτηση
Παίρνοντας το CI/CD στα χέρια μας
Θέμα Νο. 4: Σχεδιασμός και έναρξη ενός κατανεμημένου συστήματος
Αντίστροφη μηχανική - πώς λειτουργεί το σύστημα;
Συμφωνούμε για SLI και SLO
Εξασκηθείτε στον προγραμματισμό χωρητικότητας
Ξεκινώντας την κυκλοφορία στην εφαρμογή, οι χρήστες μας αρχίζουν να τη «χρησιμοποιούν».
Λανσάροντας Prometheus, Grafana, Elastic
Θέμα #5: Παρακολούθηση, Παρατηρησιμότητα και Ειδοποίηση
Παρακολούθηση vs. Παρατηρησιμότητα
Ρύθμιση παρακολούθησης και ειδοποίησης με τον Προμηθέα
Πρακτική παρακολούθηση SLI και SLO
Συμπτώματα vs. Αιτίες
Black-Box vs. Παρακολούθηση White-Box
Κατανεμημένη παρακολούθηση της διαθεσιμότητας εφαρμογής και διακομιστή
4 χρυσά σήματα (ανίχνευση ανωμαλιών)
Θέμα Νο. 6: Πρακτική δοκιμής αξιοπιστίας συστήματος
Δουλεύοντας υπό πίεση
Αστοχία-ένεση
Chaos Monkey
Θέμα #7: Πρακτική αντιμετώπισης περιστατικών
Αλγόριθμος διαχείρισης άγχους
Αλληλεπίδραση μεταξύ των συμμετεχόντων στο περιστατικό
Εξασκηθείτε στην ανάλυση και τον εντοπισμό σφαλμάτων στην εφαρμογή μας
Θέμα #11: Έλεγχος αξιοπιστίας συστήματος
Stress Testing
Δοκιμή διαμόρφωσης
Δοκιμή απόδοσης
Απελευθέρωση καναρινιών
Θέμα Νο 12: Ανεξάρτητη εργασία και κριτική
Συστάσεις και απαιτήσεις για τους συμμετέχοντες
Το SRE είναι μια ομαδική προσπάθεια. Συνιστούμε ανεπιφύλακτα να παρακολουθήσετε το μάθημα ως ομάδα. Γι' αυτό προσφέρουμε μεγάλες εκπτώσεις σε έτοιμες ομάδες.
Η τιμή του μαθήματος είναι 60 ₽ ανά άτομο.
Εάν μια εταιρεία στείλει μια ομάδα 5+ ατόμων - 40 ₽.
Το μάθημα βασίζεται στο Kubernetes. Για να περάσετε, πρέπει να γνωρίζετε το Kubernetes σε βασικό επίπεδο. Εάν δεν συνεργαστείτε μαζί του, μπορείτε να περάσετε από το Slurm Basic (онлайн ή εντατική 18-20 Νοεμβρίου).
Επιπλέον, πρέπει να είστε ικανοί στο Linux και να γνωρίζετε το Gitlab και τον Prometheus.
Εάν έχετε μια περίπλοκη ιδέα για συμμετοχή, για παράδειγμα, να έρθουν στο μάθημα ο Διευθύνων Σύμβουλος, ο CTO και μια ομάδα προγραμματιστών και να περάσουν πρακτική άσκηση λαμβάνοντας υπόψη την κάθετη διαχείρισης, γράψτε μου σε προσωπικό μήνυμα.