«Η ελπίδα είναι μια κακή στρατηγική». Εντατική SRE στη Μόσχα, 3-5 Φεβρουαρίου

Ανακοινώνουμε το πρώτο πρακτικό μάθημα για SRE στη Ρωσία: Slurm SRE.

Κατά τη διάρκεια της εντατικής θα περάσουμε τρεις ημέρες για την κατασκευή, την καταστροφή, την επισκευή και τη βελτίωση μιας ιστοσελίδας συγκέντρωσης για την πώληση εισιτηρίων ταινιών.

«Η ελπίδα είναι μια κακή στρατηγική». Εντατική SRE στη Μόσχα, 3-5 Φεβρουαρίου

Επιλέξαμε ένα πρόγραμμα συγκέντρωσης εισιτηρίων επειδή έχει πολλά σενάρια αποτυχίας: εισροή επισκεπτών και επιθέσεις DDoS, αποτυχία μιας από τις πολλές κρίσιμες μικροϋπηρεσίες (εξουσιοδότηση, κρατήσεις, διεκπεραίωση πληρωμών), μη διαθεσιμότητα ενός από τους πολλούς κινηματογράφους (ανταλλαγή δεδομένων σχετικά διαθέσιμες θέσεις και κρατήσεις) και πιο κάτω στη λίστα.

Θα διαμορφώσουμε την έννοια της Αξιοπιστίας για τον ιστότοπο συγκέντρωσης, τον οποίο θα αναπτύξουμε περαιτέρω στη Μηχανική, θα αναλύσουμε τη σχεδίαση από την άποψη του SRE, θα επιλέξουμε μετρήσεις, θα ρυθμίσουμε την παρακολούθησή τους, θα εξαλείψουμε τα αναδυόμενα περιστατικά, θα πραγματοποιήσουμε εκπαίδευση για ομαδική εργασία με περιστατικά σε συνθήκες κοντά στη μάχη, οργανώστε μια ενημέρωση .

Το πρόγραμμα διευθύνεται από υπαλλήλους της Booking.com και της Google.
Αυτή τη φορά δεν θα υπάρχει εξ αποστάσεως συμμετοχή: το μάθημα βασίζεται στην προσωπική αλληλεπίδραση και την ομαδική εργασία.

Λεπτομέρειες κάτω από το κόψιμο

Ηχεία

Ιβάν Κρούγκλοφ
Κύριος προγραμματιστής στο Booking.com (Ολλανδία)
Από τότε που μπήκε στην Booking.com το 2013, έχει εργαστεί σε έργα υποδομής, όπως διανομή και επεξεργασία μηνυμάτων, BigData και web-stack, αναζήτηση.
Επί του παρόντος εργάζεται σε ζητήματα δημιουργίας εσωτερικού cloud και Service Mesh.

Μπεν Τάιλερ
Κύριος προγραμματιστής στο Booking.com (ΗΠΑ)
Ασχολείται με την εσωτερική ανάπτυξη της πλατφόρμας Booking.com.
Εξειδικεύεται στην ανακάλυψη πλέγματος υπηρεσιών/υπηρεσιών, στον προγραμματισμό εργασιών παρτίδας, στην απόκριση περιστατικών και στη μεταθανάτια διαδικασία.
Μιλάει και διδάσκει στα ρωσικά.

Ευγένιος Βαράββα
Γενικός προγραμματιστής στην Google (Σαν Φρανσίσκο).
Εμπειρία από έργα web υψηλού φορτίου έως έρευνα στην όραση υπολογιστών και τη ρομποτική.
Από το 2011, ασχολείται με τη δημιουργία και λειτουργία κατανεμημένων συστημάτων στη Google, συμμετέχοντας στον πλήρη κύκλο ζωής του έργου: εννοιολόγηση, σχεδιασμός και αρχιτεκτονική, εκτόξευση, αναδίπλωση και όλα τα ενδιάμεσα στάδια.

Εντουάρ Μεντβέντεφ
CTO στο Tungsten Labs (Γερμανία)
Εργάστηκε ως μηχανικός στο StackStorm, υπεύθυνος για τη λειτουργικότητα ChatOps της πλατφόρμας. Ανέπτυξε και υλοποίησε ChatOps για αυτοματοποίηση κέντρων δεδομένων. Ομιλητής σε ρωσικά και διεθνή συνέδρια.

Πρόγραμμα

Το πρόγραμμα αναπτύσσεται ενεργά. Τώρα φαίνεται έτσι, μέχρι τον Φεβρουάριο μπορεί να βελτιωθεί και να επεκταθεί.

Θέμα #1: Βασικές αρχές και μέθοδοι SRE

  • Τι χρειάζεται για να γίνεις SRE;
  • DevOps εναντίον SRE
  • Γιατί οι προγραμματιστές εκτιμούν το SRE και είναι πολύ λυπημένοι όταν δεν συμμετέχουν στο έργο
  • SLI, SLO και SLA
  • Προϋπολογισμός σφάλματος και ο ρόλος του στο SRE

Θέμα #2: Σχεδιασμός κατανεμημένων συστημάτων

  • Αρχιτεκτονική και λειτουργικότητα εφαρμογών
  • Μη αφηρημένος σχεδιασμός μεγάλου συστήματος
  • Λειτουργικότητα / Σχεδιασμός για αποτυχία
  • gRPC ή REST
  • Εκδόσεις και συμβατότητα προς τα πίσω

Θέμα #3: Πώς γίνεται αποδεκτό ένα έργο SRE

  • Βέλτιστες πρακτικές από την SRE
  • Λίστα ελέγχου αποδοχής έργου
  • Καταγραφή, μετρήσεις, ιχνηλάτηση
  • Παίρνοντας το CI/CD στα χέρια μας

Θέμα Νο. 4: Σχεδιασμός και έναρξη ενός κατανεμημένου συστήματος

  • Αντίστροφη μηχανική - πώς λειτουργεί το σύστημα;
  • Συμφωνούμε για SLI και SLO
  • Εξασκηθείτε στον προγραμματισμό χωρητικότητας
  • Ξεκινώντας την κυκλοφορία στην εφαρμογή, οι χρήστες μας αρχίζουν να τη «χρησιμοποιούν».
  • Λανσάροντας Prometheus, Grafana, Elastic

Θέμα #5: Παρακολούθηση, Παρατηρησιμότητα και Ειδοποίηση

  • Παρακολούθηση vs. Παρατηρησιμότητα
  • Ρύθμιση παρακολούθησης και ειδοποίησης με τον Προμηθέα
  • Πρακτική παρακολούθηση SLI και SLO
  • Συμπτώματα vs. Αιτίες
  • Black-Box vs. Παρακολούθηση White-Box
  • Κατανεμημένη παρακολούθηση της διαθεσιμότητας εφαρμογής και διακομιστή
  • 4 χρυσά σήματα (ανίχνευση ανωμαλιών)

Θέμα Νο. 6: Πρακτική δοκιμής αξιοπιστίας συστήματος

  • Δουλεύοντας υπό πίεση
  • Αστοχία-ένεση
  • Chaos Monkey

Θέμα #7: Πρακτική αντιμετώπισης περιστατικών

  • Αλγόριθμος διαχείρισης άγχους
  • Αλληλεπίδραση μεταξύ των συμμετεχόντων στο περιστατικό
  • Postmortem
  • Ανταλλαγή γνώσεων
  • Διαμόρφωση του πολιτισμού
  • Παρακολούθηση σφαλμάτων
  • Διεξαγωγή άψογης ενημέρωσης

Θέμα #8: Πρακτικές διαχείρισης φορτίου

  • Εξισορρόπηση φορτίου
  • Ανοχή σφαλμάτων εφαρμογής: επανάληψη, χρονικό όριο, έγχυση αστοχίας, διακόπτης κυκλώματος
  • DDoS (δημιουργία φορτίου) + Cascading Failures

Θέμα #9: Αντιμετώπιση περιστατικού

  • Ενημέρωση
  • Εξάσκηση εφημερίας
  • Διάφοροι τύποι ατυχημάτων (δοκιμές, αλλαγές διαμόρφωσης, αστοχία υλικού)
  • Πρωτόκολλα διαχείρισης συμβάντων

Θέμα #10: Διάγνωση και επίλυση προβλημάτων

  • Ξύλευση
  • Εντοπισμός σφαλμάτων
  • Εξασκηθείτε στην ανάλυση και τον εντοπισμό σφαλμάτων στην εφαρμογή μας

Θέμα #11: Έλεγχος αξιοπιστίας συστήματος

  • Stress Testing
  • Δοκιμή διαμόρφωσης
  • Δοκιμή απόδοσης
  • Απελευθέρωση καναρινιών

Θέμα Νο 12: Ανεξάρτητη εργασία και κριτική

Συστάσεις και απαιτήσεις για τους συμμετέχοντες

Το SRE είναι μια ομαδική προσπάθεια. Συνιστούμε ανεπιφύλακτα να παρακολουθήσετε το μάθημα ως ομάδα. Γι' αυτό προσφέρουμε μεγάλες εκπτώσεις σε έτοιμες ομάδες.

Η τιμή του μαθήματος είναι 60 ₽ ανά άτομο.
Εάν μια εταιρεία στείλει μια ομάδα 5+ ατόμων - 40 ₽.

Το μάθημα βασίζεται στο Kubernetes. Για να περάσετε, πρέπει να γνωρίζετε το Kubernetes σε βασικό επίπεδο. Εάν δεν συνεργαστείτε μαζί του, μπορείτε να περάσετε από το Slurm Basic (онлайн ή εντατική 18-20 Νοεμβρίου).
Επιπλέον, πρέπει να είστε ικανοί στο Linux και να γνωρίζετε το Gitlab και τον Prometheus.

Εγγραφή

Εάν έχετε μια περίπλοκη ιδέα για συμμετοχή, για παράδειγμα, να έρθουν στο μάθημα ο Διευθύνων Σύμβουλος, ο CTO και μια ομάδα προγραμματιστών και να περάσουν πρακτική άσκηση λαμβάνοντας υπόψη την κάθετη διαχείρισης, γράψτε μου σε προσωπικό μήνυμα.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο