„Hoffnung ist eine schlechte Strategie.“ SRE-Intensivkurs in Moskau vom 3. bis 5. Februar

Wir kündigen den ersten praktischen Kurs zu SRE in Russland an: Slurm SRE.

Während des Intensivkurses werden wir drei Tage damit verbringen, eine Aggregator-Website für den Verkauf von Kinokarten aufzubauen, zu zerstören, zu reparieren und zu verbessern.

„Hoffnung ist eine schlechte Strategie.“ SRE-Intensivkurs in Moskau vom 3. bis 5. Februar

Wir haben uns für einen Ticket-Aggregator entschieden, weil dieser viele Ausfallszenarien aufweist: ein Besucheransturm und DDoS-Angriffe, der Ausfall eines der vielen kritischen Microservices (Autorisierung, Reservierung, Zahlungsabwicklung), die Nichtverfügbarkeit eines der vielen Kinos (Datenaustausch über verfügbare Plätze und Reservierungen) und weiter unten in der Liste.

Wir werden das Konzept der Zuverlässigkeit für unsere Aggregator-Site formulieren, das wir im Engineering weiterentwickeln, das Design aus Sicht von SRE analysieren, Metriken auswählen, deren Überwachung einrichten, aufkommende Vorfälle beseitigen und Schulungen für die Teamarbeit mit Vorfällen durchführen Organisieren Sie bei kampfnahen Bedingungen eine Nachbesprechung.

Das Programm wird von Mitarbeitern von Booking.com und Google durchgeführt.
Diesmal wird es keine Fernteilnahme geben: Der Kurs basiert auf persönlicher Interaktion und Teamarbeit.

Details unter dem Schnitt

икеры

Iwan Kruglow
Hauptentwickler bei Booking.com (Niederlande)
Seit er 2013 zu Booking.com kam, hat er an Infrastrukturprojekten wie verteilter Nachrichtenzustellung und -verarbeitung, BigData und Web-Stack sowie Suche gearbeitet.
Derzeit arbeite ich an Fragen zum Aufbau einer internen Cloud und eines Service Mesh.

Ben Tyler
Hauptentwickler bei Booking.com (USA)
Beteiligt an der internen Entwicklung der Booking.com-Plattform.
Spezialisiert auf Service Mesh/Service Discovery, Batch-Job-Planung, Reaktion auf Vorfälle und Post-Mortem-Prozess.
Spricht und unterrichtet auf Russisch.

Evgeniy Varavva
Allgemeiner Entwickler bei Google (San Francisco).
Erfahrung von hochlastigen Webprojekten bis hin zur Forschung in den Bereichen Computer Vision und Robotik.
Seit 2011 ist er an der Erstellung und dem Betrieb verteilter Systeme bei Google beteiligt und am gesamten Lebenszyklus des Projekts beteiligt: ​​Konzeptualisierung, Design und Architektur, Einführung, Faltung und alle Zwischenphasen.

Eduard Medwedew
CTO bei Tungsten Labs (Deutschland)
Arbeitete als Ingenieur bei StackStorm und war verantwortlich für die ChatOps-Funktionalität der Plattform. Entwickelte und implementierte ChatOps für die Rechenzentrumsautomatisierung. Redner auf russischen und internationalen Konferenzen.

Programm

Das Programm wird aktiv weiterentwickelt. Jetzt sieht es so aus, bis Februar könnte es sich verbessern und erweitern.

Thema Nr. 1: Grundprinzipien und Methoden von SRE

  • Was braucht es, um ein SRE zu werden?
  • DevOps vs. SRE
  • Warum Entwickler SRE schätzen und sehr traurig sind, wenn sie nicht im Projekt sind
  • SLI, SLO und SLA
  • Fehlerbudget und seine Rolle in SRE

Thema Nr. 2: Design verteilter Systeme

  • Anwendungsarchitektur und Funktionalität
  • Nicht-abstraktes großes Systemdesign
  • Bedienbarkeit / Design für Fehler
  • gRPC oder REST
  • Versionierung und Abwärtskompatibilität

Thema Nr. 3: Wie ein SRE-Projekt angenommen wird

  • Best Practices von SRE
  • Checkliste für die Projektabnahme
  • Protokollierung, Metriken, Ablaufverfolgung
  • Wir nehmen CI/CD selbst in die Hand

Thema Nr. 4: Design und Einführung eines verteilten Systems

  • Reverse Engineering – wie funktioniert das System?
  • Wir sind uns über SLI und SLO einig
  • Üben Sie die Kapazitätsplanung
  • Durch die Einleitung des Datenverkehrs zur Anwendung beginnen unsere Benutzer, diese zu „nutzen“.
  • Einführung von Prometheus, Grafana, Elastic

Thema Nr. 5: Überwachung, Beobachtbarkeit und Alarmierung

  • Überwachung vs. Beobachtbarkeit
  • Überwachung und Alarmierung mit Prometheus einrichten
  • Praktische Überwachung von SLI und SLO
  • Symptome vs. Ursachen
  • Black-Box vs. White-Box-Überwachung
  • Verteilte Überwachung der Anwendungs- und Serververfügbarkeit
  • 4 goldene Signale (Anomalieerkennung)

Thema Nr. 6: Praxis der Prüfung der Systemzuverlässigkeit

  • Unter Druck arbeiten
  • Fehlerinjektion
  • Chaos-Affe

Thema Nr. 7: Praxis der Reaktion auf Vorfälle

  • Algorithmus zur Stressbewältigung
  • Interaktion zwischen Vorfallteilnehmern
  • Obduktion
  • Wissen teilen
  • Die Kultur gestalten
  • Fehlerüberwachung
  • Durchführung einer unschuldigen Nachbesprechung

Thema Nr. 8: Lastmanagementpraktiken

  • Lastverteilung
  • Anwendungsfehlertoleranz: Wiederholung, Zeitüberschreitung, Fehlerinjektion, Leistungsschalter
  • DDoS (erzeugt Last) + kaskadierende Fehler

Thema Nr. 9: Reaktion auf Vorfälle

  • Nachbesprechung
  • Bereitschaftspraxis
  • Verschiedene Arten von Unfällen (Tests, Konfigurationsänderungen, Hardwarefehler)
  • Protokolle zum Vorfallmanagement

Thema Nr. 10: Diagnose und Problemlösung

  • Protokollierung
  • Debuggen
  • Üben Sie die Analyse und das Debuggen unserer Anwendung

Thema Nr. 11: Systemzuverlässigkeitstests

  • Belastbarkeitstest
  • Konfigurationstests
  • Leistungstest
  • Kanarische Freilassung

Thema Nr. 12: Eigenständiges Arbeiten und Review

Empfehlungen und Anforderungen an Teilnehmer

SRE ist eine Teamleistung. Wir empfehlen dringend, den Kurs im Team zu absolvieren. Deshalb bieten wir große Rabatte für fertige Teams.

Der Kurspreis beträgt 60 ₽ pro Person.
Wenn ein Unternehmen eine Gruppe von mehr als 5 Personen entsendet - 40 ₽.

Der Kurs basiert auf Kubernetes. Um zu bestehen, müssen Sie Kubernetes auf einem grundlegenden Niveau kennen. Wenn Sie nicht mit ihm zusammenarbeiten, können Sie Slurm Basic durchgehen (Online oder intensiv vom 18. bis 20. November).
Darüber hinaus müssen Sie Linux beherrschen und Gitlab und Prometheus kennen.

Anmelden

Wenn Sie eine komplexe Idee zur Teilnahme haben, zum Beispiel, dass der CEO, der CTO und ein Entwicklerteam zum Kurs kommen und diese ein Praktikum unter Berücksichtigung der Managementvertikale absolvieren sollen, schreiben Sie mir in einer persönlichen Nachricht.

Source: habr.com

Kommentar hinzufügen