ProHoster > Blog > Verwaltung > „Hoffnung ist eine schlechte Strategie.“ SRE-Intensivkurs in Moskau vom 3. bis 5. Februar
„Hoffnung ist eine schlechte Strategie.“ SRE-Intensivkurs in Moskau vom 3. bis 5. Februar
Wir kündigen den ersten praktischen Kurs zu SRE in Russland an: Slurm SRE.
Während des Intensivkurses werden wir drei Tage damit verbringen, eine Aggregator-Website für den Verkauf von Kinokarten aufzubauen, zu zerstören, zu reparieren und zu verbessern.
Wir haben uns für einen Ticket-Aggregator entschieden, weil dieser viele Ausfallszenarien aufweist: ein Besucheransturm und DDoS-Angriffe, der Ausfall eines der vielen kritischen Microservices (Autorisierung, Reservierung, Zahlungsabwicklung), die Nichtverfügbarkeit eines der vielen Kinos (Datenaustausch über verfügbare Plätze und Reservierungen) und weiter unten in der Liste.
Wir werden das Konzept der Zuverlässigkeit für unsere Aggregator-Site formulieren, das wir im Engineering weiterentwickeln, das Design aus Sicht von SRE analysieren, Metriken auswählen, deren Überwachung einrichten, aufkommende Vorfälle beseitigen und Schulungen für die Teamarbeit mit Vorfällen durchführen Organisieren Sie bei kampfnahen Bedingungen eine Nachbesprechung.
Das Programm wird von Mitarbeitern von Booking.com und Google durchgeführt.
Diesmal wird es keine Fernteilnahme geben: Der Kurs basiert auf persönlicher Interaktion und Teamarbeit.
Details unter dem Schnitt
икеры
Iwan Kruglow
Hauptentwickler bei Booking.com (Niederlande)
Seit er 2013 zu Booking.com kam, hat er an Infrastrukturprojekten wie verteilter Nachrichtenzustellung und -verarbeitung, BigData und Web-Stack sowie Suche gearbeitet.
Derzeit arbeite ich an Fragen zum Aufbau einer internen Cloud und eines Service Mesh.
Ben Tyler
Hauptentwickler bei Booking.com (USA)
Beteiligt an der internen Entwicklung der Booking.com-Plattform.
Spezialisiert auf Service Mesh/Service Discovery, Batch-Job-Planung, Reaktion auf Vorfälle und Post-Mortem-Prozess.
Spricht und unterrichtet auf Russisch.
Evgeniy Varavva
Allgemeiner Entwickler bei Google (San Francisco).
Erfahrung von hochlastigen Webprojekten bis hin zur Forschung in den Bereichen Computer Vision und Robotik.
Seit 2011 ist er an der Erstellung und dem Betrieb verteilter Systeme bei Google beteiligt und am gesamten Lebenszyklus des Projekts beteiligt: Konzeptualisierung, Design und Architektur, Einführung, Faltung und alle Zwischenphasen.
Eduard Medwedew
CTO bei Tungsten Labs (Deutschland)
Arbeitete als Ingenieur bei StackStorm und war verantwortlich für die ChatOps-Funktionalität der Plattform. Entwickelte und implementierte ChatOps für die Rechenzentrumsautomatisierung. Redner auf russischen und internationalen Konferenzen.
Programm
Das Programm wird aktiv weiterentwickelt. Jetzt sieht es so aus, bis Februar könnte es sich verbessern und erweitern.
Thema Nr. 1: Grundprinzipien und Methoden von SRE
Was braucht es, um ein SRE zu werden?
DevOps vs. SRE
Warum Entwickler SRE schätzen und sehr traurig sind, wenn sie nicht im Projekt sind
SLI, SLO und SLA
Fehlerbudget und seine Rolle in SRE
Thema Nr. 2: Design verteilter Systeme
Anwendungsarchitektur und Funktionalität
Nicht-abstraktes großes Systemdesign
Bedienbarkeit / Design für Fehler
gRPC oder REST
Versionierung und Abwärtskompatibilität
Thema Nr. 3: Wie ein SRE-Projekt angenommen wird
Best Practices von SRE
Checkliste für die Projektabnahme
Protokollierung, Metriken, Ablaufverfolgung
Wir nehmen CI/CD selbst in die Hand
Thema Nr. 4: Design und Einführung eines verteilten Systems
Reverse Engineering – wie funktioniert das System?
Wir sind uns über SLI und SLO einig
Üben Sie die Kapazitätsplanung
Durch die Einleitung des Datenverkehrs zur Anwendung beginnen unsere Benutzer, diese zu „nutzen“.
Einführung von Prometheus, Grafana, Elastic
Thema Nr. 5: Überwachung, Beobachtbarkeit und Alarmierung
Überwachung vs. Beobachtbarkeit
Überwachung und Alarmierung mit Prometheus einrichten
Praktische Überwachung von SLI und SLO
Symptome vs. Ursachen
Black-Box vs. White-Box-Überwachung
Verteilte Überwachung der Anwendungs- und Serververfügbarkeit
4 goldene Signale (Anomalieerkennung)
Thema Nr. 6: Praxis der Prüfung der Systemzuverlässigkeit
Verschiedene Arten von Unfällen (Tests, Konfigurationsänderungen, Hardwarefehler)
Protokolle zum Vorfallmanagement
Thema Nr. 10: Diagnose und Problemlösung
Protokollierung
Debuggen
Üben Sie die Analyse und das Debuggen unserer Anwendung
Thema Nr. 11: Systemzuverlässigkeitstests
Belastbarkeitstest
Konfigurationstests
Leistungstest
Kanarische Freilassung
Thema Nr. 12: Eigenständiges Arbeiten und Review
Empfehlungen und Anforderungen an Teilnehmer
SRE ist eine Teamleistung. Wir empfehlen dringend, den Kurs im Team zu absolvieren. Deshalb bieten wir große Rabatte für fertige Teams.
Der Kurspreis beträgt 60 ₽ pro Person.
Wenn ein Unternehmen eine Gruppe von mehr als 5 Personen entsendet - 40 ₽.
Der Kurs basiert auf Kubernetes. Um zu bestehen, müssen Sie Kubernetes auf einem grundlegenden Niveau kennen. Wenn Sie nicht mit ihm zusammenarbeiten, können Sie Slurm Basic durchgehen (Online oder intensiv vom 18. bis 20. November).
Darüber hinaus müssen Sie Linux beherrschen und Gitlab und Prometheus kennen.
Wenn Sie eine komplexe Idee zur Teilnahme haben, zum Beispiel, dass der CEO, der CTO und ein Entwicklerteam zum Kurs kommen und diese ein Praktikum unter Berücksichtigung der Managementvertikale absolvieren sollen, schreiben Sie mir in einer persönlichen Nachricht.