Intensives Online-SRE: Wir zerlegen alles bis auf die Grundmauern, dann reparieren wir es, wir machen es noch ein paar Mal kaputt und dann bauen wir es wieder auf

Lasst uns etwas kaputt machen, ja? Ansonsten bauen und bauen, reparieren und reparieren wir. Tödliche Langeweile.

Machen wir es kaputt, damit uns dafür nichts passiert – wir werden nicht nur für diese Schande gelobt. Und dann bauen wir alles neu – und zwar so sehr, dass es um eine Größenordnung besser, fehlertoleranter und schneller wird.

Und wir werden es wieder brechen.

Glauben Sie, dass dies ein Wettbewerb um die Nutzung des geheimsten Instruments unserer gesamten Kosmonautik ist – des Großen Russischen Weltraumhammers?

Nein, dies ist ein Online-SRE-Intensivkurs. Es ist einfach so passiert, dass jeder Kurs Slurm SRE nie und nie wie der vorherige. Ganz einfach, weil man nie vermutet, dass in einem riesigen, komplexen System, mit dem sich jede Sekunde Tausende und Abertausende von Benutzern verbinden und das Publikum selbst mehrere Millionen beträgt, es abfallen, kaputt gehen, langweilig werden, Störungen verursachen und auf Hunderte andere Arten ruinieren kann die Stimmung der Dienstschicht der SRE-Ingenieure.

Im Dezember werden wir einen weiteren veranstalten SRE intensiv.

Intensives Online-SRE: Wir zerlegen alles bis auf die Grundmauern, dann reparieren wir es, wir machen es noch ein paar Mal kaputt und dann bauen wir es wieder auf

Machen wir einen kleinen Rückblick. Denken Sie daran, wie die Personalabteilung noch vor ein paar Jahren darum wetteiferte, wer die meisten DevOps-Ingenieure für sein Unternehmen einstellen konnte. Der Preis hat sich geändert. Jetzt inspizieren sie wie das Trackingsystem Pantsir-S1 den umgebenden Raum und suchen nach SRE-Ingenieuren. Ich habe in dem Artikel gesprochen „Evgeniy Varavva, Entwickler bei Google. Wie man Google in 5 Worten beschreibt„Wie das Leben eines SRE-Ingenieurs bei Google aussieht und wie selbst ein solches Unternehmen unter einem Mangel an SRE-Spezialisten leidet.“

Beim Online-Intensivkurs Slurm SRE Im Dezember lernen Sie an drei Tagen von 10:00 bis 19:00 Uhr, wie Sie die Geschwindigkeit, Fehlertoleranz und Verfügbarkeit von Websites bei begrenzten Ressourcen sicherstellen, IT-Vorfälle beseitigen und Nachbesprechungen durchführen, damit Probleme nicht erneut auftreten.

Kursreferenten:

Iwan Kruglow. Mitarbeiter Softwareentwickler bei Databricks. Hat Erfahrung in Großunternehmen in den Bereichen verteilte Nachrichtenzustellung und -verarbeitung, BigData und Web-Stack, Suche, Aufbau einer internen Cloud und Service Mesh.

Pavel Selivanov. Leitender DevOps-Ingenieur bei Mail.ru Cloud Solutions. Ich habe Dutzende gebaute Infrastrukturen und Hunderte geschriebene CI/CD-Pipelines. Zertifizierter Kubernetes-Administrator. Autor mehrerer Kurse zu Kubernetes und DevOps. Regelmäßiger Redner auf russischen und internationalen IT-Konferenzen.

Alles wird hart, unvorhersehbar und in der Praxis sein. Sie werden bauen, brechen und reparieren – und das in teils sehr unterschiedlicher Reihenfolge.

Bauen: Sie müssen SLO-, SLI- und SLA-Indikatoren für eine Site formulieren, die aus mehreren Microservices besteht. die Architektur und Infrastruktur entwickeln, die sie unterstützen; die Site zusammenbauen, testen und bereitstellen; Überwachung und Alarmierung einrichten.

Brechen: Sie berücksichtigen interne und externe Faktoren, die das SLO verschlechtern: Entwicklerfehler, Infrastrukturausfälle, Besucherzustrom, DoS-Angriffe. Lernen Sie, Robustheit, Fehlerbudget, Testpraktiken, Interrupt-Management und betriebliche Arbeitsbelastung zu verstehen.

Reparatur: Sie werden darin geschult, die Arbeit eines Teams schnell und effektiv zu organisieren, um einen Unfall in kürzester Zeit zu beseitigen: Kollegen einbeziehen, Stakeholder benachrichtigen und Prioritäten festlegen.

Studie: Sie können die Herangehensweise an den Standort aus SRE-Sicht analysieren. Vorfälle analysieren. Legen Sie fest, wie Sie sie in Zukunft vermeiden können: Verbessern Sie die Überwachung, ändern Sie die Architektur, Entwicklungs- und Betriebsansätze sowie Vorschriften. Prozesse automatisieren.

Online-SRE-Intensivkurs simuliert reale Bedingungen – die Zeit zur Wiederherstellung des Dienstes wird äußerst begrenzt sein. Genau wie im echten Leben, genau wie in einer echten Arbeitssituation.

Die Bedingungen des SRE-Kurses sowie das vollständige Programm finden Sie unter Link.

Der Online-Intensivkurs ist für Dezember 2020 geplant. Für diejenigen, die die Teilnahme im Voraus bezahlen, haben wir einen Rabatt vorbereitet.

Sind Sie bereit für intensives Training, ungewöhnliche Aufgaben und plötzliche Unfälle?

Es wird einfach nicht passieren. Es wird berufliche Weiterentwicklung geben.

Source: habr.com

Kommentar hinzufügen