"Hoffnung ass eng schlecht Strategie." SRE intensiv zu Moskau, Februar 3-5

Mir annoncéieren den éischte praktesche Cours iwwer SRE a Russland: Schlof SRE.

Wärend der Intensiv wäerte mir dräi Deeg verbréngen fir eng Aggregator Websäit ze bauen, ze briechen, ze reparéieren an ze verbesseren fir Filmticketen ze verkafen.

"Hoffnung ass eng schlecht Strategie." SRE intensiv zu Moskau, Februar 3-5

Mir hunn e Ticket-Aggregator gewielt, well et vill Ausfallszenarien huet: e Flux vu Besucher an DDoS-Attacke, de Feeler vun engem vun de ville kriteschen Mikroservicer (Autorisatioun, Reservatioun, Bezuelveraarbechtung), d'Onverfügbarkeet vun engem vun de ville Kinoen (Datenaustausch iwwer verfügbare Plazen a Reservatiounen), a méi ënnen op der Lëscht.

Mir formuléieren d'Konzept vun der Zouverlässegkeet fir eisen Aggregator Site, dee mir weider am Engineering wäerte entwéckelen, den Design aus der Siicht vun der SRE analyséieren, Metriken auswielen, hir Iwwerwaachung opstellen, entstanen Tëschefäll eliminéieren, Training fir Teamaarbecht mat Tëschefäll maachen. a Konditioune no beim Kampf, organiséiert en Debriefing.

De Programm gëtt vu Mataarbechter vu Booking.com a Google geleet.
Dës Kéier gëtt et keng Remote Participatioun: de Cours ass op perséinlech Interaktioun an Teamwork gebaut.

Detailer ënner dem Schnëtt

Specerien

Ivan Kruglov
Haaptentwéckler bei Booking.com (Nederland)
Zënter datt hien 2013 bei Booking.com koum, huet hien un Infrastrukturprojeten geschafft wéi verdeelt Message Liwwerung a Veraarbechtung, BigData a Web-Stack, Sich.
Am Moment schaffen un Themen fir eng intern Cloud a Service Mesh ze bauen.

Ben Taylor
Haaptentwéckler bei Booking.com (USA)
Engagéiert an der interner Entwécklung vun der Booking.com Plattform.
Spezialiséiert op Service Mesh / Service Entdeckung, Batch Job Scheduling, Tëschefall Äntwert a Postmortem Prozess.
Schwätzt a léiert op Russesch.

Evgeniy Varavva
Allgemeng Entwéckler bei Google (San Francisco).
Erfarung vu High-load Webprojeten bis Fuerschung an Computer Visioun a Robotik.
Zënter 2011 ass hien un der Schafung an der Operatioun vu verdeelte Systemer bei Google involvéiert, an huet um ganze Liewenszyklus vum Projet deelgeholl: Konzeptualiséierung, Design an Architektur, Start, Klappt an all Zwëschenstadien.

Eduard Medvedev
CTO bei Tungsten Labs (Däitschland)
Als Ingenieur bei StackStorm geschafft, verantwortlech fir d'ChatOps Funktionalitéit vun der Plattform. Entwéckelt an ëmgesat ChatOps fir Datenzenter Automatisatioun. Spriecher op russesch an international Konferenzen.

De Programm

De Programm gëtt aktiv entwéckelt. Elo gesäit et esou aus, bis Februar kann et sech verbesseren an ausbauen.

Thema #1: Grondprinzipien a Methode vun SRE

  • Wat brauch et fir en SRE ze ginn?
  • DevOps vs SRE
  • Firwat Entwéckler Wäert SRE a si ganz traureg wann se net am Projet sinn
  • SLI, SLO an SLA
  • Feeler Budget a seng Roll am SRE

Thema # 2: Design vun verdeelt Systemer

  • Applikatioun Architektur a Funktionalitéit
  • Non-Abstrakt grouss System Design
  • Operatioun / Design fir Echec
  • gRPC oder REST
  • Versionéierung a Réckkompatibilitéit

Thema #3: Wéi e SRE Projet ugeholl gëtt

  • Beschte Praktiken aus SRE
  • Projet Akzeptanz Checklëscht
  • Logging, Metriken, Tracing
  • CI/CD an eis eegen Hänn huelen

Thema Nr 4: Design a Start vun engem verdeelt System

  • Reverse Engineering - wéi funktionnéiert de System?
  • Mir averstanen op SLI an SLO
  • Praxis Kapazitéit Planung
  • De Traffic op d'Applikatioun starten, eis Benotzer fänken un et ze "benotzen".
  • Lancéiere Prometheus, Grafana, Elastik

Thema #5: Iwwerwachung, Observabilitéit an Alarm

  • Iwwerwaachung vs. Observabilitéit
  • Iwwerwachung an Alarm mat Prometheus opsetzen
  • Praktesch Iwwerwachung vun SLI an SLO
  • Symptomer vs. Ursaachen
  • Black-Box vs. White-Box Iwwerwachung
  • Verdeelt Iwwerwachung vun Applikatioun an Server Disponibilitéit
  • 4 gëllen Signaler (Anomalie Detektioun)

Thema Nr 6: Praxis vun Testen System Zouverlässegkeet

  • Aarbecht ënner Drock
  • Feeler-Injektioun
  • Chaos Monkey

Thema #7: Tëschefall Äntwert Praxis

  • Stress Gestioun Algorithmus
  • Interaktioun tëscht Tëschefall Participanten
  • Postmortem
  • Wëssen deelen
  • Gestalt vun der Kultur
  • Feeler Iwwerwachung
  • Scholdlos Debriefing duerchféieren

Thema # 8: Luede Management Praktiken

  • Last Equiliber
  • Applikatioun Feeler Toleranz: Retry, Timeout, Echec Injektioun, Circuit Breaker
  • DDoS (Laascht erstellen) + Kaskadesfehler

Thema # 9: Tëschefall Äntwert

  • Debriefing
  • On-Call Praxis
  • Verschidden Aarte vun Accidenter (Test, Konfiguratioun Ännerungen, Hardware Echec)
  • Tëschefall Gestioun Protokoller

Thema #10: Diagnos a Problemléisung

  • Logged
  • Debuggen
  • Praxis Analyse an Debugging op eiser Applikatioun

Thema #11: System Zouverlässegkeet Testen

  • Stress Test
  • Konfiguratiounstest
  • Leeschtung Testen
  • Kanaresch Verëffentlechung

Thema Nr 12: Onofhängeg Aarbecht an Iwwerpréiwung

Recommandatiounen an Ufuerderunge fir Participanten

SRE ass en Team Effort. Mir recommandéieren staark de Cours als Team ze huelen. Dofir bidde mir grouss Remise fir fäerdeg Teams.

De Präis vum Cours ass 60 ₽ pro Persoun.
Wann eng Firma e Grupp vu 5+ Leit schéckt - 40 ₽.

De Cours ass op Kubernetes gebaut. Fir ze passéieren, musst Dir Kubernetes op engem Basisniveau kennen. Wann Dir net mat him schafft, kënnt Dir duerch Slurm Basic goen (online oder intensiv 18-20 November).
Zousätzlech musst Dir am Linux beherrscht sinn a Gitlab a Prometheus kennen.

Immatrikulatioun

Wann Dir eng komplex Iddi fir Participatioun hunn, zum Beispill, fir de CEO, CTO an eng Equipe vun Entwéckler op de Cours ze kommen, a fir hinnen e Stage ënnerhalen Rechnung der Gestioun vertikal, schreiwen mir an engem perséinlechen Message.

Source: will.com

Setzt e Commentaire