"L'esperança és una mala estratègia". Intensiu SRE a Moscou, del 3 al 5 de febrer

Anunciem el primer curs pràctic sobre SRE a Rússia: Slurm SRE.

Durant l'intensiu passarem tres dies construint, trencant, reparant i millorant un web agregador per vendre entrades de cinema.

"L'esperança és una mala estratègia". Intensiu SRE a Moscou, del 3 al 5 de febrer

Hem escollit un agregador d'entrades perquè té molts escenaris de fallada: afluència de visitants i atacs DDoS, fallada d'un dels molts microserveis crítics (autorització, reserves, processament de pagaments), indisponibilitat d'un dels molts cinemes (intercanvi de dades sobre places disponibles i reserves), i més avall a la llista.

Formularem el concepte de Fiabilitat per al nostre lloc d'agregació, que seguirem desenvolupant en Enginyeria, analitzarem el disseny des del punt de vista de SRE, seleccionarem mètriques, configurarem el seu seguiment, eliminarem incidències emergents, realitzarem formació per al treball en equip amb incidències. en condicions properes al combat, organitzar una reunió informativa.

El programa està dirigit per empleats de Booking.com i Google.
Aquesta vegada no hi haurà participació a distància: el curs es basa en la interacció personal i el treball en equip.

Detalls sota el tall

Altaveus

Ivan Kruglov
Desenvolupador principal a Booking.com (Països Baixos)
Des que es va incorporar a Booking.com el 2013, ha treballat en projectes d'infraestructura com el lliurament i processament de missatges distribuïts, BigData i web-stack, cerca.
Actualment treballant en problemes de creació d'un núvol intern i Service Mesh.

Ben Tyler
Desenvolupador principal a Booking.com (EUA)
Implicat en el desenvolupament intern de la plataforma Booking.com.
S'especialitza en el descobriment de malla / servei de servei, programació de treballs per lots, resposta a incidents i procés postmortem.
Parla i ensenya en rus.

Evgeniy Varavva
Desenvolupador general a Google (San Francisco).
Experiència des de projectes web d'alta càrrega fins a recerca en visió per computador i robòtica.
Des del 2011, participa en la creació i operació de sistemes distribuïts a Google, participant en tot el cicle de vida del projecte: conceptualització, disseny i arquitectura, llançament, plegat i totes les etapes intermèdies.

Eduard Medvedev
CTO a Tungsten Labs (Alemanya)
Va treballar com a enginyer a StackStorm, responsable de la funcionalitat ChatOps de la plataforma. Desenvolupat i implementat ChatOps per a l'automatització del centre de dades. Ponent en conferències russes i internacionals.

Programa

El programa s'està desenvolupant activament. Ara sembla així, al febrer pot millorar i ampliar.

Tema #1: Principis i mètodes bàsics de l'SRE

  • Què es necessita per convertir-se en SRE?
  • DevOps vs SRE
  • Per què els desenvolupadors valoren SRE i estan molt tristos quan no estan en el projecte
  • SLI, SLO i SLA
  • Pressupost d'error i el seu paper en SRE

Tema #2: Disseny de sistemes distribuïts

  • Arquitectura i funcionalitat de l'aplicació
  • Disseny de grans sistemes no abstractes
  • Operabilitat / Disseny per fallada
  • gRPC o REST
  • Versions i compatibilitat enrere

Tema #3: Com s'accepta un projecte SRE

  • Bones pràctiques de SRE
  • Llista de verificació d'acceptació del projecte
  • Registre, mètriques, traça
  • Prenent CI/CD a les nostres pròpies mans

Tema núm. 4: Disseny i posada en marxa d'un sistema distribuït

  • Enginyeria inversa: com funciona el sistema?
  • Estem d'acord en SLI i SLO
  • Practicar la planificació de la capacitat
  • En llançar trànsit a l'aplicació, els nostres usuaris comencen a "utilitzar-lo".
  • Llançament de Prometheus, Grafana, Elastic

Tema #5: Seguiment, observabilitat i alerta

  • Monitorització vs. Observabilitat
  • Configuració de monitoratge i alertes amb Prometheus
  • Seguiment pràctic de SLI i SLO
  • Símptomes vs. Causes
  • Caixa negra vs. Monitorització de la caixa blanca
  • Supervisió distribuïda de la disponibilitat d'aplicacions i servidors
  • 4 senyals d'or (detecció d'anomalies)

Tema núm. 6: Pràctica de prova de fiabilitat del sistema

  • Treballant sota pressió
  • Falla-injecció
  • Mico del Caos

Tema #7: Pràctica de resposta a incidents

  • Algorisme de gestió de l'estrès
  • Interacció entre els participants de l'incident
  • Post mortem
  • Compartir coneixement
  • Donant forma a la cultura
  • Monitorització de fallades
  • Realització d'un debriefing sense culpa

Tema #8: Pràctiques de gestió de càrrega

  • Equilibri de càrrega
  • Tolerància a errors de l'aplicació: reintent, temps d'espera, injecció de fallada, disjuntor
  • DDoS (creació de càrrega) + errors en cascada

Tema #9: Resposta a incidents

  • Debriefing
  • Pràctica de guàrdia
  • Diversos tipus d'accidents (proves, canvis de configuració, fallades de maquinari)
  • Protocols de gestió d'incidències

Tema #10: Diagnòstic i resolució de problemes

  • Enregistrament
  • Depuració
  • Practica l'anàlisi i la depuració de la nostra aplicació

Tema #11: Proves de fiabilitat del sistema

  • Proves d'estrès
  • Prova de configuració
  • Proves de rendiment
  • Alliberament canari

Tema núm. 12: Treball autònom i revisió

Recomanacions i requisits per als participants

SRE és un treball d'equip. Recomanem encaridament fer el curs en equip. Per això oferim grans descomptes per a equips preparats.

El preu del curs és de 60 ₽ per persona.
Si una empresa envia un grup de més de 5 persones, 40 ₽.

El curs està basat en Kubernetes. Per aprovar, cal conèixer Kubernetes a un nivell bàsic. Si no treballes amb ell, pots passar per Slurm Basic (онлайн o intensiu del 18 al 20 de novembre).
A més, cal tenir coneixements de Linux i conèixer Gitlab i Prometheus.

registre

Si tens una idea complexa de participació, per exemple, que vinguin al curs el CEO, el CTO i un equip de desenvolupadors, i que facin pràctiques tenint en compte la vertical de gestió, escriu-me en un missatge personal.

Font: www.habr.com

Afegeix comentari