ProHoster > Bloc > Administració > "L'esperança és una mala estratègia". Intensiu SRE a Moscou, del 3 al 5 de febrer
"L'esperança és una mala estratègia". Intensiu SRE a Moscou, del 3 al 5 de febrer
Anunciem el primer curs pràctic sobre SRE a Rússia: Slurm SRE.
Durant l'intensiu passarem tres dies construint, trencant, reparant i millorant un web agregador per vendre entrades de cinema.
Hem escollit un agregador d'entrades perquè té molts escenaris de fallada: afluència de visitants i atacs DDoS, fallada d'un dels molts microserveis crítics (autorització, reserves, processament de pagaments), indisponibilitat d'un dels molts cinemes (intercanvi de dades sobre places disponibles i reserves), i més avall a la llista.
Formularem el concepte de Fiabilitat per al nostre lloc d'agregació, que seguirem desenvolupant en Enginyeria, analitzarem el disseny des del punt de vista de SRE, seleccionarem mètriques, configurarem el seu seguiment, eliminarem incidències emergents, realitzarem formació per al treball en equip amb incidències. en condicions properes al combat, organitzar una reunió informativa.
El programa està dirigit per empleats de Booking.com i Google.
Aquesta vegada no hi haurà participació a distància: el curs es basa en la interacció personal i el treball en equip.
Detalls sota el tall
Altaveus
Ivan Kruglov
Desenvolupador principal a Booking.com (Països Baixos)
Des que es va incorporar a Booking.com el 2013, ha treballat en projectes d'infraestructura com el lliurament i processament de missatges distribuïts, BigData i web-stack, cerca.
Actualment treballant en problemes de creació d'un núvol intern i Service Mesh.
Ben Tyler
Desenvolupador principal a Booking.com (EUA)
Implicat en el desenvolupament intern de la plataforma Booking.com.
S'especialitza en el descobriment de malla / servei de servei, programació de treballs per lots, resposta a incidents i procés postmortem.
Parla i ensenya en rus.
Evgeniy Varavva
Desenvolupador general a Google (San Francisco).
Experiència des de projectes web d'alta càrrega fins a recerca en visió per computador i robòtica.
Des del 2011, participa en la creació i operació de sistemes distribuïts a Google, participant en tot el cicle de vida del projecte: conceptualització, disseny i arquitectura, llançament, plegat i totes les etapes intermèdies.
Eduard Medvedev
CTO a Tungsten Labs (Alemanya)
Va treballar com a enginyer a StackStorm, responsable de la funcionalitat ChatOps de la plataforma. Desenvolupat i implementat ChatOps per a l'automatització del centre de dades. Ponent en conferències russes i internacionals.
Programa
El programa s'està desenvolupant activament. Ara sembla així, al febrer pot millorar i ampliar.
Tema #1: Principis i mètodes bàsics de l'SRE
Què es necessita per convertir-se en SRE?
DevOps vs SRE
Per què els desenvolupadors valoren SRE i estan molt tristos quan no estan en el projecte
SLI, SLO i SLA
Pressupost d'error i el seu paper en SRE
Tema #2: Disseny de sistemes distribuïts
Arquitectura i funcionalitat de l'aplicació
Disseny de grans sistemes no abstractes
Operabilitat / Disseny per fallada
gRPC o REST
Versions i compatibilitat enrere
Tema #3: Com s'accepta un projecte SRE
Bones pràctiques de SRE
Llista de verificació d'acceptació del projecte
Registre, mètriques, traça
Prenent CI/CD a les nostres pròpies mans
Tema núm. 4: Disseny i posada en marxa d'un sistema distribuït
Enginyeria inversa: com funciona el sistema?
Estem d'acord en SLI i SLO
Practicar la planificació de la capacitat
En llançar trànsit a l'aplicació, els nostres usuaris comencen a "utilitzar-lo".
Llançament de Prometheus, Grafana, Elastic
Tema #5: Seguiment, observabilitat i alerta
Monitorització vs. Observabilitat
Configuració de monitoratge i alertes amb Prometheus
Seguiment pràctic de SLI i SLO
Símptomes vs. Causes
Caixa negra vs. Monitorització de la caixa blanca
Supervisió distribuïda de la disponibilitat d'aplicacions i servidors
4 senyals d'or (detecció d'anomalies)
Tema núm. 6: Pràctica de prova de fiabilitat del sistema
Treballant sota pressió
Falla-injecció
Mico del Caos
Tema #7: Pràctica de resposta a incidents
Algorisme de gestió de l'estrès
Interacció entre els participants de l'incident
Post mortem
Compartir coneixement
Donant forma a la cultura
Monitorització de fallades
Realització d'un debriefing sense culpa
Tema #8: Pràctiques de gestió de càrrega
Equilibri de càrrega
Tolerància a errors de l'aplicació: reintent, temps d'espera, injecció de fallada, disjuntor
DDoS (creació de càrrega) + errors en cascada
Tema #9: Resposta a incidents
Debriefing
Pràctica de guàrdia
Diversos tipus d'accidents (proves, canvis de configuració, fallades de maquinari)
Protocols de gestió d'incidències
Tema #10: Diagnòstic i resolució de problemes
Enregistrament
Depuració
Practica l'anàlisi i la depuració de la nostra aplicació
Tema #11: Proves de fiabilitat del sistema
Proves d'estrès
Prova de configuració
Proves de rendiment
Alliberament canari
Tema núm. 12: Treball autònom i revisió
Recomanacions i requisits per als participants
SRE és un treball d'equip. Recomanem encaridament fer el curs en equip. Per això oferim grans descomptes per a equips preparats.
El preu del curs és de 60 ₽ per persona.
Si una empresa envia un grup de més de 5 persones, 40 ₽.
El curs està basat en Kubernetes. Per aprovar, cal conèixer Kubernetes a un nivell bàsic. Si no treballes amb ell, pots passar per Slurm Basic (онлайн o intensiu del 18 al 20 de novembre).
A més, cal tenir coneixements de Linux i conèixer Gitlab i Prometheus.
Si tens una idea complexa de participació, per exemple, que vinguin al curs el CEO, el CTO i un equip de desenvolupadors, i que facin pràctiques tenint en compte la vertical de gestió, escriu-me en un missatge personal.