"A esperanza é unha mala estratexia". Intensivo SRE en Moscova, do 3 ao 5 de febreiro

Anunciamos o primeiro curso práctico sobre SRE en Rusia: Slurm SRE.

Durante o intensivo dedicaremos tres días a construír, romper, reparar e mellorar un sitio web agregador para vender entradas de cine.

"A esperanza é unha mala estratexia". Intensivo SRE en Moscova, do 3 ao 5 de febreiro

Escollemos un agregador de entradas porque ten moitos escenarios de fallo: afluencia de visitantes e ataques DDoS, a falla dun dos moitos microservizos críticos (autorización, reservas, procesamento de pagos), a indisponibilidade dun dos moitos cines (intercambio de datos sobre prazas dispoñibles e reservas), e máis abaixo na lista.

Formularemos o concepto de Fiabilidade para o noso sitio agregador, que seguiremos desenvolvendo en Enxeñaría, analizaremos o deseño dende o punto de vista de SRE, seleccionaremos métricas, configuraremos o seu seguimento, eliminaremos incidencias emerxentes, realizaremos formación para o traballo en equipo con incidencias. en condicións próximas ao combate, organizar un debriefing.

O programa está dirixido por empregados de Booking.com e Google.
Nesta ocasión non haberá participación a distancia: o curso constrúese na interacción persoal e o traballo en equipo.

Detalles baixo o corte

Altofalantes

Iván Kruglov
Desenvolvedor principal en Booking.com (Países Baixos)
Desde que se uniu a Booking.com en 2013, traballou en proxectos de infraestrutura como a entrega e procesamento de mensaxes distribuídas, BigData e web-stack, busca.
Actualmente traballando en cuestións de construción dunha nube interna e Service Mesh.

Ben Tyler
Desenvolvedor principal en Booking.com (EE. UU.)
Participa no desenvolvemento interno da plataforma Booking.com.
Está especializado en descubrimento de redes/servizos, programación de traballos por lotes, resposta a incidentes e proceso post mortem.
Fala e ensina en ruso.

Evgeniy Varavva
Desenvolvedor xeral en Google (San Francisco).
Experiencia desde proxectos web de alta carga ata investigación en visión por ordenador e robótica.
Desde 2011, participa na creación e operación de sistemas distribuídos en Google, participando no ciclo de vida completo do proxecto: conceptualización, deseño e arquitectura, lanzamento, dobramento e todas as fases intermedias.

Eduardo Medvedev
CTO en Tungsten Labs (Alemaña)
Traballou como enxeñeiro en StackStorm, responsable da funcionalidade ChatOps da plataforma. Desenvolveu e implementou ChatOps para a automatización do centro de datos. Ponente en congresos rusos e internacionais.

Programa

O programa estase a desenvolver activamente. Agora parece así, en febreiro pode mellorar e ampliar.

Tema #1: Principios e métodos básicos da SRE

  • Que se necesita para converterse en SRE?
  • DevOps vs SRE
  • Por que os desenvolvedores valoran SRE e están moi tristes cando non están no proxecto
  • SLI, SLO e SLA
  • Orzamento de erro e o seu papel na SRE

Tema #2: Deseño de sistemas distribuídos

  • Arquitectura e funcionalidade da aplicación
  • Deseño de gran sistema non abstracto
  • Operabilidade / Deseño para falla
  • gRPC ou REST
  • Versioning e compatibilidade con versións anteriores

Tema #3: Como se acepta un proxecto SRE

  • Mellores prácticas de SRE
  • Lista de verificación de aceptación do proxecto
  • Rexistro, métricas, rastrexo
  • Tomando CI/CD nas nosas propias mans

Tema no 4: Deseño e posta en marcha dun sistema distribuído

  • Enxeñería inversa: como funciona o sistema?
  • Estamos de acordo en SLI e SLO
  • Practicar a planificación da capacidade
  • Ao lanzar o tráfico á aplicación, os nosos usuarios comezan a "utilizala".
  • Lanzamento de Prometheus, Grafana, Elastic

Tema #5: Seguimento, observabilidade e alerta

  • Monitorización vs. Observabilidade
  • Configurar monitorización e alerta con Prometheus
  • Seguimento práctico de SLI e SLO
  • Síntomas vs. Causas
  • Black-Box vs. Monitorización de caixa branca
  • Monitorización distribuída da dispoñibilidade de aplicacións e servidores
  • 4 sinais de ouro (detección de anomalías)

Tema no 6: Práctica da proba da fiabilidade do sistema

  • Traballando baixo presión
  • Fallo-inxección
  • Mono do Caos

Tema #7: Práctica de resposta a incidentes

  • Algoritmo de xestión do estrés
  • Interacción entre os participantes no incidente
  • Post mortem
  • Compartir coñecemento
  • Dar forma á cultura
  • Monitorización de avarías
  • Realización de debriefing irreprochable

Tema #8: Prácticas de xestión de carga

  • Equilibrio de carga
  • Tolerancia a fallos da aplicación: reintento, tempo de espera, inxección de fallos, interruptor automático
  • DDoS (creando carga) + Fallos en cascada

Tema #9: Resposta a incidentes

  • Debriefing
  • Práctica de garda
  • Varios tipos de accidentes (probas, cambios de configuración, fallos de hardware)
  • Protocolos de xestión de incidencias

Tema #10: Diagnóstico e resolución de problemas

  • Rexistro
  • Depuración
  • Practica análise e depuración na nosa aplicación

Tema #11: Probas de fiabilidade do sistema

  • Probas de estrés
  • Proba de configuración
  • Probas de rendemento
  • Liberación canaria

Tema no 12: Traballo independente e repaso

Recomendacións e requisitos para os participantes

SRE é un esforzo en equipo. Recomendamos encarecidamente facer o curso en equipo. É por iso que ofrecemos grandes descontos para equipos preparados.

O prezo do curso é de 60 ₽ por persoa.
Se unha empresa envía un grupo de máis de 5 persoas - 40 ₽.

O curso está construído en Kubernetes. Para aprobar, cómpre coñecer Kubernetes nun nivel básico. Se non traballas con el, podes pasar por Slurm Basic (En liña ou intensivo 18-20 de novembro).
Ademais, debes ser competente en Linux e coñecer Gitlab e Prometheus.

inscrición

Se tes unha idea complexa de participación, por exemplo, para que o CEO, o CTO e un equipo de desenvolvedores veñan ao curso, e para que realicen unhas prácticas tendo en conta a vertical de xestión, escríbeme nunha mensaxe persoal.

Fonte: www.habr.com

Engadir un comentario