ProHoster > Blog > Administración > "A esperanza é unha mala estratexia". Intensivo SRE en Moscova, do 3 ao 5 de febreiro
"A esperanza é unha mala estratexia". Intensivo SRE en Moscova, do 3 ao 5 de febreiro
Anunciamos o primeiro curso práctico sobre SRE en Rusia: Slurm SRE.
Durante o intensivo dedicaremos tres días a construír, romper, reparar e mellorar un sitio web agregador para vender entradas de cine.
Escollemos un agregador de entradas porque ten moitos escenarios de fallo: afluencia de visitantes e ataques DDoS, a falla dun dos moitos microservizos críticos (autorización, reservas, procesamento de pagos), a indisponibilidade dun dos moitos cines (intercambio de datos sobre prazas dispoñibles e reservas), e máis abaixo na lista.
Formularemos o concepto de Fiabilidade para o noso sitio agregador, que seguiremos desenvolvendo en Enxeñaría, analizaremos o deseño dende o punto de vista de SRE, seleccionaremos métricas, configuraremos o seu seguimento, eliminaremos incidencias emerxentes, realizaremos formación para o traballo en equipo con incidencias. en condicións próximas ao combate, organizar un debriefing.
O programa está dirixido por empregados de Booking.com e Google.
Nesta ocasión non haberá participación a distancia: o curso constrúese na interacción persoal e o traballo en equipo.
Detalles baixo o corte
Altofalantes
Iván Kruglov
Desenvolvedor principal en Booking.com (Países Baixos)
Desde que se uniu a Booking.com en 2013, traballou en proxectos de infraestrutura como a entrega e procesamento de mensaxes distribuídas, BigData e web-stack, busca.
Actualmente traballando en cuestións de construción dunha nube interna e Service Mesh.
Ben Tyler
Desenvolvedor principal en Booking.com (EE. UU.)
Participa no desenvolvemento interno da plataforma Booking.com.
Está especializado en descubrimento de redes/servizos, programación de traballos por lotes, resposta a incidentes e proceso post mortem.
Fala e ensina en ruso.
Evgeniy Varavva
Desenvolvedor xeral en Google (San Francisco).
Experiencia desde proxectos web de alta carga ata investigación en visión por ordenador e robótica.
Desde 2011, participa na creación e operación de sistemas distribuídos en Google, participando no ciclo de vida completo do proxecto: conceptualización, deseño e arquitectura, lanzamento, dobramento e todas as fases intermedias.
Eduardo Medvedev
CTO en Tungsten Labs (Alemaña)
Traballou como enxeñeiro en StackStorm, responsable da funcionalidade ChatOps da plataforma. Desenvolveu e implementou ChatOps para a automatización do centro de datos. Ponente en congresos rusos e internacionais.
Programa
O programa estase a desenvolver activamente. Agora parece así, en febreiro pode mellorar e ampliar.
Tema #1: Principios e métodos básicos da SRE
Que se necesita para converterse en SRE?
DevOps vs SRE
Por que os desenvolvedores valoran SRE e están moi tristes cando non están no proxecto
SLI, SLO e SLA
Orzamento de erro e o seu papel na SRE
Tema #2: Deseño de sistemas distribuídos
Arquitectura e funcionalidade da aplicación
Deseño de gran sistema non abstracto
Operabilidade / Deseño para falla
gRPC ou REST
Versioning e compatibilidade con versións anteriores
Tema #3: Como se acepta un proxecto SRE
Mellores prácticas de SRE
Lista de verificación de aceptación do proxecto
Rexistro, métricas, rastrexo
Tomando CI/CD nas nosas propias mans
Tema no 4: Deseño e posta en marcha dun sistema distribuído
Enxeñería inversa: como funciona o sistema?
Estamos de acordo en SLI e SLO
Practicar a planificación da capacidade
Ao lanzar o tráfico á aplicación, os nosos usuarios comezan a "utilizala".
Lanzamento de Prometheus, Grafana, Elastic
Tema #5: Seguimento, observabilidade e alerta
Monitorización vs. Observabilidade
Configurar monitorización e alerta con Prometheus
Seguimento práctico de SLI e SLO
Síntomas vs. Causas
Black-Box vs. Monitorización de caixa branca
Monitorización distribuída da dispoñibilidade de aplicacións e servidores
4 sinais de ouro (detección de anomalías)
Tema no 6: Práctica da proba da fiabilidade do sistema
Traballando baixo presión
Fallo-inxección
Mono do Caos
Tema #7: Práctica de resposta a incidentes
Algoritmo de xestión do estrés
Interacción entre os participantes no incidente
Post mortem
Compartir coñecemento
Dar forma á cultura
Monitorización de avarías
Realización de debriefing irreprochable
Tema #8: Prácticas de xestión de carga
Equilibrio de carga
Tolerancia a fallos da aplicación: reintento, tempo de espera, inxección de fallos, interruptor automático
DDoS (creando carga) + Fallos en cascada
Tema #9: Resposta a incidentes
Debriefing
Práctica de garda
Varios tipos de accidentes (probas, cambios de configuración, fallos de hardware)
Protocolos de xestión de incidencias
Tema #10: Diagnóstico e resolución de problemas
Rexistro
Depuración
Practica análise e depuración na nosa aplicación
Tema #11: Probas de fiabilidade do sistema
Probas de estrés
Proba de configuración
Probas de rendemento
Liberación canaria
Tema no 12: Traballo independente e repaso
Recomendacións e requisitos para os participantes
SRE é un esforzo en equipo. Recomendamos encarecidamente facer o curso en equipo. É por iso que ofrecemos grandes descontos para equipos preparados.
O prezo do curso é de 60 ₽ por persoa.
Se unha empresa envía un grupo de máis de 5 persoas - 40 ₽.
O curso está construído en Kubernetes. Para aprobar, cómpre coñecer Kubernetes nun nivel básico. Se non traballas con el, podes pasar por Slurm Basic (En liña ou intensivo 18-20 de novembro).
Ademais, debes ser competente en Linux e coñecer Gitlab e Prometheus.
Se tes unha idea complexa de participación, por exemplo, para que o CEO, o CTO e un equipo de desenvolvedores veñan ao curso, e para que realicen unhas prácticas tendo en conta a vertical de xestión, escríbeme nunha mensaxe persoal.