ProHoster > Blog > administração > “A esperança é uma má estratégia.” Intensivo SRE em Moscou, 3 a 5 de fevereiro
“A esperança é uma má estratégia.” Intensivo SRE em Moscou, 3 a 5 de fevereiro
Anunciamos o primeiro curso prático sobre SRE na Rússia: Slurm SRE.
Durante o intensivo passaremos três dias construindo, desmontando, consertando e melhorando um site agregador de venda de ingressos de cinema.
Escolhemos um agregador de bilhetes porque tem muitos cenários de falha: um afluxo de visitantes e ataques DDoS, a falha de um dos muitos microsserviços críticos (autorização, reservas, processamento de pagamentos), a indisponibilidade de um dos muitos cinemas (troca de dados sobre lugares disponíveis e reservas) e mais abaixo na lista.
Formularemos o conceito de Confiabilidade para nosso site agregador, que desenvolveremos posteriormente em Engenharia, analisaremos o projeto do ponto de vista do SRE, selecionaremos métricas, configuraremos seu monitoramento, eliminaremos incidentes emergentes, realizaremos treinamentos para trabalho em equipe com incidentes em condições próximas ao combate, organize um interrogatório.
O programa é administrado por funcionários da Booking.com e do Google.
Desta vez não haverá participação remota: o curso é baseado na interação pessoal e no trabalho em equipe.
Detalhes sob o corte
caixas de som
Ivan Kruglov
Desenvolvedor principal na Booking.com (Holanda)
Desde que ingressou na Booking.com em 2013, ele trabalhou em projetos de infraestrutura, como entrega e processamento distribuído de mensagens, BigData e web-stack, pesquisa.
Atualmente trabalhando em questões de construção de uma nuvem interna e Service Mesh.
Ben Tyler
Desenvolvedor principal na Booking.com (EUA)
Envolvido no desenvolvimento interno da plataforma Booking.com.
Especializado em malha de serviço/descoberta de serviço, agendamento de trabalho em lote, resposta a incidentes e processo postmortem.
Fala e ensina em russo.
Evgeny Varavva
Desenvolvedor geral no Google (São Francisco).
Experiência em projetos web de alta carga até pesquisas em visão computacional e robótica.
Desde 2011 está envolvido na criação e operação de sistemas distribuídos no Google, participando de todo o ciclo de vida do projeto: conceituação, design e arquitetura, lançamento, dobramento e todas as etapas intermediárias.
Eduardo Medvedev
CTO da Tungsten Labs (Alemanha)
Atuou como engenheiro na StackStorm, responsável pela funcionalidade ChatOps da plataforma. Desenvolvi e implementei ChatOps para automação de data center. Palestrante em conferências russas e internacionais.
Programa
O programa está sendo desenvolvido ativamente. Agora está assim, até fevereiro pode melhorar e expandir.
Tópico nº 1: Princípios e métodos básicos de SRE
O que é preciso para se tornar um SRE?
DevOps x SRE
Por que os desenvolvedores valorizam o SRE e ficam muito tristes quando não estão no projeto
SLI, SLO e SLA
Erro no orçamento e seu papel no SRE
Tópico nº 2: Projeto de sistemas distribuídos
Arquitetura e funcionalidade do aplicativo
Projeto de grande sistema não abstrato
Operabilidade/Projeto para falha
gRPC ou REST
Versionamento e compatibilidade com versões anteriores
Tópico nº 3: Como um projeto SRE é aceito
Melhores práticas do SRE
Lista de verificação de aceitação do projeto
Registro, métricas, rastreamento
Tomando CI/CD em nossas próprias mãos
Tópico nº 4: Projeto e lançamento de um sistema distribuído
Engenharia reversa – como funciona o sistema?
Concordamos com SLI e SLO
Pratique o planejamento de capacidade
Ao lançar tráfego para o aplicativo, nossos usuários começam a “usá-lo”
Lançamento Prometheus, Grafana, Elastic
Tópico nº 5: Monitoramento, Observabilidade e Alertas
Monitoramento vs. Observabilidade
Configurando monitoramento e alertas com Prometheus
Monitoramento prático de SLI e SLO
Sintomas vs. Causas
Caixa Preta vs. Monitoramento de caixa branca
Monitoramento distribuído da disponibilidade de aplicativos e servidores
4 sinais dourados (detecção de anomalias)
Tópico nº 6: Prática de teste de confiabilidade do sistema
Trabalhando sob pressão
Injeção de falha
Macaco do Caos
Tópico nº 7: Prática de resposta a incidentes
Algoritmo de gerenciamento de estresse
Interação entre participantes do incidente
Pós-morte
Compartilhamento de conhecimento
Moldando a cultura
Monitoramento de falhas
Conduzindo um interrogatório sem culpa
Tópico nº 8: Práticas de gerenciamento de carga
Balanceamento de carga
Tolerância a falhas da aplicação: nova tentativa, tempo limite, injeção de falha, disjuntor
DDoS (criando carga) + Falhas em Cascata
Tópico nº 9: Resposta a incidentes
Discussão
Prática de plantão
Vários tipos de acidentes (testes, alterações de configuração, falha de hardware)
Protocolos de gerenciamento de incidentes
Tópico nº 10: Diagnóstico e solução de problemas
Exploração madeireira
Depuração
Pratique análise e depuração em nosso aplicativo
Tópico nº 11: Teste de confiabilidade do sistema
Teste de estresse
Teste de configuração
Teste de performance
Lançamento canário
Tópico nº 12: Trabalho independente e revisão
Recomendações e requisitos para participantes
SRE é um esforço de equipe. Recomendamos fortemente fazer o curso em equipe. É por isso que oferecemos grandes descontos para equipes prontas.
O preço do curso é 60 ₽ por pessoa.
Se uma empresa enviar um grupo de mais de 5 pessoas - 40 ₽.
O curso é baseado em Kubernetes. Para passar, você precisa conhecer Kubernetes em um nível básico. Se você não trabalha com ele, você pode passar pelo Slurm Basic (On-line ou intensivo de 18 a 20 de novembro).
Além disso, você precisa ter proficiência em Linux e conhecer Gitlab e Prometheus.
Se você tem uma ideia complexa de participação, por exemplo, que o CEO, o CTO e uma equipe de desenvolvedores venham para o curso, e que façam um estágio levando em consideração a vertical de gestão, escreva-me em uma mensagem pessoal.