“A esperança é uma má estratégia.” Intensivo SRE em Moscou, 3 a 5 de fevereiro

Anunciamos o primeiro curso prático sobre SRE na Rússia: Slurm SRE.

Durante o intensivo passaremos três dias construindo, desmontando, consertando e melhorando um site agregador de venda de ingressos de cinema.

“A esperança é uma má estratégia.” Intensivo SRE em Moscou, 3 a 5 de fevereiro

Escolhemos um agregador de bilhetes porque tem muitos cenários de falha: um afluxo de visitantes e ataques DDoS, a falha de um dos muitos microsserviços críticos (autorização, reservas, processamento de pagamentos), a indisponibilidade de um dos muitos cinemas (troca de dados sobre lugares disponíveis e reservas) e mais abaixo na lista.

Formularemos o conceito de Confiabilidade para nosso site agregador, que desenvolveremos posteriormente em Engenharia, analisaremos o projeto do ponto de vista do SRE, selecionaremos métricas, configuraremos seu monitoramento, eliminaremos incidentes emergentes, realizaremos treinamentos para trabalho em equipe com incidentes em condições próximas ao combate, organize um interrogatório.

O programa é administrado por funcionários da Booking.com e do Google.
Desta vez não haverá participação remota: o curso é baseado na interação pessoal e no trabalho em equipe.

Detalhes sob o corte

caixas de som

Ivan Kruglov
Desenvolvedor principal na Booking.com (Holanda)
Desde que ingressou na Booking.com em 2013, ele trabalhou em projetos de infraestrutura, como entrega e processamento distribuído de mensagens, BigData e web-stack, pesquisa.
Atualmente trabalhando em questões de construção de uma nuvem interna e Service Mesh.

Ben Tyler
Desenvolvedor principal na Booking.com (EUA)
Envolvido no desenvolvimento interno da plataforma Booking.com.
Especializado em malha de serviço/descoberta de serviço, agendamento de trabalho em lote, resposta a incidentes e processo postmortem.
Fala e ensina em russo.

Evgeny Varavva
Desenvolvedor geral no Google (São Francisco).
Experiência em projetos web de alta carga até pesquisas em visão computacional e robótica.
Desde 2011 está envolvido na criação e operação de sistemas distribuídos no Google, participando de todo o ciclo de vida do projeto: conceituação, design e arquitetura, lançamento, dobramento e todas as etapas intermediárias.

Eduardo Medvedev
CTO da Tungsten Labs (Alemanha)
Atuou como engenheiro na StackStorm, responsável pela funcionalidade ChatOps da plataforma. Desenvolvi e implementei ChatOps para automação de data center. Palestrante em conferências russas e internacionais.

Programa

O programa está sendo desenvolvido ativamente. Agora está assim, até fevereiro pode melhorar e expandir.

Tópico nº 1: Princípios e métodos básicos de SRE

  • O que é preciso para se tornar um SRE?
  • DevOps x SRE
  • Por que os desenvolvedores valorizam o SRE e ficam muito tristes quando não estão no projeto
  • SLI, SLO e SLA
  • Erro no orçamento e seu papel no SRE

Tópico nº 2: Projeto de sistemas distribuídos

  • Arquitetura e funcionalidade do aplicativo
  • Projeto de grande sistema não abstrato
  • Operabilidade/Projeto para falha
  • gRPC ou REST
  • Versionamento e compatibilidade com versões anteriores

Tópico nº 3: Como um projeto SRE é aceito

  • Melhores práticas do SRE
  • Lista de verificação de aceitação do projeto
  • Registro, métricas, rastreamento
  • Tomando CI/CD em nossas próprias mãos

Tópico nº 4: Projeto e lançamento de um sistema distribuído

  • Engenharia reversa – como funciona o sistema?
  • Concordamos com SLI e SLO
  • Pratique o planejamento de capacidade
  • Ao lançar tráfego para o aplicativo, nossos usuários começam a “usá-lo”
  • Lançamento Prometheus, Grafana, Elastic

Tópico nº 5: Monitoramento, Observabilidade e Alertas

  • Monitoramento vs. Observabilidade
  • Configurando monitoramento e alertas com Prometheus
  • Monitoramento prático de SLI e SLO
  • Sintomas vs. Causas
  • Caixa Preta vs. Monitoramento de caixa branca
  • Monitoramento distribuído da disponibilidade de aplicativos e servidores
  • 4 sinais dourados (detecção de anomalias)

Tópico nº 6: Prática de teste de confiabilidade do sistema

  • Trabalhando sob pressão
  • Injeção de falha
  • Macaco do Caos

Tópico nº 7: Prática de resposta a incidentes

  • Algoritmo de gerenciamento de estresse
  • Interação entre participantes do incidente
  • Pós-morte
  • Compartilhamento de conhecimento
  • Moldando a cultura
  • Monitoramento de falhas
  • Conduzindo um interrogatório sem culpa

Tópico nº 8: Práticas de gerenciamento de carga

  • Balanceamento de carga
  • Tolerância a falhas da aplicação: nova tentativa, tempo limite, injeção de falha, disjuntor
  • DDoS (criando carga) + Falhas em Cascata

Tópico nº 9: Resposta a incidentes

  • Discussão
  • Prática de plantão
  • Vários tipos de acidentes (testes, alterações de configuração, falha de hardware)
  • Protocolos de gerenciamento de incidentes

Tópico nº 10: Diagnóstico e solução de problemas

  • Exploração madeireira
  • Depuração
  • Pratique análise e depuração em nosso aplicativo

Tópico nº 11: Teste de confiabilidade do sistema

  • Teste de estresse
  • Teste de configuração
  • Teste de performance
  • Lançamento canário

Tópico nº 12: Trabalho independente e revisão

Recomendações e requisitos para participantes

SRE é um esforço de equipe. Recomendamos fortemente fazer o curso em equipe. É por isso que oferecemos grandes descontos para equipes prontas.

O preço do curso é 60 ₽ por pessoa.
Se uma empresa enviar um grupo de mais de 5 pessoas - 40 ₽.

O curso é baseado em Kubernetes. Para passar, você precisa conhecer Kubernetes em um nível básico. Se você não trabalha com ele, você pode passar pelo Slurm Basic (On-line ou intensivo de 18 a 20 de novembro).
Além disso, você precisa ter proficiência em Linux e conhecer Gitlab e Prometheus.

Inscrever-se

Se você tem uma ideia complexa de participação, por exemplo, que o CEO, o CTO e uma equipe de desenvolvedores venham para o curso, e que façam um estágio levando em consideração a vertical de gestão, escreva-me em uma mensagem pessoal.

Fonte: habr.com

Adicionar um comentário