"L'espoir est une mauvaise stratégie." Intensif SRE à Moscou, du 3 au 5 février

Nous annonçons le premier cours pratique sur le SRE en Russie : Slurm SRE.

Pendant le stage intensif, nous passerons trois jours à construire, casser, réparer et améliorer un site Web agrégateur de vente de billets de cinéma.

"L'espoir est une mauvaise stratégie." Intensif SRE à Moscou, du 3 au 5 février

Nous avons choisi un agrégateur de billets car il présente de nombreux scénarios de panne : afflux de visiteurs et attaques DDoS, panne d'un des nombreux microservices critiques (autorisation, réservations, traitement des paiements), indisponibilité d'une des nombreuses salles de cinéma (échange de données sur places disponibles et réservations), et plus bas dans la liste.

Nous formulerons le concept de fiabilité pour notre site agrégateur, que nous développerons davantage en ingénierie, analyserons la conception du point de vue du SRE, sélectionnerons les métriques, mettrons en place leur surveillance, éliminerons les incidents émergents, organiserons une formation pour le travail d'équipe avec les incidents. dans des conditions proches du combat, organiser un débriefing .

Le programme est géré par des employés de Booking.com et de Google.
Cette fois, il n'y aura pas de participation à distance : le cours est construit sur l'interaction personnelle et le travail d'équipe.

Détails sous la coupe

икеры

Ivan Kruglov
Développeur principal chez Booking.com (Pays-Bas)
Depuis qu'il a rejoint Booking.com en 2013, il a travaillé sur des projets d'infrastructure tels que la livraison et le traitement distribués des messages, le BigData et la pile Web, ainsi que la recherche.
Je travaille actuellement sur les questions de construction d'un cloud interne et de Service Mesh.

Ben Tyler
Développeur principal chez Booking.com (USA)
Engagé dans le développement interne de la plateforme Booking.com.
Spécialisé dans le maillage de services/découverte de services, la planification de tâches par lots, la réponse aux incidents et le processus post-mortem.
Parle et enseigne en russe.

Evgueni Varavva
Développeur général chez Google (San Francisco).
Expérience allant des projets Web à forte charge à la recherche en vision par ordinateur et en robotique.
Depuis 2011, il est impliqué dans la création et l'exploitation de systèmes distribués chez Google, participant au cycle de vie complet du projet : conceptualisation, conception et architecture, lancement, pliage et toutes les étapes intermédiaires.

Edouard Medvedev
CTO chez Tungsten Labs (Allemagne)
A travaillé en tant qu'ingénieur chez StackStorm, responsable de la fonctionnalité ChatOps de la plateforme. Développer et implémenter ChatOps pour l'automatisation du centre de données. Conférencier lors de conférences russes et internationales.

Programme

Le programme est activement développé. Maintenant, cela ressemble à ceci, d'ici février, cela pourrait s'améliorer et se développer.

Thème n°1 : Principes de base et méthodes du SRE

  • Que faut-il pour devenir SRE ?
  • DevOps contre SRE
  • Pourquoi les développeurs apprécient le SRE et sont très tristes lorsqu'ils ne participent pas au projet
  • SLI, SLO et SLA
  • Budget d'erreur et son rôle dans SRE

Sujet n°2 : Conception de systèmes distribués

  • Architecture et fonctionnalités des applications
  • Conception de grands systèmes non abstraits
  • Opérabilité / Conception en cas d'échec
  • gRPC ou REST
  • Gestion des versions et rétrocompatibilité

Sujet n°3 : Comment est accepté un projet SRE

  • Meilleures pratiques du SRE
  • Liste de contrôle pour l'acceptation du projet
  • Journalisation, métriques, traçage
  • Prendre CI/CD en main

Thème n°4 : Conception et lancement d'un système distribué

  • Ingénierie inverse : comment fonctionne le système ?
  • Nous sommes d'accord sur SLI et SLO
  • Pratiquer la planification des capacités
  • En lançant du trafic vers l'application, nos utilisateurs commencent à « l'utiliser »
  • Lancement de Prometheus, Grafana, Elastic

Sujet n°5 : Surveillance, observabilité et alerte

  • Surveillance vs. Observabilité
  • Mise en place de la surveillance et des alertes avec Prometheus
  • Suivi pratique du SLI et du SLO
  • Symptômes vs. Causes
  • Boîte noire contre Surveillance en boîte blanche
  • Surveillance distribuée de la disponibilité des applications et des serveurs
  • 4 signaux dorés (détection d'anomalies)

Thème n°6 : Pratique des tests de fiabilité des systèmes

  • Travailler sous pression
  • Injection de panne
  • Singe du chaos

Sujet n°7 : Pratique de réponse aux incidents

  • Algorithme de gestion du stress
  • Interaction entre les participants à l'incident
  • Autopsie
  • Le partage des connaissances
  • Façonner la culture
  • Surveillance des défauts
  • Mener un débriefing irréprochable

Sujet n°8 : Pratiques de gestion de la charge

  • L'équilibrage de charge
  • Tolérance aux pannes des applications : nouvelle tentative, timeout, injection de panne, disjoncteur
  • DDoS (création de charge) + pannes en cascade

Sujet n°9 : Réponse aux incidents

  • Débriefing
  • Pratique de garde
  • Différents types d'accidents (tests, changements de configuration, panne matérielle)
  • Protocoles de gestion des incidents

Sujet n°10 : Diagnostic et résolution de problèmes

  • Enregistrement
  • Débogage
  • Pratiquez l'analyse et le débogage sur notre application

Sujet n°11 : Tests de fiabilité du système

  • Tests de résistance
  • Tests de configuration
  • Test de performance
  • Libération Canary

Thème n°12 : Travaux et révision indépendants

Recommandations et exigences pour les participants

SRE est un effort d’équipe. Nous recommandons fortement de suivre le cours en équipe. C’est pourquoi nous proposons des réductions importantes aux équipes prêtes à l’emploi.

Le prix du cours est de 60 000 ₽ par personne.
Si une entreprise envoie un groupe de 5+ personnes - 40 000 ₽.

Le cours est construit sur Kubernetes. Pour réussir, vous devez connaître Kubernetes à un niveau de base. Si vous ne travaillez pas avec lui, vous pouvez passer par Slurm Basic (онлайн ou intensif du 18 au 20 novembre).
De plus, vous devez maîtriser Linux et connaître Gitlab et Prometheus.

S'inscrire

Si vous avez une idée complexe de participation, par exemple que le PDG, le CTO et une équipe de développeurs viennent au cours, et qu'ils effectuent un stage prenant en compte la verticale du management, écrivez-moi dans un message personnel.

Source: habr.com

Ajouter un commentaire