ProHoster > Blog > administration > "L'espoir est une mauvaise stratégie." Intensif SRE à Moscou, du 3 au 5 février
"L'espoir est une mauvaise stratégie." Intensif SRE à Moscou, du 3 au 5 février
Nous annonçons le premier cours pratique sur le SRE en Russie : Slurm SRE.
Pendant le stage intensif, nous passerons trois jours à construire, casser, réparer et améliorer un site Web agrégateur de vente de billets de cinéma.
Nous avons choisi un agrégateur de billets car il présente de nombreux scénarios de panne : afflux de visiteurs et attaques DDoS, panne d'un des nombreux microservices critiques (autorisation, réservations, traitement des paiements), indisponibilité d'une des nombreuses salles de cinéma (échange de données sur places disponibles et réservations), et plus bas dans la liste.
Nous formulerons le concept de fiabilité pour notre site agrégateur, que nous développerons davantage en ingénierie, analyserons la conception du point de vue du SRE, sélectionnerons les métriques, mettrons en place leur surveillance, éliminerons les incidents émergents, organiserons une formation pour le travail d'équipe avec les incidents. dans des conditions proches du combat, organiser un débriefing .
Le programme est géré par des employés de Booking.com et de Google.
Cette fois, il n'y aura pas de participation à distance : le cours est construit sur l'interaction personnelle et le travail d'équipe.
Détails sous la coupe
икеры
Ivan Kruglov
Développeur principal chez Booking.com (Pays-Bas)
Depuis qu'il a rejoint Booking.com en 2013, il a travaillé sur des projets d'infrastructure tels que la livraison et le traitement distribués des messages, le BigData et la pile Web, ainsi que la recherche.
Je travaille actuellement sur les questions de construction d'un cloud interne et de Service Mesh.
Ben Tyler
Développeur principal chez Booking.com (USA)
Engagé dans le développement interne de la plateforme Booking.com.
Spécialisé dans le maillage de services/découverte de services, la planification de tâches par lots, la réponse aux incidents et le processus post-mortem.
Parle et enseigne en russe.
Evgueni Varavva
Développeur général chez Google (San Francisco).
Expérience allant des projets Web à forte charge à la recherche en vision par ordinateur et en robotique.
Depuis 2011, il est impliqué dans la création et l'exploitation de systèmes distribués chez Google, participant au cycle de vie complet du projet : conceptualisation, conception et architecture, lancement, pliage et toutes les étapes intermédiaires.
Edouard Medvedev
CTO chez Tungsten Labs (Allemagne)
A travaillé en tant qu'ingénieur chez StackStorm, responsable de la fonctionnalité ChatOps de la plateforme. Développer et implémenter ChatOps pour l'automatisation du centre de données. Conférencier lors de conférences russes et internationales.
Programme
Le programme est activement développé. Maintenant, cela ressemble à ceci, d'ici février, cela pourrait s'améliorer et se développer.
Thème n°1 : Principes de base et méthodes du SRE
Que faut-il pour devenir SRE ?
DevOps contre SRE
Pourquoi les développeurs apprécient le SRE et sont très tristes lorsqu'ils ne participent pas au projet
SLI, SLO et SLA
Budget d'erreur et son rôle dans SRE
Sujet n°2 : Conception de systèmes distribués
Architecture et fonctionnalités des applications
Conception de grands systèmes non abstraits
Opérabilité / Conception en cas d'échec
gRPC ou REST
Gestion des versions et rétrocompatibilité
Sujet n°3 : Comment est accepté un projet SRE
Meilleures pratiques du SRE
Liste de contrôle pour l'acceptation du projet
Journalisation, métriques, traçage
Prendre CI/CD en main
Thème n°4 : Conception et lancement d'un système distribué
Ingénierie inverse : comment fonctionne le système ?
Nous sommes d'accord sur SLI et SLO
Pratiquer la planification des capacités
En lançant du trafic vers l'application, nos utilisateurs commencent à « l'utiliser »
Lancement de Prometheus, Grafana, Elastic
Sujet n°5 : Surveillance, observabilité et alerte
Surveillance vs. Observabilité
Mise en place de la surveillance et des alertes avec Prometheus
Suivi pratique du SLI et du SLO
Symptômes vs. Causes
Boîte noire contre Surveillance en boîte blanche
Surveillance distribuée de la disponibilité des applications et des serveurs
4 signaux dorés (détection d'anomalies)
Thème n°6 : Pratique des tests de fiabilité des systèmes
Travailler sous pression
Injection de panne
Singe du chaos
Sujet n°7 : Pratique de réponse aux incidents
Algorithme de gestion du stress
Interaction entre les participants à l'incident
Autopsie
Le partage des connaissances
Façonner la culture
Surveillance des défauts
Mener un débriefing irréprochable
Sujet n°8 : Pratiques de gestion de la charge
L'équilibrage de charge
Tolérance aux pannes des applications : nouvelle tentative, timeout, injection de panne, disjoncteur
DDoS (création de charge) + pannes en cascade
Sujet n°9 : Réponse aux incidents
Débriefing
Pratique de garde
Différents types d'accidents (tests, changements de configuration, panne matérielle)
Protocoles de gestion des incidents
Sujet n°10 : Diagnostic et résolution de problèmes
Enregistrement
Débogage
Pratiquez l'analyse et le débogage sur notre application
Sujet n°11 : Tests de fiabilité du système
Tests de résistance
Tests de configuration
Test de performance
Libération Canary
Thème n°12 : Travaux et révision indépendants
Recommandations et exigences pour les participants
SRE est un effort d’équipe. Nous recommandons fortement de suivre le cours en équipe. C’est pourquoi nous proposons des réductions importantes aux équipes prêtes à l’emploi.
Le prix du cours est de 60 000 ₽ par personne.
Si une entreprise envoie un groupe de 5+ personnes - 40 000 ₽.
Le cours est construit sur Kubernetes. Pour réussir, vous devez connaître Kubernetes à un niveau de base. Si vous ne travaillez pas avec lui, vous pouvez passer par Slurm Basic (онлайн ou intensif du 18 au 20 novembre).
De plus, vous devez maîtriser Linux et connaître Gitlab et Prometheus.
Si vous avez une idée complexe de participation, par exemple que le PDG, le CTO et une équipe de développeurs viennent au cours, et qu'ils effectuent un stage prenant en compte la verticale du management, écrivez-moi dans un message personnel.