«Үміт - жаман стратегия». Мәскеуде SRE қарқынды, 3-5 ақпан

Анонсируем первый в России практический курс по SRE: Slurm SRE.

На интенсиве мы будем три дня строить, ломать, чинить и улучшать сайт-агрегатор по продаже билетов в кино.

«Үміт - жаман стратегия». Мәскеуде SRE қарқынды, 3-5 ақпан

Мы выбрали агрегатор билетов, потому что у него множество сценариев отказа: наплыв посетителей и DDoS-атаки, падение одного из множества критичных микросервисов (авторизация, резервирование, обработка платежей), недоступность одного из множества кинотеатров (обмен данными о свободных местах и резервировании), и далее по списку.

Мы сформируем концепцию Reliability нашего сайта-агрегатора, которую будем в дальшейшем Engineering, разберем проектирование с точки зрения SRE, подберем метрики, настроим их мониторинг, будем устранять возникающие инциденты, проведем тренинг командной работы с инцидентами в условиях, приближенных к боевым, организуем разбор полетов.

Ведут программу сотрудники Booking.com и Google.
В этот раз удаленного участия не будет: курс построен на личном взаимодействии и на командной работе.

Подробности под катом

Спикерлер

Иван Круглов
Principal Developer в Booking.com (Нидерланды)
2013 жылы Booking.com сайтына қосылғаннан бері ол таратылған хабарламаларды жеткізу және өңдеу, BigData және веб-стек, іздеу сияқты инфрақұрылымдық жобаларда жұмыс істеді.
Қазіргі уақытта ішкі бұлтты және Service Mesh құру мәселелерімен айналысуда.

Бен Тайлер
Principal Developer в Booking.com (США)
Занимается внутренней разработкой платформы Booking.com.
Специализируется на service mesh / service discovery, batch job scheduling, incident response и postmortem process.
Говорит и преподает на русском.

Евгений Варавва
Разработчик широкого профиля в Google (Сан-Франциско).
Опыт работы от высоконагруженных веб-проектов до исследований в компьютерном зрении и робототехнике.
С 2011 года занимается в Google созданием и эксплуатацией распределенных систем, участвуя в полном жизненном цикле проекта: концептуализация, дизайн и архитектура, запуск, сворачивание и все промежуточные этапы.

Эдуард Медведев
CTO в Tungsten Labs (Германия)
StackStorm компаниясында инженер болып жұмыс істеді, платформаның ChatOps функционалдығына жауапты. Деректер орталығын автоматтандыруға арналған ChatOps әзірленді және енгізілді. Ресейлік және халықаралық конференцияларда баяндамашы.

бағдарлама

Программа активно дорабатывается. Сейчас она выглядит так, к февралю может улучшиться и расшириться.

Тема №1: Основные принципы и методы SRE

  • Что нужно чтобы стать SRE?
  • DevOps vs SRE
  • Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
  • SLI, SLO и SLA
  • Error budget и его роль в SRE

Тема №2: Дизайн распределенных систем

  • Архитектура и функционал приложения
  • Non-Abstract Large System Design
  • Operability / Design for failure
  • gRPC или REST
  • Версионирование и обратная совместимость

Тема №3: Как принимают проект SRE

  • Лучшие практики от SRE
  • Чек-лист приема проекта
  • Логирование, метрики, трейсинг
  • Забираем CI/CD в свои руки

Тема №4: Проектирование и запуск распределенной системы

  • Обратное проектирование — как работает система?
  • Согласовываем SLI и SLO
  • Практика capacity planning
  • Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
  • Запускаем Prometheus, Grafana, Elastic

Тема №5: Monitoring, Observability and Alerting

  • Monitoring vs. Observability
  • Настраиваем мониторинг и алертинг с Prometheus
  • Практический мониторинг SLI и SLO
  • Symptoms vs. Causes
  • Black-Box vs. White-Box Monitoring
  • Распределенный мониторинг доступности приложений и серверов
  • 4 золотых сигнала (обнаружение аномалий)

Тема №6: Практика тестирования надежности систем

  • Работа под давлением
  • Failure-injection
  • Хаос маймыл

Тема №7: Практика incident response

  • Алгоритм управления стрессом
  • Взаимодействие между участниками инцидента
  • Постмортем
  • Білім алмасу
  • Формирование культуры
  • Контроль неисправностей
  • Проведение blameless разбора полетов

Тема №8: Практика управления нагрузкой

  • Жүктемені теңестіру
  • Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
  • DDoS (создаем нагрузку) + Cascading Failures

Тема №9: Реагирование на инциденты

  • Debriefing
  • Практика On-Call
  • Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
  • Протоколы управления инцидентами

Тема №10: Диагностика и решение проблем

  • Тіркеу
  • Жөндеу
  • Практика анализа и отладки на нашем приложении

Тема №11: Тестирование надежности систем

  • Стресс тестілеу
  • Тестирование конфигураций
  • Өнімділік сынағы
  • Канарды босату

Тема №12: Самостоятельная работа и ревью

Рекомендации и требования к участникам

SRE — командная работа. Мы настоятельно рекомендуем проходить курс всей командой. Поэтому даем для готовых команд большие скидки.

Цена курса — 60 000 ₽ с человека.
Если компания отправляет группу из 5+ человек — 40 000 ₽.

Курс построен на Kubernetes. Для прохождения нужно знать Kubernetes на базовом уровне. Если вы с ним не работаете, можно пройти Слёрм Базовый (онлайн немесе интенсив 18-20 ноября).
Кроме того, нужно хорошо владеть Linux, знать Gitlab и Prometheus.

Тіркелу

Если у вас есть сложная идея по участию, например, чтобы на курс пришел генеральный директор, технический директор и команда разработчиков, и они проходили практику с учетом управленческой вертикали, пишите мне в личку.

Ақпарат көзі: www.habr.com

пікір қалдыру