"האָפענונג איז אַ שלעכט סטראַטעגיע." SRE אינטענסיווע אין מאָסקווע, 3-5 פעברואר

Анонсируем первый в России практический курс по SRE: סלורם SRE.

На интенсиве мы будем три дня строить, ломать, чинить и улучшать сайт-агрегатор по продаже билетов в кино.

"האָפענונג איז אַ שלעכט סטראַטעגיע." SRE אינטענסיווע אין מאָסקווע, 3-5 פעברואר

Мы выбрали агрегатор билетов, потому что у него множество сценариев отказа: наплыв посетителей и DDoS-атаки, падение одного из множества критичных микросервисов (авторизация, резервирование, обработка платежей), недоступность одного из множества кинотеатров (обмен данными о свободных местах и резервировании), и далее по списку.

Мы сформируем концепцию Reliability нашего сайта-агрегатора, которую будем в дальшейшем Engineering, разберем проектирование с точки зрения SRE, подберем метрики, настроим их мониторинг, будем устранять возникающие инциденты, проведем тренинг командной работы с инцидентами в условиях, приближенных к боевым, организуем разбор полетов.

Ведут программу сотрудники Booking.com и Google.
В этот раз удаленного участия не будет: курс построен на личном взаимодействии и на командной работе.

Подробности под катом

רעדנער

איוואן קרוגלאָוו
Principal Developer в Booking.com (Нидерланды)
זינט ער האָט זיך איינגעשריבן Booking.com אין 2013, ער האט געארבעט אויף ינפראַסטראַקטשער פראיעקטן אַזאַ ווי פונאנדערגעטיילט אָנזאָג עקספּרעס און פּראַסעסינג, ביגדאַטאַ און וועב-סטאַק זוכן.
איצט ארבעטן אויף ישוז פון בנין אַן ינערלעך וואָלקן און סערוויס מעש.

Бен Тайлер
Principal Developer в Booking.com (США)
Занимается внутренней разработкой платформы Booking.com.
Специализируется на service mesh / service discovery, batch job scheduling, incident response и postmortem process.
Говорит и преподает на русском.

Евгений Варавва
Разработчик широкого профиля в Google (Сан-Франциско).
Опыт работы от высоконагруженных веб-проектов до исследований в компьютерном зрении и робототехнике.
С 2011 года занимается в Google созданием и эксплуатацией распределенных систем, участвуя в полном жизненном цикле проекта: концептуализация, дизайн и архитектура, запуск, сворачивание и все промежуточные этапы.

Эдуард Медведев
CTO в Tungsten Labs (Германия)
געארבעט ווי אַ ינזשעניר אין StackStorm, פאַראַנטוואָרטלעך פֿאַר די ChatOps פאַנגקשאַנאַליטי פון דער פּלאַטפאָרמע. דעוועלאָפּעד און ימפּלאַמענאַד ChatOps פֿאַר אָטאַמיישאַן פון דאַטן צענטער. רעדנער אויף רוסיש און אינטערנאַציאָנאַלע קאַנפראַנסאַז.

פּראָגראַם

Программа активно дорабатывается. Сейчас она выглядит так, к февралю может улучшиться и расшириться.

Тема №1: Основные принципы и методы SRE

  • Что нужно чтобы стать SRE?
  • DevOps vs SRE
  • Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
  • SLI, SLO и SLA
  • Error budget и его роль в SRE

Тема №2: Дизайн распределенных систем

  • Архитектура и функционал приложения
  • Non-Abstract Large System Design
  • Operability / Design for failure
  • gRPC или REST
  • Версионирование и обратная совместимость

Тема №3: Как принимают проект SRE

  • Лучшие практики от SRE
  • Чек-лист приема проекта
  • Логирование, метрики, трейсинг
  • Забираем CI/CD в свои руки

Тема №4: Проектирование и запуск распределенной системы

  • Обратное проектирование — как работает система?
  • Согласовываем SLI и SLO
  • Практика capacity planning
  • Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
  • Запускаем Prometheus, Grafana, Elastic

Тема №5: Monitoring, Observability and Alerting

  • Monitoring vs. Observability
  • Настраиваем мониторинг и алертинг с Prometheus
  • Практический мониторинг SLI и SLO
  • Symptoms vs. Causes
  • Black-Box vs. White-Box Monitoring
  • Распределенный мониторинг доступности приложений и серверов
  • 4 золотых сигнала (обнаружение аномалий)

Тема №6: Практика тестирования надежности систем

  • Работа под давлением
  • Failure-injection
  • כאַאָס מאָנקיי

Тема №7: Практика incident response

  • Алгоритм управления стрессом
  • Взаимодействие между участниками инцидента
  • Постмортем
  • וויסן ייַנטיילונג
  • Формирование культуры
  • Контроль неисправностей
  • Проведение blameless разбора полетов

Тема №8: Практика управления нагрузкой

  • מאַסע באַלאַנסינג
  • Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
  • DDoS (создаем нагрузку) + Cascading Failures

Тема №9: Реагирование на инциденты

  • דעבריפינג
  • Практика On-Call
  • Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
  • Протоколы управления инцидентами

Тема №10: Диагностика и решение проблем

  • Журналирование
  • דיבאַגינג
  • Практика анализа и отладки на нашем приложении

Тема №11: Тестирование надежности систем

  • דרוק טעסטינג
  • Тестирование конфигураций
  • פאָרשטעלונג טעסטינג
  • קאַנאַרי מעלדונג

Тема №12: Самостоятельная работа и ревью

Рекомендации и требования к участникам

SRE — командная работа. Мы настоятельно рекомендуем проходить курс всей командой. Поэтому даем для готовых команд большие скидки.

Цена курса — 60 000 ₽ с человека.
Если компания отправляет группу из 5+ человек — 40 000 ₽.

Курс построен на Kubernetes. Для прохождения нужно знать Kubernetes на базовом уровне. Если вы с ним не работаете, можно пройти Слёрм Базовый (אָנליין אָדער интенсив 18-20 ноября).
Кроме того, нужно хорошо владеть Linux, знать Gitlab и Prometheus.

פאַרשרייַבונג

Если у вас есть сложная идея по участию, например, чтобы на курс пришел генеральный директор, технический директор и команда разработчиков, и они проходили практику с учетом управленческой вертикали, пишите мне в личку.

מקור: www.habr.com

לייגן אַ באַמערקונג