“Is drochstraitéis é dóchas.” SRE dian i Moscó, 3-5 Feabhra

Анонсируем первый в России практический курс по SRE: SRE Slurm.

На интенсиве мы будем три дня строить, ломать, чинить и улучшать сайт-агрегатор по продаже билетов в кино.

“Is drochstraitéis é dóchas.” SRE dian i Moscó, 3-5 Feabhra

Мы выбрали агрегатор билетов, потому что у него множество сценариев отказа: наплыв посетителей и DDoS-атаки, падение одного из множества критичных микросервисов (авторизация, резервирование, обработка платежей), недоступность одного из множества кинотеатров (обмен данными о свободных местах и резервировании), и далее по списку.

Мы сформируем концепцию Reliability нашего сайта-агрегатора, которую будем в дальшейшем Engineering, разберем проектирование с точки зрения SRE, подберем метрики, настроим их мониторинг, будем устранять возникающие инциденты, проведем тренинг командной работы с инцидентами в условиях, приближенных к боевым, организуем разбор полетов.

Ведут программу сотрудники Booking.com и Google.
В этот раз удаленного участия не будет: курс построен на личном взаимодействии и на командной работе.

Подробности под катом

Cainteoirí

Ivan Kruglov
Principal Developer в Booking.com (Нидерланды)
Ó tháinig sé isteach in Booking.com in 2013, d’oibrigh sé ar thionscadail bhonneagair ar nós seachadadh agus próiseáil teachtaireachtaí dáilte, BigData agus cruachta gréasáin, cuardach.
Faoi láthair ag obair ar shaincheisteanna a bhaineann le tógáil scamall inmheánach agus mogalra Seirbhíse.

Бен Тайлер
Principal Developer в Booking.com (США)
Занимается внутренней разработкой платформы Booking.com.
Специализируется на service mesh / service discovery, batch job scheduling, incident response и postmortem process.
Говорит и преподает на русском.

Евгений Варавва
Разработчик широкого профиля в Google (Сан-Франциско).
Опыт работы от высоконагруженных веб-проектов до исследований в компьютерном зрении и робототехнике.
С 2011 года занимается в Google созданием и эксплуатацией распределенных систем, участвуя в полном жизненном цикле проекта: концептуализация, дизайн и архитектура, запуск, сворачивание и все промежуточные этапы.

Эдуард Медведев
CTO в Tungsten Labs (Германия)
D'oibrigh sé mar innealtóir ag StackStorm, freagrach as feidhmiúlacht ChatOps an ardáin. Forbraíodh agus cuireadh i bhfeidhm ChatOps le haghaidh uathoibriú lárionad sonraí. Cainteoir ag comhdhálacha Rúisis agus idirnáisiúnta.

Clár

Программа активно дорабатывается. Сейчас она выглядит так, к февралю может улучшиться и расшириться.

Тема №1: Основные принципы и методы SRE

  • Что нужно чтобы стать SRE?
  • DevOps vs SRE
  • Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
  • SLI, SLO и SLA
  • Error budget и его роль в SRE

Тема №2: Дизайн распределенных систем

  • Архитектура и функционал приложения
  • Non-Abstract Large System Design
  • Operability / Design for failure
  • gRPC или REST
  • Версионирование и обратная совместимость

Тема №3: Как принимают проект SRE

  • Лучшие практики от SRE
  • Чек-лист приема проекта
  • Логирование, метрики, трейсинг
  • Забираем CI/CD в свои руки

Тема №4: Проектирование и запуск распределенной системы

  • Обратное проектирование — как работает система?
  • Согласовываем SLI и SLO
  • Практика capacity planning
  • Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
  • Запускаем Prometheus, Grafana, Elastic

Тема №5: Monitoring, Observability and Alerting

  • Monitoring vs. Observability
  • Настраиваем мониторинг и алертинг с Prometheus
  • Практический мониторинг SLI и SLO
  • Symptoms vs. Causes
  • Black-Box vs. White-Box Monitoring
  • Распределенный мониторинг доступности приложений и серверов
  • 4 золотых сигнала (обнаружение аномалий)

Тема №6: Практика тестирования надежности систем

  • Работа под давлением
  • Failure-injection
  • Moncaí Chaos

Тема №7: Практика incident response

  • Алгоритм управления стрессом
  • Взаимодействие между участниками инцидента
  • Постмортем
  • Comhroinnt eolais
  • Формирование культуры
  • Контроль неисправностей
  • Проведение blameless разбора полетов

Тема №8: Практика управления нагрузкой

  • Cothromú luchtaithe
  • Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
  • DDoS (создаем нагрузку) + Cascading Failures

Тема №9: Реагирование на инциденты

  • Tuairisciú
  • Практика On-Call
  • Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
  • Протоколы управления инцидентами

Тема №10: Диагностика и решение проблем

  • Журналирование
  • Dífhabhtaithe
  • Практика анализа и отладки на нашем приложении

Тема №11: Тестирование надежности систем

  • Tástáil Strus
  • Тестирование конфигураций
  • Tástáil feidhmíochta
  • Scaoileadh canáraí

Тема №12: Самостоятельная работа и ревью

Рекомендации и требования к участникам

SRE — командная работа. Мы настоятельно рекомендуем проходить курс всей командой. Поэтому даем для готовых команд большие скидки.

Цена курса — 60 000 ₽ с человека.
Если компания отправляет группу из 5+ человек — 40 000 ₽.

Курс построен на Kubernetes. Для прохождения нужно знать Kubernetes на базовом уровне. Если вы с ним не работаете, можно пройти Слёрм Базовый (онлайнинтенсив 18-20 ноября).
Кроме того, нужно хорошо владеть Linux, знать Gitlab и Prometheus.

Clárú

Если у вас есть сложная идея по участию, например, чтобы на курс пришел генеральный директор, технический директор и команда разработчиков, и они проходили практику с учетом управленческой вертикали, пишите мне в личку.

Foinse: will.com

Add a comment