"Von er slæm stefna." SRE intensive í Moskvu, 3.-5. febrúar
Анонсируем первый в России практический курс по SRE: Slurm SRE.
На интенсиве мы будем три дня строить, ломать, чинить и улучшать сайт-агрегатор по продаже билетов в кино.
Мы выбрали агрегатор билетов, потому что у него множество сценариев отказа: наплыв посетителей и DDoS-атаки, падение одного из множества критичных микросервисов (авторизация, резервирование, обработка платежей), недоступность одного из множества кинотеатров (обмен данными о свободных местах и резервировании), и далее по списку.
Мы сформируем концепцию Reliability нашего сайта-агрегатора, которую будем в дальшейшем Engineering, разберем проектирование с точки зрения SRE, подберем метрики, настроим их мониторинг, будем устранять возникающие инциденты, проведем тренинг командной работы с инцидентами в условиях, приближенных к боевым, организуем разбор полетов.
Ведут программу сотрудники Booking.com и Google.
В этот раз удаленного участия не будет: курс построен на личном взаимодействии и на командной работе.
Подробности под катом
Hátalarar
Ivan Kruglov
Principal Developer в Booking.com (Нидерланды)
Síðan hann kom til Booking.com árið 2013 hefur hann unnið að innviðaverkefnum eins og dreifðri sendingu og vinnslu skilaboða, BigData og vefstakka, leit.
Er að vinna að því að byggja upp innra ský og þjónustunet.
Бен Тайлер
Principal Developer в Booking.com (США)
Занимается внутренней разработкой платформы Booking.com.
Специализируется на service mesh / service discovery, batch job scheduling, incident response и postmortem process.
Говорит и преподает на русском.
Евгений Варавва
Разработчик широкого профиля в Google (Сан-Франциско).
Опыт работы от высоконагруженных веб-проектов до исследований в компьютерном зрении и робототехнике.
С 2011 года занимается в Google созданием и эксплуатацией распределенных систем, участвуя в полном жизненном цикле проекта: концептуализация, дизайн и архитектура, запуск, сворачивание и все промежуточные этапы.
Эдуард Медведев
CTO в Tungsten Labs (Германия)
Starfaði sem verkfræðingur hjá StackStorm, ábyrgur fyrir ChatOps virkni pallsins. Þróaði og innleiddi ChatOps fyrir sjálfvirkni gagnavera. Ræðumaður á rússneskum og alþjóðlegum ráðstefnum.
Program
Программа активно дорабатывается. Сейчас она выглядит так, к февралю может улучшиться и расшириться.
Тема №1: Основные принципы и методы SRE
Что нужно чтобы стать SRE?
DevOps vs SRE
Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
SLI, SLO и SLA
Error budget и его роль в SRE
Тема №2: Дизайн распределенных систем
Архитектура и функционал приложения
Non-Abstract Large System Design
Operability / Design for failure
gRPC или REST
Версионирование и обратная совместимость
Тема №3: Как принимают проект SRE
Лучшие практики от SRE
Чек-лист приема проекта
Логирование, метрики, трейсинг
Забираем CI/CD в свои руки
Тема №4: Проектирование и запуск распределенной системы
Обратное проектирование — как работает система?
Согласовываем SLI и SLO
Практика capacity planning
Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
Запускаем Prometheus, Grafana, Elastic
Тема №5: Monitoring, Observability and Alerting
Monitoring vs. Observability
Настраиваем мониторинг и алертинг с Prometheus
Практический мониторинг SLI и SLO
Symptoms vs. Causes
Black-Box vs. White-Box Monitoring
Распределенный мониторинг доступности приложений и серверов
Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
Протоколы управления инцидентами
Тема №10: Диагностика и решение проблем
Skógarhögg
Villuleit
Практика анализа и отладки на нашем приложении
Тема №11: Тестирование надежности систем
Streitupróf
Тестирование конфигураций
Frammistöðuprófun
Losun frá Kanarí
Тема №12: Самостоятельная работа и ревью
Рекомендации и требования к участникам
SRE — командная работа. Мы настоятельно рекомендуем проходить курс всей командой. Поэтому даем для готовых команд большие скидки.
Цена курса — 60 000 ₽ с человека.
Если компания отправляет группу из 5+ человек — 40 000 ₽.
Курс построен на Kubernetes. Для прохождения нужно знать Kubernetes на базовом уровне. Если вы с ним не работаете, можно пройти Слёрм Базовый (онлайн eða интенсив 18-20 ноября).
Кроме того, нужно хорошо владеть Linux, знать Gitlab и Prometheus.
Если у вас есть сложная идея по участию, например, чтобы на курс пришел генеральный директор, технический директор и команда разработчиков, и они проходили практику с учетом управленческой вертикали, пишите мне в личку.