"امید ایک بری حکمت عملی ہے۔" ماسکو میں 3-5 فروری کو ایس آر ای انٹینسیو

Анонсируем первый в России практический курс по SRE: Slurm SRE.

На интенсиве мы будем три дня строить, ломать, чинить и улучшать сайт-агрегатор по продаже билетов в кино.

"امید ایک بری حکمت عملی ہے۔" ماسکو میں 3-5 فروری کو ایس آر ای انٹینسیو

Мы выбрали агрегатор билетов, потому что у него множество сценариев отказа: наплыв посетителей и DDoS-атаки, падение одного из множества критичных микросервисов (авторизация, резервирование, обработка платежей), недоступность одного из множества кинотеатров (обмен данными о свободных местах и резервировании), и далее по списку.

Мы сформируем концепцию Reliability нашего сайта-агрегатора, которую будем в дальшейшем Engineering, разберем проектирование с точки зрения SRE, подберем метрики, настроим их мониторинг, будем устранять возникающие инциденты, проведем тренинг командной работы с инцидентами в условиях, приближенных к боевым, организуем разбор полетов.

Ведут программу сотрудники Booking.com и Google.
В этот раз удаленного участия не будет: курс построен на личном взаимодействии и на командной работе.

Подробности под катом

مقررین

ایوان کروگلوف
Principal Developer в Booking.com (Нидерланды)
2013 میں Booking.com میں شامل ہونے کے بعد، اس نے بنیادی ڈھانچے کے منصوبوں پر کام کیا ہے جیسے تقسیم شدہ پیغام کی ترسیل اور پروسیسنگ، بگ ڈیٹا اور ویب اسٹیک، تلاش۔
فی الحال اندرونی کلاؤڈ اور سروس میش بنانے کے مسائل پر کام کر رہے ہیں۔

Бен Тайлер
Principal Developer в Booking.com (США)
Занимается внутренней разработкой платформы Booking.com.
Специализируется на service mesh / service discovery, batch job scheduling, incident response и postmortem process.
Говорит и преподает на русском.

Евгений Варавва
Разработчик широкого профиля в Google (Сан-Франциско).
Опыт работы от высоконагруженных веб-проектов до исследований в компьютерном зрении и робототехнике.
С 2011 года занимается в Google созданием и эксплуатацией распределенных систем, участвуя в полном жизненном цикле проекта: концептуализация, дизайн и архитектура, запуск, сворачивание и все промежуточные этапы.

Эдуард Медведев
CTO в Tungsten Labs (Германия)
پلیٹ فارم کی ChatOps فعالیت کے لیے ذمہ دار StackStorm میں بطور انجینئر کام کیا۔ ڈیٹا سینٹر آٹومیشن کے لیے ChatOps کو تیار اور لاگو کیا گیا۔ روسی اور بین الاقوامی کانفرنسوں میں اسپیکر۔

پروگرام

Программа активно дорабатывается. Сейчас она выглядит так, к февралю может улучшиться и расшириться.

Тема №1: Основные принципы и методы SRE

  • Что нужно чтобы стать SRE?
  • DevOps vs SRE
  • Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
  • SLI, SLO и SLA
  • Error budget и его роль в SRE

Тема №2: Дизайн распределенных систем

  • Архитектура и функционал приложения
  • Non-Abstract Large System Design
  • Operability / Design for failure
  • gRPC или REST
  • Версионирование и обратная совместимость

Тема №3: Как принимают проект SRE

  • Лучшие практики от SRE
  • Чек-лист приема проекта
  • Логирование, метрики, трейсинг
  • Забираем CI/CD в свои руки

Тема №4: Проектирование и запуск распределенной системы

  • Обратное проектирование — как работает система?
  • Согласовываем SLI и SLO
  • Практика capacity planning
  • Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
  • Запускаем Prometheus, Grafana, Elastic

Тема №5: Monitoring, Observability and Alerting

  • Monitoring vs. Observability
  • Настраиваем мониторинг и алертинг с Prometheus
  • Практический мониторинг SLI и SLO
  • Symptoms vs. Causes
  • Black-Box vs. White-Box Monitoring
  • Распределенный мониторинг доступности приложений и серверов
  • 4 золотых сигнала (обнаружение аномалий)

Тема №6: Практика тестирования надежности систем

  • Работа под давлением
  • Failure-injection
  • افراتفری کا بندر

Тема №7: Практика incident response

  • Алгоритм управления стрессом
  • Взаимодействие между участниками инцидента
  • Постмортем
  • علم بانٹنا
  • Формирование культуры
  • Контроль неисправностей
  • Проведение blameless разбора полетов

Тема №8: Практика управления нагрузкой

  • وزن کو متوازن کرنا
  • Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
  • DDoS (создаем нагрузку) + Cascading Failures

Тема №9: Реагирование на инциденты

  • ڈیبریٹنگ
  • Практика On-Call
  • Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
  • Протоколы управления инцидентами

Тема №10: Диагностика и решение проблем

  • Журналирование
  • ٹھیک کرنا
  • Практика анализа и отладки на нашем приложении

Тема №11: Тестирование надежности систем

  • تناؤ کی جانچ
  • Тестирование конфигураций
  • کارکردگی کی جانچ
  • کینری کی رہائی

Тема №12: Самостоятельная работа и ревью

Рекомендации и требования к участникам

SRE — командная работа. Мы настоятельно рекомендуем проходить курс всей командой. Поэтому даем для готовых команд большие скидки.

Цена курса — 60 000 ₽ с человека.
Если компания отправляет группу из 5+ человек — 40 000 ₽.

Курс построен на Kubernetes. Для прохождения нужно знать Kubernetes на базовом уровне. Если вы с ним не работаете, можно пройти Слёрм Базовый (آن لائن یا интенсив 18-20 ноября).
Кроме того, нужно хорошо владеть Linux, знать Gitlab и Prometheus.

رجسٹریشن

Если у вас есть сложная идея по участию, например, чтобы на курс пришел генеральный директор, технический директор и команда разработчиков, и они проходили практику с учетом управленческой вертикали, пишите мне в личку.

ماخذ: www.habr.com

نیا تبصرہ شامل کریں