"Надія - погана стратегія". Інтенсив по SRE у Москві, 3-5 лютого

Анонсуємо перший у Росії практичний курс з SRE: Слерм SRE.

На інтенсивності ми три дні будуватимемо, ламатимемо, лагодитимемо і покращуватимемо сайт-агрегатор з продажу квитків у кіно.

"Надія - погана стратегія". Інтенсив по SRE у Москві, 3-5 лютого

Ми вибрали агрегатор квитків, тому що у нього безліч сценаріїв відмови: наплив відвідувачів та DDoS-атаки, падіння одного з безлічі критичних мікросервісів (авторизація, резервування, обробка платежів), недоступність одного з безлічі кінотеатрів (обмін даними про вільні місця та резервування), та далі за списком.

Ми сформуємо концепцію Reliability нашого сайту-агрегатора, яку будемо в подальшому Engineering, розберемо проектування з точки зору SRE, підберемо метрики, налаштуємо їх моніторинг, усуватимемо інциденти, проведемо тренінг командної роботи з інцидентами в умовах, наближених до бойових, організуємо розбір .

Ведуть програму співробітники Booking.com та Google.
На цей раз віддаленої участі не буде: курс побудований на особистій взаємодії та на командній роботі.

Подробиці під катом

Спікери

Іван Круглов
Principal Developer у Booking.com (Нідерланди)
З моменту приходу в Booking.com 2013 працював над такими інфраструктурними проектами, як розподілена доставка та обробка повідомлень, BigData та web-stack, пошук.
Зараз займається питаннями побудови внутрішньої хмари та Service Mesh.

Бен Тайлер
Principal Developer у Booking.com (США)
Займається розробкою платформи Booking.com.
Спеціалізується на service mesh / service discovery, batch job scheduling, incident response і postmortem process.
Говорить і викладає російською.

Євген Варавва
Розробник широкого профілю у Google (Сан-Франциско).
Досвід роботи від високонавантажених веб-проектів до досліджень комп'ютерного зору та робототехніки.
З 2011 року займається в Google створенням та експлуатацією розподілених систем, беручи участь у повному життєвому циклі проекту: концептуалізація, дизайн та архітектура, запуск, згортання та усі проміжні етапи.

Едуард Медведєв
CTO у Tungsten Labs (Німеччина)
Працював інженером у StackStorm, відповідав за ChatOps-функціонал платформи. Розробляв та впроваджував ChatOps під час автоматизації дата-центрів. Спікер на російських та міжнародних конференціях.

Програма

Програма активно доопрацьовується. Зараз вона виглядає так, до лютого може покращитись і розширитися.

Тема №1: Основні принципи та методи SRE

  • Що потрібно, щоб стати SRE?
  • DevOps проти SRE
  • Чому розробники цінують SRE і дуже сумують, коли у проекті їх немає
  • SLI, SLO та SLA
  • Error budget та його роль у SRE

Тема №2: Дизайн розподілених систем

  • Архітектура та функціонал програми
  • Non-Abstract Large System Design
  • Operability / Design for failure
  • gRPC або REST
  • Версіонування та зворотна сумісність

Тема №3: ​​Як ухвалюють проект SRE

  • Найкращі практики від SRE
  • Чек-лист прийому проекту
  • Логування, метрики, трейсинг
  • Забираємо CI/CD у свої руки

Тема №4: Проектування та запуск розподіленої системи

  • Зворотне проектування – як працює система?
  • Узгоджуємо SLI та SLO
  • Практика capacity planning
  • Запуск трафіку на програму, наші користувачі починають ним «користуватися»
  • Запускаємо Prometheus, Grafana, Elastic

Тема №5: Monitoring, Observability and Alerting

  • Monitoring vs. Observability
  • Налаштовуємо моніторинг та аллертинг з Prometheus
  • Практичний моніторинг SLI та SLO
  • Symptoms vs. Causes
  • Black-Box vs. White-Box Monitoring
  • Розподілений моніторинг доступності додатків та серверів
  • 4 золоті сигнали (виявлення аномалій)

Тема №6: Практика тестування надійності систем

  • Робота під тиском
  • Failure-injection
  • Мавпа хаосу

Тема №7: Практика incident response

  • Алгоритм управління стресом
  • Взаємодія між учасниками інциденту
  • Постмортем
  • Обмін знаннями
  • Формування культури
  • Контроль несправностей
  • Проведення blameless розбору польотів

Тема №8: Практика управління навантаженням

  • Балансування навантаження
  • Відмовостійкість додатків: retry, timeout, failure injection, circuit breaker
  • DDoS (створюємо навантаження) + Cascading Failures

Тема №9: Реагування на інциденти

  • Розбір польотів
  • Практика On-Call
  • Різні типи аварій (тестування, зміна конфігурації, збій обладнання)
  • Протоколи управління інцидентами

Тема №10: Діагностика та вирішення проблем

  • Журналування
  • налагодження
  • Практика аналізу та налагодження на нашому додатку

Тема №11: Тестування надійності систем

  • Тестування навантаження
  • Тестування конфігурацій
  • Тестування роботи
  • Канарський випуск

Тема №12: Самостійна робота та ревью

Рекомендації та вимоги до учасників

SRE – командна робота. Ми рекомендуємо проходити курс всією командою. Тому даємо для готових команд великі знижки.

Ціна курсу - 60 000 ₽ з особи.
Якщо компанія відправляє групу із 5+ осіб — 40 000 ₽.

Курс побудований на Kubernetes. Для проходження необхідно знати Kubernetes на базовому рівні. Якщо ви з ним не працюєте, можна пройти Слер Базовий (онлайн або інтенсив 18-20 листопада).
Крім того, потрібно добре володіти Linux, знати Gitlab та Prometheus.

Реєстрація

Якщо у вас є складна ідея щодо участі, наприклад, щоб на курс прийшов генеральний директор, технічний директор та команда розробників, і вони проходили практику з урахуванням управлінської вертикалі, пишіть мені на особу.

Джерело: habr.com

Додати коментар або відгук