"Надія - погана стратегія". Інтенсив по SRE у Москві, 3-5 лютого
Анонсуємо перший у Росії практичний курс з SRE: Слерм SRE.
На інтенсивності ми три дні будуватимемо, ламатимемо, лагодитимемо і покращуватимемо сайт-агрегатор з продажу квитків у кіно.
Ми вибрали агрегатор квитків, тому що у нього безліч сценаріїв відмови: наплив відвідувачів та DDoS-атаки, падіння одного з безлічі критичних мікросервісів (авторизація, резервування, обробка платежів), недоступність одного з безлічі кінотеатрів (обмін даними про вільні місця та резервування), та далі за списком.
Ми сформуємо концепцію Reliability нашого сайту-агрегатора, яку будемо в подальшому Engineering, розберемо проектування з точки зору SRE, підберемо метрики, налаштуємо їх моніторинг, усуватимемо інциденти, проведемо тренінг командної роботи з інцидентами в умовах, наближених до бойових, організуємо розбір .
Ведуть програму співробітники Booking.com та Google.
На цей раз віддаленої участі не буде: курс побудований на особистій взаємодії та на командній роботі.
Подробиці під катом
Спікери
Іван Круглов
Principal Developer у Booking.com (Нідерланди)
З моменту приходу в Booking.com 2013 працював над такими інфраструктурними проектами, як розподілена доставка та обробка повідомлень, BigData та web-stack, пошук.
Зараз займається питаннями побудови внутрішньої хмари та Service Mesh.
Бен Тайлер
Principal Developer у Booking.com (США)
Займається розробкою платформи Booking.com.
Спеціалізується на service mesh / service discovery, batch job scheduling, incident response і postmortem process.
Говорить і викладає російською.
Євген Варавва
Розробник широкого профілю у Google (Сан-Франциско).
Досвід роботи від високонавантажених веб-проектів до досліджень комп'ютерного зору та робототехніки.
З 2011 року займається в Google створенням та експлуатацією розподілених систем, беручи участь у повному життєвому циклі проекту: концептуалізація, дизайн та архітектура, запуск, згортання та усі проміжні етапи.
Едуард Медведєв
CTO у Tungsten Labs (Німеччина)
Працював інженером у StackStorm, відповідав за ChatOps-функціонал платформи. Розробляв та впроваджував ChatOps під час автоматизації дата-центрів. Спікер на російських та міжнародних конференціях.
Програма
Програма активно доопрацьовується. Зараз вона виглядає так, до лютого може покращитись і розширитися.
Тема №1: Основні принципи та методи SRE
Що потрібно, щоб стати SRE?
DevOps проти SRE
Чому розробники цінують SRE і дуже сумують, коли у проекті їх немає
SLI, SLO та SLA
Error budget та його роль у SRE
Тема №2: Дизайн розподілених систем
Архітектура та функціонал програми
Non-Abstract Large System Design
Operability / Design for failure
gRPC або REST
Версіонування та зворотна сумісність
Тема №3: Як ухвалюють проект SRE
Найкращі практики від SRE
Чек-лист прийому проекту
Логування, метрики, трейсинг
Забираємо CI/CD у свої руки
Тема №4: Проектування та запуск розподіленої системи
Зворотне проектування – як працює система?
Узгоджуємо SLI та SLO
Практика capacity planning
Запуск трафіку на програму, наші користувачі починають ним «користуватися»
Запускаємо Prometheus, Grafana, Elastic
Тема №5: Monitoring, Observability and Alerting
Monitoring vs. Observability
Налаштовуємо моніторинг та аллертинг з Prometheus
Практичний моніторинг SLI та SLO
Symptoms vs. Causes
Black-Box vs. White-Box Monitoring
Розподілений моніторинг доступності додатків та серверів
Різні типи аварій (тестування, зміна конфігурації, збій обладнання)
Протоколи управління інцидентами
Тема №10: Діагностика та вирішення проблем
Журналування
налагодження
Практика аналізу та налагодження на нашому додатку
Тема №11: Тестування надійності систем
Тестування навантаження
Тестування конфігурацій
Тестування роботи
Канарський випуск
Тема №12: Самостійна робота та ревью
Рекомендації та вимоги до учасників
SRE – командна робота. Ми рекомендуємо проходити курс всією командою. Тому даємо для готових команд великі знижки.
Ціна курсу - 60 000 ₽ з особи.
Якщо компанія відправляє групу із 5+ осіб — 40 000 ₽.
Курс побудований на Kubernetes. Для проходження необхідно знати Kubernetes на базовому рівні. Якщо ви з ним не працюєте, можна пройти Слер Базовий (онлайн або інтенсив 18-20 листопада).
Крім того, потрібно добре володіти Linux, знати Gitlab та Prometheus.
Якщо у вас є складна ідея щодо участі, наприклад, щоб на курс прийшов генеральний директор, технічний директор та команда розробників, і вони проходили практику з урахуванням управлінської вертикалі, пишіть мені на особу.