"Надзея - дрэнная стратэгія". Інтэнсіў па SRE у Маскве, 3-5 лютага

Анансуем першы ў Расіі практычны курс па SRE: Слёрм SRE.

На інтэнсіве мы будзем тры дні будаваць, ламаць, чыніць і паляпшаць сайт-агрэгатар па продажы білетаў у кіно.

"Надзея - дрэнная стратэгія". Інтэнсіў па SRE у Маскве, 3-5 лютага

Мы абралі агрэгатар квіткоў, таму што ў яго мноства сцэнараў адмовы: наплыў наведвальнікаў і DDoS-напады, падзенне аднаго з мноства крытычных мікрасэрвісаў (аўтарызацыя, рэзерваванне, апрацоўка плацяжоў), недаступнасць аднаго з мноства кінатэатраў (абмен дадзенымі аб вольных месцах і рэзерваванні), і далей па спісе.

Мы сфармуем канцэпцыю Reliability нашага сайта-агрэгатара, якую будзем у далейшым Engineering, разбяром праектаванне з пункту гледжання SRE, падбяром метрыкі, настроім іх маніторынг, будзем устараняць узнікаючыя інцыдэнты, правядзём трэнінг каманднай працы з інцыдэнтамі ва ўмовах, набліжаных да баявых, арганізуем разбор .

Вядуць праграму супрацоўнікі Booking.com і Google.
На гэты раз аддаленага ўдзелу не будзе: курс пабудаваны на асабістым узаемадзеянні і на каманднай рабоце.

Падрабязнасці пад катам

Спікеры

Іван Круглоў
Principal Developer у Booking.com (Нідэрланды)
З моманту прыходу ў Booking.com у 2013 г. працаваў над такімі інфраструктурнымі праектамі, як размеркаваная дастаўка і апрацоўка паведамленняў, BigData і web-stack, пошук.
Цяпер займаецца пытаннямі пабудовы ўнутранага аблокі і Service Mesh.

Бэн Тайлер
Principal Developer у Booking.com (ЗША)
Займаецца ўнутранай распрацоўкай платформы Booking.com.
Спецыялізуецца на service mesh / service discovery, batch job scheduling, incident response і postmortem process.
Гаворыць і выкладае на рускай.

Яўген Варава
Распрацоўнік шырокага профілю ў Google (Сан-Францыска).
Досвед працы ад высоканагружаных вэб-праектаў да даследаванняў у кампутарным зроку і робататэхніцы.
З 2011 года займаецца ў Google стварэннем і эксплуатацыяй размеркаваных сістэм, удзельнічаючы ў поўным жыццёвым цыкле праекту: канцэптуалізацыя, дызайн і архітэктура, запуск, згортванне і ўсе прамежкавыя этапы.

Эдуард Мядзведзеў
CTO у Tungsten Labs (Германія)
Працаваў інжынерам у StackStorm, адказваў за ChatOps-функцыянал платформы. Распрацоўваў і ўкараняў ChatOps пры аўтаматызацыі дата-цэнтраў. Спікер на расійскіх і міжнародных канферэнцыях.

Праграма

Праграма актыўна дапрацоўваецца. Цяпер яна выглядае так, да лютага можа палепшыцца і пашырыцца.

Тэма №1: Асноўныя прынцыпы і метады SRE

  • Што трэба, каб стаць SRE?
  • DevOps vs SRE
  • Чаму распрацоўшчыкі шануюць SRE і вельмі сумуюць, калі ў праекце іх няма
  • SLI, SLO і SLA
  • Error budget і яго роля ў SRE

Тэма №2: Дызайн размеркаваных сістэм

  • Архітэктура і функцыянал прыкладання
  • Non-Abstract Large System Design
  • Operability / Design for failure
  • gRPC ці REST
  • Версіянаванне і зваротная сумяшчальнасць

Тэма №3: ​​Як прымаюць праект SRE

  • Лепшыя практыкі ад SRE
  • Чэк-ліст прыёму праекта
  • Лагіраванне, метрыкі, трэйсінг
  • Забіраем CI/CD у свае рукі

Тэма №4: Праектаванне і запуск размеркаванай сістэмы

  • Зваротнае праектаванне – як працуе сістэма?
  • Узгадняем SLI і SLO
  • Практыка capacity planning
  • Запуск трафіку на дадатак, нашы карыстальнікі пачынаюць ім "карыстацца"
  • Запускаем Prometheus, Grafana, Elastic

Тэма №5: Monitoring, Observability and Alerting

  • Monitoring vs. Observability
  • Наладжваем маніторынг і алертынг з Prometheus
  • Практычны маніторынг SLI і SLO
  • Symptoms vs. Causes
  • Black-Box vs. White-Box Monitoring
  • Размеркаваны маніторынг даступнасці прыкладанняў і сервераў
  • 4 залатых сігналу (выяўленне анамалій)

Тэма №6: Практыка тэсціравання надзейнасці сістэм

  • Праца пад ціскам
  • Failure-injection
  • Малпа хаосу

Тэма №7: Практыка incident response

  • Алгарытм кіравання стрэсам
  • Узаемадзеянне паміж удзельнікамі інцыдэнту
  • Постмартэм
  • Абмен ведамі
  • Фарміраванне культуры
  • Кантроль няспраўнасцяў
  • Правядзенне blameless разбору палётаў

Тэма №8: Практыка кіравання нагрузкай

  • Балансіроўка нагрузкі
  • Адмаўстойлівасць прыкладанняў: retry, timeout, failure injection, circuit breaker
  • DDoS (ствараем нагрузку) + Cascading Failures

Тэма №9: Рэагаванне на інцыдэнты

  • разбор палётаў
  • Практыка On-Call
  • Розныя тыпы аварый (тэставанне, змена канфігурацыі, збой абсталявання)
  • Пратаколы кіравання інцыдэнтамі

Тэма №10: Дыягностыка і вырашэнне праблем

  • Журналіраванне
  • адладка
  • Практыка аналізу і адладкі на нашым дадатку

Тэма №11: Тэставанне надзейнасці сістэм

  • Нагрузачнае тэсціраванне
  • Тэставанне канфігурацый
  • Тэставанне прадукцыйнасці
  • Канарскі выпуск

Тэма №12: Самастойная праца і рэўю

Рэкамендацыі і патрабаванні да ўдзельнікаў

SRE - камандная праца. Мы настойліва раім праходзіць курс усёй камандай. Таму даем для гатовых каманд вялікія скідкі.

Кошт курса - 60 000 ₽ з чалавека.
Калі кампанія адпраўляе групу з 5 + чалавек - 40 000 ₽.

Курс пабудаваны на Kubernetes. Для праходжання трэба ведаць Kubernetes на базавым узроўні. Калі вы з ім не працуеце, можна прайсці Слёрм Базавы (онлайн або інтэнсіў 18-20 лістапада).
Акрамя таго, трэба добра валодаць Linux, шляхта Gitlab і Prometheus.

Рэгістрацыя

Калі ў вас ёсць складаная ідэя па ўдзеле, напрыклад, каб на курс прыйшоў генеральны дырэктар, тэхнічны дырэктар і каманда распрацоўшчыкаў, і яны праходзілі практыку з улікам кіраўніцкай вертыкалі, пішыце мне ў твары.

Крыніца: habr.com

Дадаць каментар