"Надзея - дрэнная стратэгія". Інтэнсіў па SRE у Маскве, 3-5 лютага
Анансуем першы ў Расіі практычны курс па SRE: Слёрм SRE.
На інтэнсіве мы будзем тры дні будаваць, ламаць, чыніць і паляпшаць сайт-агрэгатар па продажы білетаў у кіно.
Мы абралі агрэгатар квіткоў, таму што ў яго мноства сцэнараў адмовы: наплыў наведвальнікаў і DDoS-напады, падзенне аднаго з мноства крытычных мікрасэрвісаў (аўтарызацыя, рэзерваванне, апрацоўка плацяжоў), недаступнасць аднаго з мноства кінатэатраў (абмен дадзенымі аб вольных месцах і рэзерваванні), і далей па спісе.
Мы сфармуем канцэпцыю Reliability нашага сайта-агрэгатара, якую будзем у далейшым Engineering, разбяром праектаванне з пункту гледжання SRE, падбяром метрыкі, настроім іх маніторынг, будзем устараняць узнікаючыя інцыдэнты, правядзём трэнінг каманднай працы з інцыдэнтамі ва ўмовах, набліжаных да баявых, арганізуем разбор .
Вядуць праграму супрацоўнікі Booking.com і Google.
На гэты раз аддаленага ўдзелу не будзе: курс пабудаваны на асабістым узаемадзеянні і на каманднай рабоце.
Падрабязнасці пад катам
Спікеры
Іван Круглоў
Principal Developer у Booking.com (Нідэрланды)
З моманту прыходу ў Booking.com у 2013 г. працаваў над такімі інфраструктурнымі праектамі, як размеркаваная дастаўка і апрацоўка паведамленняў, BigData і web-stack, пошук.
Цяпер займаецца пытаннямі пабудовы ўнутранага аблокі і Service Mesh.
Бэн Тайлер
Principal Developer у Booking.com (ЗША)
Займаецца ўнутранай распрацоўкай платформы Booking.com.
Спецыялізуецца на service mesh / service discovery, batch job scheduling, incident response і postmortem process.
Гаворыць і выкладае на рускай.
Яўген Варава
Распрацоўнік шырокага профілю ў Google (Сан-Францыска).
Досвед працы ад высоканагружаных вэб-праектаў да даследаванняў у кампутарным зроку і робататэхніцы.
З 2011 года займаецца ў Google стварэннем і эксплуатацыяй размеркаваных сістэм, удзельнічаючы ў поўным жыццёвым цыкле праекту: канцэптуалізацыя, дызайн і архітэктура, запуск, згортванне і ўсе прамежкавыя этапы.
Эдуард Мядзведзеў
CTO у Tungsten Labs (Германія)
Працаваў інжынерам у StackStorm, адказваў за ChatOps-функцыянал платформы. Распрацоўваў і ўкараняў ChatOps пры аўтаматызацыі дата-цэнтраў. Спікер на расійскіх і міжнародных канферэнцыях.
Праграма
Праграма актыўна дапрацоўваецца. Цяпер яна выглядае так, да лютага можа палепшыцца і пашырыцца.
Тэма №1: Асноўныя прынцыпы і метады SRE
Што трэба, каб стаць SRE?
DevOps vs SRE
Чаму распрацоўшчыкі шануюць SRE і вельмі сумуюць, калі ў праекце іх няма
SLI, SLO і SLA
Error budget і яго роля ў SRE
Тэма №2: Дызайн размеркаваных сістэм
Архітэктура і функцыянал прыкладання
Non-Abstract Large System Design
Operability / Design for failure
gRPC ці REST
Версіянаванне і зваротная сумяшчальнасць
Тэма №3: Як прымаюць праект SRE
Лепшыя практыкі ад SRE
Чэк-ліст прыёму праекта
Лагіраванне, метрыкі, трэйсінг
Забіраем CI/CD у свае рукі
Тэма №4: Праектаванне і запуск размеркаванай сістэмы
Зваротнае праектаванне – як працуе сістэма?
Узгадняем SLI і SLO
Практыка capacity planning
Запуск трафіку на дадатак, нашы карыстальнікі пачынаюць ім "карыстацца"
Запускаем Prometheus, Grafana, Elastic
Тэма №5: Monitoring, Observability and Alerting
Monitoring vs. Observability
Наладжваем маніторынг і алертынг з Prometheus
Практычны маніторынг SLI і SLO
Symptoms vs. Causes
Black-Box vs. White-Box Monitoring
Размеркаваны маніторынг даступнасці прыкладанняў і сервераў
Розныя тыпы аварый (тэставанне, змена канфігурацыі, збой абсталявання)
Пратаколы кіравання інцыдэнтамі
Тэма №10: Дыягностыка і вырашэнне праблем
Журналіраванне
адладка
Практыка аналізу і адладкі на нашым дадатку
Тэма №11: Тэставанне надзейнасці сістэм
Нагрузачнае тэсціраванне
Тэставанне канфігурацый
Тэставанне прадукцыйнасці
Канарскі выпуск
Тэма №12: Самастойная праца і рэўю
Рэкамендацыі і патрабаванні да ўдзельнікаў
SRE - камандная праца. Мы настойліва раім праходзіць курс усёй камандай. Таму даем для гатовых каманд вялікія скідкі.
Кошт курса - 60 000 ₽ з чалавека.
Калі кампанія адпраўляе групу з 5 + чалавек - 40 000 ₽.
Курс пабудаваны на Kubernetes. Для праходжання трэба ведаць Kubernetes на базавым узроўні. Калі вы з ім не працуеце, можна прайсці Слёрм Базавы (онлайн або інтэнсіў 18-20 лістапада).
Акрамя таго, трэба добра валодаць Linux, шляхта Gitlab і Prometheus.
Калі ў вас ёсць складаная ідэя па ўдзеле, напрыклад, каб на курс прыйшоў генеральны дырэктар, тэхнічны дырэктар і каманда распрацоўшчыкаў, і яны праходзілі практыку з улікам кіраўніцкай вертыкалі, пішыце мне ў твары.