"Үмүт бул жаман стратегия." СРЕ интенсивдуу Москва, 3—5-февралда

Россияда SRE боюнча биринчи практикалык курсту жарыялайбыз: Slurm SRE.

Интенсивдүү мезгилде биз кино билеттерин сатуу үчүн агрегатордук веб-сайтты курууга, бузууга, оңдоого жана жакшыртууга үч күн жумшайбыз.

"Үмүт бул жаман стратегия." СРЕ интенсивдуу Москва, 3—5-февралда

Биз билет агрегаторун тандап алдык, анткени анда көптөгөн ката сценарийлери бар: коноктордун агымы жана DDoS чабуулдары, көптөгөн маанилүү микросервистердин биринин иштебей калышы (авторизация, резервациялар, төлөмдөрдү иштетүү), көптөгөн кинотеатрлардын биринин жетишсиздиги (маалымат алмашуу жеткиликтүү орундар жана ээлеп коюулар) жана андан ары тизмеден төмөн.

Биз агрегатордук сайтыбыз үчүн Ишенимдүүлүк концепциясын түзөбүз, аны Инженердикте андан ары өнүктүрөбүз, дизайнды SRE көз карашынан талдап, метрикаларды тандап, алардын мониторингин орнотобуз, пайда болгон инциденттерди жок кылабыз, инциденттер менен командалык иштөө үчүн тренинг өткөрөбүз. согушка жакын шарттарда маалымат жыйынын уюштуруу.

Программаны Booking.com жана Google кызматкерлери башкарат.
Бул жолу алыстан катышуу болбойт: курс жеке өз ара аракеттенүү жана командалык иштөөгө негизделген.

Кесилгендин астында майда-чүйдөсүнө чейин

Баяндамачылар

Иван Круглов
Booking.com башкы иштеп чыгуучусу (Нидерланды)
2013-жылы Booking.comго кошулгандан бери ал бөлүштүрүлгөн билдирүүлөрдү жеткирүү жана иштетүү, BigData жана веб-стек, издөө сыяктуу инфраструктуралык долбоорлордо иштеген.
Учурда ички булут жана Service Mesh түзүү маселелери боюнча иштеп жатат.

Бен Тайлер
Booking.com башкы иштеп чыгуучусу (АКШ)
Booking.com платформасынын ички өнүгүүсү менен алектенет.
Тейлөө тармагына / кызматтын ачылышына, партиялардын тапшырмасын пландаштырууга, инцидентке жооп берүүгө жана өлүмдөн кийинки процесске адистешкен.
Орус тилинде сүйлөйт жана окутат.

Евгений Варавва
Google'дун башкы иштеп чыгуучусу (Сан-Франциско).
Жогорку жүктөмдүү веб-долбоорлордон компьютердик көрүү жана робототехника боюнча изилдөөлөргө чейин тажрыйба.
2011-жылдан бери ал Google'да бөлүштүрүлгөн системаларды түзүүгө жана иштетүүгө катышып, долбоордун толук жашоо циклине катышып келет: концептуалдаштыруу, дизайн жана архитектура, ишке киргизүү, бүктөлүү жана бардык аралык этаптар.

Эдуард Медведев
Tungsten Labs компаниясынын техникалык директору (Германия)
StackStorm компаниясында инженер болуп иштеген, платформанын ChatOps функционалдуулугу үчүн жооптуу. Маалымат борборун автоматташтыруу үчүн ChatOps иштелип чыккан жана ишке ашырылган. Орус жана эл аралык конференцияларда баяндамачы.

программа

Программа жигердүү иштеп жатат. Эми минтип көрүндү, февралга чейин жакшырып, кеңейиши мүмкүн.

Тема №1: СРЕнин негизги принциптери жана ыкмалары

  • SRE болуу үчүн эмне керек?
  • DevOps vs SRE
  • Эмне үчүн иштеп чыгуучулар SRE баалайт жана алар долбоордо жок болгондо абдан кайгырышат
  • SLI, SLO жана SLA
  • Ката бюджети жана анын SREдеги ролу

Тема №2: Бөлүштүрүлгөн системаларды долбоорлоо

  • Колдонмо архитектурасы жана функционалдуулугу
  • Абстракттуу эмес чоң системанын дизайны
  • Ишке жарамдуулук / ийгиликсиздик үчүн дизайн
  • gRPC же REST
  • Версиялоо жана артка шайкештик

Тема №3: ​​SRE долбоору кантип кабыл алынат

  • SREден мыкты тажрыйбалар
  • Долбоорду кабыл алуунун текшерүү тизмеси
  • Каттоо, метрика, байкоо
  • CI/CDди өз колубузга алуу

№4 Тема: Бөлүштүрүлгөн системаны долбоорлоо жана ишке киргизүү

  • Тескери инженерия - система кантип иштейт?
  • Биз SLI жана SLO боюнча макулдашабыз
  • Потенциалдуу пландоо практикасы
  • Колдонмого трафикти ишке киргизип, биздин колдонуучулар аны "пайдалана" башташат
  • Prometheus, Grafana, Elastic ишке киргизилүүдө

Тема №5: Мониторинг, байкоо жана эскертүү

  • Мониторинг vs. Байкоочулук
  • Prometheus менен мониторинг жана эскертүү орнотуу
  • SLI жана SLO боюнча практикалык мониторинг
  • Симптомдор vs. Себептери
  • Black-Box vs. Ак кутучанын мониторинги
  • Колдонмонун жана сервердин жеткиликтүүлүгүнө бөлүштүрүлгөн мониторинг
  • 4 алтын сигнал (аномалияны аныктоо)

№6 Тема: Системанын ишенимдүүлүгүн тестирлөө практикасы

  • Кысым астында иштөө
  • Ийгиликсиз инъекция
  • Chaos Monkey

Тема №7: Окуяга жооп берүү практикасы

  • Стресс башкаруу алгоритми
  • Окуянын катышуучуларынын өз ара аракеттенүүсү
  • Постмортем
  • Билим алмашуу
  • Маданиятты калыптандыруу
  • Ката мониторинги
  • Кемчиликсиз маалымат берүү

Тема №8: Жүктөрдү башкаруу практикасы

  • Жүктүн тең салмактуулугу
  • Колдонмонун каталарына чыдамдуулук: кайра аракет кылуу, тайм-аут, бузулуу инъекциясы, автоматтык өчүргүч
  • DDoS (жүк түзүү) + Каскаддык каталар

Тема №9: Окуяга жооп берүү

  • Дебрифинг
  • Чалуу боюнча практика
  • Кырсыктардын ар кандай түрлөрү (сыноо, конфигурацияны өзгөртүү, аппараттык камсыздоонун бузулушу)
  • Окуяларды башкаруу протоколдору

Тема №10: Диагностика жана көйгөйлөрдү чечүү

  • Каттоо
  • Мүчүлүштүктөрдү оңдоо
  • Биздин тиркемеде талдоо жана мүчүлүштүктөрдү оңдоо

Тема №11: Системанын ишенимдүүлүгүн текшерүү

  • Стресс тестирлөө
  • Конфигурация тести
  • Performance testing
  • Canary чыгаруу

Тема №12: Өз алдынча иштөө жана кароо

Катышуучуларга сунуштар жана талаптар

SRE бул командалык аракет. Курска команда катары катышууну сунуштайбыз. Ошондуктан биз даяр командалар үчүн чоң арзандатууларды сунуштайбыз.

Курстун баасы киши башына 60 000 ₽.
Эгерде компания 5+ адамдан турган топ жөнөтсө - 40 000 ₽.

Курс Kubernetes боюнча курулган. Өтүү үчүн сиз Кубернетести базалык деңгээлде билишиңиз керек. Эгер сиз аны менен иштебесеңиз, Slurm Basic аркылуу өтсөңүз болот (онлайн же интенсивдүү 18-20-ноябрь).
Мындан тышкары, сиз Linux-ту жакшы билишиңиз жана Gitlab менен Prometheusти билишиңиз керек.

регистрация

Эгерде сизде катышуу үчүн татаал идея болсо, мисалы, CEO, CTO жана иштеп чыгуучулар командасы курска келип, башкаруу вертикалын эске алуу менен стажировкадан өтсө, мага жеке катка жазыңыз.

Source: www.habr.com

Комментарий кошуу