„Надежта е лоша стратегија“. СРЕ интензивно во Москва, 3-5 февруари

Го објавуваме првиот практичен курс за SRE во Русија: Slurm SRE.

За време на интензивното ќе поминеме три дена за изградба, кршење, поправка и подобрување на агрегаторната веб-страница за продажба на билети за кино.

„Надежта е лоша стратегија“. СРЕ интензивно во Москва, 3-5 февруари

Избравме агрегатор на билети затоа што има многу сценарија за неуспех: прилив на посетители и DDoS напади, неуспех на еден од многуте критични микросервиси (овластување, резервации, обработка на плаќања), недостапност на едно од многуте кина (размена на податоци за достапни места и резервации), и понатаму на листата.

Ќе го формулираме концептот на доверливост за нашата локација за агрегатор, која понатаму ќе ја развиваме во областа на инженерството, ќе го анализираме дизајнот од гледна точка на SRE, ќе избереме метрики, ќе го поставиме нивното следење, ќе ги елиминираме инцидентите што се појавуваат, ќе спроведеме обука за тимска работа со инциденти во услови блиски до борба, организирајте дебрифинг .

Програмата ја водат вработени во Booking.com и Google.
Овој пат нема да има учество на далечина: курсот е изграден на лична интеракција и тимска работа.

Детали под сечењето

Звучници

Иван Круглов
Главен програмер на Booking.com (Холандија)
Откако се приклучи на Booking.com во 2013 година, тој работеше на инфраструктурни проекти како што се дистрибуирана испорака и обработка на пораки, BigData и web-stack, пребарување.
Во моментов работи на прашања за градење внатрешен облак и сервисна мрежа.

Бен Тајлер
Главен програмер на Booking.com (САД)
Ангажирани во внатрешен развој на платформата Booking.com.
Специјализиран за сервисна мрежа / откривање услуга, распоред на сериски работни места, одговор на инциденти и постмортален процес.
Зборува и предава на руски јазик.

Евгениј Варавва
Генерален програмер во Google (Сан Франциско).
Искуство од веб-проекти со големо оптоварување до истражување во компјутерска визија и роботика.
Од 2011 година, тој е вклучен во креирањето и функционирањето на дистрибуирани системи во Google, учествувајќи во целосниот животен циклус на проектот: концептуализација, дизајн и архитектура, лансирање, преклопување и сите средни фази.

Едуард Медведев
CTO во Tungsten Labs (Германија)
Работел како инженер во StackStorm, одговорен за ChatOps функционалноста на платформата. Развиени и имплементирани ChatOps за автоматизација на центрите за податоци. Говорник на руски и меѓународни конференции.

Програма

Програмата активно се развива. Сега изгледа вака, до февруари може да се подобри и прошири.

Тема бр. 1: Основни принципи и методи на СРЕ

  • Што е потребно за да се стане SRE?
  • DevOps наспроти SRE
  • Зошто програмерите го ценат SRE и се многу тажни кога не се во проектот
  • SLI, SLO и SLA
  • Буџет за грешка и неговата улога во SRE

Тема #2: Дизајн на дистрибуирани системи

  • Архитектура и функционалност на апликацијата
  • Неапстрактен дизајн на голем систем
  • Операбилност / Дизајн за неуспех
  • gRPC или REST
  • Верзија и компатибилност наназад

Тема бр. 3: Како се прифаќа проект за SRE

  • Најдобри практики од SRE
  • Список за проверка за прифаќање на проектот
  • Сеча, метрика, следење
  • Земање CI/CD во свои раце

Тема бр. 4: Дизајн и лансирање на дистрибуиран систем

  • Обратно инженерство - како функционира системот?
  • Се согласуваме за SLI и SLO
  • Вежбајте планирање капацитет
  • Стартувајќи го сообраќајот кон апликацијата, нашите корисници почнуваат да ја „користат“.
  • Лансирање на Prometheus, Grafana, Elastic

Тема #5: Мониторинг, набљудување и предупредување

  • Мониторинг vs. Забележливост
  • Поставување мониторинг и алармирање со Прометеј
  • Практично следење на SLI и SLO
  • Симптоми vs. Причини
  • Black-Box vs. Мониторинг на белата кутија
  • Дистрибуирано следење на достапноста на апликациите и серверот
  • 4 златни сигнали (откривање аномалија)

Тема бр. 6: Пракса на тестирање на доверливоста на системот

  • Работа под притисок
  • Неуспех-инјектирање
  • Хаос мајмун

Тема #7: Практика за одговор на инциденти

  • Алгоритам за управување со стрес
  • Интеракција помеѓу учесниците во инцидентот
  • Постмортам
  • Споделување на знаењето
  • Обликување на културата
  • Следење на дефекти
  • Спроведување на беспрекорен дебрифинг

Тема #8: Практики за управување со оптоварување

  • Балансирање на товарот
  • Толеранција на грешка при апликација: повторно обид, истек на време, инјектирање на дефект, прекинувач
  • DDoS (создавање оптоварување) + Каскадни неуспеси

Тема бр. 9: Одговор на инцидент

  • Дебрифинг
  • Пракса на повик
  • Различни видови несреќи (тестирање, промени во конфигурацијата, хардверски дефект)
  • Протоколи за управување со инциденти

Тема бр. 10: Дијагноза и решавање проблеми

  • Сеча
  • Дебагирање
  • Вежбајте анализа и дебагирање на нашата апликација

Тема #11: Тестирање на доверливост на системот

  • Тестирање на стрес
  • Конфигурациско тестирање
  • Тестирање на перформанси
  • Пуштање канари

Тема бр.12: Самостојна работа и преглед

Препораки и барања за учесниците

SRE е тимски напор. Силно препорачуваме да го земете курсот како тим. Затоа нудиме големи попусти за готови тимови.

Цената на курсот е 60 ₽ по лице.
Ако компанијата испрати група од 5+ луѓе - 40 ₽.

Курсот е изграден на Kubernetes. За да поминете, треба да го знаете Kubernetes на основно ниво. Ако не работите со него, можете да поминете низ Slurm Basic (онлайн или интензивна 18-20 ноември).
Дополнително, треба да сте умешни во Linux и да ги знаете Gitlab и Prometheus.

регистрација

Доколку имате сложена идеја за учество, на пример, извршниот директор, CTO и тим од програмери да дојдат на курсот, и тие да поминат стажирање земајќи ја во предвид вертикалата за управување, пишете ми во лична порака.

Извор: www.habr.com

Додадете коментар