„Nadzieja to zła strategia”. Intensywne SRE w Moskwie, 3-5 lutego

Ogłaszamy pierwszy kurs praktyczny na SRE w Rosji: Slum SRE.

Podczas intensywnego szkolenia spędzimy trzy dni na budowaniu, naprawianiu i ulepszaniu witryny agregatora sprzedaży biletów do kina.

„Nadzieja to zła strategia”. Intensywne SRE w Moskwie, 3-5 lutego

Wybraliśmy agregator biletów, ponieważ ma wiele scenariuszy awarii: napływ odwiedzających i ataki DDoS, awaria jednego z wielu krytycznych mikrousług (autoryzacja, rezerwacje, przetwarzanie płatności), niedostępność jednego z wielu kin (wymiana danych o dostępne miejsca i rezerwacje) i dalej w dół listy.

Sformułujemy koncepcję Niezawodności dla naszej witryny agregatora, którą będziemy dalej rozwijać w Inżynierii, przeanalizujemy projekt z punktu widzenia SRE, dobierzemy metryki, skonfigurujemy ich monitorowanie, wyeliminujemy pojawiające się incydenty, przeprowadzimy szkolenia dotyczące pracy zespołowej z incydentami w warunkach zbliżonych do bojowych zorganizuj odprawę.

Program prowadzony jest przez pracowników Booking.com i Google.
Tym razem nie będzie udziału zdalnego: kurs opiera się na osobistej interakcji i pracy zespołowej.

Szczegóły pod rozcięciem

Głośniki

Iwan Krugłow
Główny programista w Booking.com (Holandia)
Odkąd dołączył do Booking.com w 2013 roku, pracował nad projektami infrastrukturalnymi, takimi jak rozproszone dostarczanie i przetwarzanie wiadomości, BigData i web-stack, wyszukiwanie.
Aktualnie pracuję nad zagadnieniami budowy wewnętrznej chmury i Service Mesh.

Bena Tylera
Główny programista w Booking.com (USA)
Zaangażowany w wewnętrzny rozwój platformy Booking.com.
Specjalizuje się w wykrywaniu sieci usług/usług, planowaniu zadań wsadowych, reagowaniu na incydenty i procesie pośmiertnym.
Mówi i uczy w języku rosyjskim.

Jewgienij Varavva
Generalny programista w Google (San Francisco).
Doświadczenie od projektów internetowych o dużym obciążeniu po badania w dziedzinie wizji komputerowej i robotyki.
Od 2011 roku zajmuje się tworzeniem i obsługą systemów rozproszonych w Google, uczestnicząc w pełnym cyklu życia projektu: konceptualizacji, projektowaniu i architekturze, uruchomieniu, składaniu i wszystkich etapach pośrednich.

Edwarda Miedwiediewa
CTO w Tungsten Labs (Niemcy)
Pracował jako inżynier w StackStorm, odpowiedzialny za funkcjonalność ChatOps platformy. Opracowano i wdrożono ChatOps do automatyzacji centrów danych. Prelegent na konferencjach rosyjskich i międzynarodowych.

Program

Program jest aktywnie rozwijany. Teraz wygląda to tak, do lutego może się poprawić i rozwinąć.

Temat nr 1: Podstawowe zasady i metody SRE

  • Co trzeba zrobić, aby zostać SRE?
  • DevOps kontra SRE
  • Dlaczego programiści cenią SRE i są bardzo smutni, gdy nie ma ich w projekcie
  • SLI, SLO i SLA
  • Budżet błędów i jego rola w SRE

Temat #2: Projektowanie systemów rozproszonych

  • Architektura i funkcjonalność aplikacji
  • Nieabstrakcyjny projekt dużego systemu
  • Funkcjonalność / Projekt na awarię
  • gRPC lub REST
  • Wersjonowanie i kompatybilność wsteczna

Temat nr 3: Jak akceptowany jest projekt SRE

  • Najlepsze praktyki SRE
  • Lista kontrolna akceptacji projektu
  • Rejestrowanie, metryki, śledzenie
  • Wzięcie CI/CD w swoje ręce

Temat nr 4: Projektowanie i uruchomienie systemu rozproszonego

  • Inżynieria odwrotna – jak działa system?
  • Zgadzamy się na SLI i SLO
  • Ćwicz planowanie wydajności
  • Uruchamiając ruch do aplikacji, nasi użytkownicy zaczynają z niej „korzystać”.
  • Uruchomienie Prometheusa, Grafany, Elastic

Temat nr 5: Monitorowanie, obserwowalność i ostrzeganie

  • Monitorowanie vs. Obserwowalność
  • Konfigurowanie monitorowania i alertów za pomocą Prometheusa
  • Praktyczny monitoring SLI i SLO
  • Objawy vs. Powoduje
  • Czarna skrzynka vs. Monitorowanie białej skrzynki
  • Rozproszone monitorowanie dostępności aplikacji i serwerów
  • 4 złote sygnały (wykrywanie anomalii)

Temat nr 6: Praktyka badania niezawodności systemów

  • Praca pod presją
  • Wstrzyknięcie awarii
  • Małpa Chaosu

Temat nr 7: Praktyka reagowania na incydenty

  • Algorytm zarządzania stresem
  • Interakcja pomiędzy uczestnikami zdarzenia
  • Postmortem
  • Dzielenie się wiedzą
  • Kształtowanie kultury
  • Monitorowanie usterek
  • Przeprowadzanie nienagannego podsumowania

Temat nr 8: Praktyki zarządzania obciążeniem

  • Równoważenie obciążenia
  • Tolerancja błędów aplikacji: ponowna próba, przekroczenie limitu czasu, wstrzyknięcie awarii, wyłącznik automatyczny
  • DDoS (tworzenie obciążenia) + kaskadowe awarie

Temat nr 9: Reagowanie na incydenty

  • Odprawa
  • Praktyka na wezwanie
  • Różne rodzaje wypadków (testowanie, zmiany konfiguracji, awarie sprzętu)
  • Protokoły zarządzania incydentami

Temat #10: Diagnoza i rozwiązywanie problemów

  • Logowanie
  • Debugowanie
  • Przećwicz analizę i debugowanie w naszej aplikacji

Temat #11: Testowanie niezawodności systemu

  • Test naprężeń
  • Testowanie konfiguracji
  • Test wydajności
  • Wypuszczenie kanarków

Temat nr 12: Samodzielna praca i recenzja

Zalecenia i wymagania dla uczestników

SRE to wysiłek zespołowy. Zdecydowanie zalecamy udział w kursie w zespole. Dlatego oferujemy duże rabaty dla gotowych zespołów.

Cena kursu wynosi 60 000 ₽ za osobę.
Jeśli firma wyśle ​​grupę powyżej 5 osób - 40 000 ₽.

Kurs jest zbudowany na platformie Kubernetes. Aby zdać trzeba znać Kubernetesa na poziomie podstawowym. Jeśli z nim nie współpracujesz, możesz przejść przez Slum Basic (онлайн lub intensywny 18-20 listopada).
Ponadto musisz biegle posługiwać się Linuksem oraz znać Gitlab i Prometheus.

Rejestracja

Jeśli masz kompleksowy pomysł na udział, np. aby na kurs przyszedł CEO, CTO i zespół programistów, a oni odbyli staż z uwzględnieniem pionu zarządzania, napisz do mnie w wiadomości prywatnej.

Źródło: www.habr.com

Dodaj komentarz