„Nadzieja to zła strategia”. Intensywne SRE w Moskwie, 3-5 lutego
Ogłaszamy pierwszy kurs praktyczny na SRE w Rosji: Slum SRE.
Podczas intensywnego szkolenia spędzimy trzy dni na budowaniu, naprawianiu i ulepszaniu witryny agregatora sprzedaży biletów do kina.
Wybraliśmy agregator biletów, ponieważ ma wiele scenariuszy awarii: napływ odwiedzających i ataki DDoS, awaria jednego z wielu krytycznych mikrousług (autoryzacja, rezerwacje, przetwarzanie płatności), niedostępność jednego z wielu kin (wymiana danych o dostępne miejsca i rezerwacje) i dalej w dół listy.
Sformułujemy koncepcję Niezawodności dla naszej witryny agregatora, którą będziemy dalej rozwijać w Inżynierii, przeanalizujemy projekt z punktu widzenia SRE, dobierzemy metryki, skonfigurujemy ich monitorowanie, wyeliminujemy pojawiające się incydenty, przeprowadzimy szkolenia dotyczące pracy zespołowej z incydentami w warunkach zbliżonych do bojowych zorganizuj odprawę.
Program prowadzony jest przez pracowników Booking.com i Google.
Tym razem nie będzie udziału zdalnego: kurs opiera się na osobistej interakcji i pracy zespołowej.
Szczegóły pod rozcięciem
Głośniki
Iwan Krugłow
Główny programista w Booking.com (Holandia)
Odkąd dołączył do Booking.com w 2013 roku, pracował nad projektami infrastrukturalnymi, takimi jak rozproszone dostarczanie i przetwarzanie wiadomości, BigData i web-stack, wyszukiwanie.
Aktualnie pracuję nad zagadnieniami budowy wewnętrznej chmury i Service Mesh.
Bena Tylera
Główny programista w Booking.com (USA)
Zaangażowany w wewnętrzny rozwój platformy Booking.com.
Specjalizuje się w wykrywaniu sieci usług/usług, planowaniu zadań wsadowych, reagowaniu na incydenty i procesie pośmiertnym.
Mówi i uczy w języku rosyjskim.
Jewgienij Varavva
Generalny programista w Google (San Francisco).
Doświadczenie od projektów internetowych o dużym obciążeniu po badania w dziedzinie wizji komputerowej i robotyki.
Od 2011 roku zajmuje się tworzeniem i obsługą systemów rozproszonych w Google, uczestnicząc w pełnym cyklu życia projektu: konceptualizacji, projektowaniu i architekturze, uruchomieniu, składaniu i wszystkich etapach pośrednich.
Edwarda Miedwiediewa
CTO w Tungsten Labs (Niemcy)
Pracował jako inżynier w StackStorm, odpowiedzialny za funkcjonalność ChatOps platformy. Opracowano i wdrożono ChatOps do automatyzacji centrów danych. Prelegent na konferencjach rosyjskich i międzynarodowych.
Program
Program jest aktywnie rozwijany. Teraz wygląda to tak, do lutego może się poprawić i rozwinąć.
Temat nr 1: Podstawowe zasady i metody SRE
Co trzeba zrobić, aby zostać SRE?
DevOps kontra SRE
Dlaczego programiści cenią SRE i są bardzo smutni, gdy nie ma ich w projekcie
SLI, SLO i SLA
Budżet błędów i jego rola w SRE
Temat #2: Projektowanie systemów rozproszonych
Architektura i funkcjonalność aplikacji
Nieabstrakcyjny projekt dużego systemu
Funkcjonalność / Projekt na awarię
gRPC lub REST
Wersjonowanie i kompatybilność wsteczna
Temat nr 3: Jak akceptowany jest projekt SRE
Najlepsze praktyki SRE
Lista kontrolna akceptacji projektu
Rejestrowanie, metryki, śledzenie
Wzięcie CI/CD w swoje ręce
Temat nr 4: Projektowanie i uruchomienie systemu rozproszonego
Inżynieria odwrotna – jak działa system?
Zgadzamy się na SLI i SLO
Ćwicz planowanie wydajności
Uruchamiając ruch do aplikacji, nasi użytkownicy zaczynają z niej „korzystać”.
Uruchomienie Prometheusa, Grafany, Elastic
Temat nr 5: Monitorowanie, obserwowalność i ostrzeganie
Monitorowanie vs. Obserwowalność
Konfigurowanie monitorowania i alertów za pomocą Prometheusa
Praktyczny monitoring SLI i SLO
Objawy vs. Powoduje
Czarna skrzynka vs. Monitorowanie białej skrzynki
Rozproszone monitorowanie dostępności aplikacji i serwerów
4 złote sygnały (wykrywanie anomalii)
Temat nr 6: Praktyka badania niezawodności systemów
Różne rodzaje wypadków (testowanie, zmiany konfiguracji, awarie sprzętu)
Protokoły zarządzania incydentami
Temat #10: Diagnoza i rozwiązywanie problemów
Logowanie
Debugowanie
Przećwicz analizę i debugowanie w naszej aplikacji
Temat #11: Testowanie niezawodności systemu
Test naprężeń
Testowanie konfiguracji
Test wydajności
Wypuszczenie kanarków
Temat nr 12: Samodzielna praca i recenzja
Zalecenia i wymagania dla uczestników
SRE to wysiłek zespołowy. Zdecydowanie zalecamy udział w kursie w zespole. Dlatego oferujemy duże rabaty dla gotowych zespołów.
Cena kursu wynosi 60 000 ₽ za osobę.
Jeśli firma wyśle grupę powyżej 5 osób - 40 000 ₽.
Kurs jest zbudowany na platformie Kubernetes. Aby zdać trzeba znać Kubernetesa na poziomie podstawowym. Jeśli z nim nie współpracujesz, możesz przejść przez Slum Basic (онлайн lub intensywny 18-20 listopada).
Ponadto musisz biegle posługiwać się Linuksem oraz znać Gitlab i Prometheus.
Jeśli masz kompleksowy pomysł na udział, np. aby na kurs przyszedł CEO, CTO i zespół programistów, a oni odbyli staż z uwzględnieniem pionu zarządzania, napisz do mnie w wiadomości prywatnej.