“Umut kötü bir stratejidir.” Moskova'da SRE yoğun, 3-5 Şubat

Rusya'da SRE ile ilgili ilk uygulamalı kursu duyuruyoruz: Slurm SRE.

Yoğun dönemde üç gün boyunca sinema bileti satışına yönelik bir toplayıcı web sitesi oluşturmak, kırmak, onarmak ve iyileştirmek için harcayacağız.

“Umut kötü bir stratejidir.” Moskova'da SRE yoğun, 3-5 Şubat

Bilet toplayıcıyı seçtik çünkü birçok başarısızlık senaryosu var: ziyaretçi akışı ve DDoS saldırıları, birçok kritik mikro hizmetten birinin başarısızlığı (yetkilendirme, rezervasyonlar, ödeme işlemleri), birçok sinemadan birinin kullanılamaması (hakkında veri alışverişi) mevcut koltuklar ve rezervasyonlar) ve listenin daha aşağılarına bakın.

Mühendislik alanında daha da geliştireceğimiz toplayıcı sitemiz için Güvenilirlik konseptini formüle edeceğiz, tasarımı SRE açısından analiz edeceğiz, metrikleri seçeceğiz, izlemelerini ayarlayacağız, ortaya çıkan olayları ortadan kaldıracağız, olaylarla ekip çalışması için eğitimler vereceğiz Çatışmaya yakın koşullarda bir bilgilendirme toplantısı düzenleyin.

Program, Booking.com ve Google çalışanları tarafından yürütülmektedir.
Bu kez uzaktan katılım olmayacak: Kurs kişisel etkileşim ve ekip çalışması üzerine kurulu.

Kesimin altındaki ayrıntılar

Hoparlörler

Ivan Kruglov
Booking.com'da Baş Geliştirici (Hollanda)
2013 yılında Booking.com'a katıldığından beri dağıtılmış mesaj dağıtımı ve işleme, Büyük Veri ve web yığını, arama gibi altyapı projelerinde çalıştı.
Şu anda dahili bir bulut ve Hizmet Ağı oluşturma konuları üzerinde çalışıyorum.

Ben Tyler
Booking.com'da Baş Geliştirici (ABD)
Booking.com platformunun dahili geliştirilmesinde görev aldım.
Hizmet ağı/hizmet keşfi, toplu iş planlama, olay müdahalesi ve ölüm sonrası süreçte uzmanlaşmıştır.
Rusça konuşuyor ve öğretiyor.

Evgeniy Varavva
Google'da (San Francisco) Genel Geliştirici.
Yüksek yüklü web projelerinden bilgisayarlı görme ve robotik araştırmalarına kadar deneyim.
2011 yılından bu yana Google'da dağıtık sistemlerin oluşturulması ve işletilmesinde yer almakta ve projenin tüm yaşam döngüsüne katılmaktadır: kavramsallaştırma, tasarım ve mimari, lansman, katlama ve tüm ara aşamalar.

Eduard Medvedev
Tungsten Laboratuvarlarında CTO (Almanya)
Platformun ChatOps işlevselliğinden sorumlu olarak StackStorm'da mühendis olarak çalıştı. Veri merkezi otomasyonu için ChatOps geliştirildi ve uygulandı. Rusya ve uluslararası konferanslarda konuşmacı.

Program

Program aktif olarak geliştirilmektedir. Şimdi şöyle görünüyor, Şubat ayına kadar gelişebilir ve genişleyebilir.

Konu #1: SRE'nin temel ilkeleri ve yöntemleri

  • SRE olmak için ne gerekiyor?
  • DevOps ve SRE
  • Geliştiriciler neden SRE'ye değer veriyor ve projede olmadıklarında çok üzülüyorlar?
  • SLI, SLO ve SLA
  • Hata bütçesi ve SRE'deki rolü

Konu #2: Dağıtık sistemlerin tasarımı

  • Uygulama mimarisi ve işlevselliği
  • Soyut Olmayan Büyük Sistem Tasarımı
  • Çalıştırılabilirlik / Arızaya karşı tasarım
  • gRPC veya REST
  • Sürüm oluşturma ve geriye dönük uyumluluk

Konu #3: Bir SRE projesi nasıl kabul edilir

  • SRE'den en iyi uygulamalar
  • Proje kabul kontrol listesi
  • Günlük kaydı, ölçümler, izleme
  • CI/CD'yi kendi ellerimize almak

Konu No. 4: Dağıtılmış bir sistemin tasarlanması ve başlatılması

  • Tersine mühendislik – sistem nasıl çalışıyor?
  • SLI ve SLO konusunda hemfikiriz
  • Kapasite planlamayı uygulayın
  • Uygulamaya trafik başlatan kullanıcılarımız uygulamayı “kullanmaya” başlar
  • Prometheus, Grafana, Elastic'in Başlatılması

Konu #5: İzleme, Gözlemlenebilirlik ve Uyarı

  • İzleme vs. Gözlenebilirlik
  • Prometheus ile izleme ve uyarıyı ayarlama
  • SLI ve SLO'nun pratik izlenmesi
  • Belirtiler vs. Nedenler
  • Kara Kutu vs. Beyaz Kutu İzleme
  • Uygulama ve sunucu kullanılabilirliğinin dağıtılmış izlenmesi
  • 4 altın sinyal (anormallik tespiti)

Konu No. 6: Sistem güvenilirliğini test etme uygulaması

  • Baskı altında çalışmak
  • Arıza enjeksiyonu
  • Kaos Maymunu

Konu #7: Olay müdahale uygulaması

  • Stres yönetimi algoritması
  • Olay katılımcıları arasındaki etkileşim
  • Постмортем
  • Bilgi paylaşımı
  • Kültürü şekillendirmek
  • Arıza izleme
  • Kusursuz bir brifing yürütmek

Konu #8: Yük Yönetimi Uygulamaları

  • Yük dengeleme
  • Uygulama hatası toleransı: yeniden deneme, zaman aşımı, arıza ekleme, devre kesici
  • DDoS (yük oluşturma) + Basamaklı Arızalar

Konu #9: Olay Müdahalesi

  • Bilgi alma
  • Çağrı Üzerine Uygulama
  • Çeşitli kaza türleri (test, konfigürasyon değişiklikleri, donanım arızası)
  • Olay yönetimi protokolleri

Konu #10: Teşhis ve problem çözme

  • Kerestecilik
  • Hata ayıklama
  • Uygulamamızda analiz ve hata ayıklama alıştırmaları yapın

Konu #11: Sistem güvenilirliği testi

  • Stres testi
  • Yapılandırma testi
  • Performans testi
  • Kanarya sürümü

Konu No. 12: Bağımsız çalışma ve inceleme

Katılımcılar için öneriler ve gereksinimler

SRE bir ekip çalışmasıdır. Kursa ekip olarak katılmanızı şiddetle tavsiye ederiz. Bu yüzden hazır takımlara büyük indirimler sunuyoruz.

Kursun fiyatı kişi başı 60 ₽'dir.
Bir şirket 5'ten fazla kişiden oluşan bir grup gönderirse - 40 ₽.

Kurs Kubernetes üzerine inşa edilmiştir. Geçmek için Kubernetes'i temel düzeyde bilmeniz gerekir. Onunla çalışmıyorsanız Slurm Basic'e geçebilirsiniz (Çevrimiçi veya yoğun 18-20 Kasım).
Ayrıca Linux konusunda uzman olmanız, Gitlab ve Prometheus'u bilmeniz gerekiyor.

kayıt

Örneğin CEO, CTO ve geliştiricilerden oluşan bir ekibin kursa gelmesi ve yönetim dikeyini dikkate alarak staj yapmaları gibi karmaşık bir katılım fikriniz varsa, bana kişisel bir mesajla yazın.

Kaynak: habr.com

Yorum ekle