ProHoster > Blog > yönetim > “Umut kötü bir stratejidir.” Moskova'da SRE yoğun, 3-5 Şubat
“Umut kötü bir stratejidir.” Moskova'da SRE yoğun, 3-5 Şubat
Rusya'da SRE ile ilgili ilk uygulamalı kursu duyuruyoruz: Slurm SRE.
Yoğun dönemde üç gün boyunca sinema bileti satışına yönelik bir toplayıcı web sitesi oluşturmak, kırmak, onarmak ve iyileştirmek için harcayacağız.
Bilet toplayıcıyı seçtik çünkü birçok başarısızlık senaryosu var: ziyaretçi akışı ve DDoS saldırıları, birçok kritik mikro hizmetten birinin başarısızlığı (yetkilendirme, rezervasyonlar, ödeme işlemleri), birçok sinemadan birinin kullanılamaması (hakkında veri alışverişi) mevcut koltuklar ve rezervasyonlar) ve listenin daha aşağılarına bakın.
Mühendislik alanında daha da geliştireceğimiz toplayıcı sitemiz için Güvenilirlik konseptini formüle edeceğiz, tasarımı SRE açısından analiz edeceğiz, metrikleri seçeceğiz, izlemelerini ayarlayacağız, ortaya çıkan olayları ortadan kaldıracağız, olaylarla ekip çalışması için eğitimler vereceğiz Çatışmaya yakın koşullarda bir bilgilendirme toplantısı düzenleyin.
Program, Booking.com ve Google çalışanları tarafından yürütülmektedir.
Bu kez uzaktan katılım olmayacak: Kurs kişisel etkileşim ve ekip çalışması üzerine kurulu.
Kesimin altındaki ayrıntılar
Hoparlörler
Ivan Kruglov
Booking.com'da Baş Geliştirici (Hollanda)
2013 yılında Booking.com'a katıldığından beri dağıtılmış mesaj dağıtımı ve işleme, Büyük Veri ve web yığını, arama gibi altyapı projelerinde çalıştı.
Şu anda dahili bir bulut ve Hizmet Ağı oluşturma konuları üzerinde çalışıyorum.
Ben Tyler
Booking.com'da Baş Geliştirici (ABD)
Booking.com platformunun dahili geliştirilmesinde görev aldım.
Hizmet ağı/hizmet keşfi, toplu iş planlama, olay müdahalesi ve ölüm sonrası süreçte uzmanlaşmıştır.
Rusça konuşuyor ve öğretiyor.
Evgeniy Varavva
Google'da (San Francisco) Genel Geliştirici.
Yüksek yüklü web projelerinden bilgisayarlı görme ve robotik araştırmalarına kadar deneyim.
2011 yılından bu yana Google'da dağıtık sistemlerin oluşturulması ve işletilmesinde yer almakta ve projenin tüm yaşam döngüsüne katılmaktadır: kavramsallaştırma, tasarım ve mimari, lansman, katlama ve tüm ara aşamalar.
Eduard Medvedev
Tungsten Laboratuvarlarında CTO (Almanya)
Platformun ChatOps işlevselliğinden sorumlu olarak StackStorm'da mühendis olarak çalıştı. Veri merkezi otomasyonu için ChatOps geliştirildi ve uygulandı. Rusya ve uluslararası konferanslarda konuşmacı.
Program
Program aktif olarak geliştirilmektedir. Şimdi şöyle görünüyor, Şubat ayına kadar gelişebilir ve genişleyebilir.
Konu #1: SRE'nin temel ilkeleri ve yöntemleri
SRE olmak için ne gerekiyor?
DevOps ve SRE
Geliştiriciler neden SRE'ye değer veriyor ve projede olmadıklarında çok üzülüyorlar?
SLI, SLO ve SLA
Hata bütçesi ve SRE'deki rolü
Konu #2: Dağıtık sistemlerin tasarımı
Uygulama mimarisi ve işlevselliği
Soyut Olmayan Büyük Sistem Tasarımı
Çalıştırılabilirlik / Arızaya karşı tasarım
gRPC veya REST
Sürüm oluşturma ve geriye dönük uyumluluk
Konu #3: Bir SRE projesi nasıl kabul edilir
SRE'den en iyi uygulamalar
Proje kabul kontrol listesi
Günlük kaydı, ölçümler, izleme
CI/CD'yi kendi ellerimize almak
Konu No. 4: Dağıtılmış bir sistemin tasarlanması ve başlatılması
Tersine mühendislik – sistem nasıl çalışıyor?
SLI ve SLO konusunda hemfikiriz
Kapasite planlamayı uygulayın
Uygulamaya trafik başlatan kullanıcılarımız uygulamayı “kullanmaya” başlar
Prometheus, Grafana, Elastic'in Başlatılması
Konu #5: İzleme, Gözlemlenebilirlik ve Uyarı
İzleme vs. Gözlenebilirlik
Prometheus ile izleme ve uyarıyı ayarlama
SLI ve SLO'nun pratik izlenmesi
Belirtiler vs. Nedenler
Kara Kutu vs. Beyaz Kutu İzleme
Uygulama ve sunucu kullanılabilirliğinin dağıtılmış izlenmesi
4 altın sinyal (anormallik tespiti)
Konu No. 6: Sistem güvenilirliğini test etme uygulaması
Baskı altında çalışmak
Arıza enjeksiyonu
Kaos Maymunu
Konu #7: Olay müdahale uygulaması
Stres yönetimi algoritması
Olay katılımcıları arasındaki etkileşim
Постмортем
Bilgi paylaşımı
Kültürü şekillendirmek
Arıza izleme
Kusursuz bir brifing yürütmek
Konu #8: Yük Yönetimi Uygulamaları
Yük dengeleme
Uygulama hatası toleransı: yeniden deneme, zaman aşımı, arıza ekleme, devre kesici
DDoS (yük oluşturma) + Basamaklı Arızalar
Konu #9: Olay Müdahalesi
Bilgi alma
Çağrı Üzerine Uygulama
Çeşitli kaza türleri (test, konfigürasyon değişiklikleri, donanım arızası)
Olay yönetimi protokolleri
Konu #10: Teşhis ve problem çözme
Kerestecilik
Hata ayıklama
Uygulamamızda analiz ve hata ayıklama alıştırmaları yapın
Konu #11: Sistem güvenilirliği testi
Stres testi
Yapılandırma testi
Performans testi
Kanarya sürümü
Konu No. 12: Bağımsız çalışma ve inceleme
Katılımcılar için öneriler ve gereksinimler
SRE bir ekip çalışmasıdır. Kursa ekip olarak katılmanızı şiddetle tavsiye ederiz. Bu yüzden hazır takımlara büyük indirimler sunuyoruz.
Kursun fiyatı kişi başı 60 ₽'dir.
Bir şirket 5'ten fazla kişiden oluşan bir grup gönderirse - 40 ₽.
Kurs Kubernetes üzerine inşa edilmiştir. Geçmek için Kubernetes'i temel düzeyde bilmeniz gerekir. Onunla çalışmıyorsanız Slurm Basic'e geçebilirsiniz (Çevrimiçi veya yoğun 18-20 Kasım).
Ayrıca Linux konusunda uzman olmanız, Gitlab ve Prometheus'u bilmeniz gerekiyor.
Örneğin CEO, CTO ve geliştiricilerden oluşan bir ekibin kursa gelmesi ve yönetim dikeyini dikkate alarak staj yapmaları gibi karmaşık bir katılım fikriniz varsa, bana kişisel bir mesajla yazın.