ProHoster > Blog > Pentadbiran > "Harapan adalah strategi yang buruk." SRE intensif di Moscow, 3-5 Februari
"Harapan adalah strategi yang buruk." SRE intensif di Moscow, 3-5 Februari
Kami mengumumkan kursus praktikal pertama mengenai SRE di Rusia: Slurm SRE.
Semasa intensif kami akan menghabiskan tiga hari membina, memecahkan, membaiki dan menambah baik laman web agregator untuk menjual tiket wayang.
Kami memilih pengagregat tiket kerana ia mempunyai banyak senario kegagalan: kemasukan pelawat dan serangan DDoS, kegagalan salah satu daripada banyak perkhidmatan mikro kritikal (kebenaran, tempahan, pemprosesan pembayaran), ketiadaan salah satu daripada banyak pawagam (pertukaran data tentang tempat duduk dan tempahan yang tersedia), dan seterusnya ke bawah senarai.
Kami akan merumuskan konsep Kebolehpercayaan untuk tapak agregator kami, yang akan kami kembangkan lagi dalam Kejuruteraan, menganalisis reka bentuk dari sudut pandangan SRE, memilih metrik, menetapkan pemantauan mereka, menghapuskan insiden yang muncul, menjalankan latihan untuk kerja berpasukan dengan insiden dalam keadaan yang hampir dengan pertempuran, anjurkan taklimat .
Program ini dikendalikan oleh pekerja Booking.com dan Google.
Kali ini tidak akan ada penyertaan jauh: kursus ini dibina atas interaksi peribadi dan kerja berpasukan.
Butiran di bawah potongan
Penceramah
Ivan Kruglov
Pemaju Utama di Booking.com (Belanda)
Sejak menyertai Booking.com pada 2013, beliau telah mengusahakan projek infrastruktur seperti penghantaran dan pemprosesan mesej yang diedarkan, BigData dan web-stack, carian.
Sedang mengusahakan isu membina awan dalaman dan Service Mesh.
Ben Tyler
Pemaju Utama di Booking.com (USA)
Terlibat dalam pembangunan dalaman platform Booking.com.
Pakar dalam jaringan perkhidmatan / penemuan perkhidmatan, penjadualan kerja kelompok, tindak balas insiden dan proses bedah siasat.
Bercakap dan mengajar dalam bahasa Rusia.
Evgeniy Varavva
Pembangun Umum di Google (San Francisco).
Pengalaman daripada projek web beban tinggi hingga penyelidikan dalam visi komputer dan robotik.
Sejak 2011, beliau telah terlibat dalam penciptaan dan pengendalian sistem teragih di Google, mengambil bahagian dalam kitaran hayat penuh projek: konseptualisasi, reka bentuk dan seni bina, pelancaran, lipatan dan semua peringkat pertengahan.
Eduard Medvedev
CTO di Tungsten Labs (Jerman)
Bekerja sebagai jurutera di StackStorm, bertanggungjawab untuk kefungsian ChatOps platform. Membangunkan dan melaksanakan ChatOps untuk automasi pusat data. Penceramah di persidangan Rusia dan antarabangsa.
Program
Program ini sedang giat dibangunkan. Sekarang ia kelihatan seperti ini, menjelang Februari ia mungkin bertambah baik dan berkembang.
Topik #1: Prinsip asas dan kaedah SRE
Apakah yang diperlukan untuk menjadi SRE?
DevOps lwn SRE
Mengapa pembangun menghargai SRE dan sangat sedih apabila mereka tidak berada dalam projek itu
SLI, SLO dan SLA
Ralat belanjawan dan peranannya dalam SRE
Topik #2: Reka bentuk sistem teragih
Seni bina dan fungsi aplikasi
Reka Bentuk Sistem Besar Bukan Abstrak
Kebolehkendalian / Reka bentuk untuk kegagalan
gRPC atau REHAT
Keserasian versi dan ke belakang
Topik #3: Bagaimana projek SRE diterima
Amalan terbaik daripada SRE
Senarai semak penerimaan projek
Pembalakan, metrik, pengesanan
Mengambil CI/CD ke dalam tangan kita sendiri
Topik No. 4: Reka bentuk dan pelancaran sistem teragih
Kejuruteraan terbalik - bagaimana sistem berfungsi?
Kami bersetuju dengan SLI dan SLO
Amalkan perancangan kapasiti
Melancarkan trafik ke aplikasi, pengguna kami mula "menggunakan"nya
Melancarkan Prometheus, Grafana, Elastik
Topik #5: Pemantauan, Kebolehmerhatian dan Makluman
Pemantauan lwn. Kebolehlihatan
Menyediakan pemantauan dan amaran dengan Prometheus
Pemantauan praktikal SLI dan SLO
Gejala vs. Punca
Kotak Hitam lwn. Pemantauan Kotak Putih
Pemantauan teragih ke atas ketersediaan aplikasi dan pelayan
4 isyarat emas (pengesanan anomali)
Topik No. 6: Amalan menguji kebolehpercayaan sistem
Pelbagai jenis kemalangan (ujian, perubahan konfigurasi, kegagalan perkakasan)
Protokol pengurusan insiden
Topik #10: Diagnosis dan penyelesaian masalah
Pembalakan
Menyahpepijat
Amalkan analisis dan penyahpepijatan pada aplikasi kami
Topik #11: Ujian kebolehpercayaan sistem
Ujian Tekanan
Ujian konfigurasi
Ujian prestasi
Pelepasan kenari
Topik No. 12: Kerja bebas dan semakan
Cadangan dan keperluan untuk peserta
SRE ialah usaha berpasukan. Kami amat mengesyorkan mengambil kursus sebagai satu pasukan. Itulah sebabnya kami menawarkan diskaun besar untuk pasukan siap sedia.
Harga kursus ialah 60 β½ seorang.
Jika syarikat menghantar sekumpulan 5+ orang - 40 β½.
Kursus ini dibina di atas Kubernetes. Untuk lulus, anda perlu mengetahui Kubernetes pada tahap asas. Jika anda tidak bekerja dengannya, anda boleh melalui Slurm Basic (Online atau intensif 18-20 November).
Selain itu, anda perlu mahir dalam Linux dan mengetahui Gitlab dan Prometheus.
Jika anda mempunyai idea yang rumit untuk penyertaan, sebagai contoh, untuk Ketua Pegawai Eksekutif, CTO dan pasukan pembangun untuk datang ke kursus, dan untuk mereka menjalani latihan dengan mengambil kira pengurusan menegak, tulis kepada saya dalam mesej peribadi.