"Harapan adalah strategi yang buruk." SRE intensif di Moscow, 3-5 Februari

Kami mengumumkan kursus praktikal pertama mengenai SRE di Rusia: Slurm SRE.

Semasa intensif kami akan menghabiskan tiga hari membina, memecahkan, membaiki dan menambah baik laman web agregator untuk menjual tiket wayang.

"Harapan adalah strategi yang buruk." SRE intensif di Moscow, 3-5 Februari

Kami memilih pengagregat tiket kerana ia mempunyai banyak senario kegagalan: kemasukan pelawat dan serangan DDoS, kegagalan salah satu daripada banyak perkhidmatan mikro kritikal (kebenaran, tempahan, pemprosesan pembayaran), ketiadaan salah satu daripada banyak pawagam (pertukaran data tentang tempat duduk dan tempahan yang tersedia), dan seterusnya ke bawah senarai.

Kami akan merumuskan konsep Kebolehpercayaan untuk tapak agregator kami, yang akan kami kembangkan lagi dalam Kejuruteraan, menganalisis reka bentuk dari sudut pandangan SRE, memilih metrik, menetapkan pemantauan mereka, menghapuskan insiden yang muncul, menjalankan latihan untuk kerja berpasukan dengan insiden dalam keadaan yang hampir dengan pertempuran, anjurkan taklimat .

Program ini dikendalikan oleh pekerja Booking.com dan Google.
Kali ini tidak akan ada penyertaan jauh: kursus ini dibina atas interaksi peribadi dan kerja berpasukan.

Butiran di bawah potongan

Penceramah

Ivan Kruglov
Pemaju Utama di Booking.com (Belanda)
Sejak menyertai Booking.com pada 2013, beliau telah mengusahakan projek infrastruktur seperti penghantaran dan pemprosesan mesej yang diedarkan, BigData dan web-stack, carian.
Sedang mengusahakan isu membina awan dalaman dan Service Mesh.

Ben Tyler
Pemaju Utama di Booking.com (USA)
Terlibat dalam pembangunan dalaman platform Booking.com.
Pakar dalam jaringan perkhidmatan / penemuan perkhidmatan, penjadualan kerja kelompok, tindak balas insiden dan proses bedah siasat.
Bercakap dan mengajar dalam bahasa Rusia.

Evgeniy Varavva
Pembangun Umum di Google (San Francisco).
Pengalaman daripada projek web beban tinggi hingga penyelidikan dalam visi komputer dan robotik.
Sejak 2011, beliau telah terlibat dalam penciptaan dan pengendalian sistem teragih di Google, mengambil bahagian dalam kitaran hayat penuh projek: konseptualisasi, reka bentuk dan seni bina, pelancaran, lipatan dan semua peringkat pertengahan.

Eduard Medvedev
CTO di Tungsten Labs (Jerman)
Bekerja sebagai jurutera di StackStorm, bertanggungjawab untuk kefungsian ChatOps platform. Membangunkan dan melaksanakan ChatOps untuk automasi pusat data. Penceramah di persidangan Rusia dan antarabangsa.

Program

Program ini sedang giat dibangunkan. Sekarang ia kelihatan seperti ini, menjelang Februari ia mungkin bertambah baik dan berkembang.

Topik #1: Prinsip asas dan kaedah SRE

  • Apakah yang diperlukan untuk menjadi SRE?
  • DevOps lwn SRE
  • Mengapa pembangun menghargai SRE dan sangat sedih apabila mereka tidak berada dalam projek itu
  • SLI, SLO dan SLA
  • Ralat belanjawan dan peranannya dalam SRE

Topik #2: Reka bentuk sistem teragih

  • Seni bina dan fungsi aplikasi
  • Reka Bentuk Sistem Besar Bukan Abstrak
  • Kebolehkendalian / Reka bentuk untuk kegagalan
  • gRPC atau REHAT
  • Keserasian versi dan ke belakang

Topik #3: Bagaimana projek SRE diterima

  • Amalan terbaik daripada SRE
  • Senarai semak penerimaan projek
  • Pembalakan, metrik, pengesanan
  • Mengambil CI/CD ke dalam tangan kita sendiri

Topik No. 4: Reka bentuk dan pelancaran sistem teragih

  • Kejuruteraan terbalik - bagaimana sistem berfungsi?
  • Kami bersetuju dengan SLI dan SLO
  • Amalkan perancangan kapasiti
  • Melancarkan trafik ke aplikasi, pengguna kami mula "menggunakan"nya
  • Melancarkan Prometheus, Grafana, Elastik

Topik #5: Pemantauan, Kebolehmerhatian dan Makluman

  • Pemantauan lwn. Kebolehlihatan
  • Menyediakan pemantauan dan amaran dengan Prometheus
  • Pemantauan praktikal SLI dan SLO
  • Gejala vs. Punca
  • Kotak Hitam lwn. Pemantauan Kotak Putih
  • Pemantauan teragih ke atas ketersediaan aplikasi dan pelayan
  • 4 isyarat emas (pengesanan anomali)

Topik No. 6: Amalan menguji kebolehpercayaan sistem

  • Bekerja di bawah tekanan
  • Kegagalan-suntikan
  • Monyet huru-hara

Topik #7: Amalan tindak balas insiden

  • Algoritma pengurusan tekanan
  • Interaksi antara peserta kejadian
  • Postmortem
  • Perkongsian ilmu
  • Membentuk budaya
  • Pemantauan kesalahan
  • Menjalankan taklimat tanpa cela

Topik #8: Amalan Pengurusan Beban

  • Pengimbangan beban
  • Toleransi kesalahan aplikasi: cuba semula, tamat masa, suntikan kegagalan, pemutus litar
  • DDoS (mewujudkan beban) + Kegagalan Lata

Topik #9: Tindak Balas Insiden

  • Debriefing
  • Amalan Atas Panggilan
  • Pelbagai jenis kemalangan (ujian, perubahan konfigurasi, kegagalan perkakasan)
  • Protokol pengurusan insiden

Topik #10: Diagnosis dan penyelesaian masalah

  • Pembalakan
  • Menyahpepijat
  • Amalkan analisis dan penyahpepijatan pada aplikasi kami

Topik #11: Ujian kebolehpercayaan sistem

  • Ujian Tekanan
  • Ujian konfigurasi
  • Ujian prestasi
  • Pelepasan kenari

Topik No. 12: Kerja bebas dan semakan

Cadangan dan keperluan untuk peserta

SRE ialah usaha berpasukan. Kami amat mengesyorkan mengambil kursus sebagai satu pasukan. Itulah sebabnya kami menawarkan diskaun besar untuk pasukan siap sedia.

Harga kursus ialah 60 β‚½ seorang.
Jika syarikat menghantar sekumpulan 5+ orang - 40 β‚½.

Kursus ini dibina di atas Kubernetes. Untuk lulus, anda perlu mengetahui Kubernetes pada tahap asas. Jika anda tidak bekerja dengannya, anda boleh melalui Slurm Basic (Online atau intensif 18-20 November).
Selain itu, anda perlu mahir dalam Linux dan mengetahui Gitlab dan Prometheus.

pendaftaran

Jika anda mempunyai idea yang rumit untuk penyertaan, sebagai contoh, untuk Ketua Pegawai Eksekutif, CTO dan pasukan pembangun untuk datang ke kursus, dan untuk mereka menjalani latihan dengan mengambil kira pengurusan menegak, tulis kepada saya dalam mesej peribadi.

Sumber: www.habr.com

Tambah komen