“Harapan adalah strategi yang buruk.” SRE intensif di Moskow, 3-5 Februari

Kami mengumumkan kursus praktis pertama tentang SRE di Rusia: Slurm SRE.

Selama masa intensif kami akan menghabiskan tiga hari untuk membangun, memecahkan, memperbaiki dan meningkatkan situs web agregator untuk menjual tiket film.

“Harapan adalah strategi yang buruk.” SRE intensif di Moskow, 3-5 Februari

Kami memilih agregator tiket karena memiliki banyak skenario kegagalan: masuknya pengunjung dan serangan DDoS, kegagalan salah satu dari banyak layanan mikro penting (otorisasi, reservasi, pemrosesan pembayaran), tidak tersedianya salah satu dari banyak bioskop (pertukaran data tentang kursi dan reservasi yang tersedia), dan selanjutnya dalam daftar.

Kami akan merumuskan konsep Keandalan untuk situs agregator kami, yang akan kami kembangkan lebih lanjut di bidang Teknik, menganalisis desain dari sudut pandang SRE, memilih metrik, mengatur pemantauannya, menghilangkan insiden yang muncul, melakukan pelatihan untuk kerja tim dengan insiden dalam kondisi yang dekat dengan pertempuran, atur pembekalan .

Program ini dijalankan oleh karyawan Booking.com dan Google.
Kali ini tidak akan ada partisipasi jarak jauh: kursus ini dibangun berdasarkan interaksi pribadi dan kerja tim.

Detail di bawah potongan

Pembicara

Ivan Kruglov
Pengembang Utama di Booking.com (Belanda)
Sejak bergabung dengan Booking.com pada tahun 2013, ia telah mengerjakan proyek infrastruktur seperti pengiriman dan pemrosesan pesan terdistribusi, BigData dan web-stack, pencarian.
Saat ini sedang mengerjakan masalah membangun cloud internal dan Service Mesh.

Ben Tyler
Pengembang Utama di Booking.com (AS)
Terlibat dalam pengembangan internal platform Booking.com.
Mengkhususkan diri dalam layanan mesh / penemuan layanan, penjadwalan pekerjaan batch, respon insiden dan proses postmortem.
Berbicara dan mengajar dalam bahasa Rusia.

Evgeniy Varavva
Pengembang Umum di Google (San Francisco).
Pengalaman dari proyek web dengan beban tinggi hingga penelitian dalam visi komputer dan robotika.
Sejak 2011, ia telah terlibat dalam pembuatan dan pengoperasian sistem terdistribusi di Google, berpartisipasi dalam seluruh siklus hidup proyek: konseptualisasi, desain dan arsitektur, peluncuran, pelipatan, dan semua tahap perantara.

Eduard Medvedev
CTO di Tungsten Labs (Jerman)
Bekerja sebagai insinyur di StackStorm, bertanggung jawab atas fungsionalitas ChatOps di platform. Mengembangkan dan menerapkan ChatOps untuk otomatisasi pusat data. Pembicara di konferensi Rusia dan internasional.

Program

Program ini sedang dikembangkan secara aktif. Sekarang kelihatannya seperti ini, pada bulan Februari mungkin akan membaik dan meluas.

Topik #1: Prinsip dasar dan metode SRE

  • Apa yang diperlukan untuk menjadi SRE?
  • DevOps vs SRE
  • Mengapa pengembang menghargai SRE dan sangat sedih ketika mereka tidak terlibat dalam proyek tersebut
  • SLI, SLO dan SLA
  • Kesalahan anggaran dan perannya dalam SRE

Topik #2: Desain sistem terdistribusi

  • Arsitektur dan fungsionalitas aplikasi
  • Desain Sistem Besar Non-Abstrak
  • Pengoperasian / Desain untuk kegagalan
  • gRPC atau REST
  • Pembuatan versi dan kompatibilitas ke belakang

Topik #3: Bagaimana proyek SRE diterima

  • Praktik terbaik dari SRE
  • Daftar periksa penerimaan proyek
  • Logging, metrik, penelusuran
  • Mengambil CI/CD ke tangan kita sendiri

Topik No. 4: Desain dan peluncuran sistem terdistribusi

  • Rekayasa balik - bagaimana cara kerja sistem?
  • Kami menyetujui SLI dan SLO
  • Praktikkan perencanaan kapasitas
  • Meluncurkan lalu lintas ke aplikasi, pengguna kami mulai “menggunakannya”.
  • Meluncurkan Prometheus, Grafana, Elastis

Topik #5: Pemantauan, Observabilitas, dan Peringatan

  • Pemantauan vs. Observabilitas
  • Menyiapkan pemantauan dan peringatan dengan Prometheus
  • Pemantauan praktis SLI dan SLO
  • Gejala vs. Penyebab
  • Kotak Hitam vs. Pemantauan Kotak Putih
  • Pemantauan terdistribusi atas ketersediaan aplikasi dan server
  • 4 sinyal emas (deteksi anomali)

Topik No. 6: Praktek pengujian keandalan sistem

  • Bekerja dibawah tekanan
  • Kegagalan-injeksi
  • Monyet Kekacauan

Topik #7: Praktek tanggap insiden

  • Algoritma manajemen stres
  • Interaksi antara peserta insiden
  • Postmortem
  • Berbagi pengetahuan
  • Membentuk budaya
  • Pemantauan kesalahan
  • Melakukan pembekalan tanpa cela

Topik #8: Praktik Manajemen Beban

  • Penyeimbang beban
  • Toleransi kesalahan aplikasi: coba lagi, batas waktu, injeksi kegagalan, pemutus sirkuit
  • DDoS (membuat beban) + Kegagalan Berjenjang

Topik #9: Respons Insiden

  • Tanya jawab
  • Latihan Panggilan
  • Berbagai jenis kecelakaan (pengujian, perubahan konfigurasi, kegagalan perangkat keras)
  • Protokol manajemen insiden

Topik #10: Diagnosis dan pemecahan masalah

  • Pencatatan
  • Debug
  • Praktek analisis dan debugging pada aplikasi kita

Topik #11: Pengujian keandalan sistem

  • Pengujian Stres
  • Pengujian konfigurasi
  • Pengujian kinerja
  • Pelepasan kenari

Topik No. 12: Karya mandiri dan review

Rekomendasi dan persyaratan bagi peserta

SRE adalah upaya tim. Kami sangat menyarankan untuk mengambil kursus sebagai sebuah tim. Itu sebabnya kami menawarkan diskon besar untuk tim yang sudah jadi.

Harga kursusnya 60 ₽ per orang.
Jika sebuah perusahaan mengirim grup yang terdiri dari 5+ orang - 40 ₽.

Kursus ini dibangun di atas Kubernetes. Untuk lulus, Anda perlu mengetahui Kubernetes pada tingkat dasar. Jika Anda tidak bekerja dengannya, Anda bisa melalui Slurm Basic (онлайн или intensif 18-20 November).
Selain itu, Anda harus mahir menggunakan Linux dan mengetahui Gitlab dan Prometheus.

Pendaftaran

Jika Anda memiliki ide yang kompleks untuk berpartisipasi, misalnya, untuk CEO, CTO dan tim pengembang untuk datang ke kursus, dan untuk menjalani magang dengan mempertimbangkan vertikal manajemen, tulislah kepada saya melalui pesan pribadi.

Sumber: www.habr.com

Tambah komentar