ProHoster > blog > administrasi > “Harapan adalah strategi yang buruk.” SRE intensif di Moskow, 3-5 Februari
“Harapan adalah strategi yang buruk.” SRE intensif di Moskow, 3-5 Februari
Kami mengumumkan kursus praktis pertama tentang SRE di Rusia: Slurm SRE.
Selama masa intensif kami akan menghabiskan tiga hari untuk membangun, memecahkan, memperbaiki dan meningkatkan situs web agregator untuk menjual tiket film.
Kami memilih agregator tiket karena memiliki banyak skenario kegagalan: masuknya pengunjung dan serangan DDoS, kegagalan salah satu dari banyak layanan mikro penting (otorisasi, reservasi, pemrosesan pembayaran), tidak tersedianya salah satu dari banyak bioskop (pertukaran data tentang kursi dan reservasi yang tersedia), dan selanjutnya dalam daftar.
Kami akan merumuskan konsep Keandalan untuk situs agregator kami, yang akan kami kembangkan lebih lanjut di bidang Teknik, menganalisis desain dari sudut pandang SRE, memilih metrik, mengatur pemantauannya, menghilangkan insiden yang muncul, melakukan pelatihan untuk kerja tim dengan insiden dalam kondisi yang dekat dengan pertempuran, atur pembekalan .
Program ini dijalankan oleh karyawan Booking.com dan Google.
Kali ini tidak akan ada partisipasi jarak jauh: kursus ini dibangun berdasarkan interaksi pribadi dan kerja tim.
Detail di bawah potongan
Pembicara
Ivan Kruglov
Pengembang Utama di Booking.com (Belanda)
Sejak bergabung dengan Booking.com pada tahun 2013, ia telah mengerjakan proyek infrastruktur seperti pengiriman dan pemrosesan pesan terdistribusi, BigData dan web-stack, pencarian.
Saat ini sedang mengerjakan masalah membangun cloud internal dan Service Mesh.
Ben Tyler
Pengembang Utama di Booking.com (AS)
Terlibat dalam pengembangan internal platform Booking.com.
Mengkhususkan diri dalam layanan mesh / penemuan layanan, penjadwalan pekerjaan batch, respon insiden dan proses postmortem.
Berbicara dan mengajar dalam bahasa Rusia.
Evgeniy Varavva
Pengembang Umum di Google (San Francisco).
Pengalaman dari proyek web dengan beban tinggi hingga penelitian dalam visi komputer dan robotika.
Sejak 2011, ia telah terlibat dalam pembuatan dan pengoperasian sistem terdistribusi di Google, berpartisipasi dalam seluruh siklus hidup proyek: konseptualisasi, desain dan arsitektur, peluncuran, pelipatan, dan semua tahap perantara.
Eduard Medvedev
CTO di Tungsten Labs (Jerman)
Bekerja sebagai insinyur di StackStorm, bertanggung jawab atas fungsionalitas ChatOps di platform. Mengembangkan dan menerapkan ChatOps untuk otomatisasi pusat data. Pembicara di konferensi Rusia dan internasional.
Program
Program ini sedang dikembangkan secara aktif. Sekarang kelihatannya seperti ini, pada bulan Februari mungkin akan membaik dan meluas.
Topik #1: Prinsip dasar dan metode SRE
Apa yang diperlukan untuk menjadi SRE?
DevOps vs SRE
Mengapa pengembang menghargai SRE dan sangat sedih ketika mereka tidak terlibat dalam proyek tersebut
SLI, SLO dan SLA
Kesalahan anggaran dan perannya dalam SRE
Topik #2: Desain sistem terdistribusi
Arsitektur dan fungsionalitas aplikasi
Desain Sistem Besar Non-Abstrak
Pengoperasian / Desain untuk kegagalan
gRPC atau REST
Pembuatan versi dan kompatibilitas ke belakang
Topik #3: Bagaimana proyek SRE diterima
Praktik terbaik dari SRE
Daftar periksa penerimaan proyek
Logging, metrik, penelusuran
Mengambil CI/CD ke tangan kita sendiri
Topik No. 4: Desain dan peluncuran sistem terdistribusi
Rekayasa balik - bagaimana cara kerja sistem?
Kami menyetujui SLI dan SLO
Praktikkan perencanaan kapasitas
Meluncurkan lalu lintas ke aplikasi, pengguna kami mulai “menggunakannya”.
Meluncurkan Prometheus, Grafana, Elastis
Topik #5: Pemantauan, Observabilitas, dan Peringatan
Pemantauan vs. Observabilitas
Menyiapkan pemantauan dan peringatan dengan Prometheus
Pemantauan praktis SLI dan SLO
Gejala vs. Penyebab
Kotak Hitam vs. Pemantauan Kotak Putih
Pemantauan terdistribusi atas ketersediaan aplikasi dan server
Berbagai jenis kecelakaan (pengujian, perubahan konfigurasi, kegagalan perangkat keras)
Protokol manajemen insiden
Topik #10: Diagnosis dan pemecahan masalah
Pencatatan
Debug
Praktek analisis dan debugging pada aplikasi kita
Topik #11: Pengujian keandalan sistem
Pengujian Stres
Pengujian konfigurasi
Pengujian kinerja
Pelepasan kenari
Topik No. 12: Karya mandiri dan review
Rekomendasi dan persyaratan bagi peserta
SRE adalah upaya tim. Kami sangat menyarankan untuk mengambil kursus sebagai sebuah tim. Itu sebabnya kami menawarkan diskon besar untuk tim yang sudah jadi.
Harga kursusnya 60 ₽ per orang.
Jika sebuah perusahaan mengirim grup yang terdiri dari 5+ orang - 40 ₽.
Kursus ini dibangun di atas Kubernetes. Untuk lulus, Anda perlu mengetahui Kubernetes pada tingkat dasar. Jika Anda tidak bekerja dengannya, Anda bisa melalui Slurm Basic (онлайн или intensif 18-20 November).
Selain itu, Anda harus mahir menggunakan Linux dan mengetahui Gitlab dan Prometheus.
Jika Anda memiliki ide yang kompleks untuk berpartisipasi, misalnya, untuk CEO, CTO dan tim pengembang untuk datang ke kursus, dan untuk menjalani magang dengan mempertimbangkan vertikal manajemen, tulislah kepada saya melalui pesan pribadi.