Slurm SRE. Percubaan lengkap dengan pakar dari Booking.com dan Google.com

Pasukan kami suka eksperimen. Setiap Slurm bukanlah pengulangan statik daripada yang sebelumnya, tetapi refleksi pada pengalaman dan peralihan daripada yang baik kepada yang lebih baik. Tetapi dengan Slurm SRE kami memutuskan untuk menggunakan format yang sama sekali baru - untuk memberikan syarat kepada peserta sedekat mungkin untuk "bertempur".

Jika kami menggariskan secara ringkas apa yang kami lakukan semasa kursus intensif: "Kami membina, kami memecahkan, kami membaiki,
kami sedang belajar." SRE bernilai sedikit dalam teori semata-mata - hanya amalan, penyelesaian sebenar, masalah sebenar.

Para peserta dibahagikan kepada beberapa pasukan supaya semangat daya saing yang kuat tidak membenarkan sesiapa pun tertidur atau melancarkan "Angry Birds" pada iPhone, mengikut contoh Dmitry Anatolyevich.

Masalah, gangguan, pepijat dan tugasan telah diberikan kepada peserta oleh empat mentor. Ivan Kruglov, Pemaju Utama di Booking.com (Belanda). Ben Tyler, Pemaju Utama di Booking.com (USA). Eduard Medvedev, CTO di Tungsten Labs (Jerman). Evgeniy Varavva, pembangun am di Google (San Francisco).

Selain itu, para peserta dibahagikan kepada pasukan dan bersaing antara satu sama lain. Menarik?

Slurm SRE. Percubaan lengkap dengan pakar dari Booking.com dan Google.com
Ivan, Ben, Eduard dan Evgeniy melihat peserta Slurm SRE yang malang dengan jelingan Leninis yang baik sebelum pertandingan bermula.

Jadi tugas:

Kita milik kita, kita akan bina dunia baru...

Terdapat laman web pengagregat tiket wayang. Insiden dicipta oleh mentor dalam senario pra-kerja (walaupun tiada siapa yang mengecualikan penambahbaikan yang sangat canggih dan berbahaya), prestasi tapak diterangkan oleh pelbagai metrik. Masalahnya boleh menjadi sangat berbeza: tiket untuk teater Moulin Rouge tidak dimuatkan ke dalam pangkalan data; poster filem dan persembahan dimuatkan ke dalam pangkalan data dalam lebih daripada 10 saat; perihalan filem individu membeku; 0,1% daripada pesanan sudah ditempah; Dari semasa ke semasa sistem pemprosesan pembayaran ranap selama satu atau dua minit. Dan banyak, banyak, banyak perkara tidak menyenangkan yang boleh menimpa seorang peserta Slurm SRE di tempat kerja hakikinya.

Slurm SRE. Percubaan lengkap dengan pakar dari Booking.com dan Google.com
Kami bersedia untuk mengendalikan apa sahaja...dan semua orang.

Laman web kami yang telah lama menderita terdiri daripada beberapa perkhidmatan mikro. Tugasnya adalah untuk mengagregatkan data mengenai rancangan, harga dan tempat duduk yang tersedia dari semua pawagam; ia menunjukkan pengumuman filem, membolehkan anda memilih pawagam, pertunjukan, dewan dan tempat, menempah dan membayar tiket. Secara umum, semua yang penonton hanya boleh impikan. Tetapi pengguna tidak mengesyaki apa perjuangan besar untuk kestabilan dan kebolehcapaian tapak yang sedang berlaku di dalam.

Untuk tapak intensif, kami menghasilkan penunjuk SLO, SLI, SLA, seni bina dan infrastruktur yang dibangunkan, menggunakan tapak tersebut, menyediakan pemantauan dan amaran. Dan kita pergi.

SLO, SLI, SLA

SLI - penunjuk tahap perkhidmatan. SLO ialah matlamat tahap perkhidmatan. SLA - perjanjian tahap perkhidmatan.

SLA ialah istilah metodologi ITIL yang menandakan perjanjian rasmi antara pelanggan sesuatu perkhidmatan dan pembekalnya, mengandungi penerangan perkhidmatan, hak dan kewajipan pihak-pihak dan, yang paling penting, tahap kualiti yang dipersetujui untuk penyediaan ini. perkhidmatan.

SLO ialah objektif tahap perkhidmatan: nilai sasaran atau julat nilai untuk tahap perkhidmatan yang diukur oleh SLI. Nilai biasa untuk SLO ialah “SLI ≤ Sasaran” atau “Had Bawah ≤ SLI ≤ Had Atas”.

SLI ialah penunjuk tahap perkhidmatan—ukuran kuantitatif yang ditakrifkan dengan teliti bagi satu aspek tahap perkhidmatan yang disediakan. Untuk kebanyakan perkhidmatan, SLI utama dianggap sebagai kependaman permintaan - berapa lama masa yang diperlukan untuk mengembalikan respons kepada permintaan. SLI biasa lain termasuk kadar ralat, sering dinyatakan sebagai sebahagian kecil daripada semua permintaan yang diterima, dan daya pemprosesan sistem, biasanya diukur dalam permintaan sesaat.

Pertama sekali, kita akan memecahkan pesawat, dan kemudian gadis-gadis, dan kemudian gadis-gadis...

Faktor dalaman dan luaran mula "merosakkan" SLO dari minit pertama. Segala-galanya jatuh di kepala pentadbir—kesilapan pembangun, kegagalan infrastruktur, kemasukan pelawat dan serangan DDoS. Semua yang memburukkan SLO.

Slurm SRE. Percubaan lengkap dengan pakar dari Booking.com dan Google.com
"- Peserta yang dihormati, saya menyegerakan untuk menggembirakan anda, perkara pertama yang anda gagal ialah... semuanya!"

Sepanjang perjalanan, pembesar suara membincangkan kestabilan, belanjawan ralat, amalan ujian, pengurusan gangguan dan beban operasi.

Kami bukan tukang kayu, bukan tukang kayu...

Kemudian para peserta mula membetulkan perkara - perkara utama ialah memahami apa yang perlu diambil terlebih dahulu.

Slurm SRE. Percubaan lengkap dengan pakar dari Booking.com dan Google.com
"- Tuhan, saya tidak pernah melihatnya pecah seperti ini, dalam bentuk ini dan dalam kedudukan sedemikian!"

Jadi, kemalangan berlaku. Perkhidmatan pemprosesan pembayaran tidak berfungsi. Bagaimana untuk bertindak memulihkan fungsi dalam masa yang sesingkat mungkin?

Slurm SRE. Percubaan lengkap dengan pakar dari Booking.com dan Google.com
Pakar, memandang penuh kasih sayang pada peserta, sedang menyediakan satu lagi helah.

Setiap pasukan mengatur kerja kumpulan untuk menghapuskan kemalangan - melibatkan rakan sekerja, memberitahu pihak yang berkepentingan (stakeholder). Pada masa yang sama, keutamaan ditetapkan. Dengan cara ini, para peserta dilatih untuk bekerja di bawah tekanan dalam keadaan masa yang sangat terhad.

Slurm SRE. Percubaan lengkap dengan pakar dari Booking.com dan Google.com
"Apa jenis seram yang telah keluar?!"

Hembus nafas... dan selesaikan senaman

Bersama-sama dengan penceramah, selepas setiap masalah diselesaikan dan tapak itu distabilkan buat sementara waktu, pasukan itu mengkaji insiden dari sudut pandangan SRE. Kami menganalisis masalah secara terperinci - punca kejadian, kemajuan penghapusan. Selepas itu, kedua-dua pasukan demi pasukan dan secara kolektif, kami membuat keputusan tentang cara untuk menghalangnya lagi: cara meningkatkan pemantauan, cara mengubah seni bina dengan bijak, cara menyesuaikan pendekatan kepada pembangunan dan operasi, cara membetulkan peraturan. Penceramah menunjukkan amalan menjalankan bedah siasat.

Slurm SRE. Percubaan lengkap dengan pakar dari Booking.com dan Google.com
“Siapa lagi yang mahukan azab! - Saya!"

Kejayaan pasukan telah direkodkan dengan tegas dan jelas pada papan mata elektronik.

Slurm SRE. Percubaan lengkap dengan pakar dari Booking.com dan Google.com

Untuk tempat pertama - bonus daripada pihak berkepentingan.

Slurm SRE. Percubaan lengkap dengan pakar dari Booking.com dan Google.com

Sumber: www.habr.com

Tambah komen