Slurm SRE. Eksperimen lengkap karo ahli saka Booking.com lan Google.com

Tim kita seneng eksperimen. Saben Slurm dudu pengulangan statis saka sing sadurunge, nanging refleksi babagan pengalaman lan transisi saka apik dadi luwih apik. Nanging karo Slurm SRE kita mutusaké kanggo aplikasi format rampung anyar - kanggo menehi peserta kahanan sabisa kanggo "pertempuran".

Yen kita nggambarake kanthi ringkes apa sing ditindakake sajrone kursus intensif: "Kita mbangun, kita rusak, kita ndandani,
kita sinau." SRE regane sethithik mung ing teori - mung praktik, solusi nyata, masalah nyata.

Para peserta dipérang dadi tim supaya semangat kompetitif sing kuat ora ngidini wong turu utawa miwiti "Angry Birds" ing iPhone, ngetutake conto Dmitry Anatolyevich.

Masalah, glitches, bug lan tugas diwenehake kanggo peserta dening papat mentor. Ivan Kruglov, Pengembang Utama ing Booking.com (Belanda). Ben Tyler, Pengembang Utama ing Booking.com (USA). Eduard Medvedev, CTO ing Tungsten Labs (Jerman). Evgeniy Varavva, pangembang umum ing Google (San Francisco).

Kajaba iku, para peserta dipérang dadi tim lan saingan. menarik?

Slurm SRE. Eksperimen lengkap karo ahli saka Booking.com lan Google.com
Ivan, Ben, Eduard lan Evgeniy katon ing peserta Slurm SRE miskin karo squints Leninis apik sadurunge wiwitan kompetisi.

Dadi tugas:

Kita dadi duweke, kita bakal mbangun jagad anyar ...

Ana situs web aggregator tiket film. Insiden diciptakake dening mentor ing skenario sing wis digarap (sanajan ora ana sing ngilangi improvisasi sing canggih lan insidious), kinerja situs kasebut diterangake kanthi macem-macem metrik. Masalah bisa beda banget: karcis kanggo teater Moulin Rouge ora dimuat ing database; poster film lan pagelaran dimuat menyang database luwih saka 10 detik; gambaran saka film individu freezes; 0,1% pesenan wis dilindhungi undhang-undhang; Saka wektu kanggo wektu sistem Processing pembayaran tubrukan kanggo menit utawa loro. Lan akeh, akeh, akeh perkara sing ora nyenengake sing bisa ditindakake dening peserta Slurm SRE ing proyek nyata.

Slurm SRE. Eksperimen lengkap karo ahli saka Booking.com lan Google.com
Kita siyap kanggo nangani apa wae ... lan kabeh wong.

Situs web kita sing wis suwe nandhang sangsara dumadi saka sawetara layanan mikro. Tugase yaiku nglumpukake data babagan pertunjukan, rega lan kursi sing kasedhiya saka kabeh bioskop; nuduhake pengumuman film, ngidini sampeyan milih bioskop, pertunjukan, aula lan papan, buku lan mbayar tiket. Umumé, kabeh sing nonton mung bisa ngimpi. Nanging pangguna malah ora curiga apa perjuangan titanic kanggo stabilitas lan aksesibilitas situs sing ana ing njero.

Kanggo situs intensif, kita ngasilake indikator SLO, SLI, SLA, arsitektur lan infrastruktur sing dikembangake, masang situs kasebut, nyiyapake ngawasi lan menehi tandha. Lan adoh kita lunga.

SLO, SLI, SLA

SLI - indikator tingkat layanan. SLO minangka tujuan tingkat layanan. SLA - perjanjian tingkat layanan.

SLA minangka istilah metodologi ITIL sing nuduhake persetujuan resmi antarane pelanggan layanan lan pemasok, ngemot katrangan babagan layanan, hak lan kewajiban para pihak lan, sing paling penting, tingkat kualitas sing disepakati kanggo nyedhiyakake iki. layanan.

SLO minangka tujuan tingkat layanan: nilai target utawa sawetara nilai kanggo tingkat layanan sing diukur dening SLI. Nilai normal kanggo SLO yaiku "SLI ≤ Target" utawa "Limit Ngisor ≤ SLI ≤ Limit Ndhuwur".

SLI minangka indikator tingkat layanan-ukuran kuantitatif sing ditemtokake kanthi teliti saka siji aspek saka tingkat layanan sing diwenehake. Kanggo umume layanan, kunci SLI dianggep minangka latensi panyuwunan - suwene wektu kanggo ngasilake respon kanggo panjaluk. SLI umum liyane kalebu tingkat kesalahan, asring ditulis minangka bagian sekedhik saka kabeh panjalukan sing ditampa, lan throughput sistem, biasane diukur ing panjalukan saben detik.

Kaping pisanan, kita bakal ngilangi pesawat, banjur bocah-bocah wadon, banjur bocah-bocah wadon ...

Faktor internal lan eksternal wiwit "ngrusak" SLO wiwit menit pisanan. Kabeh ana ing sirah pangurus-kesalahan pangembang, kegagalan infrastruktur, kebanjiran pengunjung, lan serangan DDoS. Kabeh sing worsens SLO.

Slurm SRE. Eksperimen lengkap karo ahli saka Booking.com lan Google.com
"- Para peserta sing dihormati, aku cepet-cepet nyenengake sampeyan, sing pertama sampeyan gagal yaiku ... kabeh!"

Sadawane dalan, pamicara mbahas stabilitas, anggaran kesalahan, praktik tes, manajemen gangguan lan beban operasional.

Kita dudu tukang kayu, dudu tukang kayu...

Banjur para peserta wiwit ndandani - sing utama yaiku ngerti apa sing kudu direbut dhisik.

Slurm SRE. Eksperimen lengkap karo ahli saka Booking.com lan Google.com
"- Gusti, aku durung nate weruh pecah kaya iki, ing wangun iki lan ing posisi kaya mengkono!"

Dadi, ana kacilakan. Layanan pangolahan pembayaran mudhun. Carane tumindak kanggo mulihake fungsi ing wektu paling cendhak?

Slurm SRE. Eksperimen lengkap karo ahli saka Booking.com lan Google.com
Para ahli, looking affectionately ing peserta, lagi nyiapake trick liyane.

Saben tim ngatur karya klompok kanggo ngilangi kacilakan - melu kolega, ngandhani pihak sing kasengsem (pemangku kepentingan). Ing wektu sing padha, prioritas disetel. Kanthi cara iki, para peserta dilatih kanggo kerja ing tekanan ing kahanan wektu sing winates.

Slurm SRE. Eksperimen lengkap karo ahli saka Booking.com lan Google.com
"Apa jenis medeni sing metu?!"

Exhale ... lan rampung latihan

Bebarengan karo pamicara, sawise saben masalah dirampungake lan situs kasebut sementara stabil, tim kasebut nyinaoni kedadeyan kasebut saka sudut pandang SRE. Kita nganalisa masalah kanthi rinci - panyebab kedadeyan, kemajuan eliminasi. Sawisé iku, loro tim-by-tim lan bebarengan, kita nggawe pancasan carane luwih nyegah: carane nambah ngawasi, carane wisely ngganti arsitektur, carane nyetel pendekatan kanggo pembangunan lan operasi, carane mbenerake peraturan. Para pamicara nuduhake laku nindakake post-mortem.

Slurm SRE. Eksperimen lengkap karo ahli saka Booking.com lan Google.com
“Sapa maneh sing pengin siksa! - Aku!"

Kasuksesan tim kasebut dicathet kanthi cetha lan cetha ing papan skor elektronik.

Slurm SRE. Eksperimen lengkap karo ahli saka Booking.com lan Google.com

Kanggo panggonan pisanan - bonus saka stakeholder.

Slurm SRE. Eksperimen lengkap karo ahli saka Booking.com lan Google.com

Source: www.habr.com

Add a comment