Slurm SRE. Percobaan lengkep sareng ahli ti Booking.com sareng Google.com

Tim kami resep ékspérimén. Unggal Slurm sanes pengulangan statik tina anu sateuacana, tapi refleksi dina pangalaman sareng transisi tina anu saé ka anu langkung saé. Tapi kalayan Slurm SRE kami mutuskeun pikeun nerapkeun format lengkep anyar - pikeun masihan pamilon kaayaan sacaket mungkin pikeun "merangan".

Lamun urang sakeudeung outline naon urang ngalakukeun salila kursus intensif: "Urang ngawangun, urang megatkeun, urang ngalereskeun,
urang nuju diajar." SRE hargana sakedik dina téori - ukur prakték, solusi nyata, masalah nyata.

Pamilon dibagi kana tim supados sumanget kalapa anu kuat moal ngantep saha waé bobo atanapi ngaluncurkeun "Angry Birds" dina iPhone, nuturkeun conto Dmitry Anatolyevich.

Masalah, glitches, bug sareng tugas anu disayogikeun ka pamilon ku opat mentor. Ivan Kruglov, Pamekar Principal di Booking.com (Walanda). Ben Tyler, Pamekar Principal di Booking.com (AS). Eduard Medvedev, CTO di Tungsten Labs (Jerman). Evgeniy Varavva, pamekar umum di Google (San Fransisco).

Leuwih ti éta, pamilon dibagi kana tim sarta bersaing saling. metot?

Slurm SRE. Percobaan lengkep sareng ahli ti Booking.com sareng Google.com
Ivan, Ben, Eduard jeung Evgeniy kasampak di pamilon Slurm SRE goréng kalayan squints Leninis nanaon saméméh mimiti kompetisi.

Jadi tugasna:

Kami milik urang, urang bakal ngawangun dunya anyar ...

Aya situs wéb agrégator tikét pilem. Kajadian diciptakeun ku mentor dina skenario anu tos digarap (sanaos teu aya anu ngaluarkeun improvisasi anu canggih sareng insidious), kinerja situs dijelaskeun ku sababaraha métrik. Masalahna tiasa bénten pisan: tikét pikeun téater Moulin Rouge henteu dimuat kana pangkalan data; poster pilem sareng pagelaran dimuat kana pangkalan data dina langkung ti 10 detik; pedaran hiji pilem individu freezes; 0,1% tina pesenan geus ditangtayungan; Ti jaman ka jaman sistem pamrosésan pamayaran ngadat pikeun hiji atawa dua menit. Sarta loba, loba, loba hal pikaresepeun nu bisa lumangsung hiji pamilon Slurm SRE dina pakasaban nyata na.

Slurm SRE. Percobaan lengkep sareng ahli ti Booking.com sareng Google.com
Kami siap pikeun nanganan nanaon ... jeung dulur.

Situs wéb kami anu panjang-sangsara diwangun ku sababaraha layanan mikro. Tugasna nyaéta pikeun ngumpulkeun data ngeunaan acara, harga sareng korsi anu sayogi ti sadaya bioskop; éta nunjukkeun pengumuman pilem, ngamungkinkeun anjeun milih bioskop, acara, aula sareng tempat, buku sareng mayar tikét. Sacara umum, sagalana nu nonton ukur bisa impian. Tapi pamaké malah teu curiga naon perjuangan titanic pikeun stabilitas jeung diakses loka lumangsung di jero.

Pikeun situs intensif, urang dihasilkeun SLO, SLI, indikator SLA, dimekarkeun arsitéktur sarta infrastruktur, deployed loka, nyetél monitoring sarta alerting. Jeung jauh urang indit.

SLO, SLI, SLA

SLI - indikator tingkat layanan. SLO mangrupikeun tujuan tingkat jasa. SLA - pasatujuan tingkat jasa.

SLA mangrupikeun istilah metodologi ITIL anu ngalambangkeun perjanjian formal antara palanggan jasa sareng supplierna, ngandung katerangan ngeunaan jasa, hak sareng kawajiban pihak sareng, anu paling penting, tingkat kualitas anu disatujuan pikeun nyayogikeun ieu. palayanan.

SLO mangrupikeun tujuan tingkat jasa: nilai target atanapi rentang nilai pikeun tingkat jasa anu diukur ku SLI. Nilai normal pikeun SLO nyaéta "SLI ≤ Target" atanapi "Wates Handap ≤ SLI ≤ Wates Upper".

SLI mangrupikeun indikator tingkat jasa-ukuran kuantitatif anu didefinisikeun sacara saksama tina hiji aspék tingkat jasa anu disayogikeun. Kanggo sabagéan ageung jasa, konci SLI dianggap latency pamundut - sabaraha lila waktu nu diperlukeun pikeun balik respon kana pamundut a. SLIs umum lianna kaasup laju kasalahan, mindeng dikedalkeun salaku fraksi sadaya requests narima, sarta throughput sistem, biasana diukur dina requests per detik.

Anu mimiti, urang bakal megatkeun pesawat, lajeng katresna, lajeng katresna ...

Faktor internal sareng éksternal mimiti "ngarusak" SLO ti menit-menit munggaran. Sagalana tumiba ka pangurus - kasalahan pamekar, gagal infrastruktur, panyaluran sémah, sareng serangan DDoS. Sagalana nu worsens SLO.

Slurm SRE. Percobaan lengkep sareng ahli ti Booking.com sareng Google.com
"- Pamilon anu hormat, kuring buru-buru nyenangkeun anjeun, hal anu munggaran anjeun gagal nyaéta ... sadayana!"

Sapanjang jalan, panyatur ngabahas stabilitas, anggaran kasalahan, prakték tés, manajemén gangguan sareng beban operasional.

Kami sanés tukang kayu, sanés tukang kayu...

Lajeng pamilon mimiti ngalereskeun hal - hal utama - ngartos naon grab munggaran.

Slurm SRE. Percobaan lengkep sareng ahli ti Booking.com sareng Google.com
"- Gusti, abdi henteu kantos ningali éta rusak sapertos kieu, dina wujud ieu sareng dina posisi sapertos kitu!"

Ku kituna, kacilakaan lumangsung. Ladenan ngolah pamayaran turun. Kumaha tindakan pikeun mulangkeun fungsionalitas dina waktos anu paling pondok?

Slurm SRE. Percobaan lengkep sareng ahli ti Booking.com sareng Google.com
Para ahli, pilari affectionately di pamilon, Nyiapkeun trik sejen.

Unggal tim organizes karya grup pikeun ngaleungitkeun kacilakaan - ngalibatkeun kolega, ngabéjaan pihak kabetot (stakeholders). Dina waktos anu sami, prioritas diatur. Ku cara kieu, pamilon dilatih pikeun digawé dina tekenan dina kaayaan waktu anu pohara kawates.

Slurm SRE. Percobaan lengkep sareng ahli ti Booking.com sareng Google.com
"Horor naon anu kaluar?!"

Gempur... jeung rengse latihan

Babarengan narasumber, sanggeus unggal masalah ieu direngsekeun sarta situs ieu samentara stabilized, tim nalungtik kajadian tina hiji sudut pandang SRE. Kami nganalisis masalah sacara rinci - anu nyababkeun kajadian, kamajuan ngaleungitkeun. Saatos éta, duanana tim-demi-tim sareng sacara koléktif, urang nyandak kaputusan ngeunaan cara nyegah aranjeunna: kumaha carana ningkatkeun ngawaskeun, kumaha bijaksana ngarobih arsitéktur, kumaha nyaluyukeun pendekatan kana pamekaran sareng operasi, kumaha ngabenerkeun peraturan. Para panyatur nunjukkeun prakték ngalaksanakeun post-mortem.

Slurm SRE. Percobaan lengkep sareng ahli ti Booking.com sareng Google.com
“Saha deui nu hayang siksaan! - ABDI!"

Kasuksésan tim sacara ketat sareng jelas dirékam dina papan skor éléktronik.

Slurm SRE. Percobaan lengkep sareng ahli ti Booking.com sareng Google.com

Pikeun tempat munggaran - bonus ti stakeholder.

Slurm SRE. Percobaan lengkep sareng ahli ti Booking.com sareng Google.com

sumber: www.habr.com

Tambahkeun komentar