Kumaha kuring nyéépkeun saminggu salaku intern insinyur SRE. Kawajiban ngaliwatan panon insinyur software

Kumaha kuring nyéépkeun saminggu salaku intern insinyur SRE. Kawajiban ngaliwatan panon insinyur software

SRE insinyur - trainee

Kahiji, hayu atuh ngenalkeun diri. ABDI - @tristan.baca, insinyur hareup-tungtung di grup Monitor:: Kaséhatan GitLab. Minggu kamari kuring ngagaduhan kahormatan interning sareng salah sahiji insinyur SRE on-call kami. Tujuanana nya éta pikeun niténan kumaha perwira on-tugas ngabales insiden dina dasar poean sarta mangtaun pangalaman real-hirup dina pakasaban. Kami hoyong insinyur urang langkung ngartos kabutuhan pangguna fungsi Monitor:: Kaséhatan.

Kuring kungsi nuturkeun insinyur SRE madhab salila saminggu. Hartina, kuring hadir dina handover nu, diawaskeun saluran waspada sarua jeung ngabales insiden lamun jeung iraha eta lumangsung.

Kajadian

Aya 2 kajadian dina saminggu.

1. Cryptominer

GitLab.com ningali luncat dina panggunaan dinten Rebo GitLab Runner'a, disababkeun ku usaha ngagunakeun menit runner urang cryptocurrency milik. Kajadian éta diurus nganggo alat nétralisasi pelanggaran urang sorangan, anu ngeureunkeun tugas pelari sareng ngahapus proyék sareng akun anu aya hubunganana.

Mun acara ieu teu acan noticed, hiji alat otomatis bakal nyekel eta, tapi dina hal ieu, insinyur SRE noticed palanggaran munggaran. Tugas kajadian didamel, tapi inpormasi ngeunaan éta ditutup.

2. degradasi kinerja Kanaria sarta aplikasi Utama

Kajadian ieu disababkeun ku slowdowns sarta ngaronjat frékuénsi kasalahan dina kanaria sarta aplikasi wéb utama dina Gitlab.com. Sababaraha nilai Apdex dilanggar.

Buka tugas kajadian: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442

Milarian Konci

Ieu sababaraha hal anu kuring diajar salami minggu kuring tugas.

1. Siaga anu pang gunana lamun detecting simpangan tina norma.

Siaga bisa dibagi kana sababaraha jenis:

  • Tanda dumasar kana nilai ambang anu tangtu, sapertos "10 5xx kasalahan lumangsung per detik."
  • Tanda anu ambangna mangrupikeun nilai persentase sapertos "frékuénsi kasalahan 5xx per 10% tina total volume pamundut dina waktos anu ditangtukeun."
  • Tanda dumasar kana rata-rata sajarah sapertos "5xx errors at 90th percentile".

Umumna disebutkeun, tipe 2 jeung 3 leuwih mangpaat pikeun SREs on tugas, sabab nembongkeun simpangan tina norma dina prosés.

2. Loba ngageter pernah escalate kana insiden.

Insinyur SR nungkulan aliran panggeuing anu tetep, seueur anu henteu kritis.

Janten naha henteu ngawatesan panggeuing anjeun ngan ukur anu penting pisan? Kalawan pendekatan ieu, kumaha oge, Anjeun bisa jadi teu ngakuan gejala awal naon bakal snowball kana masalah nyata anu ngancam karuksakan utama.

Tugas SRE dina telepon nyaéta pikeun nangtukeun panggeuing mana anu leres-leres nunjukkeun hal anu serius, sareng naha éta kedah ditingkatkeun sareng diurus. Kuring curiga ieu ogé disababkeun ku inflexibility tina panggeuing: bakal leuwih hadé mun aya sababaraha tingkat atawa "pinter" cara pikeun ngonpigurasikeun ngabejaan luyu jeung kaayaan ditétélakeun di luhur.

Saran Fitur: https://gitlab.com/gitlab-org/gitlab/issues/42633

3. SREs kami on tugas ngagunakeun loba parabot.

internal:

  • Proyék infra GitLab: runbook cicing di dieu, tugas shift / minggu, tugas réspon kajadian.
  • Masalah GitLab: Investigation, ulasan, sareng pangropéa ogé dilacak dina masalah.
  • Labél GitLab: Tugas otomasi diluncurkeun nganggo labél khusus, anu dianggo ku bot pikeun ngalacak kagiatan tugas.

jaba:

  • PagerDuty: Siaga
  • Slack: Aliran pesen PagerDuty / AlertManager angkat ka dieu. Integrasi sareng paréntah slash pikeun ngalakukeun rupa-rupa pancén, sapertos nutup waspada atanapi naék kana kajadian.
  • Grafana: visualisasi métrik kalayan fokus kana tren jangka panjang.
  • Kibana: Méré visualisasi / pilarian log, kamampuhan pikeun ngagali deeper kana acara husus.
  • Zoom: Aya "kamar breakout" anu terus-terusan di Zoom. Hal ieu ngamungkinkeun insinyur SRE gancang ngabahas acara tanpa wasting waktu berharga nyieun kamar sarta linking pamilon.

Jeung loba loba batur.

4. Ngawaskeun GitLab.com sareng GitLab mangrupikeun titik gagalna

Upami GitLab.com ngalaman gangguan jasa anu ageung, kami henteu hoyong éta mangaruhan kamampuan urang pikeun ngabéréskeun masalah éta. Éta tiasa dieureunkeun ku ngaluncurkeun conto GitLab kadua pikeun ngatur GitLab.com. Kanyataanna, ieu geus lumaku pikeun urang: https://ops.gitlab.net/.

5. Sababaraha fitur mertimbangkeun nambahkeun kana GitLab

  • Ngédit tugas multi-pamaké, sarupa jeung Google Docs. Ieu bakal ngabantuan tugas dina kajadian salila hiji acara, kitu ogé tugas on debriefing. Dina duanana kasus, sababaraha pamilon bisa jadi kudu nambahkeun hiji hal sacara real waktu.
  • Langkung webhooks pikeun tugas. Kamampuhan pikeun ngajalankeun léngkah-léngkah alur kerja GitLab anu béda ti jero bakal ngabantosan anjeun ngandelkeun integrasi Slack. Contona, kamampuhan pikeun ngidinan waspada di PagerDuty via paréntah slash dina masalah GitLab.
    kacindekan

Insinyur SRE gaduh waktos susah sareng seueur pajeulitna. Éta langkung saé pikeun ningali langkung seueur produk GitLab pikeun ngatasi masalah ieu. Kami parantos ngusahakeun sababaraha tambahan pikeun produk anu bakal ngagampangkeun alur kerja anu disebatkeun di luhur. Rinci sadia di Bagian Visi Produk Ops.

Kami ngalegaan tim di 2020 pikeun ngahijikeun sadaya fitur hébat ieu. Mun kabetot, mangga pariksa kaluar lowongan, sareng ngarasa Luncat ngahubungan saha waé dina tim kami upami aya patarosan.

sumber: www.habr.com

Tambahkeun komentar