Carane aku ngginakaken minggu minangka SRE engineer intern. Tugas liwat mata insinyur piranti lunak

Carane aku ngginakaken minggu minangka SRE engineer intern. Tugas liwat mata insinyur piranti lunak

SRE engineer - trainee

Kawitan, sumangga kula aturaken. aku- @tristan.maca, insinyur ngarep ing grup Monitor:: Kesehatan GitLab. Minggu kepungkur aku duwe pakurmatan interning karo salah sawijining insinyur SRE on-call. Tujuane yaiku kanggo mirsani carane petugas sing tugas nanggapi kedadeyan saben dina lan entuk pengalaman nyata ing pakaryan kasebut. Kita pengin insinyur kita luwih ngerti kabutuhan pangguna fungsi Monitor:: Kesehatan.

Aku kudu ngetutake insinyur SRE ing endi-endi sajrone seminggu. Yaiku, aku ana ing handover, ngawasi saluran tandha sing padha lan nanggapi kedadeyan yen lan nalika kedadeyan kasebut.

Kedadeyan

Ana 2 kedadeyan sajrone seminggu.

1. Crypto miner

GitLab.com ndeleng lompat ing panggunaan nalika Rebo GitLab Runner'a, disebabake nyoba kanggo nggunakake menit runner kanggo mine cryptocurrency. Kedadean kasebut ditangani kanthi nggunakake alat netralisasi pelanggaran dhewe, sing mandhegake tugas pelari lan mbusak proyek lan akun sing ana gandhengane.

Yen acara iki ora diweruhi, alat otomatis bakal kejiret, nanging ing kasus iki, insinyur SRE ngerteni pelanggaran kasebut luwih dhisik. Tugas kedadeyan digawe, nanging informasi babagan iki ditutup.

2. Degradasi kinerja Canary lan aplikasi Utama

Kedadeyan iki disebabake dening slowdowns lan tambah frekuensi saka kasalahan ing kenari lan aplikasi web utama ing Gitlab.com. Sawetara nilai Apdex dilanggar.

Bukak tugas kedadean: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442

Penemuan Kunci

Mangkene sawetara perkara sing daksinaoni sajrone tugas minggu.

1. Tandha paling migunani nalika ndeteksi penyimpangan saka norma.

Tandha bisa dipΓ©rang dadi sawetara jinis:

  • Tandha adhedhasar nilai ambang tartamtu, kayata "10 5xx ana kesalahan saben detik."
  • Tandha sing ambang minangka nilai persentase kayata "frekuensi kesalahan 5xx saben 10% saka total volume panjalukan ing wektu tartamtu."
  • Tandha adhedhasar rata-rata sajarah kayata "5xx errors at 90th percentile".

UmumΓ©, jinis 2 lan 3 luwih migunani kanggo SRE sing tugas, amarga padha mbukak panyimpangan saka norma ing proses kasebut.

2. Akeh tandha ora tau escalate kanggo kedadean.

Insinyur SR ngatasi aliran tandha sing terus-terusan, akeh sing ora kritis.

Dadi apa ora mbatesi tandha mung sing penting banget? Kanthi pendekatan iki, Nanging, sampeyan bisa uga ora ngenali gejala awal saka apa sing bakal bola salju dadi masalah nyata sing ngancam karusakan gedhe.

Tugas SRE sing ana ing telpon yaiku kanggo nemtokake tandha sing bener-bener nuduhake ana sing serius, lan apa sing kudu ditindakake lan ditangani. Aku curiga iki uga amarga infleksibilitas tandha: luwih apik yen ana sawetara tingkat utawa cara "pinter" kanggo ngatur tandha sesuai karo kahanan sing kasebut ing ndhuwur.

Saran fitur: https://gitlab.com/gitlab-org/gitlab/issues/42633

3. SRE kita sing tugas nggunakake akeh alat.

Internal:

  • Proyek infra GitLab: runbook manggon ing kene, tugas shift / minggu, tugas nanggepi kedadeyan.
  • Masalah GitLab: Investigasi, review, lan pangopΓ¨nan uga dilacak ing masalah.
  • Label GitLab: tugas otomatisasi diluncurake adhedhasar label tartamtu, sing digunakake bot kanggo nglacak kegiatan tugas.

njaba:

  • PagerDuty: Tandha
  • Slack: Aliran pesen PagerDuty/AlertManager mlebu ing kene. Integrasi karo printah miring kanggo nindakake macem-macem tugas, kayata nutup tandha utawa escalating kanggo kedadean.
  • Grafana: visualisasi metrik kanthi fokus ing tren jangka panjang.
  • Kibana: Menehi visualisasi / telusuran log, kemampuan kanggo nggali luwih jero menyang acara tartamtu.
  • Zoom: Ana "ruangan breakout" sing terus mlaku ing Zoom. Iki ngidini insinyur SRE cepet ngrembug acara tanpa mbuwang wektu sing larang nggawe kamar lan ngubungake peserta.

Lan akeh liyane.

4. Ngawasi GitLab.com karo GitLab minangka titik gagal

Yen GitLab.com ngalami gangguan layanan sing gedhe, kita ora pengin menehi pengaruh marang kemampuan kanggo ngatasi masalah kasebut. Bisa dihentikan kanthi ngluncurake conto GitLab kapindho kanggo ngatur GitLab.com. Nyatane, iki wis bisa digunakake kanggo kita: https://ops.gitlab.net/.

5. Sawetara fitur sing kudu ditambahake menyang GitLab

  • Suntingan tugas multi pangguna, padha karo Google Docs. Iki bakal mbantu tugas babagan kedadeyan sajrone acara, uga tugas babagan debriefing. Ing kasus loro, sawetara peserta bisa uga kudu nambah soko ing wektu nyata.
  • Webhook liyane kanggo tugas. Kemampuan kanggo mbukak langkah-langkah alur kerja GitLab sing beda-beda saka njero bakal mbantu nyuda ketergantungan sampeyan ing integrasi Slack. Contone, kemampuan kanggo ngidini tandha ing PagerDuty liwat printah miring ing masalah GitLab.
    kesimpulan

Insinyur SRE duwe wektu angel karo kerumitan sing akeh. Iku bakal apik kanggo ndeleng liyane GitLab produk ngatasi masalah iki. Kita wis nggarap sawetara tambahan kanggo produk sing bakal nggawe alur kerja sing kasebut ing ndhuwur luwih gampang. Rincian kasedhiya ing Ops Product Vision bagean.

Kita ngembangake tim ing 2020 kanggo nggabungake kabeh fitur sing apik iki. Yen kasengsem, mangga mriksa metu lowongan, lan hubungi sapa wae ing tim kita kanthi pitakonan apa wae.

Source: www.habr.com

Add a comment