Как я неделю был стажером SRE-инженера. Дежурство глазами инженера ПО

Как я неделю был стажером SRE-инженера. Дежурство глазами инженера ПО

Injinia SRE - onye ọzụzụ

Nke mbụ, ka m kọwaa onwe m. m - @tristan.agụ, Injinia n'ihu na otu Nyochaa:: Ahụ ike GitLab. N'izu gara aga enwere m nsọpụrụ nke ịbanye n'otu n'ime ndị injinia SRE na-akpọ oku. Ebumnobi ya bụ ịhụ ka onye ọrụ na-ahụ maka ọrụ si emeghachi omume kwa ụbọchị ma nweta ahụmịhe nke ndụ n'ọrụ ahụ. Ọ ga-amasị anyị ka ndị injinia ghọtakwuo mkpa onye ọrụ ọrụ Nyochaa:: Ahụ ike.

Мне предстояло неделю всюду следовать за SRE-инженером. То есть я присутствовал на передаче дежурства, наблюдал за теми же каналами оповещений и реагировал на инциденты, если и когда таковые имели место.

Ihe omume

Enwere ihe omume 2 n'ime otu izu.

1. Cryptominer

GitLab.com hụrụ mmụba na ojiji na Wednesde GitLab Runner'a, kpatara mgbalị iji nkeji onye na-agba ọsọ na-egwupụta cryptocurrency. Emere ihe omume ahụ site na iji ngwá ọrụ nkwụsị mmebi nke onwe anyị, nke na-akwụsị ọrụ onye na-agba ọsọ ma na-ehichapụ ọrụ na akaụntụ metụtara ya.

Ọ bụrụ na ahụghị ihe omume a, ngwá ọrụ akpaghị aka gaara ejide ya, ma na nke a, SRE engineer hụrụ mmebi ahụ mbụ. Emepụtara ihe omume merenụ, mana emechiela ozi dị na ya.

2. Mmebi arụmọrụ nke Canary na ngwa Main

Инцидент спровоцировали замедления и возросшая частота ошибок в canary и main веб-приложениях на Gitlab.com. Было нарушено несколько значений Apdex.

Mepee ọrụ omume: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442

Nchọta Isi

Nke a bụ ihe ole na ole m mụtara n'ime izu m n'ọrụ.

1. Ntị na-akacha aba uru mgbe ị na-achọpụta ọdịiche sitere na ụkpụrụ.

Enwere ike kewaa ọkwa n'ụdị dị iche iche:

  • Mkpu dabere na uru ọnụ ụzọ, dị ka “mmejọ 10 5xx mere kwa sekọnd.”
  • Mkpu nke ọnụ ụzọ bụ uru pasenti dị ka "ugboro nke njehie 5xx kwa 10% nke mkpokọta arịrịọ n'otu oge."
  • Mkpu dabere na nkezi akụkọ ihe mere eme dị ka "mmejọ 5xx na pasentị 90".

N'ikwu okwu n'ozuzu, ụdị 2 na 3 bara uru karị maka SRE na ọrụ, ebe ọ bụ na ha na-ekpughe ndịiche site na ụkpụrụ na usoro ahụ.

2. Ọtụtụ alerts mgbe abawanye na mere.

Ndị injinia SR na-arụkọ ọrụ mgbasa ozi mgbe niile, ọtụtụ n'ime ha anaghị adị oke egwu.

Ya mere, gịnị ma ị kpachapụ anya naanị ndị dị mkpa n'ezie? Otú ọ dị, site na usoro a, ị nwere ike ị gaghị amata mgbaàmà mbụ nke ihe snowball ga-abụ ezigbo nsogbu nke na-eyi nnukwu mmebi egwu.

Ọrụ SRE na-akpọ oku bụ iji chọpụta ọkwa nke na-egosi ihe dị oke njọ, yana ma ọ dị mkpa ka abawanye ma mesoo ha. M na-eche na nke a bụkwa n'ihi enweghị mgbanwe nke alerts: ọ ga-aka mma ma ọ bụrụ na e nwere ọtụtụ ọkwa ma ọ bụ "smart" ụzọ hazi alerts dị ka ọnọdụ akọwara n'elu.

Atụmatụ atụmatụ: https://gitlab.com/gitlab-org/gitlab/issues/42633

3. Ndị SRE anyị nọ n'ọrụ na-eji ọtụtụ ngwaọrụ.

N'ime:

  • GitLab infra Project: runbooks bi ebe a, ọrụ mgbanwe/izu, ọrụ nzaghachi omume.
  • Okwu GitLab: A na-enyocha nyocha, nlebanya na mmezi na nsogbu.
  • Akara aha GitLab: A na-ewepụta ọrụ akpaaka site na iji akara akpọrọ, nke bots na-eji soro ọrụ ọrụ.

Mpụga:

  • PagerDuty: Mkpu
  • Slack: сюда направляется поток сообщений PagerDuty/AlertManager. Интеграция со слэш-командами для выполнения разнообразных задач, как то: закрыть оповещение или эскалировать до инцидента.
  • Grafana: nleba anya nke metrik na-elekwasị anya na usoro ogologo oge.
  • Kibana: Na-enye nhụta anya/nchọ ndekọ, ike igwu miri emi n'ime ihe omume akọwapụtara.
  • Mbugharị: Enwere “ọnụ ụlọ na-apụ apụ” na-agba ọsọ mgbe niile na mbugharị. Nke a na-enye ndị injinia SRE ohere ngwa ngwa kwurịta ihe omume n'egbughị oge bara uru ịmepụta ọnụ ụlọ na ijikọ ndị sonyere.

Na ọtụtụ ndị ọzọ.

4. Nleba anya GitLab.com na GitLab bụ otu ebe ọdịda

Ọ bụrụ na GitLab.com ahụta oke ọrụ, anyị achọghị ka ọ metụta ikike anyị idozi nsogbu ahụ. Enwere ike ịkwụsị ya site na ịmalite ihe atụ GitLab nke abụọ iji jikwaa GitLab.com. N'ezie, nke a na-arụ ọrụ maka anyị: https://ops.gitlab.net/.

5. Atụmatụ ole na ole ị ga-atụle ịgbakwunye na GitLab

  • Ọtụtụ onye ọrụ edezi ọrụ, аналогичное Google Docs. Это помогло бы в задачах по инцидентам в ходе события, а также в задачах по разборам. В обоих случаях сразу нескольким участникам может понадобиться добавить что-нибудь в реальном времени.
  • nko web ọzọ maka ọrụ. Ikike ịme usoro usoro ọrụ GitLab dị iche iche si n'ime ga-enyere aka belata ịdabere na njikọta Slack. Ọmụmaatụ, ikike inye njikere na PagerDuty site na iwu slash na mbipụta GitLab.
    nkwubi

Ndị injinia SRE nwere oge siri ike na ọtụtụ mgbagwoju anya. Ọ ga-adị mma ịhụ ọtụtụ ngwaahịa GitLab na-ekwu okwu ndị a. Anyị na-arụ ọrụ na ụfọdụ mgbakwunye na ngwaahịa ga-eme ka workflows kwuru n'elu mfe. Nkọwa dị na Ops Ngwaahịa ngalaba ngalaba.

Anyị na-agbasawanye otu na 2020 iji chịkọta ọmarịcha atụmatụ ndị a ọnụ. Ọ bụrụ na ị nwere mmasị, biko lelee ohere, ma nweere onwe gị ịkpọtụrụ onye ọ bụla nọ na otu anyị ajụjụ ọ bụla.

isi: www.habr.com

Tinye a comment