Kijan mwen te pase yon semèn kòm yon estajyè enjenyè SRE. Devwa nan je yon enjenyè lojisyèl

Kijan mwen te pase yon semèn kòm yon estajyè enjenyè SRE. Devwa nan je yon enjenyè lojisyèl

SRE enjenyè - trainee

Premyèman, kite m prezante tèt mwen. mwen - @tristan.read, enjenyè front-end nan gwoup la Siveye::Sante GitLab. Semèn pase a, mwen te gen onè pou m fè yon estaj ak youn nan enjenyè SRE nou yo. Objektif la se te obsève ki jan ofisye an sèvis la reponn a ensidan yo chak jou epi jwenn eksperyans nan lavi reyèl nan travay la. Nou ta renmen enjenyè nou yo pi byen konprann bezwen itilizatè yo fonksyon Siveye::Sante.

Mwen te oblije swiv enjenyè SRE a tout kote pou yon semèn. Sa vle di, mwen te prezan nan pasasyon an, kontwole menm chanèl alèt yo epi reponn a ensidan si ak lè yo te rive.

Ensidan

Te gen 2 ensidan nan yon semèn.

1. Cryptominer

GitLab.com te wè yon ogmantasyon nan itilizasyon Mèkredi GitLab kourè'a, ki te koze pa tantativ yo sèvi ak minit kourè a nan min cryptocurrency. Ensidan an te trete lè l sèvi avèk pwòp zouti netralizasyon vyolasyon nou an, ki sispann travay kourè a epi efase pwojè a ak kont ki asosye ak li.

Si evènman sa a pa te remake, yon zouti otomatik ta kenbe li, men nan ka sa a, enjenyè SRE a remake vyolasyon an an premye. Yo te kreye yon travay ensidan, men enfòmasyon sou li fèmen.

2. Degradasyon pèfòmans nan aplikasyon Canary ak Main

Ensidan an te koze pa ralantisman ak yon ogmantasyon frekans erè nan aplikasyon Canary ak prensipal entènèt sou Gitlab.com. Plizyè valè Apdex yo te vyole.

Travay ensidan louvri: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442

Konklizyon kle yo

Men kèk bagay mwen te aprann pandan semèn mwen nan sèvis.

1. Alèt yo pi itil lè yo detekte devyasyon nan nòmal la.

Alèt yo ka divize an plizyè kalite:

  • Alèt ki baze sou yon sèten valè papòt, tankou "10 5xx erè ki fèt pa segonn."
  • Alèt kote papòt la se yon valè pousantaj tankou "frekans 5xx erè pou chak 10% volim total demann nan yon moman yo bay."
  • Alèt ki baze sou mwayèn istorik tankou "5xx erè nan 90yèm percentile".

Anjeneral pale, kalite 2 ak 3 yo pi itil pou SRE an sèvis, paske yo revele devyasyon nan nòmal nan pwosesis la.

2. Anpil alèt pa janm ogmante nan ensidan.

Enjenyè SR fè fas ak yon kouran konstan nan alèt, anpil nan yo ki pa aktyèlman kritik.

Se konsa, poukisa pa limite alèt ou a sèlman sa yo ki vrèman enpòtan? Avèk apwòch sa a, sepandan, ou ka pa rekonèt sentòm yo byen bonè nan sa ki pral Snowball nan yon pwoblèm reyèl ki menase gwo domaj.

Travay SRE sou apèl la se detèmine ki alèt ki aktyèlman endike yon bagay grav, epi si yo bezwen ogmante epi trete yo. Mwen sispèk sa a se tou akòz enflexibilite nan alèt: li ta pi bon si te gen plizyè nivo oswa "entelijan" fason yo configured alèt an akò ak sitiyasyon ki dekri pi wo a.

Sijesyon karakteristik: https://gitlab.com/gitlab-org/gitlab/issues/42633

3. SRE nou yo an sèvis yo sèvi ak anpil zouti.

Entèn:

  • GitLab infra pwojè: Runbooks ap viv isit la, devwa chanjman/semèn, travay repons ensidan.
  • Pwoblèm GitLab: Envestigasyon, revizyon, ak antretyen yo swiv tou nan pwoblèm.
  • Etikèt GitLab: Travay automatisation yo lanse lè l sèvi avèk etikèt espesifik, ke bots itilize pou swiv aktivite travay.

Eksteryè:

  • PagerDuty: Alèt
  • Slack: Flux mesaj PagerDuty/AlertManager ale isit la. Entegrasyon ak kòmandman koupe pou fè yon varyete travay, tankou fèmen yon alèt oswa eskalade nan yon ensidan.
  • Grafana: vizyalizasyon mezi ak yon konsantre sou tandans alontèm.
  • Kibana: Bay vizyalizasyon / rechèch boutèy demi lit, kapasite pou fouye pi fon nan evènman espesifik.
  • Zoom: Gen yon "sal levasyon" toujou ap kouri nan Zoom. Sa a pèmèt enjenyè SRE yo byen vit diskite sou evènman san yo pa pèdi tan ki gen anpil valè pou kreye yon chanm ak konekte patisipan yo.

Ak anpil anpil lòt.

4. Siveyans GitLab.com ak GitLab se yon sèl pwen echèk

Si GitLab.com fè eksperyans yon gwo pann sèvis, nou pa vle li afekte kapasite nou pou rezoud pwoblèm nan. Li ka sispann lè w lanse yon dezyèm egzanp GitLab pou jere GitLab.com. An reyalite, sa a deja travay pou nou: https://ops.gitlab.net/.

5. Kèk karakteristik pou konsidere ajoute nan GitLab

  • Edisyon travay plizyè itilizatè, menm jan ak Google Docs. Sa a ta ede ak travay sou ensidan pandan yon evènman, osi byen ke travay sou debriefing. Nan de ka yo, plizyè patisipan ka bezwen ajoute yon bagay an tan reyèl.
  • Plis webhooks pou travay. Kapasite nan kouri diferan etap workflow GitLab soti nan pral ede diminye depandans ou sou entegrasyon Slack. Pou egzanp, kapasite pou pèmèt yon alèt nan PagerDuty atravè yon lòd koupe nan yon pwoblèm GitLab.
    Konklizyon

Enjenyè SRE yo gen yon moman difisil ak yon anpil nan konpleksite. Li ta bon pou wè plis pwodwi GitLab adrese pwoblèm sa yo. Nou deja ap travay sou kèk adisyon nan pwodwi a ki pral fè workflows yo mansyone pi wo a pi fasil. Detay ki disponib nan Ops Product Vizyon seksyon.

Nou ap agrandi ekip la an 2020 pou pote tout gwo karakteristik sa yo ansanm. Si enterese, tanpri tcheke deyò pòs vid, epi ou lib pou kontakte nenpòt moun nan ekip nou an ak nenpòt kesyon.

Sous: www.habr.com

Add nouvo kòmantè