Yadda na yi mako guda a matsayin injiniyan injiniya na SRE. Yin aiki ta idanun injiniyan software

Yadda na yi mako guda a matsayin injiniyan injiniya na SRE. Yin aiki ta idanun injiniyan software

Injiniyan SRE - mai horarwa

Da farko, bari in gabatar da kaina. I - @tristan. karanta, Injiniya na gaba a cikin rukuni Saka idanu:: Lafiya GitLab. A makon da ya gabata na sami girmamawar shiga tsakani tare da ɗaya daga cikin injiniyoyinmu na SRE mai kira. Manufar ita ce lura da yadda jami'in da ke aiki ke amsa abubuwan da suka faru a kullum da kuma samun kwarewa ta rayuwa a kan aikin. Muna son injiniyoyinmu su kara fahimtar bukatun masu amfani ayyuka Saka idanu:: Lafiya.

Dole ne in bi injiniyan SRE a ko'ina na tsawon mako guda. Wato, na kasance a wurin mika mulki, na lura da tashoshin faɗakarwa guda ɗaya kuma na amsa abubuwan da suka faru idan da kuma lokacin da suka faru.

Abubuwan da suka faru

An samu aukuwa guda 2 a cikin mako guda.

1. Cryptominer

GitLab.com ya ga tsalle a cikin amfani ranar Laraba GitLab Runner'a, wanda ya haifar da yunƙurin amfani da mintuna na mai gudu don haƙa cryptocurrency. An magance lamarin ta hanyar amfani da namu kayan aikin kawar da keta, wanda ke dakatar da ayyukan mai gudu kuma yana share aikin da asusun da ke da alaƙa da shi.

Idan ba a lura da wannan taron ba, kayan aiki mai sarrafa kansa zai kama shi, amma a wannan yanayin, injiniyan SRE ya fara lura da cin zarafi. An ƙirƙiri wani aikin da ya faru, amma an rufe bayaninsa.

2. Ayyukan lalata na Canary da Babban aikace-aikace

Lamarin ya faru ne ta hanyar raguwa da kuma ƙara yawan kurakurai a cikin canary da manyan aikace-aikacen yanar gizo akan Gitlab.com. An keta ƙimar Apdex da yawa.

Bude aikin da ya faru: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442

Nemo Mabuɗi

Ga 'yan abubuwan da na koya a cikin makon da nake aiki.

1. Faɗakarwa suna da amfani yayin gano sabani daga al'ada.

Ana iya raba faɗakarwa zuwa nau'i da yawa:

  • Fadakarwa dangane da takamaiman ƙimar kofa, kamar "kurakurai 10 5xx sun faru a sakan daya."
  • Faɗakarwa a cikin abin da ƙofa ya kasance ƙimar kaso kamar "yawan kurakurai 5xx a cikin 10% na jimlar ƙarar buƙatun a wani lokaci."
  • Faɗakarwa dangane da matsakaicin tarihi kamar "Kurakurai 5xx a kashi 90th".

Gabaɗaya magana, nau'ikan 2 da 3 sun fi amfani ga SREs akan aiki, tunda suna bayyana sabani daga al'ada a cikin tsari.

2. Yawancin faɗakarwa ba sa haɓaka zuwa abubuwan da suka faru.

Injiniyoyin SR suna hulɗa da faɗakarwa akai-akai, yawancin su ba su da mahimmanci.

Don haka me ya sa ba za ku iyakance faɗakarwar ku ga waɗanda suke da mahimmanci kawai ba? Tare da wannan tsarin, duk da haka, ƙila ba za ku gane farkon alamun abin da zai yi dusar ƙanƙara a cikin matsala ta ainihi da ke barazanar babbar lalacewa ba.

Aikin kira na SRE shine sanin wane faɗakarwa a zahiri ke nuna wani abu mai mahimmanci, da kuma ko suna buƙatar haɓakawa da magance su. Ina tsammanin wannan kuma saboda rashin daidaituwar faɗakarwa: zai fi kyau idan akwai matakai da yawa ko hanyoyin "masu wayo" don saita faɗakarwa daidai da yanayin da aka bayyana a sama.

Shawarar fasali: https://gitlab.com/gitlab-org/gitlab/issues/42633

3. SREs ɗin mu a kan aiki suna amfani da kayan aiki da yawa.

Na ciki:

  • GitLab infra project: runbooks suna zaune a nan, ayyukan motsa jiki/mako, ayyukan mayar da martani.
  • Batutuwan GitLab: Ana kuma bin diddigin bincike, bita, da kiyayewa a cikin batutuwa.
  • Takaddun GitLab: Ana ƙaddamar da ayyuka na atomatik ta amfani da takamaiman lakabi, waɗanda bots ke amfani da su don bin ayyukan ɗawainiya.

Na waje:

  • PagerDuty: Faɗakarwa
  • Slack: PagerDuty/AlertManager saƙon saƙon yana tafiya nan. Haɗin kai tare da umarnin slash don aiwatar da ayyuka iri-iri, kamar rufe faɗakarwa ko haɓaka zuwa wani lamari.
  • Grafana: hangen nesa na ma'auni tare da mai da hankali kan yanayin dogon lokaci.
  • Kibana: Yana ba da hangen nesa/binciken log, ikon tona zurfi cikin takamaiman abubuwan da suka faru.
  • Zuƙowa: Akwai “ɗakin fashewa” koyaushe a cikin Zuƙowa. Wannan yana ba da damar injiniyoyin SRE don tattauna abubuwan da suka faru da sauri ba tare da ɓata lokaci mai mahimmanci ƙirƙirar ɗaki da haɗa mahalarta ba.

Da sauran su da yawa.

4. Kulawa da GitLab.com tare da GitLab maki ɗaya ne na gazawa

Idan GitLab.com ya fuskanci babban rashin sabis, ba ma son ya yi tasiri ga ikonmu na warware matsalar. Ana iya dakatar da shi ta ƙaddamar da misalin GitLab na biyu don sarrafa GitLab.com. A zahiri, wannan ya riga ya yi mana aiki: https://ops.gitlab.net/.

5. Wasu fasaloli don la'akari da ƙara zuwa GitLab

  • Gyara ɗawainiyar masu amfani da yawa, kama da Google Docs. Wannan zai taimaka tare da ayyuka a kan abubuwan da suka faru a yayin wani taron, da kuma ayyuka akan bayyani. A lokuta biyu, mahalarta da yawa na iya buƙatar ƙara wani abu a ainihin lokacin.
  • Ƙarin ƙugiya don ayyuka. Ikon gudanar da matakai daban-daban na GitLab daga ciki zai taimaka rage dogaro da haɗin gwiwar Slack. Misali, ikon ba da damar faɗakarwa a cikin PagerDuty ta hanyar slash umarni a cikin batun GitLab.
    ƙarshe

Injiniyoyin SRE suna da wahala tare da abubuwa masu yawa. Zai yi kyau a ga ƙarin samfuran GitLab suna magance waɗannan batutuwa. Mun riga muna aiki akan wasu ƙari ga samfurin wanda zai sauƙaƙa ayyukan ayyukan da aka ambata a sama. Ana samun cikakkun bayanai a Ops Samfuran hangen nesa.

Muna fadada ƙungiyar a cikin 2020 don haɗa duk waɗannan manyan abubuwan tare. Idan sha'awar, da fatan za a duba guraben aiki, kuma jin kyauta don tuntuɓar kowa a cikin ƙungiyarmu da kowace tambaya.

source: www.habr.com

Add a comment