Yadda na yi mako guda a matsayin injiniyan injiniya na SRE. Yin aiki ta idanun injiniyan software

Yadda na yi mako guda a matsayin injiniyan injiniya na SRE. Yin aiki ta idanun injiniyan software

Injiniyan SRE - mai horarwa

Da farko, bari in gabatar da kaina. Ni ne @tristan. karanta, Injiniya na gaba a cikin rukuni Saka idanu:: Lafiya GitLab. Makon da ya gabata, na sami damar yin hulɗa tare da ɗaya daga cikin injiniyoyinmu na SRE mai kira. Manufar ita ce lura da yadda injiniyan kira ya amsa abubuwan da suka faru a kullum da kuma samun kwarewa ta gaske. Muna son injiniyoyinmu su kara fahimtar bukatun masu amfani. ayyuka Saka idanu:: Lafiya.

An ba ni aikin inuwa injiniyan SRE na mako guda. Wannan yana nufin na kasance a wurin mika mulki, ina lura da tashoshin faɗakarwa iri ɗaya, da kuma amsa abubuwan da suka faru idan da kuma lokacin da suka faru.

Abubuwan da suka faru

An samu aukuwa 2 a cikin mako guda.

1. Cryptominer

GitLab.com ya ga karuwar amfani a ranar Laraba. GitLab RunnerAn ba da rahoton cin zarafin da aka yi ta ƙoƙarin amfani da mintuna masu gudu don hakar cryptocurrency. An warware lamarin ta hanyar amfani da kayan aikin mu na ragewa, wanda ke ƙare ayyukan mai gudu da share aikin da aka haɗa.

Idan ba a lura da wannan taron ba, da an kama shi ta hanyar kayan aiki mai sarrafa kansa, amma a wannan yanayin, injiniyan SRE ya fara lura da cin zarafi. An ƙirƙiri wani aiki don abin da ya faru, amma an rufe bayanai game da shi.

2. Ayyukan lalata na Canary da Babban aikace-aikace

Lamarin ya samo asali ne ta hanyar raguwa da karuwar kuskure a cikin canary da manyan aikace-aikacen yanar gizo akan Gitlab.com. An keta ƙimar Apdex da yawa.

Bude ɗawainiya don abin da ya faru: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442

Nemo Mabuɗi

Ga 'yan abubuwan da na koya a cikin makon da nake aiki.

1. Faɗakarwa sun fi amfani idan sun gano sabani daga al'ada.

Ana iya raba sanarwar zuwa nau'i da yawa:

  • Faɗakarwa bisa ƙayyadaddun ƙira, kamar "kurakurai 10 5xx sun faru a sakan daya."
  • Faɗakarwa inda bakin kofa ya kasance ƙimar kaso kamar "kuɗin kurakurai 5xx a cikin 10% na jimlar ƙarar buƙata a wani lokaci."
  • Faɗakarwa dangane da matsakaicin tarihin tarihi kamar "Kurakurai 5xx a cikin kashi 90th".

Gabaɗaya magana, Nau'in 2 da 3 sun fi amfani ga SREs-kira saboda suna bayyana sabani daga al'ada a cikin tsari.

2. Yawancin faɗakarwa ba su taɓa yin girma zuwa abubuwan da suka faru ba

Injiniyoyin SR suna hulɗa da faɗakarwa akai-akai, yawancin su ba su da mahimmanci.

Don haka me ya sa ba za a iyakance faɗakarwa ga waɗanda ke da mahimmanci kawai ba? Koyaya, wannan hanyar zata iya rasa alamun faɗakarwa da wuri na abin da zai iya yin dusar ƙanƙara cikin matsala ta gaske da ke barazanar babbar lalacewa.

Aikin SRE na kan aiki shine sanin waɗanne faɗakarwa suke da gaske kuma ko suna buƙatar haɓaka da bincike. Ina tsammanin wannan kuma saboda tsattsauran faɗakarwa: zai fi kyau a gabatar da matakan da yawa ko hanyoyin "smart" don saita faɗakarwa bisa ga yanayin da aka bayyana a sama.

Shawarar fasali: https://gitlab.com/gitlab-org/gitlab/issues/42633

3. SREs na kiran mu suna amfani da kayan aiki da yawa

Na ciki:

  • GitLab infra Project: gida zuwa runbooks, canjawa/ mika aikin mako-mako, da ayyukan mayar da martani.
  • Abubuwan da suka shafi GitLab: bincike, bita, da kiyayewa kuma ana bin su cikin ayyuka.
  • Takaddun GitLab: Ayyuka na atomatik suna haifar da takamaiman takalmi, waɗanda bots ke amfani da su don bin diddigin ayyukan ɗawainiya.

Na waje:

  • PagerDuty: Faɗakarwa
  • Slack: Anan ne ake aika saƙonnin PagerDuty/AlertManager. Haɗin kai tare da umarnin slash yana ba da damar ayyuka daban-daban, kamar korar faɗakarwa ko haɓaka shi zuwa wani lamari.
  • Grafana: Halayen ma'auni tare da mai da hankali kan abubuwan da ke faruwa na dogon lokaci.
  • Kibana: Yana ba da gani/bincike log, ikon tona zurfi cikin takamaiman abubuwan da suka faru.
  • Zuƙowa: Zuƙowa yana da "ɗakin fashewa." Wannan yana ba da damar injiniyoyin SRE don tattauna abubuwan da suka faru da sauri ba tare da ɓata lokaci mai daraja ƙirƙirar ɗaki da raba hanyar haɗin gwiwa tare da mahalarta ba.

Kuma da yawa, da yawa.

4. Kulawa da GitLab.com tare da GitLab maki ɗaya ne na gazawa

Idan GitLab.com ya fuskanci babban rashin sabis, ba za mu so ya yi tasiri ga ikonmu na warware matsalar ba. Ana iya rage wannan ta hanyar ƙaddamar da misalin GitLab na biyu don sarrafa GitLab.com. A gaskiya, wannan yana aiki a gare mu: https://ops.gitlab.net/.

5. Wasu fasaloli don la'akari da ƙara zuwa GitLab

  • Gyara ɗawainiyar masu amfani da yawa, kama da Google Docs. Wannan zai zama taimako ga ayyukan da suka shafi abin da ya faru a yayin wani taron, da kuma ga yin bayani. A kowane hali, mahalarta da yawa na iya buƙatar ƙara wani abu a ainihin lokacin.
  • Ƙarin ƙugiya don ayyuka. Ikon haifar da matakai daban-daban na GitLab a cikin gida zai taimaka rage dogaro ga haɗin gwiwar Slack. Misali, ikon kunna sanarwar a cikin PagerDuty ta hanyar slash umarni a cikin aikin GitLab.
    ƙarshe

Injiniyoyin SRE suna fuskantar ƙalubale da yawa. Zai yi kyau a ga ƙarin samfuran GitLab suna magance waɗannan batutuwa. Mun riga muna aiki akan wasu ƙarin samfura waɗanda zasu sauƙaƙa ayyukan aiki da aka ambata a sama. Ana samun cikakkun bayanai a ciki Ops Samfuran hangen nesa.

A cikin 2020, muna haɓaka ƙungiyarmu don haɗa duk waɗannan manyan abubuwan tare. Idan kuna sha'awar, da fatan za a duba guraben aiki, kuma jin kyauta don tuntuɓar kowane ɗayan ƙungiyarmu tare da kowace tambaya.

source: www.habr.com

Sayi amintaccen masauki don shafuka tare da kariyar DDoS, sabar VPS VDS 🔥 Sayi ingantaccen masaukin yanar gizo tare da kariyar DDoS, sabar VPS VDS | ProHoster