Wéi ech eng Woch als SRE Ingenieur Stagiaire verbruecht hunn. Pflicht duerch d'Ae vun engem Software Ingenieur

Wéi ech eng Woch als SRE Ingenieur Stagiaire verbruecht hunn. Pflicht duerch d'Ae vun engem Software Ingenieur

SRE Ingenieur - Stagiaire

Als éischt, loosst mech mech virstellen. ech - @tristan.liesen, Front-End Ingenieur an der Grupp Monitor :: Gesondheet GitLab. Déi lescht Woch hat ech d'Éier fir bei engem vun eisen On-Call SRE Ingenieuren ze internéieren. D'Zil war et ze beobachten wéi den Offizéier op der Pflicht all Dag op Tëschefäll reagéiert huet an real-Liewen Erfahrung op der Aarbecht ze kréien. Mir wëllen datt eis Ingenieuren d'Benotzerbedürfnisser besser verstoen Funktiounen Monitor :: Gesondheet.

Ech hu missen de SRE Ingenieur iwwerall eng Woch verfollegen. Dat heescht, ech war bei der Iwwerreechung präsent, hunn déiselwecht Alarmkanäl iwwerwaacht an op Tëschefäll reagéiert wann a wann se optrieden.

Tëschefäll

Et goufen 2 Tëschefäll bannent enger Woch.

1. Cryptominer

GitLab.com huet e Sprang am Gebrauch um Mëttwoch gesinn GitLab Runner'a, verursaacht duerch Versich, d'Minuten vum Leefer ze benotzen fir d'Krypto Währung ze grënnen. Den Tëschefall gouf mat eisem eegene Violatiounsneutraliséierungsinstrument behandelt, wat d'Aufgaben vum Leefer stoppt an de Projet a Kont läscht, dee mat him verbonnen ass.

Wann dëst Evenement net gemierkt gouf, hätt en automatiséiert Tool et gefaangen, awer an dësem Fall huet de SRE Ingenieur d'Verletzung als éischt gemierkt. Eng Tëschefalltask gouf erstallt, awer Informatioun doriwwer ass zou.

2. Leeschtung Degradatioun vun Kanaresch an Main Uwendungen

Den Tëschefall gouf verursaacht duerch Verlängerungen an eng erhéicht Frequenz vu Feeler an de Kanaren an Haaptwebapplikatiounen op Gitlab.com. Verschidde Apdex Wäerter goufen verletzt.

Open Tëschefall Aufgab: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442

Schlësselfindungen

Hei sinn e puer Saachen, déi ech während menger Woch op Pflicht geléiert hunn.

1. Alarmer sinn am nëtzlechsten wann Dir Ofwäichunge vun der Norm erkennt.

Alarmer kënnen an e puer Typen opgedeelt ginn:

  • Alarmer baséiert op engem bestëmmte Schwellwäert, sou wéi "10 5xx Feeler sinn pro Sekonn geschitt."
  • Alarmer an deenen d'Schwell e Prozentsazwäert ass wéi "Frequenz vu 5xx Feeler pro 10% vum Gesamtvolumen vun Ufroe zu enger bestëmmter Zäit."
  • Alarmer baséiert op historeschen Duerchschnëtt wéi "5xx Feeler am 90. Prozenttil".

Allgemeng sinn d'Typen 2 an 3 méi nëtzlech fir SREs op Flicht, well se Ofwäichunge vun der Norm am Prozess verroden.

2. Vill Alarmer eskaléieren ni zu Tëschefäll.

SR Ingenieuren këmmeren sech mat engem konstante Stroum vun Alarmer, vill vun deenen net tatsächlech kritesch sinn.

Also firwat net d'Alarme limitéiert op nëmmen déi wierklech wichteg? Mat dëser Approche kënnt Dir awer d'fréi Symptomer net erkennen, wat Schnéiball an e richtege Problem gëtt, dee grousse Schued bedroht.

Dem SRE seng Aufgab ass et ze bestëmmen wéi eng Alarmer tatsächlech eppes sérieux weisen, an ob se musse eskaléiert a behandelt ginn. Ech de Verdacht datt dëst och wéinst der Inflexibilitéit vun den Alarmer ass: et wier besser wann et e puer Niveauen oder "schlau" Weeër wier fir Alarmer am Aklang mat der Situatioun ze konfiguréieren déi hei uewen beschriwwe gëtt.

Feature Suggestioun: https://gitlab.com/gitlab-org/gitlab/issues/42633

3. Eis SREs op Flicht benotzen vill Tools.

Intern:

  • GitLab Infra Projet: Runbooks liewen hei, Verréckelung / Woch Uerderen, Tëschefall Äntwert Aufgaben.
  • GitLab Themen: Ermëttlungen, Rezensiounen an Ënnerhalt ginn och an Themen verfollegt.
  • GitLab Etiketten: Automatiséierungsaufgaben ginn mat spezifesche Etiketten gestart, déi Bots benotze fir Taskaktivitéit ze verfolgen.

Extern:

  • PagerDuty: Alarmer
  • Slack: PagerDuty / AlertManager Message Flux geet hei. Integratioun mat Slash Kommandoen fir eng Vielfalt vun Aufgaben auszeféieren, sou wéi eng Alarm zoumaachen oder zu engem Tëschefall eskaléieren.
  • Grafana: Visualiséierung vu Metriken mat engem Fokus op laangfristeg Trends.
  • Kibana: Gëtt Visualiséierung / Log Sich, Fäegkeet fir méi déif a spezifesch Eventer ze gräifen.
  • Zoom: Et gëtt e konstant lafend "Breakout Raum" am Zoom. Dëst erlaabt SRE Ingenieuren séier Eventer ze diskutéieren ouni wäertvoll Zäit ze verschwenden e Raum ze kreéieren an d'Participanten ze verbannen.

A vill vill anerer.

4. Iwwerwaachung GitLab.com mat GitLab ass en eenzege Punkt vum Echec

Wann GitLab.com e grousse Serviceausfall erliewt, wëlle mir net datt et eis Fäegkeet beaflosst d'Thema ze léisen. Et kann gestoppt ginn andeems Dir eng zweet GitLab Instanz lancéiert fir GitLab.com ze managen. Tatsächlech funktionnéiert dëst scho fir eis: https://ops.gitlab.net/.

5. E puer Features fir ze betruechten fir GitLab ze addéieren

  • Multi-Benotzer Aufgab Redaktioun, ähnlech wéi Google Docs. Dëst géif hëllefen mat Aufgaben op Tëschefäll während engem Event, souwéi Aufgaben op Debriefing. A béide Fäll musse verschidde Participanten eventuell eppes an Echtzäit derbäisetzen.
  • Méi Webhooks fir Aufgaben. D'Kapazitéit fir verschidde GitLab Workflow Schrëtt vu bannen auszeféieren hëlleft Är Ofhängegkeet op Slack Integratiounen ze reduzéieren. Zum Beispill d'Fäegkeet fir eng Alarm an PagerDuty iwwer e Slash Kommando an engem GitLab Thema z'erméiglechen.
    Konklusioun

SRE Ingenieuren hunn eng schwéier Zäit mat vill Komplexitéiten. Et wier super fir méi GitLab Produkter ze gesinn déi dës Themen adresséieren. Mir schaffen schonn un e puer Ergänzunge vum Produkt, déi d'Workflows erwähnt méi einfach maachen. Detailer verfügbar um Ops Product Vision Rubrik.

Mir erweideren d'Team am Joer 2020 fir all dës super Features zesummen ze bréngen. Wann interesséiert, kuckt weg fräi Plazen, a fille sech gratis fir jiddereen vun eisem Team mat all Froen ze kontaktéieren.

Source: will.com

Setzt e Commentaire