Hvernig ég eyddi viku sem SRE verkfræðingur nemi. Skylda með augum hugbúnaðarverkfræðings

Hvernig ég eyddi viku sem SRE verkfræðingur nemi. Skylda með augum hugbúnaðarverkfræðings

SRE verkfræðingur - nemi

Fyrst skal ég kynna mig. ég - @tristan.les, framendaverkfræðingur í hópnum Monitor::Heilsa GitLab. Í síðustu viku fékk ég þann heiður að fara í starfsnám hjá einum af SRE verkfræðingunum okkar á vakt. Markmiðið var að fylgjast með því hvernig vaktstjóri brást við atvikum daglega og öðlast raunverulega reynslu í starfi. Við viljum að verkfræðingar okkar skilji betur þarfir notenda aðgerðir Monitor::Heilsa.

Ég þurfti að fylgja SRE verkfræðingnum alls staðar í viku. Það er að segja að ég var viðstaddur afhendinguna, fylgdist með sömu viðvörunarrásum og svaraði atvikum ef og þegar þau áttu sér stað.

Atvik

Það voru 2 atvik innan viku.

1. Cryptominer

GitLab.com sá stökk í notkun á miðvikudaginn GitLab Runner'a, af völdum tilrauna til að nota mínútur hlauparans til að grafa dulmálsgjaldmiðil. Atvikið var meðhöndlað með því að nota okkar eigin brotahlutleysisverkfæri, sem stöðvar verkefni hlauparans og eyðir verkefninu og reikningnum sem tengjast því.

Ef ekki hefði verið tekið eftir þessum atburði hefði sjálfvirkt tæki náð honum, en í þessu tilviki tók SRE verkfræðingurinn fyrst eftir brotinu. Atviksverkefni var búið til en upplýsingar um það eru lokaðar.

2. Frammistöðurýrnun á Kanarí- og helstu forritum

Atvikið stafaði af hægagangi og aukinni tíðni villna í kanarífuglum og helstu vefforritum á Gitlab.com. Nokkur Apdex gildi voru brotin.

Opið atviksverkefni: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442

Lykilatriði

Hér eru nokkur atriði sem ég lærði í vikunni minni á vakt.

1. Viðvaranir eru gagnlegastar þegar greint er frá frávikum frá viðmiðum.

Viðvörunum má skipta í nokkrar gerðir:

  • Viðvaranir byggðar á ákveðnu þröskuldsgildi, svo sem „10 5xx villur komu upp á sekúndu.
  • Viðvaranir þar sem þröskuldurinn er prósentugildi eins og „tíðni 5xx villna á 10% af heildarmagni beiðna á tilteknum tíma.
  • Viðvaranir byggðar á sögulegu meðaltali eins og „5xx villur á 90. hundraðshluta“.

Almennt séð eru gerðir 2 og 3 gagnlegri fyrir SRE á vakt, þar sem þær sýna frávik frá venju í ferlinu.

2. Margar viðvaranir stigmagnast aldrei til atvika.

Verkfræðingar SR takast á við stöðugan straum viðvarana, sem margar hverjar eru í raun ekki mikilvægar.

Svo hvers vegna ekki að takmarka viðvaranir þínar við þær sem eru mjög mikilvægar? Með þessari nálgun gætirðu hins vegar ekki kannast við fyrstu einkenni þess sem mun snjókast í raunverulegt vandamál sem ógnar stórtjóni.

Starf vakthafandi SRE er að ákvarða hvaða viðvaranir gefa í raun til kynna eitthvað alvarlegt og hvort þurfi að auka þær og bregðast við. Mig grunar að þetta sé líka vegna ósveigjanleika viðvarana: það væri betra ef það væru nokkur stig eða „snjallar“ leiðir til að stilla viðvaranir í samræmi við aðstæðurnar sem lýst er hér að ofan.

Tillaga um eiginleika: https://gitlab.com/gitlab-org/gitlab/issues/42633

3. SREs okkar á vakt nota mikið af verkfærum.

Innri:

  • GitLab infra verkefni: runbooks live here, vakt/vikuverkefni, atviksviðbrögð.
  • GitLab mál: Rannsóknir, umsagnir og viðhald eru einnig raktar í málefnum.
  • GitLab merki: Sjálfvirkni verkefni eru sett af stað með því að nota sérstök merki, sem vélmenni nota til að fylgjast með verkefnavirkni.

Ytra:

  • PagerDuty: Viðvaranir
  • Slack: PagerDuty/AlertManager skilaboðaflæði fer hingað. Samþætting við skástrik skipanir til að framkvæma margvísleg verkefni, svo sem að loka viðvörun eða stigmagnast í atvik.
  • Grafana: sjónræn mæling með áherslu á langtímaþróun.
  • Kibana: Gefur sjónræna / log leit, getu til að kafa dýpra í tiltekna atburði.
  • Aðdráttur: Það er stöðugt „brotaherbergi“ í Zoom. Þetta gerir verkfræðingum SRE kleift að ræða viðburði fljótt án þess að eyða dýrmætum tíma í að búa til herbergi og tengja þátttakendur saman.

Og margir margir aðrir.

4. Að fylgjast með GitLab.com með GitLab er einn bilunarpunktur

Ef GitLab.com verður fyrir meiriháttar þjónustuleysi, viljum við ekki að það hafi áhrif á getu okkar til að leysa málið. Það er hægt að stöðva það með því að ræsa annað GitLab tilvik til að stjórna GitLab.com. Reyndar virkar þetta nú þegar fyrir okkur: https://ops.gitlab.net/.

5. Nokkrir eiginleikar til að íhuga að bæta við GitLab

  • Verkefnabreyting fyrir marga notendur, svipað og Google Docs. Þetta myndi hjálpa til við verkefni um atvik meðan á atburði stendur, sem og verkefni við skýrslutöku. Í báðum tilfellum gætu nokkrir þátttakendur þurft að bæta einhverju við í rauntíma.
  • Fleiri webhooks fyrir verkefni. Hæfni til að keyra mismunandi GitLab verkflæðisskref innan frá mun hjálpa til við að draga úr trausti þínu á Slack samþættingum. Til dæmis, hæfileikinn til að leyfa viðvörun í PagerDuty í gegnum skástrik í GitLab útgáfu.
    Ályktun

SRE verkfræðingar eiga í erfiðleikum með mikið flókið. Það væri frábært að sjá fleiri GitLab vörur taka á þessum málum. Við erum nú þegar að vinna að nokkrum viðbótum við vöruna sem munu gera verkflæðina sem nefnd eru hér að ofan auðveldari. Upplýsingar fást á Ops vörusýn hluti.

Við stækkum hópinn árið 2020 til að sameina alla þessa frábæru eiginleika. Ef þú hefur áhuga, vinsamlegast kíkja laus störf, og ekki hika við að hafa samband við hvern sem er í teyminu okkar með einhverjar spurningar.

Heimild: www.habr.com

Bæta við athugasemd