ለአንድ ሳምንት የኤስአርኢ ኢንጂነር ሰልጣኝ እንዴት እንደሆንኩኝ። ግዴታ በሶፍትዌር መሐንዲስ ዓይን

ለአንድ ሳምንት የኤስአርኢ ኢንጂነር ሰልጣኝ እንዴት እንደሆንኩኝ። ግዴታ በሶፍትዌር መሐንዲስ ዓይን

SRE መሐንዲስ - ሰልጣኝ

መጀመሪያ ራሴን ላስተዋውቅ። እኔ - @tristan.አንብብበቡድኑ ውስጥ የፊት-መጨረሻ መሐንዲስ ክትትል ::ጤና GitLab ባለፈው ሳምንት ከተጠሪ የኤስአርአይ መሐንዲሶቻችን ጋር በመገናኘት ክብር አግኝቻለሁ። ግቡ ተረኛ መኮንን በየቀኑ ለአደጋዎች እንዴት ምላሽ እንደሚሰጥ ለመከታተል እና በስራው ላይ የእውነተኛ ህይወት ልምድን ለማግኘት ነበር። የእኛ መሐንዲሶች የተጠቃሚን ፍላጎት የበለጠ እንዲረዱ እንፈልጋለን ተግባሮች ክትትል ::ጤና.

ለአንድ ሳምንት ያህል የ SRE ኢንጂነርን በየቦታው መከታተል ነበረብኝ። ማለትም፣ ርክክብ ላይ ተገኝቼ፣ ተመሳሳዩን የማንቂያ ቻናሎች ተከታተልኩ እና ለተከሰቱት ክስተቶች ምላሽ ሰጥቻለሁ።

ክስተቶች

በሳምንት ውስጥ 2 ክስተቶች ነበሩ.

1. Crypto ማዕድን

GitLab.com ረቡዕ ላይ የአጠቃቀም ዝላይን አይቷል። GitLab ሯጭ'ሀ፣ የሯጭ ደቂቃዎችን ለመጠቀም በሚደረጉ ሙከራዎች የተከሰተ። ክስተቱ የተስተናገደው የራሳችንን የጥቃት ገለልተኝነት መሳሪያ በመጠቀም ነው፣ ይህም የሯጮችን ተግባራት የሚያቆም እና ፕሮጀክቱን እና ከእሱ ጋር የተያያዘ መለያን ይሰርዛል።

ይህ ክስተት ካልታወቀ, አውቶማቲክ መሳሪያ ይይዘው ነበር, ነገር ግን በዚህ ሁኔታ, የ SRE መሐንዲስ ጥሰቱን መጀመሪያ አስተውሏል. የክስተቱ ተግባር ተፈጥሯል፣ ነገር ግን በእሱ ላይ ያለው መረጃ ተዘግቷል።

2. የካናሪ እና ዋና አፕሊኬሽኖች የአፈጻጸም ውድቀት

ክስተቱ የተከሰተው መቀዛቀዝ እና በ Gitlab.com ላይ በካናሪ እና በዋና የድር መተግበሪያዎች ላይ የስህተት ድግግሞሽ በመጨመሩ ነው። በርካታ የ Apdex እሴቶች ተጥሰዋል።

የክስተቱን ተግባር ክፈት https://gitlab.com/gitlab-com/gl-infra/production/issues/1442

ቁልፍ ግኝቶች

በሥራ ላይ በነበርኩበት ሳምንት የተማርኳቸው ጥቂት ነገሮች እነሆ።

1. ማንቂያዎች ከመደበኛው ልዩነቶችን ሲያገኙ በጣም ጠቃሚ ናቸው።

ማንቂያዎች በበርካታ ዓይነቶች ሊከፈሉ ይችላሉ-

  • እንደ “10 5xx ስህተቶች በሰከንድ ተከስተዋል” ያሉ በተወሰነ የመነሻ ዋጋ ላይ የተመሰረቱ ማንቂያዎች።
  • እንደ “የ 5xx ስህተቶች ድግግሞሽ በ 10% ከጠቅላላው የጥያቄዎች ብዛት በአንድ የተወሰነ ጊዜ” የመቶኛ እሴት የሆነባቸው ማንቂያዎች።
  • በታሪካዊ አማካኝ ላይ የተመሰረቱ ማንቂያዎች እንደ "5xx ስህተቶች በ90ኛ መቶኛ"።

በአጠቃላይ፣ 2 እና 3 ዓይነቶች በሂደት ላይ ካሉት መደበኛ ልዩነቶች ስለሚያሳዩ በስራ ላይ ላሉ SREዎች የበለጠ ጠቃሚ ናቸው።

2. ብዙ ማንቂያዎች መቼም ወደ ክስተቶች አያደጉም።

የኤስአር መሐንዲሶች የማያቋርጥ የማንቂያ ዥረት ይስተናገዳሉ፣ አብዛኛዎቹ በእውነቱ ወሳኝ አይደሉም።

ታዲያ ማንቂያዎችን ለምን በጣም አስፈላጊ ለሆኑት ብቻ አትገድበውም? በዚህ አቀራረብ ግን የበረዶ ኳስ ትልቅ ጉዳትን ወደሚያስፈራራ ወደ እውነተኛ ችግር ውስጥ የሚያስገባውን የመጀመሪያ ምልክቶች ላያውቁ ይችላሉ።

የጥሪ SRE ስራ የትኞቹ ማንቂያዎች በትክክል አንድ ከባድ ነገር እንደሚጠቁሙ እና እነሱ ተባብሰው መስተካከል እንዳለባቸው መወሰን ነው። ይህ ደግሞ በማንቂያዎች ተለዋዋጭነት ምክንያት እንደሆነ እገምታለሁ-ከላይ በተገለጸው ሁኔታ መሰረት ማንቂያዎችን ለማዋቀር ብዙ ደረጃዎች ወይም "ብልጥ" መንገዶች ቢኖሩ የተሻለ ይሆናል.

የባህሪ ጥቆማ፡ https://gitlab.com/gitlab-org/gitlab/issues/42633

3. በስራ ላይ ያሉ የእኛ SREዎች ብዙ መሳሪያዎችን ይጠቀማሉ።

ውስጣዊ-

  • GitLab infra ፕሮጀክት፡ runbooks እዚህ ይኖራሉ፣ shift/ሳምንት ምደባዎች፣ የአደጋ ምላሽ ተግባራት።
  • የ GitLab ጉዳዮች፡ ምርመራዎች፣ ግምገማዎች እና ጥገናዎች በጉዳዮችም ክትትል ይደረግባቸዋል።
  • GitLab መለያዎች፡ አውቶሜሽን ስራዎች የሚጀመሩት ልዩ መለያዎችን በመጠቀም ነው፣ ቦቶች የተግባር እንቅስቃሴን ለመከታተል ይጠቀማሉ።

ውጫዊ፡

  • PagerDuty: ማንቂያዎች
  • Slack: PagerDuty/AlertManager የመልእክት ፍሰት እዚህ ይሄዳል። እንደ ማንቂያ መዝጋት ወይም ወደ ክስተት መሸጋገር ያሉ የተለያዩ ተግባራትን ለማከናወን ከslash ትዕዛዞች ጋር ውህደት።
  • Grafana: የረጅም ጊዜ አዝማሚያዎች ላይ በማተኮር የመለኪያዎችን እይታ።
  • ኪባና፡ ምስላዊ/ምዝግብ ማስታወሻ ፍለጋን፣ ወደ ተወሰኑ ክስተቶች በጥልቀት የመቆፈር ችሎታን ይሰጣል።
  • አጉላ፡ በማጉላት ውስጥ ያለማቋረጥ እየሮጠ ያለ “Breakout room” አለ። ይህ ክፍል ለመፍጠር እና ተሳታፊዎችን ሳያገናኙ ጠቃሚ ጊዜን ሳያጠፉ የኤስአርኢ መሐንዲሶች በፍጥነት እንዲወያዩ ያስችላቸዋል።

እና ብዙ ሌሎች።

4. GitLab.comን በ GitLab መከታተል አንድ ነጠላ የውድቀት ነጥብ ነው።

GitLab.com ትልቅ የአገልግሎት መቋረጥ ካጋጠመው፣ ችግሩን የመፍታት ችሎታችንን እንዲነካ አንፈልግም። GitLab.comን ለማስተዳደር ሁለተኛ GitLab ምሳሌን በማስጀመር ማቆም ይቻላል። በእውነቱ፣ ይህ አስቀድሞ ለእኛ ይሰራል፡- https://ops.gitlab.net/.

5. ወደ GitLab ለመጨመር ግምት ውስጥ የሚገባ ጥቂት ባህሪያት

  • ባለብዙ ተጠቃሚ ተግባር አርትዖትከ Google ሰነዶች ጋር ተመሳሳይ። ይህ በክስተቱ ወቅት በተከሰቱት ተግባራት ላይ እና እንዲሁም በማብራራት ላይ ለሚደረጉ ተግባራት ይረዳል። በሁለቱም ሁኔታዎች፣ ብዙ ተሳታፊዎች በቅጽበት የሆነ ነገር ማከል ያስፈልጋቸው ይሆናል።
  • ለተግባሮች ተጨማሪ የድር መንጠቆዎች። ከውስጥ የተለያዩ የ GitLab የስራ ፍሰት ደረጃዎችን የማስኬድ ችሎታ በ Slack ውህደቶች ላይ ያለዎትን እምነት ለመቀነስ ይረዳል። ለምሳሌ፣ በGitLab እትም ውስጥ በፔጀርዱቲ slash ትዕዛዝ በኩል ማንቂያ የመፍቀድ ችሎታ።
    መደምደሚያ

የኤስአርኢ መሐንዲሶች ከብዙ ውስብስብ ነገሮች ጋር ይቸገራሉ። እነዚህን ችግሮች የሚፈቱ ተጨማሪ የ GitLab ምርቶች ማየት ጥሩ ነው። ከላይ የተጠቀሱትን የስራ ፍሰቶች ቀላል የሚያደርጉትን አንዳንድ ተጨማሪዎች ላይ አስቀድመን እየሰራን ነው። ዝርዝሮች በ ላይ ይገኛሉ Ops የምርት እይታ ክፍል.

እነዚህን ሁሉ ምርጥ ባህሪያት አንድ ላይ ለማምጣት በ2020 ቡድኑን እያሰፋን ነው። ፍላጎት ካሎት እባክዎን ይመልከቱ ክፍት የሥራ ቦታዎች, እና ማንኛውንም ጥያቄ በኛ ቡድን ውስጥ ያለ ማንኛውንም ሰው ለማነጋገር ነፃነት ይሰማዎ።

ምንጭ: hab.com

አስተያየት ያክሉ