SRE መሐንዲስ - ሰልጣኝ
መጀመሪያ ራሴን ላስተዋውቅ። እኔ -
ለአንድ ሳምንት ያህል የ SRE ኢንጂነርን በየቦታው መከታተል ነበረብኝ። ማለትም፣ ርክክብ ላይ ተገኝቼ፣ ተመሳሳዩን የማንቂያ ቻናሎች ተከታተልኩ እና ለተከሰቱት ክስተቶች ምላሽ ሰጥቻለሁ።
ክስተቶች
በሳምንት ውስጥ 2 ክስተቶች ነበሩ.
1. Crypto ማዕድን
GitLab.com ረቡዕ ላይ የአጠቃቀም ዝላይን አይቷል።
ይህ ክስተት ካልታወቀ, አውቶማቲክ መሳሪያ ይይዘው ነበር, ነገር ግን በዚህ ሁኔታ, የ SRE መሐንዲስ ጥሰቱን መጀመሪያ አስተውሏል. የክስተቱ ተግባር ተፈጥሯል፣ ነገር ግን በእሱ ላይ ያለው መረጃ ተዘግቷል።
2. የካናሪ እና ዋና አፕሊኬሽኖች የአፈጻጸም ውድቀት
ክስተቱ የተከሰተው መቀዛቀዝ እና በ Gitlab.com ላይ በካናሪ እና በዋና የድር መተግበሪያዎች ላይ የስህተት ድግግሞሽ በመጨመሩ ነው። በርካታ የ Apdex እሴቶች ተጥሰዋል።
የክስተቱን ተግባር ክፈት
ቁልፍ ግኝቶች
በሥራ ላይ በነበርኩበት ሳምንት የተማርኳቸው ጥቂት ነገሮች እነሆ።
1. ማንቂያዎች ከመደበኛው ልዩነቶችን ሲያገኙ በጣም ጠቃሚ ናቸው።
ማንቂያዎች በበርካታ ዓይነቶች ሊከፈሉ ይችላሉ-
- እንደ “10 5xx ስህተቶች በሰከንድ ተከስተዋል” ያሉ በተወሰነ የመነሻ ዋጋ ላይ የተመሰረቱ ማንቂያዎች።
- እንደ “የ 5xx ስህተቶች ድግግሞሽ በ 10% ከጠቅላላው የጥያቄዎች ብዛት በአንድ የተወሰነ ጊዜ” የመቶኛ እሴት የሆነባቸው ማንቂያዎች።
- በታሪካዊ አማካኝ ላይ የተመሰረቱ ማንቂያዎች እንደ "5xx ስህተቶች በ90ኛ መቶኛ"።
በአጠቃላይ፣ 2 እና 3 ዓይነቶች በሂደት ላይ ካሉት መደበኛ ልዩነቶች ስለሚያሳዩ በስራ ላይ ላሉ SREዎች የበለጠ ጠቃሚ ናቸው።
2. ብዙ ማንቂያዎች መቼም ወደ ክስተቶች አያደጉም።
የኤስአር መሐንዲሶች የማያቋርጥ የማንቂያ ዥረት ይስተናገዳሉ፣ አብዛኛዎቹ በእውነቱ ወሳኝ አይደሉም።
ታዲያ ማንቂያዎችን ለምን በጣም አስፈላጊ ለሆኑት ብቻ አትገድበውም? በዚህ አቀራረብ ግን የበረዶ ኳስ ትልቅ ጉዳትን ወደሚያስፈራራ ወደ እውነተኛ ችግር ውስጥ የሚያስገባውን የመጀመሪያ ምልክቶች ላያውቁ ይችላሉ።
የጥሪ SRE ስራ የትኞቹ ማንቂያዎች በትክክል አንድ ከባድ ነገር እንደሚጠቁሙ እና እነሱ ተባብሰው መስተካከል እንዳለባቸው መወሰን ነው። ይህ ደግሞ በማንቂያዎች ተለዋዋጭነት ምክንያት እንደሆነ እገምታለሁ-ከላይ በተገለጸው ሁኔታ መሰረት ማንቂያዎችን ለማዋቀር ብዙ ደረጃዎች ወይም "ብልጥ" መንገዶች ቢኖሩ የተሻለ ይሆናል.
የባህሪ ጥቆማ፡
3. በስራ ላይ ያሉ የእኛ SREዎች ብዙ መሳሪያዎችን ይጠቀማሉ።
ውስጣዊ-
- GitLab infra ፕሮጀክት፡ runbooks እዚህ ይኖራሉ፣ shift/ሳምንት ምደባዎች፣ የአደጋ ምላሽ ተግባራት።
- የ GitLab ጉዳዮች፡ ምርመራዎች፣ ግምገማዎች እና ጥገናዎች በጉዳዮችም ክትትል ይደረግባቸዋል።
- GitLab መለያዎች፡ አውቶሜሽን ስራዎች የሚጀመሩት ልዩ መለያዎችን በመጠቀም ነው፣ ቦቶች የተግባር እንቅስቃሴን ለመከታተል ይጠቀማሉ።
ውጫዊ፡
- PagerDuty: ማንቂያዎች
- Slack: PagerDuty/AlertManager የመልእክት ፍሰት እዚህ ይሄዳል። እንደ ማንቂያ መዝጋት ወይም ወደ ክስተት መሸጋገር ያሉ የተለያዩ ተግባራትን ለማከናወን ከslash ትዕዛዞች ጋር ውህደት።
- Grafana: የረጅም ጊዜ አዝማሚያዎች ላይ በማተኮር የመለኪያዎችን እይታ።
- ኪባና፡ ምስላዊ/ምዝግብ ማስታወሻ ፍለጋን፣ ወደ ተወሰኑ ክስተቶች በጥልቀት የመቆፈር ችሎታን ይሰጣል።
- አጉላ፡ በማጉላት ውስጥ ያለማቋረጥ እየሮጠ ያለ “Breakout room” አለ። ይህ ክፍል ለመፍጠር እና ተሳታፊዎችን ሳያገናኙ ጠቃሚ ጊዜን ሳያጠፉ የኤስአርኢ መሐንዲሶች በፍጥነት እንዲወያዩ ያስችላቸዋል።
እና ብዙ ሌሎች።
4. GitLab.comን በ GitLab መከታተል አንድ ነጠላ የውድቀት ነጥብ ነው።
GitLab.com ትልቅ የአገልግሎት መቋረጥ ካጋጠመው፣ ችግሩን የመፍታት ችሎታችንን እንዲነካ አንፈልግም። GitLab.comን ለማስተዳደር ሁለተኛ GitLab ምሳሌን በማስጀመር ማቆም ይቻላል። በእውነቱ፣ ይህ አስቀድሞ ለእኛ ይሰራል፡-
5. ወደ GitLab ለመጨመር ግምት ውስጥ የሚገባ ጥቂት ባህሪያት
ባለብዙ ተጠቃሚ ተግባር አርትዖት ከ Google ሰነዶች ጋር ተመሳሳይ። ይህ በክስተቱ ወቅት በተከሰቱት ተግባራት ላይ እና እንዲሁም በማብራራት ላይ ለሚደረጉ ተግባራት ይረዳል። በሁለቱም ሁኔታዎች፣ ብዙ ተሳታፊዎች በቅጽበት የሆነ ነገር ማከል ያስፈልጋቸው ይሆናል።- ለተግባሮች ተጨማሪ የድር መንጠቆዎች። ከውስጥ የተለያዩ የ GitLab የስራ ፍሰት ደረጃዎችን የማስኬድ ችሎታ በ Slack ውህደቶች ላይ ያለዎትን እምነት ለመቀነስ ይረዳል። ለምሳሌ፣ በGitLab እትም ውስጥ በፔጀርዱቲ slash ትዕዛዝ በኩል ማንቂያ የመፍቀድ ችሎታ።
መደምደሚያ
የኤስአርኢ መሐንዲሶች ከብዙ ውስብስብ ነገሮች ጋር ይቸገራሉ። እነዚህን ችግሮች የሚፈቱ ተጨማሪ የ GitLab ምርቶች ማየት ጥሩ ነው። ከላይ የተጠቀሱትን የስራ ፍሰቶች ቀላል የሚያደርጉትን አንዳንድ ተጨማሪዎች ላይ አስቀድመን እየሰራን ነው። ዝርዝሮች በ ላይ ይገኛሉ
እነዚህን ሁሉ ምርጥ ባህሪያት አንድ ላይ ለማምጣት በ2020 ቡድኑን እያሰፋን ነው። ፍላጎት ካሎት እባክዎን ይመልከቱ
ምንጭ: hab.com