የተከፋፈለ ሲስተምስ ክትትል - ጎግል ልምድ (የጉግል SRE መጽሐፍ ምዕራፍ ትርጉም)

የተከፋፈለ ሲስተምስ ክትትል - ጎግል ልምድ (የጉግል SRE መጽሐፍ ምዕራፍ ትርጉም)

SRE (የጣቢያ አስተማማኝነት ምህንድስና) የድር ፕሮጄክቶችን ተደራሽ የማድረግ አቀራረብ ነው። ለዴቭኦፕስ እንደ ማዕቀፍ ይቆጠራል እና በDevOps አተገባበር እንዴት እንደሚሳካ ይነግራል። ይህ ጽሑፍ ይተረጎማል ምዕራፎች 6 የተከፋፈሉ ስርዓቶች ክትትል መጽሐፎች የጣቢያ አስተማማኝነት ምህንድስና ከ Google. እኔ ራሴ ይህንን ትርጉም አዘጋጅቼ የክትትል ሂደቶችን በመረዳት በራሴ ልምድ ተመክቻለሁ። በቴሌግራም ቻናል @monitorim_it и ጦማር በመካከለኛ በአገልግሎት ደረጃ ዓላማዎች ላይ ለተመሳሳይ መጽሐፍ ምዕራፍ 4 ትርጉም አገናኝ ለጥፌያለሁ።

በድመት ትርጉም. በማንበብ ይደሰቱ!

የGoogle SRE ቡድኖች ስኬታማ የክትትል እና የማሳወቂያ ስርዓቶችን ለመገንባት መሰረታዊ መርሆች እና ምርጥ ልምዶች አሏቸው። ይህ ምዕራፍ አንድ የድረ-ገጽ ጎብኚ ምን አይነት ችግሮች ሊያጋጥመው እንደሚችል እና ድረ-ገጾችን ለማሳየት አስቸጋሪ የሚያደርጉ ችግሮችን እንዴት መፍታት እንደሚችሉ ምክሮችን ይሰጣል።

ፍቺዎች

ከክትትል ጋር በተያያዙ ርዕሰ ጉዳዮች ላይ ለመወያየት የሚያገለግል አንድም የቃላት ዝርዝር የለም። በ Google ላይ እንኳን, ከታች ያሉት ቃላቶች በጋራ ጥቅም ላይ የሚውሉ አይደሉም, ነገር ግን በጣም የተለመዱትን ትርጓሜዎች እንዘረዝራለን.

ክትትል

ስለ ስርዓቱ የእውነተኛ ጊዜ መጠናዊ መረጃን መሰብሰብ ፣ ማቀናበር ፣ ማሰባሰብ እና ማሳየት-የጥያቄዎች ብዛት እና የጥያቄ ዓይነቶች ፣ የስህተት ብዛት እና የስህተት ዓይነቶች ፣ የጥያቄ ሂደት ጊዜ እና የአገልጋይ ጊዜ።

ነጭ ሣጥን ክትትል

የውስጥ ስታቲስቲክስን የሚያመነጩ የምዝግብ ማስታወሻዎች፣ JVM ወይም HTTP ተቆጣጣሪ የመገለጫ መለኪያዎችን ጨምሮ በስርዓት የውስጥ አካላት በሚታዩ ልኬቶች ላይ የተመሠረተ ክትትል።

ጥቁር ሳጥን ክትትል

የመተግበሪያውን ባህሪ ከተጠቃሚው እይታ በመሞከር ላይ።

ዳሽቦርድ (ዳሽቦርዶች)

የአገልግሎቶቹን ቁልፍ የጤና አመልካቾች አጠቃላይ እይታ የሚያቀርብ በይነገጽ (ብዙውን ጊዜ የድር በይነገጽ)። ዳሽቦርዱ ማጣሪያዎች፣ የትኛዎቹ መለኪያዎች እንደሚታዩ የመምረጥ ችሎታ እና የመሳሰሉት ሊኖሩት ይችላል።በይነገጽ ለተጠቃሚዎች በጣም አስፈላጊ የሆኑትን መለኪያዎችን ለመለየት የተነደፈ ነው። ዳሽቦርዱ ለቴክኒካል ድጋፍ ሰጪ ሰራተኞች መረጃን ማሳየት ይችላል፡ የጥያቄ ወረፋ፣ ከፍተኛ ቅድሚያ የሚሰጣቸው ስህተቶች ዝርዝር፣ ለተወሰነው የኃላፊነት ቦታ የተመደበ መሐንዲስ።

ማንቂያ (ማሳወቂያ)

በስህተት ወይም በጥያቄ ወረፋ መጨመር ምክንያት አንድ ሰው በኢሜል ወይም በሌላ ለመቀበል የታቀዱ ማሳወቂያዎች። ማሳወቂያዎች በሚከተለው ተከፋፍለዋል፡ ትኬቶች፣ የኢሜይል ማንቂያዎች እና የሜሴንጀር መልዕክቶች።

የስር መንስኤ (የስር መንስኤ)

የሶፍትዌር ጉድለት ወይም የሰው ስህተት ሲስተካከል እንደገና መከሰት የለበትም። ችግሩ በርካታ ዋና ዋና ምክንያቶች ሊኖሩት ይችላል-በቂ ያልሆነ የሂደት ራስ-ሰር, የሶፍትዌር ጉድለት, የመተግበሪያውን አመክንዮ በቂ ያልሆነ ጥናት. እያንዳንዳቸው እነዚህ ምክንያቶች ዋነኛው መንስኤ ሊሆኑ ይችላሉ, እና እያንዳንዳቸው መወገድ አለባቸው.

መስቀለኛ መንገድ እና ማሽን (መስቀለኛ መንገድ እና ማሽን)

የሚለዋወጡ ቃላት በአካላዊ አገልጋይ፣ ቨርቹዋል ማሽን ወይም ኮንቴይነር ላይ ያለ አንድ አሂድ መተግበሪያን ለማመልከት። በአንድ ማሽን ላይ ብዙ አገልግሎቶች ሊኖሩ ይችላሉ. አገልግሎቶቹ ሊሆኑ ይችላሉ፡-

  • እርስ በርስ የተያያዙ: ለምሳሌ, መሸጎጫ አገልጋይ እና የድር አገልጋይ;
  • በተመሳሳዩ ሃርድዌር ላይ የማይገናኙ አገልግሎቶች፡ ለምሳሌ፡ የኮድ ማከማቻ እና እንደ ውቅረት ስርዓት ጠንቋይ፣ አሻንጉሊት ወይም ልሾ.

ይግፉ

በሶፍትዌር ውቅር ላይ ማንኛውም ለውጥ.

ለምን ክትትል ያስፈልጋል

አፕሊኬሽኖች ክትትል ሊደረግባቸው የሚገቡባቸው በርካታ ምክንያቶች አሉ፡-

የረጅም ጊዜ አዝማሚያዎች ትንተና

የመረጃ ቋቱ ምን ያህል ትልቅ ነው እና ምን ያህል በፍጥነት እያደገ ነው? የተጠቃሚዎች ዕለታዊ ቁጥር እንዴት ይቀየራል?

የአፈጻጸም ንጽጽር

ከ Ajax DB 2.72 ይልቅ በAcme Bucket of Bytes 3.14 ላይ ጥያቄዎች ፈጣን ናቸው? ተጨማሪ መስቀለኛ መንገድ ከታየ በኋላ የተሸጎጡ ጥያቄዎች ምን ያህል የተሻሉ ናቸው? ጣቢያው ካለፈው ሳምንት ቀርፋፋ ነው?

ማንቂያ (ማሳወቂያዎች)

የሆነ ነገር ተሰብሯል እና አንድ ሰው ማስተካከል አለበት. ወይም የሆነ ነገር በቅርቡ ይቋረጣል እና አንድ ሰው በቅርቡ ማረጋገጥ አለበት።

ዳሽቦርዶችን መፍጠር

ዳሽቦርዶች መሰረታዊ ጥያቄዎችን መመለስ እና የሆነ ነገር ማካተት አለባቸው "4 የወርቅ ምልክቶች" - መዘግየት (ዘግይቶ)፣ ትራፊክ (ትራፊክ)፣ ስህተቶች (ስህተቶች) እና የመጫኛ ዋጋ (ሙሌት)።

የኋላ ትንተና ማካሄድ (ማረም)

የሂደቱ መዘግየት ጨምሯል፣ በተመሳሳይ ጊዜ ሌላ ምን ተፈጠረ?
የክትትል ስርዓቶች ለንግድ ኢንተለጀንስ ስርዓቶች እንደ የውሂብ ምንጭ እና የደህንነት ጉዳዮችን ለመተንተን ለማመቻቸት ጠቃሚ ናቸው. ይህ መፅሃፍ የሚያተኩረው SREs እውቀት ባላቸው የምህንድስና ዘርፎች ላይ ስለሆነ፣ እዚህ ስለክትትል ቴክኒኮች አንወያይም።

ክትትል እና ማንቂያዎች ስርዓቱ ሲሰበር ወይም ሊሰበር ሲል እንዲያውቅ ያስችለዋል። አንድ ሥርዓት ራሱን በራሱ ማደስ ካልቻለ፣ አንድ ሰው ማንቂያውን እንዲመረምር፣ ችግሩ አሁንም እንዳለ እንዲያውቅ፣ እንዲስተካከል እና መንስኤውን እንዲወስን እንፈልጋለን። የስርዓት ክፍሎችን ኦዲት ካላደረጉ በቀር፣ "የሆነ ነገር ትንሽ እንግዳ ስለሚመስል" ብቻ ማንቂያ አያገኙም።

የሰው ማንቂያዎችን መጫን የሰራተኛውን ጊዜ በጣም ውድ ነው። ሰራተኛው እየሰራ ከሆነ, ማንቂያው የስራ ሂደቱን ያቋርጣል. ሰራተኛው እቤት ውስጥ ከሆነ, ማንቂያው የግል ጊዜን እና ምናልባትም እንቅልፍን ያቋርጣል. ማንቂያዎች በጣም በተደጋጋሚ በሚከሰቱበት ጊዜ፣ ሰራተኞቹ ገቢ ማንቂያዎችን ይሳባሉ፣ ያዘገያሉ ወይም ችላ ይላሉ። ከጊዜ ወደ ጊዜ በጩኸት ክስተቶች የተሸፈነውን እውነተኛውን ማንቂያ ችላ ይላሉ. የድምፅ ክስተቶች ፈጣን የችግር ምርመራን እና መፍትሄን ስለሚከላከሉ የአገልግሎት መቆራረጦች ለረጅም ጊዜ ሊቆዩ ይችላሉ. ውጤታማ የህዝብ አድራሻ ስርዓቶች ጥሩ የምልክት-ወደ-ጫጫታ ጥምርታ አላቸው።

ከክትትል ስርዓቱ ምክንያታዊ የሚጠበቁ ነገሮችን መወሰን

ለተወሳሰበ መተግበሪያ ክትትልን ማዋቀር በራሱ ውስብስብ የምህንድስና ስራ ነው። ጉልህ በሆነ የመሰብሰቢያ፣ የማሳያ እና የማንቂያ መሳሪያዎች መሠረተ ልማት ቢኖረውም ከ10-12 አባላት ያሉት የGoogle SRE ቡድን በዋናነት አንድ ወይም ሁለት ሰዎችን ያጠቃልላል ዋና ዓላማቸው የክትትል ስርዓቶችን መገንባት እና ማቆየት። የክትትል መሠረተ ልማትን ስናጠቃልል እና ማዕከላዊ ስናደርግ ይህ ቁጥር ከጊዜ ወደ ጊዜ እየቀነሰ መጥቷል፣ ነገር ግን እያንዳንዱ የኤስአርአይ ቡድን ቢያንስ አንድ የክትትል-ብቻ ሠራተኛ አለው። የክትትል ስርዓት ዳሽቦርዶችን መመልከት በጣም አስደሳች ቢሆንም የኤስአርአይ ቡድኖች ችግሮችን ለመከታተል አንድ ሰው ማያ ገጹን እንዲመለከት የሚጠይቁትን ሁኔታዎች በጥንቃቄ ያስወግዳሉ ሊባል ይገባል.

በአጠቃላይ ጎግል ወደ ቀላል እና ፈጣን የክትትል ስርዓቶች ተንቀሳቅሷል ከተጨባጭ መረጃ በኋላ የመተንተን መሳሪያዎች። ገደቦችን ለመተንበይ የሚሞክሩ ወይም መንስኤውን በራስ-ሰር የሚያገኙትን "አስማት" ስርዓቶችን እናስወግዳለን። በዋና ተጠቃሚ ጥያቄዎች ውስጥ ያልተፈለገ ይዘትን የሚያውቁ ዳሳሾች ብቸኛው አጸፋዊ ምሳሌ ናቸው። እነዚህ ዳሳሾች ቀላል ሆነው እስካሉ ድረስ የከባድ ያልተለመዱ ነገሮችን መንስኤዎች በፍጥነት ለይተው ማወቅ ይችላሉ። እንደ የአቅም ማቀድ ወይም የትራፊክ ትንበያ ያሉ ሌሎች የክትትል መረጃዎችን ለመጠቀም ቅርጸቶች የበለጠ ፈታኝ ናቸው። በዝቅተኛ የናሙና ደረጃ (ሰዓታት ወይም ቀናት) በጣም ረጅም ጊዜ (ወሮች ወይም ዓመታት) ምልከታ የረጅም ጊዜ አዝማሚያ ያሳያል።

የGoogle SRE ቡድን ከተወሳሰቡ የጥገኝነት ተዋረዶች ጋር በተለያዩ የስኬት ደረጃዎች ሰርቷል። እንደ "መረጃ ቋቱ ቀርፋፋ መሆኑን ካወቅኩ የውሂብ ጎታ መቀዛቀዝ ማንቂያ አገኛለሁ፣ ያለበለዚያ ዘገምተኛ የጣቢያ ማንቂያ አገኛለሁ" አይነት ህጎችን ብዙም አንጠቀምም። ጥገኝነት ላይ የተመሰረቱ ህጎች ብዙውን ጊዜ የማይለወጡ የስርዓታችንን ክፍሎች ያመለክታሉ፣ ለምሳሌ የተጠቃሚውን ትራፊክ ወደ ዳታ ማእከል የማጣራት ስርዓት። ለምሳሌ፣ "የውሂብ ማዕከል ትራፊክ ማጣሪያ ከተዋቀረ የተጠቃሚ ጥያቄዎችን ስለማስኬድ መዘግየት አታስጠነቅቁኝ" ለመረጃ ማእከል ማንቂያዎች አንዱ የተለመደ ህግ ነው። የኛ መሠረተ ልማት የማያቋርጥ የማሻሻያ ፍጥነት ስላለው ውስብስብ የጥገኝነት ተዋረዶችን የሚደግፉ ጥቂት የGoogle ቡድኖች ናቸው።

በዚህ ምእራፍ ውስጥ የተገለጹት አንዳንድ ሃሳቦች አሁንም እውነት ሆነው ይቆያሉ፡ ሁልጊዜም ከምልክት ወደ ስርወ-ምክንያት በፍጥነት የሚሸጋገርበት መንገድ አለ፣በተለይ በሚለዋወጡ ስርዓቶች። ስለዚህ፣ ይህ ምእራፍ አንዳንድ የክትትል ስርዓቶችን እና እነዚያን ግቦች እንዴት ማሳካት እንደሚቻል ሲዘረዝር፣ የክትትል ስርዓቶች ቀላል እና በቡድኑ ውስጥ ላለ ሁሉም ሰው ሊረዱ የሚችሉ መሆናቸው አስፈላጊ ነው።

በተመሳሳይም የጩኸቱ መጠን ዝቅተኛ እና የሲግናል ደረጃው ከፍ እንዲል፣ የሚነቁ ነገሮችን የመከታተል አቀራረቦች በጣም ቀላል እና አስተማማኝ መሆን አለባቸው። ለሰዎች ማስጠንቀቂያዎችን የሚያመነጩ ደንቦች ለመረዳት ቀላል እና ግልጽ የሆነ ችግርን ማቅረብ አለባቸው.

ምልክቶች እና መንስኤዎች

የክትትል ስርዓትዎ ሁለት ጥያቄዎችን መመለስ አለበት፡ “የተበላሸው” እና “ለምን ተበላሽቷል”።
"የተበላሸው" ምልክቱን የሚያመለክት ሲሆን "ለምን ተሰበረ" ምክንያቱን ያመለክታል. ከታች ያለው ሰንጠረዥ የእንደዚህ አይነት አገናኞች ምሳሌዎችን ያሳያል.

ምልክት
ምክንያት

የኤችቲቲፒ ስህተት 500 ወይም 404 መቀበል
የውሂብ ጎታ አገልጋዮች ግንኙነቶችን እምቢ ይላሉ

የዘገየ የአገልጋይ ምላሾች
ከፍተኛ የሲፒዩ አጠቃቀም ወይም የተበላሸ የኤተርኔት ገመድ

በአንታርክቲካ ያሉ ተጠቃሚዎች ድመት GIFs እያገኙ አይደለም።
የእርስዎ ሲዲኤን ሳይንቲስቶችን እና ድኩላዎችን ይጠላል፣ ስለዚህ አንዳንድ አይፒዎች በጥቁር መዝገብ ውስጥ ገብተዋል።

የግል ይዘት በሁሉም ቦታ ይገኛል።
አዲስ የሶፍትዌር ልቀትን ማንከባለል ፋየርዎሉን ሁሉንም ኤሲኤሎችን ረስቶ ሁሉም እንዲገባ አድርጓል

"ምን" እና "ለምን" ጥሩ የክትትል ስርዓት ለመፍጠር በጣም አስፈላጊ ከሆኑት የግንባታ ብሎኮች መካከል ከፍተኛው ምልክት እና ዝቅተኛ ድምጽ ያለው ነው።

ጥቁር-ሣጥን vs. ነጭ-ሣጥን

ሰፋ ያለ የነጭ ሣጥን ቁጥጥርን ከጥቁር ሳጥን መጠነኛ ወሳኝ መለኪያዎች ጋር አጣምረናል። ብላክ ቦክስን ከዋይት-ቦክስ ጋር ለማነጻጸር ቀላሉ መንገድ ብላክ ቦክስ በምልክት ላይ ያተኮረ እና በንቃት ከመከታተል ይልቅ ምላሽ የሚሰጥ መሆኑ ነው፡ “ስርዓቱ አሁን በትክክል እየሰራ አይደለም። ነጭ-ቦክስ በስርዓቶች ውስጣዊ የፍተሻ ችሎታዎች ላይ የተመሰረተ ነው፡ የክስተት ምዝግብ ማስታወሻዎች ወይም የድር አገልጋዮች። ስለዚህም ነጭ-ቦክስ መጪ ችግሮችን፣ የጥያቄን ዳግም ማስተላለፍ የሚመስሉ ብልሽቶችን፣ ወዘተ እንዲለዩ ይፈቅድልዎታል።

በባለብዙ ንብርብር ስርዓት ውስጥ የአንድ መሐንዲስ የኃላፊነት ቦታ ምልክት የሌላ መሐንዲስ የኃላፊነት ቦታ ምልክት መሆኑን ልብ ይበሉ። ለምሳሌ የውሂብ ጎታ አፈጻጸም ቀንሷል። ዝግ ያለ የውሂብ ጎታ ማንበብ እነሱን የሚያገኛቸው የውሂብ ጎታ SRE ምልክቶች ናቸው። ነገር ግን፣ ፊት ለፊት ላለ SRE ቀርፋፋ ድር ጣቢያ ለሚመለከት፣ ለተመሳሳይ ዘገምተኛ የውሂብ ጎታ ለማንበብ ምክንያት የሆነው የመረጃ ቋቱ ቀርፋፋ ነው። ስለዚህ, ነጭ-ቦክስ ክትትል አንዳንድ ጊዜ ምልክቶች ላይ እና አንዳንድ ጊዜ መንስኤዎች ላይ ያተኮረ ነው, ምን ያህል ስፋት ላይ በመመስረት.

ለማረም ቴሌሜትሪ በሚሰበስብበት ጊዜ የነጭ ቦክስ ክትትል ያስፈልጋል። ዌብ ሰርቨሮች ለዳታቤዝ ጥያቄዎች ምላሽ ለመስጠት ቀርፋፋ ከሆኑ የድር አገልጋዩ ምን ያህል ከዳታቤዙ ጋር እየተገናኘ እንደሆነ እና ምን ያህል ፈጣን ምላሽ እንደሚሰጥ ማወቅ አለቦት። ያለበለዚያ በዘገየ የውሂብ ጎታ አገልጋይ እና በድር አገልጋይ እና በመረጃ ቋቱ መካከል ባለው የአውታረ መረብ ችግር መካከል ያለውን ልዩነት ማወቅ አይችሉም።

ማንቂያዎችን በሚልኩበት ጊዜ የብላክ ቦክስ ክትትል ቁልፍ ጠቀሜታ አለው፡ ችግሩ አስቀድሞ ትክክለኛ ምልክቶችን ሲያመጣ ለተቀባዩ ማሳወቂያ ይቀሰቅሳሉ። በሌላ በኩል, ለ Black-box ችግር ገና ላልተነሳ, ግን ለወደፊቱ, ክትትል ምንም ፋይዳ የለውም.

አራት ወርቃማ ምልክቶች

አራቱ ወርቃማ የክትትል ምልክቶች መዘግየት፣ ትራፊክ፣ ስህተቶች እና ሙሌት ናቸው። አራት የተጠቃሚ ስርዓት መለኪያዎችን ብቻ መለካት ከቻልክ በአራቱ ላይ አተኩር።

መዘግየት

ጥያቄውን ለማስኬድ የሚያስፈልገው ጊዜ። የተሳካ እና ያልተሳኩ ጥያቄዎችን መዘግየት መለየት አስፈላጊ ነው. ለምሳሌ የኤችቲቲፒ 500 ስህተት ከመረጃ ቋት ጋር ግንኙነት በመጥፋቱ ወይም በሌላ ጀርባ ያለው ግንኙነት በጣም በፍጥነት ሊታወቅ ይችላል ነገርግን የኤችቲቲፒ 500 ስህተት ያልተሳካ ጥያቄን ሊያመለክት ይችላል። በአጠቃላይ መዘግየት ላይ የ 500 ስህተትን ተፅእኖ መፈለግ ወደ የተሳሳቱ መደምደሚያዎች ሊመራ ይችላል. በሌላ በኩል ቀርፋፋ ስህተት እንኳን ፈጣን ስህተት ነው! ስለዚህ, ስህተቶችን ከማጣራት ይልቅ የስህተት መዘግየትን መከታተል አስፈላጊ ነው.

ትራፊክ

በከፍተኛ ደረጃ የሥርዓት መለኪያዎች የሚለካው የስርዓትዎ የጥያቄዎች ብዛት። ለድር አገልግሎት፣ ይህ መለኪያ በሴኮንድ የኤችቲቲፒ ጥያቄዎችን ቁጥር በጥያቄዎቹ ተፈጥሮ (ለምሳሌ የማይንቀሳቀስ ወይም ተለዋዋጭ ይዘት) ሲካፈል ይወክላል። ለድምጽ ዥረት ስርዓት፣ ይህ ልኬት በአውታረ መረብ I/O ተመን ወይም በተመሳሳይ ክፍለ ጊዜዎች ላይ ያማከለ ሊሆን ይችላል። ለቁልፍ-ዋጋ ማከማቻ ስርዓት፣ ይህ ልኬት በሴኮንድ ግብይቶች ወይም ፍለጋዎች ሊሆን ይችላል።

ስህተቶች።

ይህ ያልተሳኩ ጥያቄዎች መጠን ነው፣ ወይ በግልፅ (ለምሳሌ HTTP 500)፣ በተዘዋዋሪ (ለምሳሌ HTTP 200 ግን ከመጥፎ ይዘት ጋር ተጣምሮ) ወይም በፖሊሲ (ለምሳሌ፣ "በአንድ ሰከንድ ውስጥ ምላሽ ከያዙ፣ ማንኛውም አንድ ሰከንድ ስህተት ነው)። ሁሉንም የውድቀት ሁኔታዎች ለመግለፅ በቂ የኤችቲቲፒ ምላሽ ኮዶች ከሌሉ፣ ከፊል ውድቀትን ለመለየት ሁለተኛ ደረጃ (ውስጣዊ) ፕሮቶኮሎች ያስፈልጉ ይሆናል። ሁሉንም እንደዚህ ያሉ የተሳሳቱ ጥያቄዎችን መከታተል መረጃ አልባ ሊሆን ይችላል፣ ከጫፍ እስከ ጫፍ የሚደረጉ የስርዓት ሙከራዎች ግን የተሳሳተ ይዘትን እያስኬዱ እንደሆነ ለማወቅ ይረዳዎታል።

ሙሌት

መለኪያው የእርስዎ አገልግሎት ምን ያህል ጥቅም ላይ እንደሚውል ያሳያል። ይህ በጣም የተገደቡ ሀብቶችን የሚለይ የስርዓት ቁጥጥር መለኪያ ነው (ለምሳሌ ፣ ውስን ማህደረ ትውስታ ባለው ስርዓት ፣ ማህደረ ትውስታን ያሳያል ፣ ውስን I / O ባለው ስርዓት ውስጥ ፣ የ I / O ብዛት ያሳያል)። ብዙ ስርዓቶች 100% ጥቅም ላይ ከመዋላቸው በፊት ይበላሻሉ, ስለዚህ የአጠቃቀም ዒላማ መኖሩ አስፈላጊ ነው.

በውስብስብ ሲስተሞች ሙሌትን በከፍተኛ ደረጃ የመጫን መለኪያ ሊሟላ ይችላል፡ አገልግሎትዎ ድርብ ትራፊክን በትክክል ማስተናገድ፣ 10% ተጨማሪ ትራፊክን ብቻ ማስተናገድ ወይም አሁን ካለው ያነሰ ትራፊክ ማስተናገድ ይችላል? የጥያቄውን ውስብስብነት የሚቀይሩ መለኪያዎች ለሌላቸው ቀላል አገልግሎቶች (ለምሳሌ "ምንም ስጠኝ" ወይም "ልዩ አንድ ነጠላ ኢንቲጀር ያስፈልገኛል") ውቅረትን እምብዛም የማይለውጡ፣ የማይንቀሳቀስ ጭነት ሙከራ ዋጋ በቂ ሊሆን ይችላል። ባለፈው አንቀጽ ላይ እንደተብራራው፣ አብዛኛዎቹ አገልግሎቶች እንደ ሲፒዩ አጠቃቀም ወይም የአውታረ መረብ ባንድዊድዝ ያሉ ቀጥተኛ ያልሆኑ ምልክቶችን መጠቀም አለባቸው የሚታወቅ ከፍተኛ ወሰን። መዘግየት መጨመር ብዙውን ጊዜ የመሙላት ዋና አመላካች ነው። 99ኛ ፐርሰንታይል የምላሽ ጊዜን በትንሽ መስኮት (ለምሳሌ አንድ ደቂቃ) መለካት በጣም ቀደም ያለ ሙሌት ምልክት ሊሰጥ ይችላል።

በመጨረሻም ሙሌት ከመጪው ሙሌት ትንበያዎች ጋር የተቆራኘ ነው፡ ለምሳሌ፡ "መረጃ ቋትህ ሃርድ ድራይቭህን በ4 ሰአት ውስጥ የሚሞላው ይመስላል።"

ሁሉንም አራቱን ወርቃማ ምልክቶች ከለካችሁ እና ከመለኪያዎቹ በአንዱ ላይ ችግር ሲፈጠር (ወይንም ሙሌት ካለበት ችግር ማለት ይቻላል) ለሰውዬው ስታሳውቁ አገልግሎትዎ ይብዛም ይነስም በክትትል ይሸፈናል።

ስለ ጭራው (ወይም መሳሪያ እና አፈጻጸም) መጨነቅ

የክትትል ስርዓት ከባዶ ሲገነባ፣ በአማካይ መዘግየት፣ አማካኝ አንጓ ሲፒዩ አጠቃቀም ወይም አማካኝ የመረጃ ቋት ላይ የተመሰረተ ስርዓት መዘርጋት ፈታኝ ነው። የመጨረሻዎቹ ሁለት ምሳሌዎች አደጋ ግልጽ ነው-አቀነባባሪዎች እና የውሂብ ጎታዎች በጣም ባልተጠበቀ መንገድ ይጣላሉ. ለመዘግየትም ተመሳሳይ ነው። በሴኮንድ 100 ጥያቄዎች በአማካይ 1000ms የሚዘገይ የድረ-ገጽ አገልግሎት እየሰሩ ከሆነ፣ 1% ጥያቄዎች 5 ሰከንድ ሊወስዱ ይችላሉ። ተጠቃሚዎች እንደዚህ ባሉ በርካታ የድር አገልግሎቶች ላይ የሚመረኮዙ ከሆነ፣ የነጠላ ጀርባ 99ኛ ፐርሰንታይል በቀላሉ የበይነገጽ መካከለኛ ምላሽ ጊዜ ይሆናል።

ቀርፋፋ አማካይ እና በጣም ቀርፋፋ የጥያቄ ጅራት ለመለየት ቀላሉ መንገድ በስታቲስቲክስ የተገለጹ የጥያቄዎች መለኪያዎችን መሰብሰብ ነው (ሂስቶግራም ለማሳየት ተስማሚ መሳሪያ ነው) ከትክክለኛ መዘግየቶች ይልቅ፡ በወሰደው አገልግሎት ምን ያህል ጥያቄዎች እንደቀረቡ ነው። በ0 ms እና 10ms መካከል፣ በ10ሚሴ እና በ30ሚሴ መካከል፣ በ30ሚሴ እና 100ሚሴ መካከል፣ በ100ሚሴ እና 300ሚሴ መካከል፣ወዘተ።የሂስቶግራምን ወሰን በግምት በስፋት (በ3 ጊዜ ያህል) ማስፋፋት ብዙውን ጊዜ የጥያቄዎችን ስርጭት በዓይነ ሕሊናህ ለመመልከት ቀላል መንገድ ነው።

ለመለኪያዎች ትክክለኛውን ጥራጥሬ መምረጥ

የተለያዩ የስርዓቱ አካላት በተለያዩ የዝርዝሮች ደረጃዎች መለካት አለባቸው. ለምሳሌ:

  • የሲፒዩ አጠቃቀምን በተወሰነ ጊዜ ውስጥ መመልከት ከፍተኛ መዘግየትን የሚያስከትሉ ረጅም ሹልፎችን አያሳይም።
  • በሌላ በኩል ለድር አገልግሎት በአመት ከ9 ሰአታት ያልበለጠ (99,9% አመታዊ የስራ ሰዓት) ኢላማ ያደረገ የኤችቲቲፒ 200 ምላሽ በደቂቃ ከአንድ ወይም ሁለት ጊዜ በላይ መፈተሽ ሳያስፈልግ አይቀርም።
  • በተመሳሳይ፣ በየ99,9-1 ደቂቃው ከአንድ ጊዜ በላይ ለ2% መገኘት በሃርድ ድራይቭ ላይ ነፃ ቦታ መፈተሽ ምናልባት አላስፈላጊ ነው።

የመጠን መለኪያዎችን እንዴት እንደሚያዋቅሩ ይጠንቀቁ። በሴኮንድ 1 የሲፒዩ አጠቃቀም መጠን አስደሳች መረጃዎችን ሊሰጥ ይችላል፣ ነገር ግን እንደዚህ አይነት ተደጋጋሚ መለኪያዎች ለመሰብሰብ፣ ለማከማቸት እና ለመተንተን በጣም ውድ ሊሆን ይችላል። የክትትል ግብዎ ከፍተኛ ጥራትን የሚፈልግ እና ከፍተኛ ምላሽ የማይፈልግ ከሆነ በአገልጋዩ ላይ የመለኪያ ስብስቦችን በማዘጋጀት እና ከዚያም እነዚህን መለኪያዎች ለመሰብሰብ እና ለማዋሃድ ውጫዊ ስርዓትን በማዋቀር እነዚህን ወጪዎች መቀነስ ይችላሉ። ትችላለህ:

  1. በየሰከንዱ የሲፒዩ አጠቃቀም ይለኩ።
  2. ዝርዝሩን ወደ 5% ይቀንሱ.
  3. በየደቂቃው መለኪያዎችን ያዋህዱ።

ይህ ስልት ለመተንተን እና ለማከማቸት ከፍተኛ ወጪዎችን ሳያገኙ ከፍተኛ ጥራት ያለው መረጃ እንዲሰበስቡ ያስችልዎታል።

በተቻለ መጠን ቀላል, ግን ቀላል አይደለም

የተለያዩ መስፈርቶችን እርስ በርስ መደራረብ ወደ ውስብስብ የክትትል ስርዓት ሊያመራ ይችላል. ለምሳሌ፣ የእርስዎ ስርዓት የሚከተሉትን የሚያወሳስቡ አካላት ሊኖሩት ይችላል።

  • ለጥያቄ መዘግየት በተለያዩ ገደቦች መሰረት ማንቂያዎች በተለያዩ ፐርሰንታይሎች በሁሉም አይነት የተለያዩ ልኬቶች።
  • ሊሆኑ የሚችሉ ምክንያቶችን ለማወቅ እና ለመለየት ተጨማሪ ኮድ በመጻፍ ላይ።
  • ለእያንዳንዱ የችግሮች መንስኤዎች ተዛማጅ ዳሽቦርዶችን ይፍጠሩ።

የችግሮች መንስኤዎች አያልቁም። ልክ እንደ ሁሉም የሶፍትዌር ሲስተሞች፣ ክትትል በጣም ውስብስብ ከመሆኑ የተነሳ ተሰባሪ፣ ለመለወጥ እና ለመጠገን አስቸጋሪ ይሆናል።

ስለዚህ በተቻለ መጠን ቀለል ለማድረግ የክትትል ስርዓትዎን ይንደፉ። ምን እንደሚከታተል በሚመርጡበት ጊዜ የሚከተሉትን ልብ ይበሉ:

  • ብዙውን ጊዜ እውነተኛ ክስተቶችን የሚይዙት ደንቦች በተቻለ መጠን ቀላል, ሊገመቱ የሚችሉ እና አስተማማኝ መሆን አለባቸው.
  • አልፎ አልፎ (ለምሳሌ ለአንዳንድ የኤስአርኢ ቡድኖች ከሩብ አመት በታች) የሚደረገው የመረጃ አሰባሰብ፣ ማሰባሰብ እና ማንቂያ ውቅረት መወገድ አለበት።
  • የሚሰበሰቡት ነገር ግን በማንኛውም ቅድመ እይታ ፓነል ላይ የማይታዩ ወይም በማንኛውም ማንቂያ የሚጠቀሟቸው መለኪያዎች ለመሰረዝ እጩዎች ናቸው።

ጎግል ላይ፣ መሰረታዊ የመለኪያዎች ስብስብ እና ማሰባሰብ፣ ከማንቂያዎች እና ዳሽቦርዶች ጋር ተዳምሮ በአንፃራዊነት ራሱን የቻለ ስርዓት ይሰራል (የጉግል የክትትል ስርዓት በእውነቱ በብዙ ንዑስ ስርዓቶች የተከፋፈለ ነው ፣ ግን አብዛኛውን ጊዜ ሰዎች የእነዚህን ንዑስ ስርዓቶች ሁሉንም ገጽታዎች ያውቃሉ)። ቁጥጥርን ከሌሎች ውስብስብ ስርዓቶች የመፈተሽ ዘዴዎች ጋር ማጣመር ፈታኝ ሊሆን ይችላል፡ ዝርዝር የስርዓት መገለጫ፣ የሂደት ማረም፣ ልዩ ክትትል ወይም ውድቀት ዝርዝሮች፣ የጭነት ሙከራ፣ የምዝግብ ማስታወሻ መሰብሰብ እና ትንተና፣ ወይም የትራፊክ ፍተሻ። አብዛኛዎቹ እነዚህ ነገሮች ከመሠረታዊ ቁጥጥር ጋር ተመሳሳይነት ሲኖራቸው, እነሱን መቀላቀል በጣም ብዙ ውጤቶችን ያስገኛል እና ውስብስብ እና የተበጣጠሰ ስርዓት ይፈጥራል. እንደሌሎች የሶፍትዌር ልማት ገጽታዎች ሁሉ የተለያዩ ስርዓቶችን በግልፅ፣ ቀላል እና በቀላሉ በተጣመሩ የውህደት ነጥቦች መደገፍ ምርጡ ስልት ነው (ለምሳሌ፣ የዌብ ኤፒአይ በመጠቀም ማጠቃለያ መረጃን ለረጅም ጊዜ ሊቆይ በሚችል ቅርጸት ሰርስሮ ማውጣት ነው። ).

የማገናኘት መርሆዎች አንድ ላይ

በዚህ ምእራፍ ውስጥ የተብራሩት መርሆዎች በጎግል SRE ቡድኖች የተደገፈ እና የተከተለ ወደ ክትትል እና ማንቂያ ፍልስፍና ሊጣመሩ ይችላሉ። ይህንን የክትትል ፍልስፍና መከተል የሚፈለግ ነው፣ የማንቂያ ዘዴን ለመፍጠር ወይም ለማሻሻል ጥሩ መነሻ ነው፣ እና የድርጅትዎ መጠን ወይም የአገልግሎቱ ወይም የስርዓቱ ውስብስብነት ምንም ይሁን ምን ትክክለኛ ጥያቄዎችን እንዲጠይቁ ይረዳዎታል።

የክትትል እና የማስጠንቀቂያ ደንቦችን ሲፈጥሩ የሚከተሉትን ጥያቄዎች መጠየቅ የውሸት አወንታዊ እና አላስፈላጊ ማንቂያዎችን ለማስወገድ ይረዳዎታል።

  • ይህ ህግ አስቸኳይ፣ ወደ ተግባር የሚጠራ እና በተጠቃሚው ላይ ተጽዕኖ የሚያሳድር በሌላ መልኩ የማይታወቅ የስርዓት ሁኔታን ያውቃል?
  • ይህ ማስጠንቀቂያ ደህና መሆኑን እያወቅኩ ችላ ማለት እችላለሁ? ይህንን ማስጠንቀቂያ መቼ እና ለምን ችላ ማለት እችላለሁ እና ይህን ሁኔታ እንዴት ማስወገድ እችላለሁ?
  • ይህ ማንቂያ በተጠቃሚዎች ላይ አሉታዊ ተጽዕኖ እያሳደረ ነው ማለት ነው? በተጠቃሚዎች ላይ አሉታዊ ተጽእኖ የሌለባቸው ሁኔታዎች አሉ, ለምሳሌ, በትራፊክ ማጣሪያ ምክንያት ወይም የሙከራ ስርዓቶችን ሲጠቀሙ, ማጣራት ያለባቸው ማንቂያዎች?
  • ለዚህ ማስጠንቀቂያ ምላሽ ለመስጠት እርምጃ መውሰድ እችላለሁ? እነዚህ እርምጃዎች አስቸኳይ ናቸው ወይንስ እስከ ጠዋት ድረስ መጠበቅ ይችላሉ? ድርጊቱን በራስ ሰር ማድረግ ደህንነቱ የተጠበቀ ነው? ይህ እርምጃ የረዥም ጊዜ መፍትሄ ወይም የአጭር ጊዜ መፍትሄ ይሆናል?
  • አንዳንድ ሰዎች ለዚህ ጉዳይ ብዙ ማንቂያዎችን ያገኛሉ፣ ስለዚህ ቁጥሩን መቀነስ ይቻላል?

እነዚህ ጥያቄዎች በማንቂያዎች እና የማንቂያ ስርዓቶች ላይ መሰረታዊ ፍልስፍናን ያንፀባርቃሉ፡

  • ማስጠንቀቂያ በመጣ ቁጥር አስቸኳይ ምላሽ መስጠት አለብኝ። ከመደክሜ በፊት በቀን ብዙ ጊዜ መሮጥ እችላለሁ።
  • እያንዳንዱ ማንቂያ ወቅታዊ መሆን አለበት።
  • ለማንቂያው እያንዳንዱ ምላሽ የሰው ጣልቃገብነት ያስፈልገዋል። ማሳወቂያው በራስ-ሰር ሊሠራ የሚችል ከሆነ መምጣት የለበትም።
  • ማንቂያዎች ሾለ አዲስ ጉዳይ ወይም ከዚህ በፊት ያልተከሰተ ክስተት መሆን አለባቸው።

ይህ አካሄድ የተወሰኑ ልዩነቶችን ያደበዝዛል፡ ማንቂያ የቀደሙትን አራት ሁኔታዎች የሚያረካ ከሆነ፣ ማንቂያው ከዋይት-ቦክስ ቁጥጥር ስርዓት ወይም ከጥቁር ቦክስ ቢላክ ምንም ለውጥ የለውም። ይህ አካሄድ የተወሰኑ ልዩነቶችን ያጠናክራል-ከምክንያቶች ይልቅ ምልክቶችን ለመለየት ብዙ ጥረት ማድረጉ የተሻለ ነው ። ወደ መንስኤዎች በሚመጣበት ጊዜ, ስለ የማይቀሩ መንስኤዎች ብቻ መጨነቅ ያስፈልግዎታል.

የረጅም ጊዜ ክትትል

ዛሬ ባለው የምርት አካባቢዎች፣ የክትትል ስርዓቶች በየጊዜው እያደገ ያለውን የምርት ስርዓት በሶፍትዌር አርክቴክቸር፣ የመጫኛ ባህሪያት እና የአፈጻጸም ኢላማዎችን በመቀየር ይቆጣጠራሉ። ማንቂያዎች፣ በአሁኑ ጊዜ አውቶማቲክ ለማድረግ አስቸጋሪ የሆኑ፣ የተለመዱ ሊሆኑ ይችላሉ፣ ምናልባትም መፍትሄ ሊሰጣቸው የሚገባቸው። በዚህ ጊዜ አንድ ሰው የችግሩን መንስኤዎች መፈለግ እና ማስተካከል አለበት; እንዲህ ዓይነቱ መፍትሔ የማይቻል ከሆነ ለማንቂያው የሚሰጠው ምላሽ ሙሉ አውቶማቲክ ያስፈልገዋል.

የክትትል ውሳኔዎች የረጅም ጊዜ ግቦችን ግምት ውስጥ በማስገባት መደረጉ አስፈላጊ ነው. ዛሬ የሚሰራው ማንቂያ ሁሉ ነገ ስርአቱን ከማሻሻል ያርቃል፣ስለዚህ የክትትል ስርዓቱን በረጅም ጊዜ ለማሻሻል ለሚወስደው ጊዜ ብዙ ጊዜ የአምራች ስርዓት አቅርቦት ወይም አፈፃፀም ይቀንሳል። ይህንን ክስተት የሚያሳዩ ሁለት ምሳሌዎችን እንመልከት።

Bigtable SRE፡ ስለ ከመጠን በላይ ማንቂያ ታሪክ

የGoogle የውስጥ መሠረተ ልማት በተለምዶ የሚቀርበው እና የሚለካው በአገልግሎት ደረጃ (SLO) ነው። ከአመታት በፊት፣ የBigtable አገልግሎት SLO የተመሰረተው ደንበኛን በማስመሰል በተቀነባበረ ግብይት አማካይ አፈጻጸም ላይ ነው። በBigtable እና ዝቅተኛ የማከማቻ ቁልል ውስጥ ባሉ ችግሮች ምክንያት አማካይ አፈፃፀሙ በ"ትልቅ" ጅራት ይመራ ነበር፡ በጣም መጥፎዎቹ 5% ጥያቄዎች ከቀሪው በጣም ቀርፋፋ ናቸው።

የኢሜል ማሳወቂያዎች የተላኩት የ SLO ገደብ ሲቃረብ ነው፣ እና SLO ሲያልፍ የመልእክት ማንቂያዎች ተልከዋል። ሁለቱም አይነት ማንቂያዎች በፍትሃዊነት በተደጋጋሚ ተልከዋል፣ ተቀባይነት የሌለውን የምህንድስና ጊዜ የሚፈጅ፡ ቡድኑ ጠቃሚ የሆኑትን ጥቂት ለማግኘት ማንቂያዎቹን በመተንተን ብዙ ጊዜ አሳልፏል። ብዙ ጊዜ ተጠቃሚዎችን የሚነካ ችግር አምልጦናል ምክንያቱም ከማንቂያዎቹ ውስጥ ጥቂቶቹ ብቻ ለዚያ የተለየ ጉዳይ ስለነበሩ ነው። ብዙዎቹ ማንቂያዎች ለመረዳት በሚቻሉ የመሠረተ ልማት ጉዳዮች ምክንያት አስቸኳይ ያልሆኑ እና መደበኛ በሆነ መንገድ የተያዙ ናቸው ወይም ጨርሶ አልተያዙም።

ሁኔታውን ለማስተካከል፣ ቡድኑ ባለ ሶስት አቅጣጫዊ አካሄድን ተጠቅሟል፡ የBigtableን አፈጻጸም ለማሻሻል ጠንክረን ስንሰራ፣ ለጥያቄ ምላሽ መዘግየት 75ኛ ፐርሰንት በጊዜያዊነት የSLO ኢላማችን አድርገናል። የኢሜል ማንቂያዎችንም አጥፍተናል፣ ምክንያቱም ብዙዎቹ ስለነበሩ እነሱን ለመመርመር ጊዜ ማጥፋት አይቻልም።

ይህ ስልት የረዥም ጊዜ ጉዳዮችን በBigtable እና የታችኛው የማከማቻ ቁልል ንጣፎችን ማስተካከል እንድንጀምር አስችሎናል፣ከሁልጊዜ ስልታዊ ጉዳዮችን ከማስተካከል ይልቅ። መሐንዲሶች ሁልጊዜ በማንቂያዎች ካልተጨናነቁ ሥራውን ማከናወን ይችሉ ነበር። በመጨረሻም፣ ማንቂያዎችን በማዘጋጀት ላይ ያለው ጊዜያዊ መዘግየት የአገልግሎቱን ጥራት እንድናሻሽል አስችሎናል።

Gmail፡ ሊገመት የሚችል፣ አልጎሪዝም የሰው ምላሾች

ገና መጀመሪያ ላይ፣ ጂሜይል በተሻሻለው Workqueue የሂደት ቁጥጥር ስርዓት ላይ የተገነባ ሲሆን ይህም የሂደት ፍለጋ ኢንዴክስ ክፍሎችን ለመመደብ በተፈጠረ ነው። የስራ ወረፋ ለረጅም ጊዜ ሂደቶች ተስተካክሏል እና በኋላ በጂሜይል ላይ ተተግብሯል፣ ነገር ግን ግልጽ ባልሆነ የጊዜ ሰሌዳ ኮድ ውስጥ ያሉ አንዳንድ ስህተቶች ለማስተካከል በጣም ከባድ ሆነዋል።

በዚያን ጊዜ የGmail ክትትል የተዋቀረው Workqueueን በመጠቀም የግለሰብ ተግባራት ሲሰረዙ ማንቂያዎች እንዲነሱ ነው። ይህ አካሄድ ተስማሚ አልነበረም፣ ምክንያቱም በዚያን ጊዜ እንኳን ጂሜይል በሺዎች የሚቆጠሩ ተግባራትን ያከናወነ ሲሆን እያንዳንዳቸው በመቶኛ ለሚሆኑት ተጠቃሚዎቻችን የተሰጡ ናቸው። የጂሜይል ተጠቃሚዎች ጥሩ የተጠቃሚ ተሞክሮ እንዲኖራቸው ከፍተኛ ጥንቃቄ አድርገናል ነገርግን ብዙ ማንቂያዎችን ማስተናገድ ከጥያቄ ውጭ ነበር።

ይህንን ችግር ለመፍታት Gmail SRE በተጠቃሚዎች ላይ ያለውን ተጽእኖ ለመቀነስ የጊዜ ሰሌዳውን በተቻለ መጠን ለማረም የሚረዳ መሳሪያ ፈጠረ። ቡድኑ ችግሩን ከመፈለግ አንስቶ ችግሩን ለመፍታት የረዥም ጊዜ መፍትሄ እስኪገኝ ድረስ በቀላሉ ዑደቱን በሙሉ በራስ-ሰር ማድረግ ስለመቻል ወይም አለመሆኑ ቡድኑ ብዙ ውይይቶችን አድርጓል፣ ነገር ግን አንዳንዶች እንዲህ ያለው መፍትሄ የችግሩን ትክክለኛ ማስተካከል ያዘገየዋል የሚል ስጋት ነበራቸው።

እንዲህ ዓይነቱ ውጥረት በቡድኑ ውስጥ የተለመደ ነበር እና ብዙውን ጊዜ ራስን የመግዛት አለመተማመንን ያንፀባርቃል-አንዳንድ የቡድን አባላት ለትክክለኛው ጥገና ጊዜ ለመስጠት ሲፈልጉ ሌሎች ደግሞ የመጨረሻው ማስተካከያ እንደሚረሳ እና ጊዜያዊ ማስተካከያው ለዘላለም እንደሚወስድ ይጨነቃሉ። ይህ ችግር ትኩረት ሊሰጠው የሚገባው ነው, ምክንያቱም ችግሮችን በጊዜያዊነት ማስተካከል በጣም ቀላል ነው, ይልቁንም ዘላቂ ጥገና ከማድረግ ይልቅ. የመጀመሪያ ህመሙ በሚቀንስበት ጊዜም እንኳ የረጅም ጊዜ ጥገናዎችን በመደገፍ እና ቅድሚያ በመስጠት አስተዳዳሪዎች እና የቴክኒክ ሰራተኞች የረጅም ጊዜ ጥገናዎችን በመተግበር ረገድ ቁልፍ ሚና ይጫወታሉ.

መደበኛ ተደጋጋሚ ማንቂያዎች እና አልጎሪዝም ምላሾች ቀይ ባንዲራ መሆን አለባቸው። ቡድንዎ እነዚህን ማንቂያዎች በራስ ሰር ለመስራት ፈቃደኛ አለመሆኑ ቡድኑ አልጎሪዝምን ማመን ይችላል የሚል እምነት ይጎድለዋል ማለት ነው። ይህ ትኩረት ሊሰጠው የሚገባ ከባድ ችግር ነው።

ረዥም ጊዜ

አንድ የተለመደ ጭብጥ የBigtable እና Gmail ምሳሌዎችን ያገናኛል፡ በአጭር ጊዜ እና በረጅም ጊዜ ተገኝነት መካከል ያለው ውድድር። ብዙውን ጊዜ ጠንካራ ጥረት ደካማ ስርዓት ከፍተኛ አቅርቦትን እንዲያገኝ ይረዳል, ነገር ግን ይህ መንገድ አብዛኛውን ጊዜ አጭር ነው, በቡድን መቃጠል የተሞላ እና በተመሳሳይ የጀግንነት ቡድን አባላት ጥቂቶች ላይ ጥገኛ ነው.

ቁጥጥር የሚደረግበት፣ የአጭር ጊዜ ተደራሽነት ማሽቆልቆል ብዙ ጊዜ ያማል፣ ነገር ግን ለስርዓቱ የረዥም ጊዜ መረጋጋት ስልታዊ ጠቀሜታ አለው። እያንዳንዱን ማንቂያ በተናጥል ማጤን ሳይሆን አጠቃላይ የማስጠንቀቂያ መጠን ወደ ጤናማ፣ በአግባቡ ተደራሽ የሆነ አሰራር ከቡድኑ ጋር እና ተስማሚ ትንበያ እንደሚያመጣ ማጤን አስፈላጊ ነው። የማንቂያ ተመን ስታቲስቲክስን (በተለምዶ በአንድ ፈረቃ እንደ ክስተት፣ አንድ ክስተት ብዙ ተዛማጅ ክስተቶችን ሊያካትት በሚችልበት) ከአስተዳደሩ ጋር በየሩብ አመቱ ሪፖርቶች እንመረምራለን፣ ይህም ውሳኔ ሰጪዎች የማንቂያ ስርዓት ጭነትን እና አጠቃላይ የቡድን ጤናን በቀጣይነት እንዲያቀርቡ ያስችላቸዋል።

መደምደሚያ

ወደ ጤናማ ክትትል እና ማንቂያዎች መንገዱ ቀላል እና ቀጥተኛ ነው። ማንቂያዎች በሚፈጠሩበት የችግሩ ምልክቶች ላይ ያተኩራል, እና መንስኤውን መከታተል ችግሮችን ለማረም እንደ እርዳታ ያገለግላል. ምንም እንኳን የውሂብ ጎታ ጭነት እና የአፈፃፀም ቁጥጥር በቀጥታ በመረጃ ቋቱ ላይ መደረግ ያለበት ቢሆንም እርስዎ በሚቆጣጠሩት ቁልል ውስጥ ባሉዎት መጠን ምልክ ክትትል ቀላል ይሆናል። የኢሜል ማሳወቂያዎች በጣም የተገደበ አጠቃቀም እና በቀላሉ ወደ ጫጫታ የመሸጋገር አዝማሚያ አላቸው። በምትኩ፣ በኢሜል የሚነቁ ሁሉንም ወቅታዊ ጉዳዮች የሚከታተል ዳሽቦርድ መጠቀም አለቦት። ዳሽቦርዱ ታሪካዊ ግንኙነቶችን ለመተንተን ከክስተት ምዝግብ ማስታወሻ ጋር ሊጣመር ይችላል።

በረጅም ጊዜ ውስጥ፣ በምልክት ማንቂያዎች እና በቅርብ እውነተኛ ችግሮች መካከል የተሳካ ለውጥ ማምጣት ያስፈልጋል፣ እና ክትትል ፈጣን ምርመራን የሚደግፍ መሆኑን ለማረጋገጥ ግቦችን ማስተካከል ያስፈልጋል።

ትርጉሙን እስከ መጨረሻ ስላነበብክ እናመሰግናለን። ስለ ክትትል የቴሌግራም ቻናሌን ሰብስክራይብ ያድርጉ @monitorim_it и ጦማር በመካከለኛ.

ምንጭ: hab.com

አስተያየት ያክሉ