ஒரு SRE இன்ஜினியர் பயிற்சியாளராக நான் ஒரு வாரத்தை எப்படி கழித்தேன். ஒரு மென்பொருள் பொறியாளரின் பார்வையில் கடமை

ஒரு SRE இன்ஜினியர் பயிற்சியாளராக நான் ஒரு வாரத்தை எப்படி கழித்தேன். ஒரு மென்பொருள் பொறியாளரின் பார்வையில் கடமை

SRE பொறியாளர் - பயிற்சியாளர்

முதலில், என்னை அறிமுகப்படுத்துகிறேன். நான் - @tristan.படிக்க, குழுவில் முன்னணி பொறியாளர் கண்காணிப்பு::உடல்நலம் GitLab. கடந்த வாரம் எங்கள் ஆன்-கால் SRE இன்ஜினியர் ஒருவருடன் பயிற்சி பெற்ற பெருமை எனக்கு கிடைத்தது. கடமையில் இருக்கும் அதிகாரி தினசரி சம்பவங்களுக்கு எவ்வாறு பதிலளிப்பார் என்பதைக் கவனிப்பதும், பணியில் நிஜ வாழ்க்கை அனுபவத்தைப் பெறுவதும் இலக்காக இருந்தது. எங்கள் பொறியாளர்கள் பயனர்களின் தேவைகளை நன்கு புரிந்து கொள்ள வேண்டும் என்று நாங்கள் விரும்புகிறோம் செயல்பாடு கண்காணிப்பு::உடல்நலம்.

நான் ஒரு வாரம் எல்லா இடங்களிலும் SRE பொறியாளரைப் பின்தொடர வேண்டியிருந்தது. அதாவது, ஒப்படைப்பில் நான் இருந்தேன், அதே விழிப்பூட்டல் சேனல்களை கண்காணித்து, சம்பவங்கள் நடந்தால் மற்றும் எப்போது நடந்தால் அதற்கு பதிலளித்தேன்.

சம்பவங்கள்

ஒரு வாரத்தில் 2 சம்பவங்கள் நடந்துள்ளன.

1. கிரிப்டோமினர்

GitLab.com புதன்கிழமை பயன்பாட்டில் ஒரு முன்னேற்றத்தைக் கண்டது GitLab ரன்னர்'a, கிரிப்டோகரன்சியை சுரங்கப்படுத்த ரன்னர் நிமிடங்களைப் பயன்படுத்துவதற்கான முயற்சிகளால் ஏற்படுகிறது. எங்கள் சொந்த மீறல் நடுநிலைப்படுத்தல் கருவியைப் பயன்படுத்தி இந்தச் சம்பவம் கையாளப்பட்டது, இது ரன்னரின் பணிகளை நிறுத்துகிறது மற்றும் அதனுடன் தொடர்புடைய திட்டம் மற்றும் கணக்கை நீக்குகிறது.

இந்த நிகழ்வு கவனிக்கப்படாமல் இருந்திருந்தால், ஒரு தானியங்கி கருவி அதைப் பிடித்திருக்கும், ஆனால் இந்த விஷயத்தில், SRE பொறியாளர் முதலில் மீறலைக் கவனித்தார். ஒரு சம்பவ பணி உருவாக்கப்பட்டது, ஆனால் அது பற்றிய தகவல் மூடப்பட்டுள்ளது.

2. கேனரி மற்றும் முக்கிய பயன்பாடுகளின் செயல்திறன் சிதைவு

Gitlab.com இல் உள்ள கேனரி மற்றும் முக்கிய இணையப் பயன்பாடுகளில் மந்தநிலை மற்றும் பிழைகளின் அதிர்வெண் அதிகரித்ததால் இந்தச் சம்பவம் ஏற்பட்டது. பல அப்டெக்ஸ் மதிப்புகள் மீறப்பட்டன.

நிகழ்வுப் பணியைத் திற: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442

முக்கிய கண்டுபிடிப்புகள்

கடமையில் இருந்த ஒரு வாரத்தில் நான் கற்றுக்கொண்ட சில விஷயங்கள் இங்கே உள்ளன.

1. விதிமுறையிலிருந்து விலகல்களைக் கண்டறியும் போது எச்சரிக்கைகள் மிகவும் பயனுள்ளதாக இருக்கும்.

எச்சரிக்கைகளை பல வகைகளாகப் பிரிக்கலாம்:

  • "ஒரு வினாடிக்கு 10 5xx பிழைகள் ஏற்பட்டன" போன்ற ஒரு குறிப்பிட்ட வரம்பு மதிப்பின் அடிப்படையிலான விழிப்பூட்டல்கள்.
  • "ஒரு குறிப்பிட்ட நேரத்தில் கோரிக்கைகளின் மொத்த அளவின் 5% க்கு 10xx பிழைகளின் அதிர்வெண்" போன்ற ஒரு சதவீத மதிப்பில் த்ரெஷோல்ட் இருக்கும் விழிப்பூட்டல்கள்.
  • "5வது சதவிகிதத்தில் 90xx பிழைகள்" போன்ற வரலாற்று சராசரியை அடிப்படையாகக் கொண்ட விழிப்பூட்டல்கள்.

பொதுவாக, 2 மற்றும் 3 வகைகள் கடமையில் இருக்கும் SRE களுக்கு மிகவும் பயனுள்ளதாக இருக்கும், ஏனெனில் அவை செயல்பாட்டில் உள்ள விதிமுறையிலிருந்து விலகல்களை வெளிப்படுத்துகின்றன.

2. பல விழிப்பூட்டல்கள் ஒருபோதும் சம்பவங்களாக மாறாது.

எஸ்ஆர் பொறியியலாளர்கள் தொடர்ந்து விழிப்பூட்டல்களைக் கையாள்கின்றனர், அவற்றில் பல உண்மையில் முக்கியமானவை அல்ல.

எனவே உங்கள் விழிப்பூட்டல்களை மிகவும் முக்கியமானவைகளுக்கு மட்டும் ஏன் கட்டுப்படுத்தக்கூடாது? எவ்வாறாயினும், இந்த அணுகுமுறையின் மூலம், பெரிய சேதத்தை அச்சுறுத்தும் உண்மையான பிரச்சனையாக பனிப்பந்தின் ஆரம்ப அறிகுறிகளை நீங்கள் அடையாளம் காண முடியாது.

ஆன்-கால் SRE இன் வேலை என்னவென்றால், எந்த விழிப்பூட்டல்கள் உண்மையில் தீவிரமான ஒன்றைக் குறிப்பிடுகின்றன, மேலும் அவை அதிகரிக்கப்பட்டு வரிசைப்படுத்தப்பட வேண்டுமா என்பதைத் தீர்மானிப்பதாகும். இது விழிப்பூட்டல்களின் நெகிழ்வுத்தன்மையின் காரணமாகவும் இருக்கலாம் என்று நான் சந்தேகிக்கிறேன்: மேலே விவரிக்கப்பட்ட சூழ்நிலைக்கு ஏற்ப விழிப்பூட்டல்களை உள்ளமைக்க அவர்கள் பல நிலைகளை அல்லது "ஸ்மார்ட்" வழிகளை அறிமுகப்படுத்தினால் நன்றாக இருக்கும்.

அம்சம் பரிந்துரை: https://gitlab.com/gitlab-org/gitlab/issues/42633

3. கடமையில் இருக்கும் எங்கள் SREகள் நிறைய கருவிகளைப் பயன்படுத்துகின்றனர்.

அகம்:

  • GitLab இன்ஃப்ரா திட்டம்: ரன்புக்குகள் இங்கே உள்ளன, ஷிப்ட்/வார பணிகள், சம்பவ மறுமொழி பணிகள்.
  • GitLab சிக்கல்கள்: விசாரணைகள், மதிப்பாய்வுகள் மற்றும் பராமரிப்பு ஆகியவை சிக்கல்களில் கண்காணிக்கப்படுகின்றன.
  • GitLab லேபிள்கள்: குறிப்பிட்ட லேபிள்களைப் பயன்படுத்தி ஆட்டோமேஷன் பணிகள் தொடங்கப்படுகின்றன, அவை பணிச் செயல்பாட்டைக் கண்காணிக்கப் பயன்படுத்துகின்றன.

வெளி:

  • பேஜர் டூட்டி: எச்சரிக்கைகள்
  • Slack: PagerDuty/AlertManager செய்தி ஓட்டம் இங்கே செல்கிறது. விழிப்பூட்டலை மூடுவது அல்லது ஒரு சம்பவத்தை அதிகரிப்பது போன்ற பல்வேறு பணிகளைச் செய்ய ஸ்லாஷ் கட்டளைகளுடன் ஒருங்கிணைப்பு.
  • கிராஃபனா: நீண்ட கால போக்குகளை மையமாகக் கொண்டு அளவீடுகளின் காட்சிப்படுத்தல்.
  • கிபானா: காட்சிப்படுத்தல்/பதிவு தேடுதல், குறிப்பிட்ட நிகழ்வுகளை ஆழமாக ஆராயும் திறன் ஆகியவற்றை வழங்குகிறது.
  • பெரிதாக்கு: ஜூமில் தொடர்ந்து இயங்கும் "பிரேக்அவுட் அறை" உள்ளது. இது SRE பொறியியலாளர்கள் ஒரு அறையை உருவாக்கி, பங்கேற்பாளர்களை இணைக்கும் மதிப்புமிக்க நேரத்தை வீணாக்காமல் நிகழ்வுகளை விரைவாக விவாதிக்க அனுமதிக்கிறது.

மற்றும் பலர் பலர்.

4. GitLab.com ஐ GitLab உடன் கண்காணிப்பது தோல்வியின் ஒரு புள்ளியாகும்

GitLab.com ஒரு பெரிய சேவை செயலிழப்பை சந்தித்தால், சிக்கலைத் தீர்ப்பதற்கான எங்கள் திறனை அது பாதிக்க விரும்பவில்லை. GitLab.com ஐ நிர்வகிக்க இரண்டாவது GitLab நிகழ்வைத் தொடங்குவதன் மூலம் அதை நிறுத்தலாம். உண்மையில், இது ஏற்கனவே எங்களுக்கு வேலை செய்கிறது: https://ops.gitlab.net/.

5. GitLab இல் சேர்ப்பதை கருத்தில் கொள்ள வேண்டிய சில அம்சங்கள்

  • பல பயனர் பணி எடிட்டிங், Google டாக்ஸைப் போன்றது. இது ஒரு நிகழ்வின் போது ஏற்படும் சம்பவங்கள் குறித்த பணிகளுக்கும், விளக்கமளிக்கும் பணிகளுக்கும் உதவும். இரண்டு சந்தர்ப்பங்களிலும், பல பங்கேற்பாளர்கள் நிகழ்நேரத்தில் ஏதாவது ஒன்றைச் சேர்க்க வேண்டியிருக்கும்.
  • பணிகளுக்கான கூடுதல் வெப்ஹூக்குகள். வெவ்வேறு GitLab பணிப்பாய்வு படிகளை உள்ளிருந்து இயக்கும் திறன், ஸ்லாக் ஒருங்கிணைப்புகளின் மீதான உங்கள் நம்பிக்கையைக் குறைக்க உதவும். எடுத்துக்காட்டாக, GitLab சிக்கலில் ஸ்லாஷ் கட்டளை மூலம் பேஜர் டூட்டியில் எச்சரிக்கையை அனுமதிக்கும் திறன்.
    முடிவுக்கு

SRE இன்ஜினியர்களுக்கு நிறைய சிக்கல்கள் உள்ளன. மேலும் GitLab தயாரிப்புகள் இந்தச் சிக்கல்களைத் தீர்ப்பதைப் பார்ப்பது நன்றாக இருக்கும். மேலே குறிப்பிட்டுள்ள பணிப்பாய்வுகளை எளிதாக்கும் தயாரிப்பில் சில சேர்த்தல்களை நாங்கள் ஏற்கனவே செய்து வருகிறோம். விவரங்கள் கிடைக்கும் Ops தயாரிப்பு பார்வை பிரிவு.

இந்த சிறப்பான அம்சங்கள் அனைத்தையும் ஒன்றாகக் கொண்டு வர, 2020ல் குழுவை விரிவுபடுத்துகிறோம். ஆர்வமாக இருந்தால், தயவுசெய்து பார்க்கவும் காலியிடங்கள், மற்றும் ஏதேனும் கேள்விகள் இருந்தால் எங்கள் குழுவில் உள்ள எவரையும் தொடர்பு கொள்ளலாம்.

ஆதாரம்: www.habr.com

கருத்தைச் சேர்