ஸ்லர்ம் SRE. Booking.com மற்றும் Google.com இலிருந்து நிபுணர்களுடன் ஒரு முழுமையான பரிசோதனை

எங்கள் குழு சோதனைகளை விரும்புகிறது. ஒவ்வொரு சேறும் முந்தையவற்றின் நிலையான மறுபரிசீலனை அல்ல, ஆனால் அனுபவத்தின் பிரதிபலிப்பு மற்றும் நல்லதிலிருந்து சிறந்ததாக மாறுகிறது. ஆனால் உடன் ஸ்லர்ம் SRE முற்றிலும் புதிய வடிவமைப்பைப் பயன்படுத்த முடிவு செய்தோம் - பங்கேற்பாளர்களுக்கு "போர்" செய்ய முடிந்தவரை நெருக்கமான நிபந்தனைகளை வழங்க.

தீவிர பயிற்சியின் போது நாங்கள் என்ன செய்தோம் என்பதை சுருக்கமாக கோடிட்டுக் காட்டினால்: "நாங்கள் கட்டுகிறோம், உடைக்கிறோம், சரிசெய்கிறோம்,
நாங்கள் படித்து கொண்டிருக்கிறோம்." வெறும் கோட்பாட்டில் SRE மதிப்பு குறைவாக உள்ளது - நடைமுறை, உண்மையான தீர்வுகள், உண்மையான பிரச்சனைகள் மட்டுமே.

டிமிட்ரி அனடோலிவிச்சின் முன்மாதிரியைப் பின்பற்றி, ஒரு தீவிரமான போட்டி மனப்பான்மை யாரையும் தூங்கவோ அல்லது ஐபோனில் "ஆங்கிரி பேர்ட்ஸ்" தொடங்கவோ அனுமதிக்காத வகையில் பங்கேற்பாளர்கள் அணிகளாகப் பிரிக்கப்பட்டனர்.

நான்கு வழிகாட்டிகளால் பங்கேற்பாளர்களுக்கு சிக்கல்கள், குறைபாடுகள், பிழைகள் மற்றும் பணிகள் வழங்கப்பட்டன. இவான் க்ருக்லோவ், Booking.com (நெதர்லாந்து) இன் முதன்மை டெவலப்பர். Ben Tyler, Booking.com (USA) இன் முதன்மை டெவலப்பர். எட்வர்ட் மெட்வெடேவ், டங்ஸ்டன் ஆய்வகங்களில் (ஜெர்மனி) CTO. எவ்ஜெனி வரவ்வா, கூகுளின் பொது டெவலப்பர் (சான் பிரான்சிஸ்கோ).

மேலும், பங்கேற்பாளர்கள் அணிகளாகப் பிரிக்கப்பட்டு ஒருவருக்கொருவர் போட்டியிடுகிறார்கள். சுவாரஸ்யமானதா?

ஸ்லர்ம் SRE. Booking.com மற்றும் Google.com இலிருந்து நிபுணர்களுடன் ஒரு முழுமையான பரிசோதனை
இவான், பென், எட்வார்ட் மற்றும் எவ்ஜெனி ஆகியோர் போட்டி தொடங்கும் முன், ஸ்லர்ம் எஸ்ஆர்இ பங்கேற்பாளர்களை கனிவான லெனினிச பார்வையுடன் பார்க்கின்றனர்.

எனவே பணி:

நாம் நமதே, புதிய உலகை உருவாக்குவோம்...

திரைப்பட டிக்கெட் திரட்டி இணையதளம் உள்ளது. சம்பவங்கள் வழிகாட்டிகளால் முன்-வேலை செய்யப்பட்ட சூழ்நிலையில் கண்டுபிடிக்கப்படுகின்றன (குறிப்பாக அதிநவீன மற்றும் நயவஞ்சகமான மேம்பாட்டை யாரும் விலக்கவில்லை என்றாலும்), தளத்தின் செயல்திறன் பல்வேறு அளவீடுகளால் விவரிக்கப்படுகிறது. சிக்கல்கள் மிகவும் வித்தியாசமாக இருக்கலாம்: மவுலின் ரூஜ் தியேட்டருக்கான டிக்கெட்டுகள் தரவுத்தளத்தில் ஏற்றப்படவில்லை; படங்கள் மற்றும் நிகழ்ச்சிகளின் சுவரொட்டிகள் 10 வினாடிகளுக்கு மேல் தரவுத்தளத்தில் ஏற்றப்படுகின்றன; ஒரு தனிப்பட்ட படத்தின் விளக்கம் உறைகிறது; 0,1% ஆர்டர்கள் ஏற்கனவே ஒதுக்கப்பட்டுள்ளன; அவ்வப்போது பணம் செலுத்தும் செயல்முறை ஒரு நிமிடம் அல்லது இரண்டு நிமிடங்களுக்கு செயலிழக்கிறது. மற்றும் அவரது உண்மையான வேலையில் Slurm SRE பங்கேற்பாளருக்கு ஏற்படும் பல, பல, பல விரும்பத்தகாத விஷயங்கள்.

ஸ்லர்ம் SRE. Booking.com மற்றும் Google.com இலிருந்து நிபுணர்களுடன் ஒரு முழுமையான பரிசோதனை
நாங்கள் எதையும் கையாள தயாராக இருக்கிறோம்... மற்றும் அனைவரையும்.

எங்கள் நீண்டகால இணையதளம் பல மைக்ரோ சர்வீஸ்களைக் கொண்டுள்ளது. எல்லா திரையரங்குகளிலிருந்தும் காட்சிகள், விலைகள் மற்றும் இருக்கைகள் பற்றிய தரவைத் திரட்டுவதே இதன் பணி; இது திரைப்பட அறிவிப்புகளைக் காட்டுகிறது, சினிமா, காட்சி, ஹால் மற்றும் இடத்தைத் தேர்ந்தெடுக்கவும், முன்பதிவு செய்து டிக்கெட்டுகளுக்கு பணம் செலுத்தவும் அனுமதிக்கிறது. பொதுவாக, பார்வையாளர் மட்டுமே கனவு காணக்கூடிய அனைத்தும். ஆனால் தளத்தின் ஸ்திரத்தன்மை மற்றும் அணுகலுக்கான டைட்டானிக் போராட்டம் உள்ளே என்ன நடக்கிறது என்று பயனர் கூட சந்தேகிக்கவில்லை.

தீவிர தளத்திற்கு, நாங்கள் SLO, SLI, SLA குறிகாட்டிகளை உருவாக்கினோம், கட்டிடக்கலை மற்றும் உள்கட்டமைப்பை உருவாக்கினோம், தளத்தைப் பயன்படுத்தினோம், கண்காணிப்பு மற்றும் எச்சரிக்கையை அமைத்தோம். மற்றும் நாங்கள் செல்கிறோம்.

SLO, SLI, SLA

SLI - சேவை நிலை குறிகாட்டிகள். SLOக்கள் சேவை நிலை இலக்குகள். SLA - சேவை நிலை ஒப்பந்தங்கள்.

SLA என்பது ஒரு ITIL வழிமுறைச் சொல்லாகும், இது ஒரு சேவையின் வாடிக்கையாளர் மற்றும் அதன் சப்ளையர் இடையே ஒரு முறையான ஒப்பந்தத்தைக் குறிக்கிறது, இதில் சேவையின் விளக்கம், கட்சிகளின் உரிமைகள் மற்றும் கடமைகள் மற்றும், மிக முக்கியமாக, இதை வழங்குவதற்கான ஒப்புக் கொள்ளப்பட்ட தரம் ஆகியவை அடங்கும். சேவை.

ஒரு SLO என்பது ஒரு சேவை நிலை நோக்கம்: SLI ஆல் அளவிடப்படும் சேவை நிலைக்கான இலக்கு மதிப்பு அல்லது மதிப்புகளின் வரம்பு. SLO க்கான இயல்பான மதிப்பு "SLI ≤ இலக்கு" அல்லது "குறைந்த வரம்பு ≤ SLI ≤ மேல் வரம்பு" ஆகும்.

SLI என்பது சேவை நிலைக் குறிகாட்டியாகும் - வழங்கப்பட்ட சேவையின் மட்டத்தின் ஒரு அம்சத்தின் கவனமாக வரையறுக்கப்பட்ட அளவு அளவீடு. பெரும்பாலான சேவைகளுக்கு, முக்கிய SLI ஆனது கோரிக்கை தாமதமாக கருதப்படுகிறது - கோரிக்கைக்கான பதிலை வழங்க எவ்வளவு நேரம் ஆகும். பிற பொதுவான SLI களில் பிழை விகிதம், பெறப்பட்ட அனைத்து கோரிக்கைகளின் ஒரு பகுதியாக அடிக்கடி வெளிப்படுத்தப்படுகிறது மற்றும் கணினி செயல்திறன், பொதுவாக வினாடிக்கான கோரிக்கைகளில் அளவிடப்படுகிறது.

முதலில், நாங்கள் விமானங்களை உடைப்போம், பின்னர் பெண்கள், பின்னர் பெண்கள் ...

உள் மற்றும் வெளிப்புற காரணிகள் முதல் நிமிடங்களில் இருந்து SLO "கெட" தொடங்கியது. டெவலப்பர் தவறுகள், உள்கட்டமைப்பு தோல்விகள், பார்வையாளர்களின் வருகை மற்றும் DDoS தாக்குதல்கள் என அனைத்தும் நிர்வாகிகளின் தலையில் விழுந்தன. SLO மோசமாக்கும் அனைத்தும்.

ஸ்லர்ம் SRE. Booking.com மற்றும் Google.com இலிருந்து நிபுணர்களுடன் ஒரு முழுமையான பரிசோதனை
"- அன்பான பங்கேற்பாளர்களே, உங்களைப் பிரியப்படுத்த நான் அவசரப்படுகிறேன், நீங்கள் தோல்வியடையும் முதல் விஷயம்... எல்லாம்!"

வழியில், பேச்சாளர்கள் நிலைத்தன்மை, பிழை வரவு செலவு திட்டம், சோதனை நடைமுறை, குறுக்கீடுகளின் மேலாண்மை மற்றும் செயல்பாட்டு சுமை பற்றி விவாதித்தனர்.

நாங்கள் ஸ்டோக்கர்கள் அல்ல, தச்சர்கள் அல்ல...

பின்னர் பங்கேற்பாளர்கள் விஷயங்களை சரிசெய்யத் தொடங்கினர் - முதலில் எதைப் பிடிக்க வேண்டும் என்பதைப் புரிந்துகொள்வதே முக்கிய விஷயம்.

ஸ்லர்ம் SRE. Booking.com மற்றும் Google.com இலிருந்து நிபுணர்களுடன் ஒரு முழுமையான பரிசோதனை
"- ஆண்டவரே, இது இப்படி, இந்த வடிவத்திலும், அத்தகைய நிலையிலும் உடைந்து நான் பார்த்ததில்லை!"

அதனால், விபத்து ஏற்பட்டது. கட்டணச் செயலாக்கச் சேவை முடங்கியுள்ளது. குறுகிய காலத்தில் செயல்பாட்டை மீட்டெடுக்க எப்படி செயல்படுவது?

ஸ்லர்ம் SRE. Booking.com மற்றும் Google.com இலிருந்து நிபுணர்களுடன் ஒரு முழுமையான பரிசோதனை
நிபுணர்கள், பங்கேற்பாளர்களை அன்புடன் பார்த்து, மற்றொரு தந்திரத்தை தயார் செய்கிறார்கள்.

ஒவ்வொரு குழுவும் விபத்தை அகற்ற குழுவின் வேலையை ஒழுங்கமைக்கிறது - சக ஊழியர்களை உள்ளடக்கியது, ஆர்வமுள்ள தரப்பினருக்கு (பங்குதாரர்கள்) அறிவிக்கிறது. அதே நேரத்தில், முன்னுரிமைகள் அமைக்கப்பட்டுள்ளன. இந்த வழியில், பங்கேற்பாளர்கள் மிகவும் குறைந்த நேர நிலைமைகளின் கீழ் அழுத்தத்தின் கீழ் பணியாற்ற பயிற்சி பெற்றனர்.

ஸ்லர்ம் SRE. Booking.com மற்றும் Google.com இலிருந்து நிபுணர்களுடன் ஒரு முழுமையான பரிசோதனை
"என்ன வகையான திகில் வெளிவந்தது?!"

மூச்சை வெளிவிட்டு... உடற்பயிற்சியை முடிக்கவும்

பேச்சாளர்களுடன் சேர்ந்து, ஒவ்வொரு பிரச்சனையும் தீர்க்கப்பட்டு, தளம் தற்காலிகமாக உறுதிப்படுத்தப்பட்ட பிறகு, குழு SRE பார்வையில் இருந்து சம்பவங்களை ஆய்வு செய்தது. சிக்கல்களை விரிவாக பகுப்பாய்வு செய்தோம் - நிகழ்வுக்கான காரணங்கள், நீக்குதலின் முன்னேற்றம். அதன்பிறகு, குழு வாரியாக மற்றும் கூட்டாக, அவற்றை எவ்வாறு தடுப்பது என்பது குறித்து நாங்கள் முடிவுகளை எடுத்தோம்: கண்காணிப்பை மேம்படுத்துவது, கட்டமைப்பை எவ்வாறு புத்திசாலித்தனமாக மாற்றுவது, வளர்ச்சி மற்றும் செயல்பாட்டிற்கான அணுகுமுறையை எவ்வாறு சரிசெய்வது, விதிமுறைகளை எவ்வாறு சரிசெய்வது. பிரேத பரிசோதனை செய்யும் நடைமுறையை பேச்சாளர்கள் செய்து காட்டினர்.

ஸ்லர்ம் SRE. Booking.com மற்றும் Google.com இலிருந்து நிபுணர்களுடன் ஒரு முழுமையான பரிசோதனை
“வேறு யாருக்கு வேதனை வேண்டும்! - நான்!"

அணிகளின் வெற்றிகள் மின்னணு ஸ்கோர்போர்டில் கண்டிப்பாகவும் தெளிவாகவும் பதிவு செய்யப்பட்டன.

ஸ்லர்ம் SRE. Booking.com மற்றும் Google.com இலிருந்து நிபுணர்களுடன் ஒரு முழுமையான பரிசோதனை

முதல் இடங்களுக்கு - பங்குதாரர்களிடமிருந்து போனஸ்.

ஸ்லர்ம் SRE. Booking.com மற்றும் Google.com இலிருந்து நிபுணர்களுடன் ஒரு முழுமையான பரிசோதனை

ஆதாரம்: www.habr.com

கருத்தைச் சேர்