Slurm SRE. Booking.com және Google.com сарапшыларымен толық тәжірибе

Біздің команда эксперименттерді жақсы көреді. Әрбір Slurm алдыңғылардың статикалық қайталануы емес, тәжірибе туралы рефлексия және жақсыдан жақсыға көшу. Бірақ бірге Slurm SRE біз мүлде жаңа форматты қолдануды шештік – қатысушыларға «жауынгерлік» мүмкіндігінше жақын жағдай жасау.

Қарқынды курста не істегенімізді қысқаша сипаттайтын болсақ: «Біз саламыз, бұзамыз, жөндейміз,
оқып жатырмыз». SRE тек теорияда шамалы - тек тәжірибе, нақты шешімдер, нақты мәселелер.

Қатысушылар командаларға бөлінді, сондықтан жігерлі бәсекелестік рух Дмитрий Анатольевичтің үлгісімен ешкімнің ұйықтап кетуіне немесе iPhone-да «Ашулы құстарды» іске қосуға мүмкіндік бермейді.

Қатысушыларға мәселелер, ақаулар, қателер мен тапсырмаларды төрт тәлімгер ұсынды. Иван Круглов, Booking.com сайтының бас әзірлеушісі (Нидерланды). Бен Тайлер, Booking.com сайтының негізгі әзірлеушісі (АҚШ). Эдуард Медведев, Tungsten Labs компаниясының техникалық директоры (Германия). Евгений Варавва, Google компаниясының бас әзірлеушісі (Сан-Франциско).

Оның үстіне қатысушылар командаларға бөлініп, бір-бірімен жарысады. Қызықты?

Slurm SRE. Booking.com және Google.com сарапшыларымен толық тәжірибе
Иван, Бен, Эдуард және Евгений жарыс басталар алдында бейшара Slurm SRE қатысушыларына мейірімді лениндік көздерімен қарайды.

Сонымен, тапсырма:

Біз біздікі, біз жаңа әлемді саламыз...

Кино билеттерін жинақтаушы веб-сайт бар. Оқиғаларды тәлімгерлер алдын ала дайындалған сценарий бойынша ойлап табады (бірақ ешкім ерекше күрделі және жасырын импровизацияны жоққа шығармайды), сайттың өнімділігі әртүрлі көрсеткіштермен сипатталады. Мәселелер әртүрлі болуы мүмкін: Мулен Руж театрына билеттер дерекқорға жүктелмейді; фильмдер мен спектакльдердің плакаттары дерекқорға 10 секундтан артық жүктеледі; жеке пленканың сипаттамасы қатып қалады; Тапсырыстардың 0,1%-ы резервке қойылған; Кейде төлемді өңдеу жүйесі бір-екі минутқа істен шығады. Сондай-ақ, Slurm SRE қатысушысының нақты жұмысында басына түсуі мүмкін көптеген, көптеген, көптеген жағымсыз нәрселер.

Slurm SRE. Booking.com және Google.com сарапшыларымен толық тәжірибе
Біз кез келген нәрсені және барлығын шешуге дайынбыз.

Біздің көптен күткен веб-сайтымыз бірнеше микросервистерден тұрады. Оның міндеті – шоулар, бағалар және барлық кинотеатрлардағы қолжетімді орындар туралы мәліметтерді жинақтау; ол фильм туралы хабарландыруларды көрсетеді, кинотеатрды, шоуды, залды және орынды таңдауға, билеттерді брондауға және төлеуге мүмкіндік береді. Жалпы, көрермен тек армандай алатын барлық нәрсе. Бірақ пайдаланушы сайттың тұрақтылығы мен қолжетімділігі үшін қандай титаникалық күрес жүріп жатқанын тіпті күдіктенбейді.

Қарқынды сайт үшін біз SLO, SLI, SLA көрсеткіштерін жасадық, сәулет пен инфрақұрылымды дамыттық, сайтты орналастырдық, мониторинг пен ескертуді орнаттық. Ал біз кетеміз.

SLO, SLI, SLA

SLI – қызмет көрсету деңгейінің көрсеткіштері. SLO - бұл қызмет деңгейінің мақсаттары. SLA - қызмет көрсету деңгейінің келісімдері.

SLA - бұл қызметтің сипаттамасын, тараптардың құқықтары мен міндеттерін және, ең бастысы, осы қызметті көрсетуге арналған сапа деңгейінің келісілген деңгейін қамтитын қызметтің тұтынушысы мен оның жеткізушісі арасындағы ресми келісімді білдіретін ITIL әдіснамасының термині. қызмет.

SLO - қызмет деңгейінің мақсаты: SLI арқылы өлшенетін қызмет деңгейі үшін мақсатты мән немесе мәндер ауқымы. SLO үшін қалыпты мән «SLI ≤ Мақсат» немесе «Төменгі шек ≤ SLI ≤ Жоғарғы шек» болып табылады.

SLI - қызмет деңгейінің көрсеткіші — ұсынылатын қызмет деңгейінің бір аспектісінің мұқият анықталған сандық өлшемі. Көптеген қызметтер үшін SLI кілті сұраудың кешігуі болып саналады - сұрауға жауапты қайтару үшін қанша уақыт қажет. Басқа жалпы SLI-ге жиі қабылданған барлық сұраулардың бір бөлігі ретінде көрсетілген қате жылдамдығы және әдетте секундына сұраныспен өлшенетін жүйенің өткізу қабілеті кіреді.

Ең алдымен ұшақтарды сындырамыз, сосын қыздарды, сосын қыздарды...

Ішкі және сыртқы факторлар SLO-ны алғашқы минуттардан-ақ «бұза бастады». Барлығы әкімшілердің басына түсті — әзірлеушілердің қателері, инфрақұрылымдық ақаулар, келушілер ағыны және DDoS шабуылдары. SLO-ны нашарлататынның бәрі.

Slurm SRE. Booking.com және Google.com сарапшыларымен толық тәжірибе
«- Құрметті қатысушылар, мен сіздерді қуантуға асығамын, ең бірінші сәтсіздікке ұшырайтын нәрсе – бәрі...».

Жолда спикерлер тұрақтылық, қателер бюджеті, тестілеу тәжірибесі, үзілістерді басқару және операциялық жүктемені талқылады.

Біз ағаш ұстасы емеспіз...

Содан кейін қатысушылар заттарды түзете бастады - ең бастысы, алдымен нені алу керектігін түсіну.

Slurm SRE. Booking.com және Google.com сарапшыларымен толық тәжірибе
– Тәңірім, мен оның мұндай күйде, мұндай күйде сынғанын ешқашан көрген емеспін!

Сөйтіп, апат орын алды. Төлемді өңдеу қызметі істен шықты. Мүмкіндігінше қысқа мерзімде функционалдылықты қалпына келтіру үшін қалай әрекет ету керек?

Slurm SRE. Booking.com және Google.com сарапшыларымен толық тәжірибе
Қатысушыларға ықыласпен қарайтын мамандар тағы бір қулық әзірлеп жатыр.

Әрбір команда апатты жою бойынша топтың жұмысын ұйымдастырады – әріптестерін тартады, мүдделі тұлғаларды (мүдделі тараптарды) хабардар етеді. Бұл ретте басымдықтар белгіленеді. Осылайша қатысушылар өте шектеулі уақыт жағдайында қысыммен жұмыс істеуге жаттықты.

Slurm SRE. Booking.com және Google.com сарапшыларымен толық тәжірибе
«Қандай сұмдық шықты?!»

Дем шығарыңыз... және жаттығуды аяқтаңыз

Спикерлермен бірге әрбір мәселе шешіліп, сайт уақытша тұрақтанғаннан кейін команда оқиғаларды SRE тұрғысынан зерттеді. Біз проблемаларды егжей-тегжейлі талдадық - пайда болу себептері, жою барысы. Осыдан кейін біз командалық және ұжымдық түрде олардың одан әрі алдын алу жолдары туралы шешім қабылдадық: мониторингті қалай жақсартуға болады, архитектураны қалай ақылмен өзгертуге болады, әзірлеу мен жұмыс істеуге көзқарасты қалай түзетуге болады, ережелерді қалай түзетуге болады. Баяндамашылар өлгеннен кейін сараптама жүргізу тәжірибесін көрсетті.

Slurm SRE. Booking.com және Google.com сарапшыларымен толық тәжірибе
«Басқа кім азапты қалайды! - Мен!"

Командалардың жетістіктері электронды таблода қатаң әрі анық жазылды.

Slurm SRE. Booking.com және Google.com сарапшыларымен толық тәжірибе

Бірінші орындар үшін – мүдделі тараптардан бонус.

Slurm SRE. Booking.com және Google.com сарапшыларымен толық тәжірибе

Ақпарат көзі: www.habr.com

пікір қалдыру