Slurm SRE. Booking.com жана Google.com эксперттери менен толук эксперимент

Биздин команда эксперименттерди жакшы көрөт. Ар бир Slurm мурункулардын статикалык кайталанышы эмес, бирок тажрыйба жөнүндө ой жүгүртүү жана жакшыдан жакшыга өтүү. Бирок менен Slurm SRE Биз толугу менен жаңы форматты колдонууну чечтик - катышуучуларга "согушка" мүмкүн болушунча жакын шарттарды берүү.

Интенсивдүү курста эмне кылганыбызды кыскача айтып берсек: «Биз курабыз, сындырабыз, оңдойбуз,
Биз окуп жатабыз." SRE жөн гана теорияда анча баалуу эмес - практика, реалдуу чечимдер, реалдуу көйгөйлөр.

Катышуучулар командаларга бөлүнгөн, ошондуктан күчтүү атаандаштык рух Дмитрий Анатольевичтин үлгүсү боюнча эч кимдин уктап калышына же iPhone телефонунда “Angry Birds” программасын ишке киргизүүгө жол бербеши үчүн.

Проблемалар, мүчүлүштүктөр, мүчүлүштүктөр жана тапшырмалар катышуучуларга төрт насаатчы тарабынан берилди. Иван Круглов, Booking.com сайтынын башкы иштеп чыгуучусу (Нидерланды). Бен Тайлер, Booking.com сайтынын башкы иштеп чыгуучусу (АКШ). Эдуард Медведев, Тунгстен лабораториясынын техникалык директору (Германия). Евгений Варавва, Google компаниясынын башкы иштеп чыгуучусу (Сан-Франциско).

Анын үстүнө катышуучулар командаларга бөлүнүп, бири-бири менен жарышат. Кызыктуубу?

Slurm SRE. Booking.com жана Google.com эксперттери менен толук эксперимент
Иван, Бен, Эдуард жана Евгений жарды Слурм СРЭ-нин катышуучуларына мелдеш башталар алдында лениндик мээримдуу коз караштары менен карашат.

Ошентип, милдет:

Биз биздикибиз, биз жаңы дүйнө курабыз...

Кино билеттерин чогултуучу веб-сайт бар. Окуяларды насаатчылар алдын ала даярдалган сценарий боюнча ойлоп табышат (бирок эч ким өзгөчө татаал жана тымызын импровизацияны жокко чыгарбайт), сайттын иштеши ар кандай көрсөткүчтөр менен сүрөттөлөт. Көйгөйлөр абдан ар түрдүү болушу мүмкүн: Мулен Руж театрына билеттер маалымат базасына жүктөлгөн эмес; фильмдердин жана спектаклдердин плакаттары 10 секунддан ашык убакытта маалымат базасына жүктөлөт; жеке пленканын сүрөттөлүшү катып калат; Буйрутмалардын 0,1% мурунтан эле сакталган; Мезгил-мезгили менен төлөмдү иштетүү системасы бир-эки мүнөткө иштебей калат. Жана көптөгөн, көп, көптөгөн жагымсыз нерселер Slurm SRE катышуучусунун чыныгы жумушунда болушу мүмкүн.

Slurm SRE. Booking.com жана Google.com эксперттери менен толук эксперимент
Биз баарын чечүүгө даярбыз... жана бардыгына.

Биздин көптөн бери чыдамкай веб-сайтыбыз бир нече микросервистерден турат. Анын милдети – бардык кинотеатрлардагы шоулар, баалар жана жеткиликтүү орундар боюнча маалыматтарды топтоо, ал кино кулактандырууларын көрсөтөт, кинотеатрды, шоуну, залды жана жерди тандоого, билеттерди броньдоого жана төлөөгө мүмкүндүк берет. Жалпысынан алганда, көрүүчүлөр кыялданган нерселердин баары. Бирок колдонуучу сайттын туруктуулугу жана жеткиликтүүлүгү үчүн кандай титаникалык күрөш жүрүп жатканын шектенбейт.

Интенсивдүү сайт үчүн биз SLO, SLI, SLA көрсөткүчтөрүн түздүк, архитектураны жана инфраструктураны иштеп чыктык, сайтты жайгаштырдык, мониторинг жана эскертүүлөрдү орноттук. Анан кетебиз.

SLO, SLI, SLA

SLI - тейлөө деңгээлинин көрсөткүчтөрү. SLO - бул кызмат деңгээлинин максаттары. SLA - тейлөө деңгээлиндеги келишимдер.

SLA - бул кызматтын кардары менен анын жеткирүүчүнүн ортосундагы расмий макулдашууну билдирген ITIL методологиясынын термини, анда кызматтын сыпаттамасын, тараптардын укуктарын жана милдеттерин жана эң негизгиси, аны көрсөтүү үчүн сапаттын макулдашылган деңгээлин камтыйт. кызмат.

SLO - бул кызмат деңгээлинин максаты: SLI менен өлчөнгөн кызмат деңгээли үчүн максаттуу маани же маанилердин диапазону. SLO үчүн кадимки маани "SLI ≤ Максат" же "Төмөнкү чек ≤ SLI ≤ Жогорку чек" болуп саналат.

SLI бул кызмат деңгээлинин көрсөткүчү — көрсөтүлгөн кызматтын деңгээлинин бир аспектинин кылдат аныкталган сандык өлчөмү. Көпчүлүк кызматтар үчүн негизги SLI сурамдын кечигүү убактысы болуп эсептелет – суроо-талапка жооп кайтаруу үчүн канча убакыт керектелет. Башка жалпы SLI'ларга ката ылдамдыгы кирет, көбүнчө алынган бардык сурамдардын бир бөлүгү катары көрсөтүлөт жана системанын өткөрүү жөндөмдүүлүгү, адатта, секундасына суроо-талаптар менен өлчөнөт.

Адегенде учактарды талкалайбыз, анан кыздарды, анан кыздарды...

Ички жана тышкы факторлор СЛОну биринчи мүнөттөрдөн эле “буза” баштады. Баары администраторлордун башына түштү — иштеп чыгуучунун каталары, инфраструктурадагы каталар, коноктордун агымы жана DDoS чабуулдары. Бардык нерсе SLOну начарлатат.

Slurm SRE. Booking.com жана Google.com эксперттери менен толук эксперимент
«- Урматтуу катышуучулар, мен сиздерди кубантууга шашып жатам, сиз эң биринчи жетишпеген нерсеңиз... баары!»

Жолдо спикерлер туруктуулукту, ката бюджетин, тестирлөө практикасын, үзгүлтүктөрдү башкарууну жана операциялык жүктү талкуулашты.

Биз жыгач уста эмеспиз...

Андан кийин катышуучулар нерселерди оңдоп башташты - эң негизгиси биринчи эмнени колго алуу керектигин түшүнүү.

Slurm SRE. Booking.com жана Google.com эксперттери менен толук эксперимент
– Мырзам, мынчалык, мындай формада, мынчалык абалда сынганын көргөн эмесмин!

Ошентип, кырсык болду. Төлөмдү иштетүү кызматы иштебей калды. Мүмкүн болгон кыска убакыттын ичинде функцияны калыбына келтирүү үчүн кантип иш-аракет кылуу керек?

Slurm SRE. Booking.com жана Google.com эксперттери менен толук эксперимент
Эксперттер катышуучуларга мээримдүүлүк менен карап, дагы бир трюк даярдап жатышат.

Ар бир команда аварияны жоюу боюнча топтун ишин уюштурат - кесиптештерин тартат, кызыкдар тараптарга (кызыкдар тараптарга) кабарлайт. Ошол эле учурда артыкчылыктар белгиленет. Ошентип катышуучулар өтө чектелген убакыт шарттарында басым астында иштөөгө үйрөтүштү.

Slurm SRE. Booking.com жана Google.com эксперттери менен толук эксперимент
"Кандай коркунуч чыкты?!"

Дем чыгарыңыз... жана көнүгүүлөрдү бүтүрүңүз

Баяндамачылар менен бирге ар бир көйгөй чечилип, сайт убактылуу турукташкандан кийин, команда окуяларды SRE көз карашынан изилдеп чыкты. Биз проблемаларды — пайда болуу себептерин, жоюунун жүрүшүн кеңири талдап чыктык. Андан кийин команда боюнча да, коллективдүү да аларды мындан ары кантип алдын алуу боюнча чечимдерди кабыл алганбыз: мониторингди кантип жакшыртуу керек, архитектураны кантип акылмандык менен өзгөртүү керек, иштеп чыгууга жана эксплуатациялоого мамилени кантип тууралоо керек, ченемдик укуктук актыларды кантип оңдоо керек. Докладчылар маркумду жургузуу практикасын керсетушту.

Slurm SRE. Booking.com жана Google.com эксперттери менен толук эксперимент
«Дагы ким азапты каалайт! - Мен!"

Командалардын ийгиликтери электрондук таблодо так жана так жазылган.

Slurm SRE. Booking.com жана Google.com эксперттери менен толук эксперимент

Биринчи орундар үчүн - кызыкдар тараптардын бонусу.

Slurm SRE. Booking.com жана Google.com эксперттери менен толук эксперимент

Source: www.habr.com

Комментарий кошуу