Slurm SRE. Booking.com болон Google.com-ын мэргэжилтнүүдтэй хийсэн бүрэн туршилт

Манай баг туршилтанд дуртай. Slurm бүр нь өмнөх үйлдлүүдийн тогтмол давталт биш, харин туршлагыг тусгаж, сайнаас илүү сайн руу шилжих шилжилт юм. Гэхдээ хамт Slurm SRE Бид оролцогчдод "байлдалд" аль болох ойр байх нөхцлийг бүрдүүлэх цоо шинэ форматыг ашиглахаар шийдсэн.

Хэрэв бид эрчимжүүлсэн сургалтанд юу хийснийг товч дурдвал: "Бид барьдаг, эвддэг, засдаг.
Бид сурч байна." SRE нь зөвхөн онолын хувьд бага үнэ цэнэтэй - зөвхөн практик, бодит шийдэл, бодит асуудлууд.

Оролцогчдыг баг болгон хуваасан бөгөөд ингэснээр эрч хүчтэй өрсөлдөөний сүнс нь Дмитрий Анатольевичийн үлгэр жишээг дагаж iPhone дээр "Angry Birds"-ийг унтуулах эсвэл "Angry Birds"-ийг эхлүүлэхийг хэн ч зөвшөөрөхгүй.

Асуудал, доголдол, алдаа, даалгавруудыг дөрвөн зөвлөгчөөр оролцогчдод өгсөн. Иван Круглов, Booking.com (Нидерланд) компанийн ерөнхий хөгжүүлэгч. Бен Тайлер, Booking.com (АНУ)-ын үндсэн хөгжүүлэгч. Эдуард Медведев, Вольфрамын лабораторийн ерөнхий захирал (Герман). Евгений Варавва, Google-ийн ерөнхий хөгжүүлэгч (Сан Франциско).

Түүгээр ч зогсохгүй оролцогчид багуудад хуваагдаж, хоорондоо өрсөлддөг. Сонирхолтой юу?

Slurm SRE. Booking.com болон Google.com-ын мэргэжилтнүүдтэй хийсэн бүрэн туршилт
Иван, Бен, Эдуард, Евгений нар тэмцээн эхлэхийн өмнө хөөрхий Slurm SRE-ийн оролцогчдыг эелдэг ленинист нүдээр харж байна.

Тиймээс даалгавар:

Бид бол биднийх, бид шинэ ертөнцийг бүтээнэ...

Киноны тасалбар цуглуулагч вэб сайт байдаг. Тохиолдлуудыг зөвлөгчид урьдчилан боловсруулсан хувилбарын дагуу зохион бүтээдэг (хэдийгээр хэн ч онцгой боловсронгуй, нууцлаг импровизацийг үгүйсгэдэггүй) сайтын гүйцэтгэлийг янз бүрийн хэмжүүрээр тодорхойлдог. Асуудал нь маш өөр байж болно: Мулен Руж театрын тасалбар мэдээллийн санд ачаалагдаагүй; кино, үзүүлбэрийн зурагт хуудсыг мэдээллийн санд 10 секундээс илүү хугацаанд ачаалах; бие даасан киноны тайлбар нь хөлддөг; Захиалгын 0,1% нь аль хэдийн хадгалагдсан; Үе үе төлбөр боловсруулах систем нэг юмуу хоёр минутын турш гацдаг. Мөн Slurm SRE-ийн оролцогчийн жинхэнэ ажил дээрээ тохиолдож болох олон, олон, олон таагүй зүйлс.

Slurm SRE. Booking.com болон Google.com-ын мэргэжилтнүүдтэй хийсэн бүрэн туршилт
Бид бүх зүйлийг зохицуулахад бэлэн байна ... мөн хүн бүр.

Бидний удаан хүлээсэн вэбсайт нь хэд хэдэн бичил үйлчилгээнээс бүрддэг. Үүний үүрэг бол бүх кино театруудын шоу, үнэ, суудлын талаархи мэдээллийг нэгтгэх, киноны зарлалыг харуулах, кино театр, шоу, танхим, газрыг сонгох, тасалбар захиалах, төлөх боломжийг олгодог. Ерөнхийдөө үзэгчдийн мөрөөдөж чадах бүх зүйл. Гэхдээ хэрэглэгч сайтын тогтвортой байдал, хүртээмжтэй байдлын төлөөх ямар их тэмцэл өрнөж байгааг сэжиглэхгүй байна.

Эрчимтэй сайтын хувьд бид SLO, SLI, SLA үзүүлэлтүүдийг үүсгэж, архитектур, дэд бүтцийг хөгжүүлж, сайтыг байрлуулж, хяналт, сэрэмжлүүлэгийг тохируулсан. Тэгээд бид явлаа.

SLO, SLI, SLA

SLI - үйлчилгээний түвшний үзүүлэлтүүд. SLO нь үйлчилгээний түвшний зорилго юм. SLA - үйлчилгээний түвшний гэрээ.

SLA гэдэг нь үйлчилгээний тодорхойлолт, талуудын эрх, үүрэг, хамгийн чухал нь үүнийг үзүүлэх чанарын тохиролцсон түвшинг агуулсан үйлчилгээний хэрэглэгч ба нийлүүлэгчийн хооронд байгуулсан албан ёсны гэрээг илэрхийлдэг ITIL арга зүйн нэр томъёо юм. үйлчилгээ.

SLO нь үйлчилгээний түвшний зорилго юм: SLI-аар хэмжигддэг үйлчилгээний түвшний зорилтот утга эсвэл утгын хүрээ. SLO-ийн хэвийн утга нь “SLI ≤ Зорилтот” эсвэл “Доод хязгаар ≤ SLI ≤ Дээд хязгаар” юм.

SLI нь үйлчилгээний түвшний үзүүлэлт бөгөөд үзүүлж буй үйлчилгээний түвшний аль нэг талыг нарийн тодорхойлсон тоон хэмжүүр юм. Ихэнх үйлчилгээний хувьд гол SLI нь хүсэлтийн хоцрогдол гэж тооцогддог - хүсэлтийн хариуг буцаахад хэр хугацаа шаардагдах вэ. Бусад нийтлэг SLI-д ихэвчлэн хүлээн авсан бүх хүсэлтийн нэг хэсэг болгон илэрхийлэгддэг алдааны түвшин, секундэд ирдэг хүсэлтээр хэмжигддэг системийн нэвтрүүлэх чадвар багтдаг.

Юуны өмнө бид онгоц эвдэж, дараа нь охид, дараа нь охидууд ...

Дотоод болон гадаад хүчин зүйл нь эхний минутаас л SLO-г "гэмтэж" эхэлсэн. Хөгжүүлэгчийн алдаа, дэд бүтцийн доголдол, зочдын урсгал, DDoS халдлага зэрэг бүх зүйл администраторуудын толгой дээр буув. SLO-г улам дордуулдаг бүх зүйл.

Slurm SRE. Booking.com болон Google.com-ын мэргэжилтнүүдтэй хийсэн бүрэн туршилт
"- Эрхэм оролцогчид, би та нарт таалагдах гэж яарч байна, таны бүтэлгүйтсэн хамгийн эхний зүйл бол ... бүх зүйл!"

Энэ үеэр илтгэгчид тогтвортой байдал, алдааны төсөв, туршилтын практик, тасалдал, үйл ажиллагааны ачааллыг зохицуулах талаар ярилцав.

Бид галт тэрэгчин биш, мужаан биш ...

Дараа нь оролцогчид бүх зүйлийг засаж эхлэв - гол зүйл бол эхлээд юу авахаа ойлгох явдал юм.

Slurm SRE. Booking.com болон Google.com-ын мэргэжилтнүүдтэй хийсэн бүрэн туршилт
"-Эзэн, би хэзээ ч ийм, ийм хэлбэрээр, ийм байрлалаар эвдэрч байхыг харж байгаагүй!"

Ингээд осол гарлаа. Төлбөр боловсруулах үйлчилгээ зогссон байна. Хамгийн богино хугацаанд үйл ажиллагааг сэргээхийн тулд хэрхэн ажиллах вэ?

Slurm SRE. Booking.com болон Google.com-ын мэргэжилтнүүдтэй хийсэн бүрэн туршилт
Мэргэжилтнүүд оролцогчдыг энхрийлэн харж, өөр нэг заль мэхийг бэлдэж байна.

Баг бүр ослыг арилгах бүлгийн ажлыг зохион байгуулдаг - хамтран ажиллагсдаа оролцуулж, сонирхогч талуудад (сонирхогч талууд) мэдэгдэнэ. Үүний зэрэгцээ тэргүүлэх чиглэлүүдийг тодорхойлсон. Ийнхүү оролцогчид маш хязгаарлагдмал цаг хугацааны нөхцөлд дарамт шахалттай ажиллахад сургасан.

Slurm SRE. Booking.com болон Google.com-ын мэргэжилтнүүдтэй хийсэн бүрэн туршилт
"Ямар аймшиг гараад ирэв ээ?!"

Амьсгалаа гаргаад... дасгалаа дуусга

Илтгэгчидтэй хамтран асуудал бүрийг шийдвэрлэж, сайтыг түр тогтворжуулсны дараа баг тохиолдлуудыг SRE талаас нь судалжээ. Бид асуудлуудыг нарийвчлан шинжилсэн - үүссэн шалтгаан, арилгах явц. Үүний дараа бид цаашид хэрхэн урьдчилан сэргийлэх вэ: хяналтыг хэрхэн сайжруулах, архитектурыг хэрхэн ухаалгаар өөрчлөх, бүтээн байгуулалт, үйл ажиллагаанд хандах хандлагыг хэрхэн тохируулах, зохицуулалтыг хэрхэн засах талаар бид багаар багаараа, хамт олноороо шийдвэр гаргасан. Илтгэгчид үхлийн дараах шинжилгээ хийх дадлыг харуулсан.

Slurm SRE. Booking.com болон Google.com-ын мэргэжилтнүүдтэй хийсэн бүрэн туршилт
"Өөр хэн тарчлалыг хүсдэг вэ! - Би!"

Багуудын амжилтыг цахим самбарт хатуу бөгөөд тодорхой тэмдэглэсэн.

Slurm SRE. Booking.com болон Google.com-ын мэргэжилтнүүдтэй хийсэн бүрэн туршилт

Эхний байруудад - оролцогч талуудын урамшуулал.

Slurm SRE. Booking.com болон Google.com-ын мэргэжилтнүүдтэй хийсэн бүрэн туршилт

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх