Slurm SRE. Booking.com ve Google.com uzmanlarıyla eksiksiz bir deney

Ekibimiz deneyleri seviyor. Her Slurm, öncekilerin statik bir tekrarı değil, deneyimin bir yansıması ve iyiden daha iyiye geçiştir. Fakat Slurm SRE Katılımcılara "savaşa" mümkün olduğunca yakın koşullar sağlamak için tamamen yeni bir format uygulamaya karar verdik.

Yoğun kursta yaptıklarımızı kısaca özetlersek: “İnşa ediyoruz, kırıyoruz, tamir ediyoruz,
ders çalışıyoruz." SRE'nin salt teoride pek bir değeri yoktur; yalnızca pratik, gerçek çözümler, gerçek sorunlar.

Katılımcılar, Dmitry Anatolyevich örneğini izleyerek güçlü bir rekabet ruhunun kimsenin uykuya dalmasına veya iPhone'da "Angry Birds" başlatmasına izin vermemesi için takımlara ayrıldı.

Katılımcılara sorunlar, aksaklıklar, hatalar ve görevler dört mentor tarafından aktarıldı. Ivan Kruglov, Booking.com'un (Hollanda) Baş Geliştiricisi. Ben Tyler, Booking.com'un (ABD) Baş Geliştiricisi. Eduard Medvedev, Tungsten Laboratuvarları'nın CTO'su (Almanya). Evgeniy Varavva, Google'ın (San Francisco) genel geliştiricisi.

Ayrıca katılımcılar takımlara ayrılarak birbirleriyle yarışırlar. İlginç?

Slurm SRE. Booking.com ve Google.com uzmanlarıyla eksiksiz bir deney
Ivan, Ben, Eduard ve Evgeniy, yarışma başlamadan önce zavallı Slurm SRE katılımcılarına nazik Leninist bakışlarla bakıyorlar.

Yani görev:

Biz kendimiziz, yeni bir dünya inşa edeceğiz ...

Bir sinema bileti toplayıcı web sitesi var. Olaylar mentorlar tarafından önceden çalışılmış bir senaryoda icat edilir (her ne kadar hiç kimse özellikle sofistike ve sinsi doğaçlamayı hariç tutmasa da), sitenin performansı çeşitli ölçümlerle tanımlanır. Sorunlar çok farklı olabilir: Moulin Rouge tiyatrosunun biletleri veri tabanına yüklenmiyor; filmlerin ve performansların posterleri veritabanına 10 saniyeden daha uzun bir sürede yükleniyor; tek bir filmin açıklaması donuyor; Siparişlerin %0,1'i zaten rezerve edildi; Zaman zaman ödeme işleme sistemi bir veya iki dakikalığına çöküyor. Ve bir Slurm SRE katılımcısının gerçek işinde başına gelebilecek pek çok hoş olmayan şey.

Slurm SRE. Booking.com ve Google.com uzmanlarıyla eksiksiz bir deney
Her şeyi ve herkesi halletmeye hazırız.

Uzun süredir hizmet veren web sitemiz çeşitli mikro hizmetlerden oluşmaktadır. Görevi tüm sinemalardaki gösteriler, fiyatlar ve mevcut koltuklarla ilgili verileri toplamaktır; film duyurularını gösterir, sinema, gösteri, salon ve yer seçmenize, bilet rezervasyonu yapmanıza ve ödeme yapmanıza olanak tanır. Genel olarak izleyicinin yalnızca hayal edebileceği her şey. Ancak kullanıcı, sitenin istikrarı ve erişilebilirliği için içeride ne kadar büyük bir mücadelenin yaşandığından şüphelenmiyor bile.

Yoğun site için SLO, SLI, SLA göstergeleri oluşturduk, mimari ve altyapı geliştirdik, siteyi konuşlandırdık, izleme ve uyarı kurulumunu yaptık. Ve gidiyoruz.

SLO, SLI, SLA

SLI - hizmet seviyesi göstergeleri. SLO'lar hizmet seviyesi hedefleridir. SLA - hizmet düzeyi anlaşmaları.

SLA, bir hizmetin müşterisi ile tedarikçisi arasında, hizmetin tanımını, tarafların haklarını ve yükümlülüklerini ve en önemlisi bu hizmetin sağlanması için üzerinde anlaşılan kalite düzeyini içeren resmi bir anlaşmayı ifade eden bir ITIL metodolojisi terimidir. hizmet.

SLO, bir hizmet düzeyi hedefidir: SLI tarafından ölçülen bir hizmet düzeyi için hedef değer veya değer aralığı. SLO için normal bir değer “SLI ≤ Hedef” veya “Alt Limit ≤ SLI ≤ Üst Limit”tir.

SLI bir hizmet düzeyi göstergesidir; sağlanan hizmet düzeyinin bir yönünün dikkatle tanımlanmış niceliksel ölçüsüdür. Çoğu hizmet için anahtar SLI, istek gecikmesi (bir isteğe yanıt vermenin ne kadar süreceği) olarak kabul edilir. Diğer yaygın SLI'ler arasında, genellikle alınan tüm isteklerin kesri olarak ifade edilen hata oranı ve genellikle saniye başına istek cinsinden ölçülen sistem verimi yer alır.

Önce uçakları kıracağız, sonra kızları, sonra da kızları...

İç ve dış faktörler TİG'i ilk dakikalardan itibaren “bozmaya” başladı. Geliştirici hataları, altyapı hataları, ziyaretçi akını ve DDoS saldırıları gibi her şey yöneticilerin kafasına düştü. SLO'yu kötüleştiren her şey.

Slurm SRE. Booking.com ve Google.com uzmanlarıyla eksiksiz bir deney
“-Sevgili katılımcılar, sizi memnun etmek için acele ediyorum, başarısız olduğunuz ilk şey... her şeydir!”

Yol boyunca konuşmacılar kararlılık, hata bütçesi, test uygulamaları, kesintilerin yönetimi ve operasyonel yük hakkında tartıştılar.

Biz ateşçi değiliz, marangoz değiliz...

Daha sonra katılımcılar işleri düzeltmeye başladı - asıl mesele, önce neyi almaları gerektiğini anlamaktır.

Slurm SRE. Booking.com ve Google.com uzmanlarıyla eksiksiz bir deney
“-Efendim, onun bu şekilde, bu formda ve bu konumda kırıldığını hiç görmemiştim!”

Böylece bir kaza meydana geldi. Ödeme işleme hizmeti kapalı. İşlevselliği mümkün olan en kısa sürede geri yüklemek için nasıl hareket edilir?

Slurm SRE. Booking.com ve Google.com uzmanlarıyla eksiksiz bir deney
Katılımcılara sevgiyle bakan uzmanlar yeni bir numara daha hazırlıyor.

Her ekip, kazayı ortadan kaldırmak için grubun çalışmalarını organize eder - meslektaşları dahil eder, ilgili tarafları (paydaşları) bilgilendirir. Aynı zamanda öncelikler de belirlenir. Bu sayede katılımcılar son derece sınırlı zaman koşullarında baskı altında çalışmak üzere eğitildiler.

Slurm SRE. Booking.com ve Google.com uzmanlarıyla eksiksiz bir deney
“Ne tür bir korku ortaya çıktı?!”

Nefes verin... ve egzersizi bitirin

Ekip, konuşmacılarla birlikte her sorun çözüldükten ve site geçici olarak stabil hale getirildikten sonra olayları SRE bakış açısıyla inceledi. Sorunları ayrıntılı olarak analiz ettik - ortaya çıkma nedenleri, ortadan kaldırılma süreci. Bundan sonra hem ekip olarak hem de kolektif olarak bunları nasıl daha fazla önleyebileceğimize dair kararlar aldık: izlemeyi nasıl geliştirebiliriz, mimariyi akıllıca nasıl değiştirebiliriz, geliştirme ve operasyona yaklaşımı nasıl ayarlayabiliriz, düzenlemeleri nasıl düzeltebiliriz. Konuşmacılar otopsi yapılmasının uygulamasını gösterdiler.

Slurm SRE. Booking.com ve Google.com uzmanlarıyla eksiksiz bir deney
“Başka kim eziyet ister! - BEN!"

Takımların başarıları elektronik skorborda kesin ve net bir şekilde kaydedildi.

Slurm SRE. Booking.com ve Google.com uzmanlarıyla eksiksiz bir deney

Birinciler için - paydaşlardan bir bonus.

Slurm SRE. Booking.com ve Google.com uzmanlarıyla eksiksiz bir deney

Kaynak: habr.com

Yorum ekle