Slurm SRE. تجربة مستمرة مع خبراء من Booking.com و Google.com

فريقنا يحب التجارب. كل Slurm ليس تكرارًا ثابتًا للأشياء السابقة، ولكنه انعكاس للتجربة والانتقال من الجيد إلى الأفضل. ولكن مع سلمم SRE قررنا تطبيق تنسيق جديد تمامًا - لمنح المشاركين ظروفًا أقرب ما تكون إلى "القتال".

إذا عرضنا بإيجاز ما قمنا به خلال الدورة المكثفة: "نحن نبني، نكسر، نصلح،
نحن ندرس." لا قيمة لـ SRE إلا في النظرية المجردة - فقط الممارسة والحلول الحقيقية والمشاكل الحقيقية.

تم تقسيم المشاركين إلى فرق بحيث لا تسمح الروح التنافسية القوية لأي شخص بالنوم أو إطلاق "Angry Birds" على iPhone، على غرار ديمتري أناتوليفيتش.

تم تقديم المشاكل ومواطن الخلل والأخطاء والمهام للمشاركين من قبل أربعة مرشدين. إيفان كروغلوف، المطور الرئيسي في Booking.com (هولندا). بن تايلر، المطور الرئيسي في Booking.com (الولايات المتحدة الأمريكية). إدوارد ميدفيديف، الرئيس التنفيذي للتكنولوجيا في Tungsten Labs (ألمانيا). إيفجيني فاراففا، المطور العام في Google (سان فرانسيسكو).

علاوة على ذلك، يتم تقسيم المشاركين إلى فرق ويتنافسون مع بعضهم البعض. مثير للاهتمام؟

Slurm SRE. تجربة مستمرة مع خبراء من Booking.com و Google.com
ينظر إيفان وبن وإدوارد وإيفجيني إلى المشاركين الفقراء في Slurm SRE بنظرات لينينية لطيفة قبل بدء المنافسة.

إذن المهمة:

نحن لنا ، سنبني عالماً جديداً ...

هناك موقع لتجميع تذاكر السينما. يتم اختراع الحوادث من قبل الموجهين في سيناريو تم إعداده مسبقًا (على الرغم من أنه لا أحد يستبعد الارتجال المتطور والخبيث بشكل خاص)، يتم وصف أداء الموقع بمقاييس مختلفة. يمكن أن تكون المشاكل مختلفة تمامًا: لا يتم تحميل تذاكر مسرح مولان روج في قاعدة البيانات؛ يتم تحميل ملصقات الأفلام والعروض في قاعدة البيانات في أكثر من 10 ثوانٍ؛ وصف فيلم فردي يتجمد؛ 0,1% من الطلبات محجوزة بالفعل؛ من وقت لآخر يتعطل نظام معالجة الدفع لمدة دقيقة أو دقيقتين. والعديد والعديد والعديد من الأشياء غير السارة التي يمكن أن تصيب أحد المشاركين في Slurm SRE في وظيفته الحقيقية.

Slurm SRE. تجربة مستمرة مع خبراء من Booking.com و Google.com
نحن على استعداد للتعامل مع أي شيء... والجميع.

يتكون موقعنا الذي طالت معاناته من عدة خدمات صغيرة. وتتمثل مهمتها في تجميع البيانات عن العروض والأسعار والمقاعد المتاحة من جميع دور السينما، كما تعرض إعلانات الأفلام، وتتيح لك اختيار السينما والعرض والقاعة والمكان وحجز التذاكر ودفع ثمنها. بشكل عام، كل ما يمكن للمشاهد أن يحلم به فقط. لكن المستخدم لا يشك حتى في ما يدور داخله من صراع هائل من أجل استقرار الموقع وإمكانية الوصول إليه.

بالنسبة للموقع المكثف، قمنا بإنشاء مؤشرات SLO وSLI وSLA، وقمنا بتطوير البنية التحتية والبنية التحتية، ونشرنا الموقع، وقمنا بإعداد المراقبة والتنبيه. ونذهب بعيدا.

سلو، سلي، جيش تحرير السودان

SLI - مؤشرات مستوى الخدمة. SLOs هي أهداف مستوى الخدمة. SLA - اتفاقيات مستوى الخدمة.

SLA هو مصطلح منهجية لـ ITIL يشير إلى اتفاقية رسمية بين عميل الخدمة وموردها، تحتوي على وصف للخدمة وحقوق والتزامات الأطراف، والأهم من ذلك، مستوى الجودة المتفق عليه لتوفير هذه الخدمة. خدمة.

SLO هو هدف مستوى الخدمة: قيمة مستهدفة أو نطاق من القيم لمستوى الخدمة الذي يتم قياسه بواسطة SLI. القيمة العادية لـ SLO هي "SLI ≥ الهدف" أو "الحد الأدنى ≥ SLI ≥ الحد الأعلى".

مؤشر SLI هو مؤشر لمستوى الخدمة - وهو مقياس كمي محدد بعناية لجانب واحد من مستوى الخدمة المقدمة. بالنسبة لمعظم الخدمات، يعتبر SLI الرئيسي هو زمن استجابة الطلب - المدة التي يستغرقها إرجاع الاستجابة للطلب. تشتمل واجهات SLI الشائعة الأخرى على معدل الخطأ، والذي يتم التعبير عنه غالبًا كجزء صغير من جميع الطلبات المستلمة، ومعدل نقل النظام، والذي يتم قياسه عادةً بالطلبات في الثانية.

أولا وقبل كل شيء، سوف نكسر الطائرات، وبعد ذلك الفتيات، وبعد ذلك الفتيات...

بدأت العوامل الداخلية والخارجية في "إفساد" SLO منذ الدقائق الأولى. لقد وقع كل شيء على رؤوس المسؤولين — أخطاء المطورين، وفشل البنية التحتية، وتدفق الزوار، وهجمات DDoS. كل ما يزيد من سوء SLO.

Slurm SRE. تجربة مستمرة مع خبراء من Booking.com و Google.com
"- أعزائي المشاركين، أسارع إلى إرضائكم، أول ما تفشلون فيه هو... كل شيء!"

على طول الطريق، ناقش المتحدثون الاستقرار، وميزانية الأخطاء، وممارسة الاختبار، وإدارة الانقطاعات والحمل التشغيلي.

نحن لسنا وقادين ولسنا نجارين..

ثم بدأ المشاركون في إصلاح الأمور - الشيء الرئيسي هو فهم ما يجب الاستيلاء عليه أولاً.

Slurm SRE. تجربة مستمرة مع خبراء من Booking.com و Google.com
"- يا رب، لم أرها قط تنكسر بهذا الشكل وبهذا الوضع!"

لذلك، وقع حادث. خدمة معالجة الدفع معطلة. كيفية التصرف لاستعادة الوظائف في أقصر وقت ممكن؟

Slurm SRE. تجربة مستمرة مع خبراء من Booking.com و Google.com
الخبراء، الذين ينظرون بمودة إلى المشاركين، يستعدون لخدعة أخرى.

ينظم كل فريق عمل المجموعة للقضاء على الحادث - إشراك الزملاء، وإخطار الأطراف المعنية (أصحاب المصلحة). وفي نفس الوقت يتم تحديد الأولويات. وبهذه الطريقة، تم تدريب المشاركين على العمل تحت الضغط وفي ظروف زمنية محدودة للغاية.

Slurm SRE. تجربة مستمرة مع خبراء من Booking.com و Google.com
"أي نوع من الرعب خرج؟!"

زفر... وأكمل التمرين

بالتعاون مع المتحدثين، بعد حل كل مشكلة واستقرار الموقع مؤقتًا، قام الفريق بدراسة الأحداث من وجهة نظر SRE. قمنا بتحليل المشاكل بالتفصيل - أسباب حدوثها، والتقدم المحرز في القضاء عليها. بعد ذلك، سواء على مستوى الفريق أو بشكل جماعي، اتخذنا قرارات بشأن كيفية منعها بشكل أكبر: كيفية تحسين المراقبة، وكيفية تغيير البنية بحكمة، وكيفية ضبط النهج المتبع في التطوير والتشغيل، وكيفية تصحيح اللوائح. أظهر المتحدثون ممارسة إجراء ما بعد الوفاة.

Slurm SRE. تجربة مستمرة مع خبراء من Booking.com و Google.com
"من يريد العذاب أيضًا! - أنا!"

تم تسجيل نجاحات الفرق بدقة ووضوح على لوحة النتائج الإلكترونية.

Slurm SRE. تجربة مستمرة مع خبراء من Booking.com و Google.com

للمراكز الأولى - مكافأة من أصحاب المصلحة.

Slurm SRE. تجربة مستمرة مع خبراء من Booking.com و Google.com

المصدر: www.habr.com

إضافة تعليق