"الأمل هو استراتيجية سيئة." SRE مكثفة في موسكو، 3-5 فبراير

نعلن عن أول دورة عملية حول SRE في روسيا: سلمم SRE.

خلال الدورة المكثفة، سنقضي ثلاثة أيام في بناء وتكسير وإصلاح وتحسين موقع ويب مجمع لبيع تذاكر السينما.

"الأمل هو استراتيجية سيئة." SRE مكثفة في موسكو، 3-5 فبراير

لقد اخترنا مجمع التذاكر لأنه يحتوي على العديد من سيناريوهات الفشل: تدفق الزوار وهجمات DDoS، وفشل إحدى الخدمات الصغيرة المهمة العديدة (الترخيص، والحجوزات، ومعالجة الدفع)، وعدم توفر إحدى دور السينما العديدة (تبادل البيانات حول المقاعد المتوفرة والحجوزات)، وفي أسفل القائمة.

سنقوم بصياغة مفهوم الموثوقية لموقع التجميع الخاص بنا، والذي سنعمل على تطويره بشكل أكبر في الهندسة، وتحليل التصميم من وجهة نظر SRE، واختيار المقاييس، وإعداد مراقبتها، والقضاء على الحوادث الناشئة، وإجراء التدريب على العمل الجماعي مع الحوادث في ظروف قريبة من القتال، تنظيم استخلاص المعلومات .

يتم تشغيل البرنامج من قبل موظفي Booking.com وGoogle.
هذه المرة لن تكون هناك مشاركة عن بعد: الدورة مبنية على التفاعل الشخصي والعمل الجماعي.

التفاصيل تحت القطع

القبعات

إيفان كروجلوف
المطور الرئيسي في Booking.com (هولندا)
منذ انضمامه إلى Booking.com في عام 2013 ، عمل على مشاريع البنية التحتية مثل تسليم الرسائل الموزعة ومعالجتها ، BigData و web-stack ، والبحث.
يعمل الآن على إنشاء سحابة داخلية وشبكة خدمات.

بن تايلر
المطور الرئيسي في Booking.com (الولايات المتحدة الأمريكية)
المشاركة في التطوير الداخلي لمنصة Booking.com.
متخصص في شبكة الخدمة / اكتشاف الخدمة، وجدولة الوظائف المجمعة، والاستجابة للحوادث، وعملية ما بعد الوفاة.
يتحدث ويدرس باللغة الروسية.

يفغيني فاراففا
مطور عام في Google (سان فرانسيسكو).
خبرة من مشاريع الويب عالية التحميل إلى البحث في رؤية الكمبيوتر والروبوتات.
منذ عام 2011، شارك في إنشاء وتشغيل الأنظمة الموزعة في Google، والمشاركة في دورة الحياة الكاملة للمشروع: التصور والتصميم والهندسة المعمارية والإطلاق والطي وجميع المراحل المتوسطة.

إدوارد ميدفيديف
CTO في Tungsten Labs (ألمانيا)
عمل كمهندس في StackStorm ، حيث كان مسؤولاً عن وظائف ChatOps للنظام الأساسي. تطوير وتنفيذ ChatOps لأتمتة مراكز البيانات. متحدث في مؤتمرات روسية ودولية.

برنامج

ويجري تطوير البرنامج بنشاط. الآن يبدو الأمر هكذا، بحلول شهر فبراير قد يتحسن ويتوسع.

الموضوع رقم 1: المبادئ والأساليب الأساسية لـ SRE

  • ما الذي يتطلبه الأمر لتصبح SRE؟
  • DevOps مقابل SRE
  • لماذا يقدر المطورون SRE ويشعرون بالحزن الشديد عندما لا يكونون في المشروع
  • SLI، SLO، وSLA
  • ميزانية الخطأ ودورها في SRE

الموضوع الثاني: تصميم الأنظمة الموزعة

  • بنية التطبيق ووظائفه
  • تصميم نظام كبير غير مجرد
  • قابلية التشغيل / التصميم للفشل
  • gRPC أو REST
  • الإصدار والتوافق مع الإصدارات السابقة

الموضوع رقم 3: كيفية قبول مشروع SRE

  • أفضل الممارسات من SRE
  • قائمة التحقق من قبول المشروع
  • التسجيل والمقاييس والتتبع
  • أخذ CI/CD في أيدينا

الموضوع رقم 4: تصميم وإطلاق النظام الموزع

  • الهندسة العكسية – كيف يعمل النظام؟
  • نحن نتفق على SLI وSLO
  • ممارسة تخطيط القدرات
  • عند إطلاق حركة المرور إلى التطبيق، يبدأ مستخدمونا في "استخدامه".
  • إطلاق بروميثيوس، جرافانا، مطاطا

الموضوع رقم 5: الرصد والملاحظة والتنبيه

  • المراقبة مقابل. إمكانية الملاحظة
  • إعداد المراقبة والتنبيه مع بروميثيوس
  • المراقبة العملية لـ SLI وSLO
  • الأعراض مقابل. الأسباب
  • الصندوق الأسود مقابل. مراقبة الصندوق الأبيض
  • مراقبة موزعة للتطبيق وتوافر الخادم
  • 4 إشارات ذهبية (كشف الشذوذ)

الموضوع رقم 6: ممارسة اختبار موثوقية النظام

  • العمل تحت الضغط
  • فشل الحقن
  • قرد الفوضى

الموضوع رقم 7: ممارسة الاستجابة للحوادث

  • خوارزمية إدارة الإجهاد
  • التفاعل بين المشاركين في الحادث
  • بعد الوفاة
  • مشاركة المعرفة
  • تشكيل الثقافة
  • مراقبة الأخطاء
  • إجراء استخلاص المعلومات بلا لوم

الموضوع رقم 8: ممارسات إدارة الأحمال

  • توزيع الحمل
  • التسامح مع خطأ التطبيق: إعادة المحاولة، المهلة، حقن الفشل، قاطع الدائرة
  • DDoS (إنشاء الحمل) + حالات الفشل المتتالية

الموضوع رقم 9: الاستجابة للحوادث

  • إستخلاص المعلومات
  • ممارسة عند الطلب
  • أنواع مختلفة من الحوادث (الاختبار، تغييرات التكوين، فشل الأجهزة)
  • بروتوكولات إدارة الحوادث

الموضوع العاشر: التشخيص وحل المشكلات

  • تسجيل
  • التصحيح
  • تحليل الممارسة وتصحيح الأخطاء في طلبنا

الموضوع رقم 11: اختبار موثوقية النظام

  • اختبار الإجهاد
  • اختبار التكوين
  • اختبار أداء
  • إطلاق الكناري

الموضوع رقم 12: العمل المستقل والمراجعة

توصيات ومتطلبات المشاركين

SRE هو جهد جماعي. نحن نوصي بشدة بأخذ الدورة كفريق. ولهذا السبب نقدم خصومات كبيرة للفرق الجاهزة.

سعر الدورة 60 ₽ للشخص الواحد.
إذا أرسلت الشركة مجموعة مكونة من 5 أشخاص فما فوق - 40 ₽.

الدورة مبنية على Kubernetes. للنجاح، تحتاج إلى معرفة Kubernetes على المستوى الأساسي. إذا كنت لا تعمل معه، يمكنك المرور عبر Slurm Basic (онлайн أو مكثفة 18-20 نوفمبر).
بالإضافة إلى ذلك، يجب أن تكون ماهرًا في Linux وأن تعرف Gitlab وPrometheus.

التسجيل

إذا كانت لديك فكرة معقدة للمشاركة، على سبيل المثال، حضور الرئيس التنفيذي ورئيس قسم التكنولوجيا وفريق من المطورين إلى الدورة التدريبية، والخضوع للتدريب الداخلي مع مراعاة قطاع الإدارة، فاكتب لي في رسالة شخصية.

المصدر: www.habr.com

إضافة تعليق