"امید یک استراتژی بد است." SRE فشرده در مسکو، 3-5 فوریه

ما اولین دوره عملی SRE را در روسیه اعلام می کنیم: Slurm SRE.

در طول دوره فشرده، ما سه روز را صرف ساخت، شکستن، تعمیر و بهبود یک وب سایت جمع آوری برای فروش بلیط فیلم خواهیم کرد.

"امید یک استراتژی بد است." SRE فشرده در مسکو، 3-5 فوریه

ما یک تجمیع کننده بلیت را انتخاب کردیم زیرا سناریوهای خرابی زیادی دارد: هجوم بازدیدکنندگان و حملات DDoS، شکست یکی از بسیاری از ریزسرویس‌های حیاتی (مجوز، رزرو، پردازش پرداخت)، در دسترس نبودن یکی از بسیاری از سینماها (تبادل اطلاعات درباره صندلی‌ها و رزروهای موجود)، و در ادامه فهرست.

ما مفهوم قابلیت اطمینان را برای سایت جمع‌آوری خود فرموله می‌کنیم، که آن را بیشتر در مهندسی توسعه می‌دهیم، طراحی را از نقطه نظر SRE تجزیه و تحلیل می‌کنیم، معیارها را انتخاب می‌کنیم، نظارت آنها را راه‌اندازی می‌کنیم، حوادث در حال ظهور را حذف می‌کنیم، آموزش‌هایی را برای کار تیمی با حوادث انجام می‌دهیم. در شرایط نزدیک به جنگ، یک جلسه توجیهی سازماندهی کنید.

این برنامه توسط کارکنان Booking.com و Google اجرا می شود.
این بار مشارکت از راه دور وجود نخواهد داشت: این دوره بر اساس تعامل شخصی و کار گروهی ساخته شده است.

جزئیات زیر برش

بلندگوها

ایوان کروگلوف
توسعه دهنده اصلی در Booking.com (هلند)
از زمان پیوستن به Booking.com در سال 2013، او روی پروژه های زیرساختی مانند تحویل و پردازش پیام توزیع شده، BigData و web-stack، جستجو کار کرده است.
در حال حاضر روی مسائل ساخت ابر داخلی و سرویس مش کار می کنم.

بن تایلر
توسعه دهنده اصلی در Booking.com (ایالات متحده آمریکا)
درگیر توسعه داخلی پلت فرم Booking.com است.
متخصص در کشف مش / خدمات، زمان‌بندی کار دسته‌ای، پاسخ به حادثه و فرآیند پس از مرگ.
به زبان روسی صحبت می کند و تدریس می کند.

اوگنی واراووا
توسعه دهنده عمومی در گوگل (سان فرانسیسکو).
تجربه از پروژه های وب با بار بالا تا تحقیقات در بینایی کامپیوتر و روباتیک.
از سال 2011، او در ایجاد و بهره برداری از سیستم های توزیع شده در گوگل، مشارکت در چرخه حیات کامل پروژه: مفهوم سازی، طراحی و معماری، راه اندازی، تاشو و تمام مراحل میانی مشارکت داشته است.

ادوارد مدودف
CTO در آزمایشگاه تنگستن (آلمان)
به عنوان مهندس در StackStorm، مسئول عملکرد ChatOps پلتفرم کار می کرد. ChatOps را برای اتوماسیون مرکز داده توسعه و پیاده سازی کرد. سخنران در کنفرانس های روسیه و بین المللی.

برنامه

این برنامه به طور فعال در حال توسعه است. اکنون اینگونه به نظر می رسد، تا فوریه ممکن است بهبود یابد و گسترش یابد.

مبحث شماره 1: اصول و روشهای اساسی SRE

  • برای تبدیل شدن به یک SRE چه چیزی لازم است؟
  • DevOps در مقابل SRE
  • چرا توسعه دهندگان برای SRE ارزش قائل هستند و وقتی در پروژه نیستند بسیار غمگین هستند
  • SLI، SLO و SLA
  • بودجه خطا و نقش آن در SRE

موضوع شماره 2: طراحی سیستم های توزیع شده

  • معماری و عملکرد برنامه
  • طراحی سیستم بزرگ غیرانتزاعی
  • عملکرد / طراحی برای شکست
  • gRPC یا REST
  • نسخه سازی و سازگاری با عقب

موضوع شماره 3: چگونه یک پروژه SRE پذیرفته می شود

  • بهترین شیوه ها از SRE
  • چک لیست پذیرش پروژه
  • ورود به سیستم، معیارها، ردیابی
  • گرفتن CI/CD در دستان خودمان

مبحث شماره 4: طراحی و راه اندازی سیستم توزیع شده

  • مهندسی معکوس - سیستم چگونه کار می کند؟
  • ما در مورد SLI و SLO توافق داریم
  • برنامه ریزی ظرفیت را تمرین کنید
  • با راه اندازی ترافیک به برنامه، کاربران ما شروع به "استفاده" از آن می کنند
  • راه اندازی Prometheus، Grafana، Elastic

موضوع شماره 5: نظارت، قابلیت مشاهده و هشدار

  • نظارت در مقابل قابلیت مشاهده
  • راه اندازی نظارت و هشدار با Prometheus
  • نظارت عملی SLI و SLO
  • علائم در مقابل علل
  • جعبه سیاه در مقابل مانیتورینگ جعبه سفید
  • نظارت توزیع شده بر روی برنامه و در دسترس بودن سرور
  • 4 سیگنال طلایی (تشخیص ناهنجاری)

مبحث شماره 6: تمرین تست قابلیت اطمینان سیستم

  • کارکردن تحت فشار
  • شکست - تزریق
  • میمون آشوب

موضوع شماره 7: تمرین واکنش به حادثه

  • الگوریتم مدیریت استرس
  • تعامل بین شرکت کنندگان در حادثه
  • پس از مرگ
  • اشتراک دانش
  • شکل دادن به فرهنگ
  • نظارت بر خطا
  • انجام جلسه توجیهی بی تقصیر

موضوع شماره 8: شیوه های مدیریت بار

  • تعادل بار
  • تحمل خطای برنامه: تلاش مجدد، مهلت زمانی، تزریق شکست، قطع کننده مدار
  • DDoS (ایجاد بار) + خرابی های آبشاری

موضوع نهم: واکنش به حادثه

  • رفع اشکال
  • تمرین حین تماس
  • انواع تصادفات (تست، تغییرات پیکربندی، خرابی سخت افزار)
  • پروتکل های مدیریت حوادث

موضوع شماره 10: تشخیص و حل مسئله

  • ورود به سیستم
  • اشکال زدایی
  • تجزیه و تحلیل و اشکال زدایی را در برنامه ما تمرین کنید

موضوع شماره 11: تست قابلیت اطمینان سیستم

  • تست استرس
  • تست پیکربندی
  • ازمایش عملکرد
  • رها سازی قناری

مبحث شماره 12: کار مستقل و بررسی

توصیه ها و الزامات برای شرکت کنندگان

SRE یک تلاش تیمی است. ما اکیداً توصیه می کنیم که دوره را به صورت تیمی بگذرانید. به همین دلیل است که برای تیم های آماده تخفیف های بزرگ ارائه می دهیم.

قیمت دوره برای هر نفر 60 تومان می باشد.
اگر یک شرکت گروهی بیش از 5 نفر را ارسال کند - 40 ₽.

دوره بر اساس Kubernetes ساخته شده است. برای قبولی، باید Kubernetes را در سطح پایه بدانید. اگر با او کار نمی کنید، می توانید از طریق Slurm Basic (онлайн یا فشرده 18-20 نوامبر).
علاوه بر این، باید به لینوکس مسلط باشید و Gitlab و Prometheus را بشناسید.

ثبت

اگر ایده پیچیده ای برای مشارکت دارید، مثلاً مدیر عامل، مدیر ارشد فناوری و تیمی از توسعه دهندگان به دوره بیایند و با در نظر گرفتن عمود مدیریت دوره کارآموزی را بگذرانند، در یک پیام شخصی برای من بنویسید.

منبع: www.habr.com

اضافه کردن نظر