ProHoster > وبلاگ > اداره > "امید یک استراتژی بد است." SRE فشرده در مسکو، 3-5 فوریه
"امید یک استراتژی بد است." SRE فشرده در مسکو، 3-5 فوریه
ما اولین دوره عملی SRE را در روسیه اعلام می کنیم: Slurm SRE.
در طول دوره فشرده، ما سه روز را صرف ساخت، شکستن، تعمیر و بهبود یک وب سایت جمع آوری برای فروش بلیط فیلم خواهیم کرد.
ما یک تجمیع کننده بلیت را انتخاب کردیم زیرا سناریوهای خرابی زیادی دارد: هجوم بازدیدکنندگان و حملات DDoS، شکست یکی از بسیاری از ریزسرویسهای حیاتی (مجوز، رزرو، پردازش پرداخت)، در دسترس نبودن یکی از بسیاری از سینماها (تبادل اطلاعات درباره صندلیها و رزروهای موجود)، و در ادامه فهرست.
ما مفهوم قابلیت اطمینان را برای سایت جمعآوری خود فرموله میکنیم، که آن را بیشتر در مهندسی توسعه میدهیم، طراحی را از نقطه نظر SRE تجزیه و تحلیل میکنیم، معیارها را انتخاب میکنیم، نظارت آنها را راهاندازی میکنیم، حوادث در حال ظهور را حذف میکنیم، آموزشهایی را برای کار تیمی با حوادث انجام میدهیم. در شرایط نزدیک به جنگ، یک جلسه توجیهی سازماندهی کنید.
این برنامه توسط کارکنان Booking.com و Google اجرا می شود.
این بار مشارکت از راه دور وجود نخواهد داشت: این دوره بر اساس تعامل شخصی و کار گروهی ساخته شده است.
جزئیات زیر برش
بلندگوها
ایوان کروگلوف
توسعه دهنده اصلی در Booking.com (هلند)
از زمان پیوستن به Booking.com در سال 2013، او روی پروژه های زیرساختی مانند تحویل و پردازش پیام توزیع شده، BigData و web-stack، جستجو کار کرده است.
در حال حاضر روی مسائل ساخت ابر داخلی و سرویس مش کار می کنم.
بن تایلر
توسعه دهنده اصلی در Booking.com (ایالات متحده آمریکا)
درگیر توسعه داخلی پلت فرم Booking.com است.
متخصص در کشف مش / خدمات، زمانبندی کار دستهای، پاسخ به حادثه و فرآیند پس از مرگ.
به زبان روسی صحبت می کند و تدریس می کند.
اوگنی واراووا
توسعه دهنده عمومی در گوگل (سان فرانسیسکو).
تجربه از پروژه های وب با بار بالا تا تحقیقات در بینایی کامپیوتر و روباتیک.
از سال 2011، او در ایجاد و بهره برداری از سیستم های توزیع شده در گوگل، مشارکت در چرخه حیات کامل پروژه: مفهوم سازی، طراحی و معماری، راه اندازی، تاشو و تمام مراحل میانی مشارکت داشته است.
ادوارد مدودف
CTO در آزمایشگاه تنگستن (آلمان)
به عنوان مهندس در StackStorm، مسئول عملکرد ChatOps پلتفرم کار می کرد. ChatOps را برای اتوماسیون مرکز داده توسعه و پیاده سازی کرد. سخنران در کنفرانس های روسیه و بین المللی.
برنامه
این برنامه به طور فعال در حال توسعه است. اکنون اینگونه به نظر می رسد، تا فوریه ممکن است بهبود یابد و گسترش یابد.
مبحث شماره 1: اصول و روشهای اساسی SRE
برای تبدیل شدن به یک SRE چه چیزی لازم است؟
DevOps در مقابل SRE
چرا توسعه دهندگان برای SRE ارزش قائل هستند و وقتی در پروژه نیستند بسیار غمگین هستند
SLI، SLO و SLA
بودجه خطا و نقش آن در SRE
موضوع شماره 2: طراحی سیستم های توزیع شده
معماری و عملکرد برنامه
طراحی سیستم بزرگ غیرانتزاعی
عملکرد / طراحی برای شکست
gRPC یا REST
نسخه سازی و سازگاری با عقب
موضوع شماره 3: چگونه یک پروژه SRE پذیرفته می شود
بهترین شیوه ها از SRE
چک لیست پذیرش پروژه
ورود به سیستم، معیارها، ردیابی
گرفتن CI/CD در دستان خودمان
مبحث شماره 4: طراحی و راه اندازی سیستم توزیع شده
مهندسی معکوس - سیستم چگونه کار می کند؟
ما در مورد SLI و SLO توافق داریم
برنامه ریزی ظرفیت را تمرین کنید
با راه اندازی ترافیک به برنامه، کاربران ما شروع به "استفاده" از آن می کنند
راه اندازی Prometheus، Grafana، Elastic
موضوع شماره 5: نظارت، قابلیت مشاهده و هشدار
نظارت در مقابل قابلیت مشاهده
راه اندازی نظارت و هشدار با Prometheus
نظارت عملی SLI و SLO
علائم در مقابل علل
جعبه سیاه در مقابل مانیتورینگ جعبه سفید
نظارت توزیع شده بر روی برنامه و در دسترس بودن سرور
4 سیگنال طلایی (تشخیص ناهنجاری)
مبحث شماره 6: تمرین تست قابلیت اطمینان سیستم
کارکردن تحت فشار
شکست - تزریق
میمون آشوب
موضوع شماره 7: تمرین واکنش به حادثه
الگوریتم مدیریت استرس
تعامل بین شرکت کنندگان در حادثه
پس از مرگ
اشتراک دانش
شکل دادن به فرهنگ
نظارت بر خطا
انجام جلسه توجیهی بی تقصیر
موضوع شماره 8: شیوه های مدیریت بار
تعادل بار
تحمل خطای برنامه: تلاش مجدد، مهلت زمانی، تزریق شکست، قطع کننده مدار
DDoS (ایجاد بار) + خرابی های آبشاری
موضوع نهم: واکنش به حادثه
رفع اشکال
تمرین حین تماس
انواع تصادفات (تست، تغییرات پیکربندی، خرابی سخت افزار)
پروتکل های مدیریت حوادث
موضوع شماره 10: تشخیص و حل مسئله
ورود به سیستم
اشکال زدایی
تجزیه و تحلیل و اشکال زدایی را در برنامه ما تمرین کنید
موضوع شماره 11: تست قابلیت اطمینان سیستم
تست استرس
تست پیکربندی
ازمایش عملکرد
رها سازی قناری
مبحث شماره 12: کار مستقل و بررسی
توصیه ها و الزامات برای شرکت کنندگان
SRE یک تلاش تیمی است. ما اکیداً توصیه می کنیم که دوره را به صورت تیمی بگذرانید. به همین دلیل است که برای تیم های آماده تخفیف های بزرگ ارائه می دهیم.
قیمت دوره برای هر نفر 60 تومان می باشد.
اگر یک شرکت گروهی بیش از 5 نفر را ارسال کند - 40 ₽.
دوره بر اساس Kubernetes ساخته شده است. برای قبولی، باید Kubernetes را در سطح پایه بدانید. اگر با او کار نمی کنید، می توانید از طریق Slurm Basic (онлайн یا فشرده 18-20 نوامبر).
علاوه بر این، باید به لینوکس مسلط باشید و Gitlab و Prometheus را بشناسید.
اگر ایده پیچیده ای برای مشارکت دارید، مثلاً مدیر عامل، مدیر ارشد فناوری و تیمی از توسعه دهندگان به دوره بیایند و با در نظر گرفتن عمود مدیریت دوره کارآموزی را بگذرانند، در یک پیام شخصی برای من بنویسید.