"Итгэл найдвар бол муу стратеги юм." 3-р сарын 5-XNUMX-ны хооронд Москвад SRE эрчимжсэн

Бид Орос улсад SRE-ийн анхны практик сургалтыг зарлаж байна. Slurm SRE.

Эрчимжсэн хугацаанд бид киноны тасалбар борлуулах агрегатор вэб сайтыг бүтээх, эвдэх, засварлах, сайжруулахад гурван өдөр зарцуулна.

"Итгэл найдвар бол муу стратеги юм." 3-р сарын 5-XNUMX-ны хооронд Москвад SRE эрчимжсэн

Зочдын урсгал болон DDoS халдлага, олон чухал микро үйлчилгээний аль нэг нь бүтэлгүйтсэн (зөвшөөрөл, захиалга, төлбөр боловсруулах), олон кино театрын аль нэг нь ажиллахгүй байх (мэдээлэл солилцох) зэрэг олон бүтэлгүйтлийн хувилбаруудтай тул бид тасалбар нэгтгэгчийг сонгосон. боломжтой суудал болон захиалга), мөн жагсаалтаас доош.

Бид нэгтгэгч сайтынхаа Найдвартай байдлын үзэл баримтлалыг боловсруулж, цаашид Инженерийн чиглэлээр боловсруулж, дизайныг SRE-ийн үүднээс шинжлэх, хэмжигдэхүүнийг сонгох, тэдгээрийн хяналтыг бий болгох, шинээр гарч ирж буй тохиолдлыг арилгах, осол гэмтэлтэй багаар ажиллах сургалт явуулах болно. тулалдаанд ойр байгаа нөхцөлд мэдээлэл өгөх ажлыг зохион байгуулах.

Хөтөлбөрийг Booking.com болон Google-ийн ажилтнууд удирддаг.
Энэ удаад алсын зайнаас оролцохгүй: сургалт нь хувийн харилцаа, багаар ажиллахад суурилдаг.

Зүсэлтийн доор дэлгэрэнгүй мэдээлэл

Илтгэгчид

Иван Круглов
Booking.com-ийн үндсэн хөгжүүлэгч (Нидерланд)
2013 онд Booking.com-д элссэнээсээ хойш тэрээр тархсан мессеж дамжуулах, боловсруулах, BigData болон вэб стек, хайлт зэрэг дэд бүтцийн төслүүд дээр ажиллаж байсан.
Одоогоор дотоод үүл болон үйлчилгээний торыг бий болгох асуудал дээр ажиллаж байна.

Бен Тайлер
Booking.com (АНУ) дахь үндсэн хөгжүүлэгч
Booking.com платформын дотоод хөгжилд оролцдог.
Үйлчилгээний сүлжээ / үйлчилгээний нээлт, багц ажлын хуваарь, ослын хариу арга хэмжээ, үхлийн дараах үйл явцаар мэргэшсэн.
Орос хэлээр ярьж, заадаг.

Евгений Варавва
Google-ийн ерөнхий хөгжүүлэгч (Сан Франциско).
Ачаалал ихтэй вэб төслөөс эхлээд компьютерийн хараа, робот техникийн чиглэлээр судалгаа хийх хүртэл туршлагатай.
2011 оноос хойш тэрээр Google-д тархсан системийг бий болгох, ажиллуулах ажилд оролцож, төслийн бүх амьдралын мөчлөг: үзэл баримтлал, дизайн, архитектур, хөөргөх, нугалах болон завсрын бүх үе шатуудад оролцов.

Эдуард Медведев
Вольфрамын лабораторийн ерөнхий захирал (Герман)
StackStorm-д инженерээр ажиллаж, платформын ChatOps функцийг хариуцдаг. Дата төвийн автоматжуулалтад зориулсан ChatOps программыг боловсруулж хэрэгжүүлсэн. Орос болон олон улсын хурал дээр илтгэгч.

Хөтөлбөр

Хөтөлбөрийг идэвхтэй боловсруулж байна. Одоо нэг иймэрхүү л байна, хоёрдугаар сар гэхэд сайжирч, өргөжиж магадгүй.

Сэдэв No1: СЭБ-ийн үндсэн зарчим, арга

  • SRE болоход юу шаардлагатай вэ?
  • DevOps-ийн эсрэг SRE
  • Хөгжүүлэгчид яагаад SRE-г үнэлдэг бөгөөд төсөлд хамрагдаагүй үедээ маш их гунигтай байдаг
  • SLI, SLO болон SLA
  • Алдааны төсөв ба түүний SRE дахь үүрэг

Сэдэв No2: Түгээмэл системийн дизайн

  • Хэрэглээний архитектур ба функциональ байдал
  • Хийсвэр бус том системийн дизайн
  • Ажиллах чадвар / бүтэлгүйтлийн загвар
  • gRPC эсвэл REST
  • Хувилбар болон хоцрогдсон нийцтэй байдал

Сэдэв №3: SRE төслийг хэрхэн хүлээн зөвшөөрдөг

  • SRE-ийн шилдэг туршлагууд
  • Төсөл хүлээн авах хяналтын хуудас
  • Бүртгэл, хэмжүүр, мөрдөх
  • CI/CD-г өөрсдийн гарт авах

Сэдэв No4: Түгээмэл системийг зохион бүтээх, эхлүүлэх

  • Урвуу инженерчлэл - систем хэрхэн ажилладаг вэ?
  • Бид SLI болон SLO дээр санал нэг байна
  • Чадавхийг төлөвлөх дадлага
  • Аппликешн руу чиглэсэн урсгалыг эхлүүлснээр манай хэрэглэгчид үүнийг "ашиглаж" эхэлдэг
  • Prometheus, Grafana, Elastic-ийг эхлүүлж байна

Сэдэв №5: Хяналт, ажиглалт, сэрэмжлүүлэг

  • Хяналт vs. Ажиглах чадвар
  • Prometheus-тай хяналт, дохиолол тохируулж байна
  • SLI болон SLO-ийн практик хяналт
  • Шинж тэмдэг vs. Шалтгаанууд
  • Хар хайрцаг vs. Цагаан хайрцагны хяналт
  • Аппликешн болон серверийн хүртээмжийн хуваарилагдсан хяналт
  • 4 алтан дохио (гажиг илрүүлэх)

Сэдэв No6: Системийн найдвартай байдлыг шалгах дадлага

  • Дарамт дор ажиллаж байна
  • Амжилтгүй тарилга
  • Эмх замбараагүй сармагчин

Сэдэв 7: Ослын хариу арга хэмжээ

  • Стрессийг удирдах алгоритм
  • Осолд оролцогчдын харилцан үйлчлэл
  • Үхлийн дараах
  • Мэдлэг хуваалцах
  • Соёлыг төлөвшүүлэх
  • Алдаа хяналт
  • Гэм буруугүй мэдээлэл хийх

Сэдэв №8: Ачааллын менежментийн дадлага

  • Ачааллыг тэнцвэржүүлэх
  • Хэрэглээний алдааны хүлцэл: дахин оролдох, завсарлага, бүтэлгүйтэл, таслуур
  • DDoS (ачаалал үүсгэх) + Каскадын алдаа

Сэдэв №9: Ослын хариу арга хэмжээ

  • Дүгнэлт
  • Дуудлагын дадлага
  • Төрөл бүрийн осол (туршилт, тохиргооны өөрчлөлт, техник хангамжийн гэмтэл)
  • Ослын менежментийн протоколууд

Сэдэв No10: Оношлогоо, асуудлыг шийдвэрлэх

  • Мод бэлтгэх
  • Дебаг хийх
  • Манай програм дээр дүн шинжилгээ хийх, дибаг хийх дадлага хий

Сэдэв №11: Системийн найдвартай байдлыг шалгах

  • Стресс тест
  • Тохиргооны туршилт
  • Гүйцэтгэлийн туршилт
  • Канарын хувилбар

Сэдэв No12: Бие даан хийх ажил, дүгнэлт

Оролцогчдод тавигдах зөвлөмж, шаардлага

SRE бол багийн хүчин чармайлт юм. Бид багаар хичээллэхийг зөвлөж байна. Тиймээс бид бэлэн багуудад томоохон хөнгөлөлт үзүүлдэг.

Сургалтын үнэ нэг хүнд 60₽.
Хэрэв компани 5+ хүнтэй групп илгээвэл - 40 ₽.

Курс нь Кубернетес дээр суурилагдсан. Шалгахын тулд та Кубернетесийг үндсэн түвшинд мэдэх хэрэгтэй. Хэрэв та түүнтэй ажиллахгүй бол Slurm Basic програмыг дамжуулж болно (онлайн байна буюу эрчимтэй 18-р сарын 20-XNUMX).
Нэмж дурдахад та Линуксыг сайн эзэмшсэн байх ёстой бөгөөд Gitlab, Prometheus-ийг мэддэг байх хэрэгтэй.

Бүртгүүлэх

Хэрэв танд оролцох нарийн төвөгтэй санаа байгаа бол жишээлбэл, Гүйцэтгэх захирал, CTO болон хөгжүүлэгчдийн баг курст ирж, менежментийн босоо чиглэлийг харгалзан дадлага хийх боломжтой бол над руу хувийн мессежээр бичээрэй.

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх