«Հույսը վատ ռազմավարություն է». SRE ինտենսիվ Մոսկվայում, փետրվարի 3-5

Մենք հայտարարում ենք SRE-ի առաջին գործնական դասընթացը Ռուսաստանում. Slurm SRE.

Ինտենսիվության ընթացքում մենք երեք օր կանցկացնենք կինոյի տոմսերի վաճառքի ագրեգատոր կայք կառուցելու, կոտրելու, վերանորոգելու և կատարելագործելու համար։

«Հույսը վատ ռազմավարություն է». SRE ինտենսիվ Մոսկվայում, փետրվարի 3-5

Մենք ընտրեցինք տոմսերի ագրեգատոր, քանի որ այն ունի բազմաթիվ ձախողման սցենարներ՝ այցելուների ներհոսք և DDoS գրոհներ, բազմաթիվ կարևոր միկրոծառայություններից մեկի ձախողում (լիազորում, ամրագրում, վճարումների մշակում), բազմաթիվ կինոթատրոններից մեկի անհասանելիություն (տվյալների փոխանակում): մատչելի նստատեղեր և ամրագրումներ), և ավելի ուշ՝ ցուցակում:

Մենք կձևակերպենք Հուսալիության հայեցակարգը մեր ագրեգատոր կայքի համար, որը մենք հետագայում կզարգացնենք ճարտարագիտության ոլորտում, կվերլուծենք դիզայնը SRE-ի տեսանկյունից, կընտրենք չափումներ, կկազմակերպենք դրանց մոնիտորինգը, կվերացնենք առաջացող միջադեպերը, կանցկացնենք թրեյնինգ՝ միջադեպերի հետ թիմային աշխատանքի համար: մարտական ​​գործողություններին մոտ գտնվող պայմաններում, կազմակերպել դեբրիֆինգ:

Ծրագիրը վարում են Booking.com-ի և Google-ի աշխատակիցները:
Այս անգամ հեռավար մասնակցություն չի լինելու. դասընթացը հիմնված է անձնական փոխգործակցության և թիմային աշխատանքի վրա:

Մանրամասները կտրվածքի տակ

Բարձրախոսներ

Իվան Կրուգլով
Հիմնական ծրագրավորող Booking.com-ում (Նիդեռլանդներ)
2013-ին Booking.com-ին միանալուց ի վեր նա աշխատել է ենթակառուցվածքային նախագծերի վրա, ինչպիսիք են հաղորդագրությունների բաշխված առաքումը և մշակումը, BigData-ն և web-stack-ը, որոնումը:
Ներկայումս աշխատում է ներքին ամպի և Service Mesh-ի կառուցման հարցերի վրա:

Բեն Թայլեր
Գլխավոր ծրագրավորող Booking.com-ում (ԱՄՆ)
Զբաղվում է Booking.com հարթակի ներքին զարգացմամբ։
Մասնագիտացված է սպասարկման ցանցերի/ծառայությունների հայտնաբերման, խմբաքանակի աշխատանքների պլանավորման, միջադեպերի արձագանքման և հետմահու գործընթացի մեջ:
Խոսում և դասավանդում է ռուսերեն:

Եվգենի Վարավվա
Գլխավոր ծրագրավորող Google-ում (Սան Ֆրանցիսկո):
Փորձ՝ բարձր բեռնվածությամբ վեբ նախագծերից մինչև համակարգչային տեսողության և ռոբոտաշինության հետազոտություններ:
2011 թվականից նա ներգրավված է Google-ում բաշխված համակարգերի ստեղծման և շահագործման մեջ՝ մասնակցելով նախագծի ողջ կյանքի ցիկլին՝ կոնցեպտուալիզացիա, դիզայն և ճարտարապետություն, գործարկում, ծալում և բոլոր միջանկյալ փուլերը:

Էդուարդ Մեդվեդև
CTO վոլֆրամի լաբորատորիաներում (Գերմանիա)
Աշխատել է որպես ինժեներ StackStorm-ում, որը պատասխանատու է հարթակի ChatOps ֆունկցիոնալության համար: Մշակել և ներդրել է ChatOps տվյալների կենտրոնների ավտոմատացման համար: Ռուսական և միջազգային գիտաժողովների զեկուցող։

Ծրագիր

Ծրագիրն ակտիվորեն մշակվում է։ Հիմա այսպես է թվում, մինչև փետրվար կարող է բարելավվել ու ընդլայնվել։

Թեմա թիվ 1. SRE-ի հիմնական սկզբունքներն ու մեթոդները

  • Ի՞նչ է անհրաժեշտ SRE դառնալու համար:
  • DevOps ընդդեմ SRE
  • Ինչու են մշակողները գնահատում SRE-ն և շատ տխուր են, երբ նախագծում չեն
  • SLI, SLO և SLA
  • Սխալի բյուջեն և դրա դերը SRE-ում

Թեմա #2. Բաշխված համակարգերի նախագծում

  • Հավելվածի ճարտարապետություն և ֆունկցիոնալություն
  • Ոչ վերացական մեծ համակարգի ձևավորում
  • Գործունակություն / Դիզայն ձախողման համար
  • gRPC կամ REST
  • Տարբերակում և հետին համատեղելիություն

Թեմա #3. Ինչպես է ընդունվում SRE նախագիծը

  • Լավագույն փորձը SRE-ից
  • Ծրագրի ընդունման ստուգաթերթ
  • Հատումների գրանցում, չափումներ, հետագծում
  • CI/CD-ն մեր ձեռքը վերցնելը

Թեմա թիվ 4. Բաշխված համակարգի նախագծում և գործարկում

  • Հակադարձ ճարտարագիտություն. ինչպե՞ս է աշխատում համակարգը:
  • Մենք համաձայն ենք SLI-ի և SLO-ի վերաբերյալ
  • Կիրառեք կարողությունների պլանավորում
  • Գործարկելով երթևեկությունը դեպի հավելված՝ մեր օգտվողները սկսում են «օգտագործել» այն
  • Գործարկման Prometheus, Grafana, Elastic

Թեմա #5. Մոնիտորինգ, դիտարկելիություն և զգուշացում

  • Մոնիտորինգ ընդդեմ. Դիտորդականություն
  • Պրոմեթևսի հետ մոնիտորինգի և ահազանգման կարգավորում
  • SLI-ի և SLO-ի գործնական մոնիտորինգ
  • Ախտանիշներն ընդդեմ. Պատճառները
  • Black-Box vs. Սպիտակ տուփի մոնիտորինգ
  • Հավելվածի և սերվերի առկայության բաշխված մոնիտորինգ
  • 4 ոսկե ազդանշան (անոմալիաների հայտնաբերում)

Թեմա թիվ 6. Համակարգի հուսալիության փորձարկման պրակտիկա

  • Ճնշման տակ աշխատելը
  • Անհաջողություն-ներարկում
  • Chaos Monkey

Թեմա #7. Միջադեպերին արձագանքելու պրակտիկա

  • Սթրեսի կառավարման ալգորիթմ
  • Միջադեպի մասնակիցների միջև փոխազդեցություն
  • Հետմահու
  • Գիտելիքների փոխանակում
  • Մշակույթի ձևավորում
  • Սխալների մոնիտորինգ
  • Անմեղ տեղեկության անցկացում

Թեմա #8. Բեռի կառավարման պրակտիկա

  • Բեռների հավասարակշռում
  • Կիրառման սխալների հանդուրժողականություն՝ կրկնակի փորձ, ժամանակի վերջ, ձախողման ներարկում, անջատիչ
  • DDoS (ստեղծող բեռ) + Կասկադային ձախողումներ

Թեմա #9. Միջադեպի արձագանք

  • Դեբրիֆինգ
  • Զանգի պրակտիկա
  • Տարբեր տեսակի վթարներ (փորձարկում, կոնֆիգուրացիայի փոփոխություններ, ապարատային ձախողում)
  • Միջադեպերի կառավարման արձանագրություններ

Թեմա #10՝ Ախտորոշում և խնդրի լուծում

  • անտառահատումներ
  • Կարգաբերում
  • Կատարեք վերլուծություն և վրիպազերծում մեր հավելվածում

Թեմա #11. Համակարգի հուսալիության փորձարկում

  • Սթրեսի թեստավորում
  • Կազմաձևման փորձարկում
  • Կատարման փորձարկում
  • Կանարյան արձակում

Թեմա թիվ 12. Անկախ աշխատանք և ակնարկ

Առաջարկություններ և պահանջներ մասնակիցներին

SRE-ն թիմային աշխատանք է: Մենք խստորեն խորհուրդ ենք տալիս դասընթացն անցնել թիմով: Այդ իսկ պատճառով մենք առաջարկում ենք մեծ զեղչեր պատրաստի թիմերի համար։

Դասընթացի արժեքը մեկ անձի համար 60 դրամ է։
Եթե ​​ընկերությունն ուղարկում է 5+ հոգուց բաղկացած խումբ՝ 40 ₽:

Դասընթացը կառուցված է Kubernetes-ի վրա։ Անցնելու համար հարկավոր է իմանալ Kubernetes-ը հիմնական մակարդակում։ Եթե ​​դուք չեք աշխատում նրա հետ, կարող եք անցնել Slurm Basic (Online կամ ինտենսիվ նոյեմբերի 18-20).
Բացի այդ, դուք պետք է տիրապետեք Linux-ին և իմանաք Gitlab-ը և Prometheus-ը:

գրանցում

Եթե ​​ունեք մասնակցության բարդ գաղափար, օրինակ, որ գործադիր տնօրենը, CTO-ն և մշակողների թիմը գան դասընթացին, և նրանք պրակտիկա անցնեն՝ հաշվի առնելով կառավարման ուղղահայացը, գրեք ինձ անձնական հաղորդագրությամբ։

Source: www.habr.com

Добавить комментарий