ProHoster > Օրագիր > Վարչակազմը > «Հույսը վատ ռազմավարություն է». SRE ինտենսիվ Մոսկվայում, փետրվարի 3-5
«Հույսը վատ ռազմավարություն է». SRE ինտենսիվ Մոսկվայում, փետրվարի 3-5
Մենք հայտարարում ենք SRE-ի առաջին գործնական դասընթացը Ռուսաստանում. Slurm SRE.
Ինտենսիվության ընթացքում մենք երեք օր կանցկացնենք կինոյի տոմսերի վաճառքի ագրեգատոր կայք կառուցելու, կոտրելու, վերանորոգելու և կատարելագործելու համար։
Մենք ընտրեցինք տոմսերի ագրեգատոր, քանի որ այն ունի բազմաթիվ ձախողման սցենարներ՝ այցելուների ներհոսք և DDoS գրոհներ, բազմաթիվ կարևոր միկրոծառայություններից մեկի ձախողում (լիազորում, ամրագրում, վճարումների մշակում), բազմաթիվ կինոթատրոններից մեկի անհասանելիություն (տվյալների փոխանակում): մատչելի նստատեղեր և ամրագրումներ), և ավելի ուշ՝ ցուցակում:
Մենք կձևակերպենք Հուսալիության հայեցակարգը մեր ագրեգատոր կայքի համար, որը մենք հետագայում կզարգացնենք ճարտարագիտության ոլորտում, կվերլուծենք դիզայնը SRE-ի տեսանկյունից, կընտրենք չափումներ, կկազմակերպենք դրանց մոնիտորինգը, կվերացնենք առաջացող միջադեպերը, կանցկացնենք թրեյնինգ՝ միջադեպերի հետ թիմային աշխատանքի համար: մարտական գործողություններին մոտ գտնվող պայմաններում, կազմակերպել դեբրիֆինգ:
Ծրագիրը վարում են Booking.com-ի և Google-ի աշխատակիցները:
Այս անգամ հեռավար մասնակցություն չի լինելու. դասընթացը հիմնված է անձնական փոխգործակցության և թիմային աշխատանքի վրա:
Մանրամասները կտրվածքի տակ
Բարձրախոսներ
Իվան Կրուգլով
Հիմնական ծրագրավորող Booking.com-ում (Նիդեռլանդներ)
2013-ին Booking.com-ին միանալուց ի վեր նա աշխատել է ենթակառուցվածքային նախագծերի վրա, ինչպիսիք են հաղորդագրությունների բաշխված առաքումը և մշակումը, BigData-ն և web-stack-ը, որոնումը:
Ներկայումս աշխատում է ներքին ամպի և Service Mesh-ի կառուցման հարցերի վրա:
Բեն Թայլեր
Գլխավոր ծրագրավորող Booking.com-ում (ԱՄՆ)
Զբաղվում է Booking.com հարթակի ներքին զարգացմամբ։
Մասնագիտացված է սպասարկման ցանցերի/ծառայությունների հայտնաբերման, խմբաքանակի աշխատանքների պլանավորման, միջադեպերի արձագանքման և հետմահու գործընթացի մեջ:
Խոսում և դասավանդում է ռուսերեն:
Եվգենի Վարավվա
Գլխավոր ծրագրավորող Google-ում (Սան Ֆրանցիսկո):
Փորձ՝ բարձր բեռնվածությամբ վեբ նախագծերից մինչև համակարգչային տեսողության և ռոբոտաշինության հետազոտություններ:
2011 թվականից նա ներգրավված է Google-ում բաշխված համակարգերի ստեղծման և շահագործման մեջ՝ մասնակցելով նախագծի ողջ կյանքի ցիկլին՝ կոնցեպտուալիզացիա, դիզայն և ճարտարապետություն, գործարկում, ծալում և բոլոր միջանկյալ փուլերը:
Էդուարդ Մեդվեդև
CTO վոլֆրամի լաբորատորիաներում (Գերմանիա)
Աշխատել է որպես ինժեներ StackStorm-ում, որը պատասխանատու է հարթակի ChatOps ֆունկցիոնալության համար: Մշակել և ներդրել է ChatOps տվյալների կենտրոնների ավտոմատացման համար: Ռուսական և միջազգային գիտաժողովների զեկուցող։
Ծրագիր
Ծրագիրն ակտիվորեն մշակվում է։ Հիմա այսպես է թվում, մինչև փետրվար կարող է բարելավվել ու ընդլայնվել։
Թեմա թիվ 1. SRE-ի հիմնական սկզբունքներն ու մեթոդները
Ի՞նչ է անհրաժեշտ SRE դառնալու համար:
DevOps ընդդեմ SRE
Ինչու են մշակողները գնահատում SRE-ն և շատ տխուր են, երբ նախագծում չեն
SLI, SLO և SLA
Սխալի բյուջեն և դրա դերը SRE-ում
Թեմա #2. Բաշխված համակարգերի նախագծում
Հավելվածի ճարտարապետություն և ֆունկցիոնալություն
Ոչ վերացական մեծ համակարգի ձևավորում
Գործունակություն / Դիզայն ձախողման համար
gRPC կամ REST
Տարբերակում և հետին համատեղելիություն
Թեմա #3. Ինչպես է ընդունվում SRE նախագիծը
Լավագույն փորձը SRE-ից
Ծրագրի ընդունման ստուգաթերթ
Հատումների գրանցում, չափումներ, հետագծում
CI/CD-ն մեր ձեռքը վերցնելը
Թեմա թիվ 4. Բաշխված համակարգի նախագծում և գործարկում
Հակադարձ ճարտարագիտություն. ինչպե՞ս է աշխատում համակարգը:
Մենք համաձայն ենք SLI-ի և SLO-ի վերաբերյալ
Կիրառեք կարողությունների պլանավորում
Գործարկելով երթևեկությունը դեպի հավելված՝ մեր օգտվողները սկսում են «օգտագործել» այն
Գործարկման Prometheus, Grafana, Elastic
Թեմա #5. Մոնիտորինգ, դիտարկելիություն և զգուշացում
Մոնիտորինգ ընդդեմ. Դիտորդականություն
Պրոմեթևսի հետ մոնիտորինգի և ահազանգման կարգավորում
SLI-ի և SLO-ի գործնական մոնիտորինգ
Ախտանիշներն ընդդեմ. Պատճառները
Black-Box vs. Սպիտակ տուփի մոնիտորինգ
Հավելվածի և սերվերի առկայության բաշխված մոնիտորինգ
4 ոսկե ազդանշան (անոմալիաների հայտնաբերում)
Թեմա թիվ 6. Համակարգի հուսալիության փորձարկման պրակտիկա
Ճնշման տակ աշխատելը
Անհաջողություն-ներարկում
Chaos Monkey
Թեմա #7. Միջադեպերին արձագանքելու պրակտիկա
Սթրեսի կառավարման ալգորիթմ
Միջադեպի մասնակիցների միջև փոխազդեցություն
Հետմահու
Գիտելիքների փոխանակում
Մշակույթի ձևավորում
Սխալների մոնիտորինգ
Անմեղ տեղեկության անցկացում
Թեմա #8. Բեռի կառավարման պրակտիկա
Բեռների հավասարակշռում
Կիրառման սխալների հանդուրժողականություն՝ կրկնակի փորձ, ժամանակի վերջ, ձախողման ներարկում, անջատիչ
DDoS (ստեղծող բեռ) + Կասկադային ձախողումներ
Թեմա #9. Միջադեպի արձագանք
Դեբրիֆինգ
Զանգի պրակտիկա
Տարբեր տեսակի վթարներ (փորձարկում, կոնֆիգուրացիայի փոփոխություններ, ապարատային ձախողում)
Միջադեպերի կառավարման արձանագրություններ
Թեմա #10՝ Ախտորոշում և խնդրի լուծում
անտառահատումներ
Կարգաբերում
Կատարեք վերլուծություն և վրիպազերծում մեր հավելվածում
Թեմա #11. Համակարգի հուսալիության փորձարկում
Սթրեսի թեստավորում
Կազմաձևման փորձարկում
Կատարման փորձարկում
Կանարյան արձակում
Թեմա թիվ 12. Անկախ աշխատանք և ակնարկ
Առաջարկություններ և պահանջներ մասնակիցներին
SRE-ն թիմային աշխատանք է: Մենք խստորեն խորհուրդ ենք տալիս դասընթացն անցնել թիմով: Այդ իսկ պատճառով մենք առաջարկում ենք մեծ զեղչեր պատրաստի թիմերի համար։
Դասընթացի արժեքը մեկ անձի համար 60 դրամ է։
Եթե ընկերությունն ուղարկում է 5+ հոգուց բաղկացած խումբ՝ 40 ₽:
Դասընթացը կառուցված է Kubernetes-ի վրա։ Անցնելու համար հարկավոր է իմանալ Kubernetes-ը հիմնական մակարդակում։ Եթե դուք չեք աշխատում նրա հետ, կարող եք անցնել Slurm Basic (Online կամ ինտենսիվ նոյեմբերի 18-20).
Բացի այդ, դուք պետք է տիրապետեք Linux-ին և իմանաք Gitlab-ը և Prometheus-ը:
Եթե ունեք մասնակցության բարդ գաղափար, օրինակ, որ գործադիր տնօրենը, CTO-ն և մշակողների թիմը գան դասընթացին, և նրանք պրակտիկա անցնեն՝ հաշվի առնելով կառավարման ուղղահայացը, գրեք ինձ անձնական հաղորդագրությամբ։