"Shpresa është një strategji e keqe." SRE intensive në Moskë, 3-5 shkurt

Ne po shpallim kursin e parë praktik mbi SRE në Rusi: Slurm SRE.

Gjatë intensives do të kalojmë tre ditë në ndërtimin, prishjen, riparimin dhe përmirësimin e një faqe interneti grumbulluese për shitjen e biletave të filmit.

"Shpresa është një strategji e keqe." SRE intensive në Moskë, 3-5 shkurt

Ne zgjodhëm një grumbullues biletash sepse ka shumë skenarë dështimi: një fluks vizitorësh dhe sulme DDoS, dështimi i një prej shumë mikroshërbimeve kritike (autorizimi, rezervimet, përpunimi i pagesave), mosdisponueshmëria e një prej kinemave të shumta (shkëmbimi i të dhënave në vendet dhe rezervimet e disponueshme), dhe më tej në listë.

Ne do të formulojmë konceptin e Besueshmërisë për faqen tonë të grumbullimit, të cilin do ta zhvillojmë më tej në Inxhinieri, do të analizojmë dizajnin nga këndvështrimi i SRE, do të zgjedhim metrikat, do të vendosim monitorimin e tyre, do të eliminojmë incidentet në zhvillim, do të zhvillojmë trajnime për punën ekipore me incidente në kushte afër luftimit, organizoni një debriefing .

Programi drejtohet nga punonjës të Booking.com dhe Google.
Këtë herë nuk do të ketë pjesëmarrje në distancë: kursi është ndërtuar mbi ndërveprimin personal dhe punën ekipore.

Detajet nën prerje

Folësit

Ivan Kruglov
Zhvilluesi kryesor në Booking.com (Holandë)
Që kur iu bashkua Booking.com në vitin 2013, ai ka punuar në projekte infrastrukturore si shpërndarja dhe përpunimi i mesazheve, BigData dhe web-stack, kërkimi.
Aktualisht po punon për çështjet e ndërtimit të një cloud të brendshëm dhe rrjetë shërbimi.

Ben Tyler
Zhvilluesi kryesor në Booking.com (SHBA)
I angazhuar në zhvillimin e brendshëm të platformës Booking.com.
Specializohet në zbulimin e rrjetës së shërbimit / shërbimit, planifikimin e punës së grupit, reagimin ndaj incidentit dhe procesin pas vdekjes.
Flet dhe jep mësim në Rusisht.

Evgeniy Varavva
Zhvillues i Përgjithshëm në Google (San Francisko).
Përvojë nga projektet e internetit me ngarkesë të lartë deri te kërkimet në vizionin kompjuterik dhe robotikën.
Që nga viti 2011, ai është përfshirë në krijimin dhe funksionimin e sistemeve të shpërndara në Google, duke marrë pjesë në ciklin e plotë të jetës së projektit: konceptualizimi, dizajni dhe arkitektura, nisja, palosja dhe të gjitha fazat e ndërmjetme.

Eduard Medvedev
CTO në Tungsten Labs (Gjermani)
Punoi si inxhinier në StackStorm, përgjegjës për funksionalitetin ChatOps të platformës. Zhvilluar dhe zbatuar ChatOps për automatizimin e qendrës së të dhënave. Folës në konferenca ruse dhe ndërkombëtare.

Program

Programi është duke u zhvilluar në mënyrë aktive. Tani duket kështu, deri në shkurt mund të përmirësohet dhe zgjerohet.

Tema #1: Parimet dhe metodat bazë të SRE

  • Çfarë duhet për t'u bërë një SRE?
  • DevOps vs SRE
  • Pse zhvilluesit vlerësojnë SRE dhe janë shumë të trishtuar kur nuk janë në projekt
  • SLI, SLO dhe SLA
  • Buxheti i gabimit dhe roli i tij në SRE

Tema #2: Projektimi i sistemeve të shpërndara

  • Arkitektura dhe funksionaliteti i aplikacionit
  • Dizajni i sistemit të madh jo-abstrakt
  • Funksionaliteti / Dizajni për dështim
  • gRPC ose REST
  • Versionimi dhe pajtueshmëria e prapambetur

Tema #3: Si pranohet një projekt SRE

  • Praktikat më të mira nga SRE
  • Lista kontrolluese e pranimit të projektit
  • Regjistrimi, metrika, gjurmimi
  • Marrja e CI/CD në duart tona

Tema nr. 4: Projektimi dhe lançimi i një sistemi të shpërndarë

  • Inxhinieri e kundërt - si funksionon sistemi?
  • Ne jemi dakord për SLI dhe SLO
  • Praktikoni planifikimin e kapaciteteve
  • Duke nisur trafikun në aplikacion, përdoruesit tanë fillojnë ta "përdorin" atë
  • Nisja e Prometheus, Grafana, Elastic

Tema #5: Monitorimi, vëzhgimi dhe alarmimi

  • Monitorimi vs. Vëzhgueshmëria
  • Vendosja e monitorimit dhe alarmimit me Prometheus
  • Monitorimi praktik i SLI dhe SLO
  • Simptomat vs. Shkaqet
  • Black-Box vs. Monitorimi i White-Box
  • Monitorimi i shpërndarë i disponueshmërisë së aplikacionit dhe serverit
  • 4 sinjale të arta (zbulimi i anomalive)

Tema nr. 6: Praktika e testimit të besueshmërisë së sistemit

  • Duke punuar nën presion
  • Dështim-injeksion
  • Majmuni i Kaosit

Tema #7: Praktika e reagimit ndaj incidentit

  • Algoritmi i menaxhimit të stresit
  • Ndërveprimi ndërmjet pjesëmarrësve në incident
  • Pas vdekjes
  • Ndarja e njohurive
  • Formimi i kulturës
  • Monitorimi i gabimeve
  • Kryerja e diskutimeve të pafajshme

Tema #8: Praktikat e menaxhimit të ngarkesës

  • Balancimi i ngarkesës
  • Toleranca e gabimeve të aplikimit: riprovimi, skadimi, injektimi i dështimit, ndërprerësi
  • DDoS (krijimi i ngarkesës) + Dështimet Cascading

Tema #9: Reagimi ndaj incidentit

  • Debriefing
  • Praktika në thirrje
  • Lloje të ndryshme aksidentesh (testimi, ndryshimet e konfigurimit, dështimi i harduerit)
  • Protokollet e menaxhimit të incidenteve

Tema #10: Diagnoza dhe zgjidhja e problemeve

  • Prerjet
  • Korrigjimi i gabimeve
  • Praktikoni analizën dhe korrigjimin e gabimeve në aplikacionin tonë

Tema #11: Testimi i besueshmërisë së sistemit

  • Testimi i stresit
  • Testimi i konfigurimit
  • Testimi i performancës
  • Lirimi i kanarinës

Tema nr 12: Punë e pavarur dhe rishikim

Rekomandime dhe kërkesa për pjesëmarrësit

SRE është një përpjekje ekipore. Rekomandojmë fuqimisht të ndiqni kursin si ekip. Kjo është arsyeja pse ne ofrojmë zbritje të mëdha për ekipet e gatshme.

Çmimi i kursit është 60 ₽ për person.
Nëse një kompani dërgon një grup prej 5+ personash - 40 ₽.

Kursi është ndërtuar në Kubernetes. Për të kaluar, ju duhet të njihni Kubernetes në një nivel bazë. Nëse nuk punoni me të, mund të kaloni përmes Slurm Basic (Online ose intensive 18-20 nëntor).
Përveç kësaj, ju duhet të jeni të aftë në Linux dhe të njihni Gitlab dhe Prometheus.

Regjistrim

Nëse keni një ide komplekse për pjesëmarrje, për shembull, që CEO, CTO dhe një ekip zhvilluesish të vijnë në kurs, dhe që ata t'i nënshtrohen një stazhi duke marrë parasysh vertikalin e menaxhimit, më shkruani në një mesazh personal.

Burimi: www.habr.com

Shto një koment