ProHoster > Blog > administratë > "Shpresa është një strategji e keqe." SRE intensive në Moskë, 3-5 shkurt
"Shpresa është një strategji e keqe." SRE intensive në Moskë, 3-5 shkurt
Ne po shpallim kursin e parë praktik mbi SRE në Rusi: Slurm SRE.
Gjatë intensives do të kalojmë tre ditë në ndërtimin, prishjen, riparimin dhe përmirësimin e një faqe interneti grumbulluese për shitjen e biletave të filmit.
Ne zgjodhëm një grumbullues biletash sepse ka shumë skenarë dështimi: një fluks vizitorësh dhe sulme DDoS, dështimi i një prej shumë mikroshërbimeve kritike (autorizimi, rezervimet, përpunimi i pagesave), mosdisponueshmëria e një prej kinemave të shumta (shkëmbimi i të dhënave në vendet dhe rezervimet e disponueshme), dhe më tej në listë.
Ne do të formulojmë konceptin e Besueshmërisë për faqen tonë të grumbullimit, të cilin do ta zhvillojmë më tej në Inxhinieri, do të analizojmë dizajnin nga këndvështrimi i SRE, do të zgjedhim metrikat, do të vendosim monitorimin e tyre, do të eliminojmë incidentet në zhvillim, do të zhvillojmë trajnime për punën ekipore me incidente në kushte afër luftimit, organizoni një debriefing .
Programi drejtohet nga punonjës të Booking.com dhe Google.
Këtë herë nuk do të ketë pjesëmarrje në distancë: kursi është ndërtuar mbi ndërveprimin personal dhe punën ekipore.
Detajet nën prerje
Folësit
Ivan Kruglov
Zhvilluesi kryesor në Booking.com (Holandë)
Që kur iu bashkua Booking.com në vitin 2013, ai ka punuar në projekte infrastrukturore si shpërndarja dhe përpunimi i mesazheve, BigData dhe web-stack, kërkimi.
Aktualisht po punon për çështjet e ndërtimit të një cloud të brendshëm dhe rrjetë shërbimi.
Ben Tyler
Zhvilluesi kryesor në Booking.com (SHBA)
I angazhuar në zhvillimin e brendshëm të platformës Booking.com.
Specializohet në zbulimin e rrjetës së shërbimit / shërbimit, planifikimin e punës së grupit, reagimin ndaj incidentit dhe procesin pas vdekjes.
Flet dhe jep mësim në Rusisht.
Evgeniy Varavva
Zhvillues i Përgjithshëm në Google (San Francisko).
Përvojë nga projektet e internetit me ngarkesë të lartë deri te kërkimet në vizionin kompjuterik dhe robotikën.
Që nga viti 2011, ai është përfshirë në krijimin dhe funksionimin e sistemeve të shpërndara në Google, duke marrë pjesë në ciklin e plotë të jetës së projektit: konceptualizimi, dizajni dhe arkitektura, nisja, palosja dhe të gjitha fazat e ndërmjetme.
Eduard Medvedev
CTO në Tungsten Labs (Gjermani)
Punoi si inxhinier në StackStorm, përgjegjës për funksionalitetin ChatOps të platformës. Zhvilluar dhe zbatuar ChatOps për automatizimin e qendrës së të dhënave. Folës në konferenca ruse dhe ndërkombëtare.
Program
Programi është duke u zhvilluar në mënyrë aktive. Tani duket kështu, deri në shkurt mund të përmirësohet dhe zgjerohet.
Tema #1: Parimet dhe metodat bazë të SRE
Çfarë duhet për t'u bërë një SRE?
DevOps vs SRE
Pse zhvilluesit vlerësojnë SRE dhe janë shumë të trishtuar kur nuk janë në projekt
SLI, SLO dhe SLA
Buxheti i gabimit dhe roli i tij në SRE
Tema #2: Projektimi i sistemeve të shpërndara
Arkitektura dhe funksionaliteti i aplikacionit
Dizajni i sistemit të madh jo-abstrakt
Funksionaliteti / Dizajni për dështim
gRPC ose REST
Versionimi dhe pajtueshmëria e prapambetur
Tema #3: Si pranohet një projekt SRE
Praktikat më të mira nga SRE
Lista kontrolluese e pranimit të projektit
Regjistrimi, metrika, gjurmimi
Marrja e CI/CD në duart tona
Tema nr. 4: Projektimi dhe lançimi i një sistemi të shpërndarë
Inxhinieri e kundërt - si funksionon sistemi?
Ne jemi dakord për SLI dhe SLO
Praktikoni planifikimin e kapaciteteve
Duke nisur trafikun në aplikacion, përdoruesit tanë fillojnë ta "përdorin" atë
Nisja e Prometheus, Grafana, Elastic
Tema #5: Monitorimi, vëzhgimi dhe alarmimi
Monitorimi vs. Vëzhgueshmëria
Vendosja e monitorimit dhe alarmimit me Prometheus
Monitorimi praktik i SLI dhe SLO
Simptomat vs. Shkaqet
Black-Box vs. Monitorimi i White-Box
Monitorimi i shpërndarë i disponueshmërisë së aplikacionit dhe serverit
4 sinjale të arta (zbulimi i anomalive)
Tema nr. 6: Praktika e testimit të besueshmërisë së sistemit
Duke punuar nën presion
Dështim-injeksion
Majmuni i Kaosit
Tema #7: Praktika e reagimit ndaj incidentit
Algoritmi i menaxhimit të stresit
Ndërveprimi ndërmjet pjesëmarrësve në incident
Pas vdekjes
Ndarja e njohurive
Formimi i kulturës
Monitorimi i gabimeve
Kryerja e diskutimeve të pafajshme
Tema #8: Praktikat e menaxhimit të ngarkesës
Balancimi i ngarkesës
Toleranca e gabimeve të aplikimit: riprovimi, skadimi, injektimi i dështimit, ndërprerësi
DDoS (krijimi i ngarkesës) + Dështimet Cascading
Tema #9: Reagimi ndaj incidentit
Debriefing
Praktika në thirrje
Lloje të ndryshme aksidentesh (testimi, ndryshimet e konfigurimit, dështimi i harduerit)
Protokollet e menaxhimit të incidenteve
Tema #10: Diagnoza dhe zgjidhja e problemeve
Prerjet
Korrigjimi i gabimeve
Praktikoni analizën dhe korrigjimin e gabimeve në aplikacionin tonë
Tema #11: Testimi i besueshmërisë së sistemit
Testimi i stresit
Testimi i konfigurimit
Testimi i performancës
Lirimi i kanarinës
Tema nr 12: Punë e pavarur dhe rishikim
Rekomandime dhe kërkesa për pjesëmarrësit
SRE është një përpjekje ekipore. Rekomandojmë fuqimisht të ndiqni kursin si ekip. Kjo është arsyeja pse ne ofrojmë zbritje të mëdha për ekipet e gatshme.
Çmimi i kursit është 60 ₽ për person.
Nëse një kompani dërgon një grup prej 5+ personash - 40 ₽.
Kursi është ndërtuar në Kubernetes. Për të kaluar, ju duhet të njihni Kubernetes në një nivel bazë. Nëse nuk punoni me të, mund të kaloni përmes Slurm Basic (Online ose intensive 18-20 nëntor).
Përveç kësaj, ju duhet të jeni të aftë në Linux dhe të njihni Gitlab dhe Prometheus.
Nëse keni një ide komplekse për pjesëmarrje, për shembull, që CEO, CTO dhe një ekip zhvilluesish të vijnë në kurs, dhe që ata t'i nënshtrohen një stazhi duke marrë parasysh vertikalin e menaxhimit, më shkruani në një mesazh personal.