"Lootus on halb strateegia." SRE intensiivne Moskvas, 3.-5.veebruar
Kuulutame välja esimese SRE praktilise kursuse Venemaal: Slurm SRE.
Intensiivkursuse käigus veedame kolm päeva kinopiletite müügi agregaatorveebi ehitamise, lõhkumise, parandamise ja täiustamisega.
Valisime piletite koondaja, kuna sellel on palju ebaõnnestumise stsenaariume: külastajate sissevool ja DDoS-i rünnakud, ühe paljudest kriitilistest mikroteenustest (autoriseerimine, broneerimine, maksete töötlemine) rike, ühe paljudest kinodest (andmevahetus umbes saadaval olevad kohad ja broneeringud) ja loendist allpool.
Sõnastame oma koondamissaidi jaoks usaldusväärsuse kontseptsiooni, mida arendame Inseneerias edasi, analüüsime disaini SRE vaatepunktist, valime mõõdikuid, seadistame nende monitooringu, likvideerime tekkivaid intsidente, viime läbi koolitusi intsidentidega meeskonnatööks. lahingulähedastes tingimustes korraldada arutelu .
Programmi juhivad Booking.com-i ja Google'i töötajad.
Seekord kaugosalust ei toimu: kursus on üles ehitatud isiklikule suhtlusele ja meeskonnatööle.
Detailid lõike all
Kõlarid
Ivan Kruglov
Peamine arendaja saidil Booking.com (Holland)
Alates Booking.com-iga liitumisest 2013. aastal on ta töötanud selliste infrastruktuuriprojektide kallal nagu hajutatud sõnumite edastamine ja töötlemine, BigData ja veebipinn, otsing.
Töötab praegu sisemise pilve ja Service Meshi loomise küsimustega.
Ben Tyler
Peamine arendaja saidil Booking.com (USA)
Tegeleb Booking.com platvormi sisemise arendusega.
Spetsialiseerudes teenindusvõrgule / teenuse avastamisele, paketttööde ajastamisele, intsidentidele reageerimisele ja surmajärgsele protsessile.
Räägib ja õpetab vene keeles.
Jevgeni Varavva
Üldine arendaja Google'is (San Francisco).
Kogemused suure koormusega veebiprojektidest kuni arvutinägemise ja robootika alaste uuringuteni.
Alates 2011. aastast on ta tegelenud Google'is hajutatud süsteemide loomise ja käitamisega, osaledes projekti kogu elutsüklis: kontseptualiseerimine, disain ja arhitektuur, käivitamine, voltimine ja kõik vaheetapid.
Eduard Medvedev
Tehnikadirektor ettevõttes Tungsten Labs (Saksamaa)
Töötas StackStormis insenerina, vastutades platvormi ChatOpsi funktsionaalsuse eest. Andmekeskuste automatiseerimiseks välja töötatud ja juurutatud ChatOps. Esineja Venemaa ja rahvusvahelistel konverentsidel.
Programm
Programmi arendatakse aktiivselt. Praegu näeb see välja selline, veebruariks võib see paraneda ja laieneda.
Teema nr 1: SRE põhiprintsiibid ja meetodid
Mida on vaja, et saada SRE-ks?
DevOps vs SRE
Miks arendajad hindavad SRE-d ja on väga kurvad, kui nad projektis pole
SLI, SLO ja SLA
Veaeelarve ja selle roll SRE-s
Teema nr 2: hajutatud süsteemide projekteerimine
Rakenduse arhitektuur ja funktsionaalsus
Mitteabstraktne suure süsteemi disain
Kasutatavus / tõrkekujundus
gRPC või REST
Versioonide koostamine ja tagasiühilduvus
Teema nr 3: Kuidas SRE projekti aktsepteeritakse
SRE parimad tavad
Projekti vastuvõtmise kontrollnimekiri
Logimine, mõõdikud, jälgimine
CI/CD võtmine enda kätte
Teema nr 4: Hajutatud süsteemi projekteerimine ja käivitamine
Pöördprojekteerimine – kuidas süsteem töötab?
Oleme ühel meelel SLI ja SLO osas
Harjutage suutlikkuse planeerimist
Rakenduse liikluse käivitamisel hakkavad meie kasutajad seda "kasutama".
Käivitatakse Prometheus, Grafana, Elastic
Teema nr 5: seire, jälgitavus ja hoiatus
Jälgimine vs. Vaadeldavus
Prometheuse jälgimise ja hoiatamise seadistamine
SLI ja SLO praktiline jälgimine
Sümptomid vs. Põhjused
Must kast vs. Valge kasti jälgimine
Rakenduste ja serveri saadavuse hajutatud jälgimine
4 kuldset signaali (anomaalia tuvastamine)
Teema nr 6: Süsteemi töökindluse testimise praktika
Töötamine surve all
Ebaõnnestumine - süstimine
Kaose ahv
Teema nr 7: Juhtumitele reageerimise praktika
Stressijuhtimise algoritm
Intsidendi osaliste vaheline suhtlus
Postmortem
Teadmiste jagamine
Kultuuri kujundamine
Vigade jälgimine
Laitmatu arutelu läbiviimine
Teema nr 8: Koormusjuhtimise praktikad
Koormuse tasakaalustamine
Rakenduse tõrketaluvus: uuesti proovimine, ajalõpp, rikke süstimine, kaitselüliti
DDoS (koormuse loomine) + kaskaadtõrked
Teema nr 9: Juhtumitele reageerimine
Ülekanne
Valvepraktika
Erinevat tüüpi õnnetused (testimine, konfiguratsioonimuudatused, riistvararikked)
Juhtumijuhtimise protokollid
Teema nr 10: diagnoosimine ja probleemide lahendamine
Logimine
Silumine
Harjutage meie rakenduse analüüsi ja silumist
Teema nr 11: Süsteemi töökindluse testimine
Stressi testimine
Konfiguratsiooni testimine
Jõudluskontroll
Kanaari vabastamine
Teema nr 12: Iseseisev töö ja retsensioon
Soovitused ja nõuded osalejatele
SRE on meeskonnatöö. Soovitame tungivalt läbida kursuse meeskonnana. Seetõttu pakume valmis meeskondadele suuri allahindlusi.
Kursuse hind on 60 000 ₽ inimese kohta.
Kui ettevõte saadab grupi 5+ inimest - 40 000 ₽.
Kursus on üles ehitatud Kubernetesile. Läbimiseks peate teadma Kubernetest algtasemel. Kui te temaga koostööd ei tee, võite läbida Slurm Basicu (Online või intensiivne 18.-20.november).
Lisaks pead valdama Linuxit ning tundma Gitlabi ja Prometheust.
Kui Sul on mingi kompleksne osalemise idee, et kursusele tuleksid näiteks tegevjuht, CTO ja arendajate meeskond ning läbiksid nad juhtimisvertikaaliga arvestava praktika, siis kirjuta mulle personaalses sõnumis.