"Lootus on halb strateegia." SRE intensiivne Moskvas, 3.-5.veebruar

Kuulutame välja esimese SRE praktilise kursuse Venemaal: Slurm SRE.

Intensiivkursuse käigus veedame kolm päeva kinopiletite müügi agregaatorveebi ehitamise, lõhkumise, parandamise ja täiustamisega.

"Lootus on halb strateegia." SRE intensiivne Moskvas, 3.-5.veebruar

Valisime piletite koondaja, kuna sellel on palju ebaõnnestumise stsenaariume: külastajate sissevool ja DDoS-i rünnakud, ühe paljudest kriitilistest mikroteenustest (autoriseerimine, broneerimine, maksete töötlemine) rike, ühe paljudest kinodest (andmevahetus umbes saadaval olevad kohad ja broneeringud) ja loendist allpool.

Sõnastame oma koondamissaidi jaoks usaldusväärsuse kontseptsiooni, mida arendame Inseneerias edasi, analüüsime disaini SRE vaatepunktist, valime mõõdikuid, seadistame nende monitooringu, likvideerime tekkivaid intsidente, viime läbi koolitusi intsidentidega meeskonnatööks. lahingulähedastes tingimustes korraldada arutelu .

Programmi juhivad Booking.com-i ja Google'i töötajad.
Seekord kaugosalust ei toimu: kursus on üles ehitatud isiklikule suhtlusele ja meeskonnatööle.

Detailid lõike all

Kõlarid

Ivan Kruglov
Peamine arendaja saidil Booking.com (Holland)
Alates Booking.com-iga liitumisest 2013. aastal on ta töötanud selliste infrastruktuuriprojektide kallal nagu hajutatud sõnumite edastamine ja töötlemine, BigData ja veebipinn, otsing.
Töötab praegu sisemise pilve ja Service Meshi loomise küsimustega.

Ben Tyler
Peamine arendaja saidil Booking.com (USA)
Tegeleb Booking.com platvormi sisemise arendusega.
Spetsialiseerudes teenindusvõrgule / teenuse avastamisele, paketttööde ajastamisele, intsidentidele reageerimisele ja surmajärgsele protsessile.
Räägib ja õpetab vene keeles.

Jevgeni Varavva
Üldine arendaja Google'is (San Francisco).
Kogemused suure koormusega veebiprojektidest kuni arvutinägemise ja robootika alaste uuringuteni.
Alates 2011. aastast on ta tegelenud Google'is hajutatud süsteemide loomise ja käitamisega, osaledes projekti kogu elutsüklis: kontseptualiseerimine, disain ja arhitektuur, käivitamine, voltimine ja kõik vaheetapid.

Eduard Medvedev
Tehnikadirektor ettevõttes Tungsten Labs (Saksamaa)
Töötas StackStormis insenerina, vastutades platvormi ChatOpsi funktsionaalsuse eest. Andmekeskuste automatiseerimiseks välja töötatud ja juurutatud ChatOps. Esineja Venemaa ja rahvusvahelistel konverentsidel.

Programm

Programmi arendatakse aktiivselt. Praegu näeb see välja selline, veebruariks võib see paraneda ja laieneda.

Teema nr 1: SRE põhiprintsiibid ja meetodid

  • Mida on vaja, et saada SRE-ks?
  • DevOps vs SRE
  • Miks arendajad hindavad SRE-d ja on väga kurvad, kui nad projektis pole
  • SLI, SLO ja SLA
  • Veaeelarve ja selle roll SRE-s

Teema nr 2: hajutatud süsteemide projekteerimine

  • Rakenduse arhitektuur ja funktsionaalsus
  • Mitteabstraktne suure süsteemi disain
  • Kasutatavus / tõrkekujundus
  • gRPC või REST
  • Versioonide koostamine ja tagasiühilduvus

Teema nr 3: Kuidas SRE projekti aktsepteeritakse

  • SRE parimad tavad
  • Projekti vastuvõtmise kontrollnimekiri
  • Logimine, mõõdikud, jälgimine
  • CI/CD võtmine enda kätte

Teema nr 4: Hajutatud süsteemi projekteerimine ja käivitamine

  • Pöördprojekteerimine – kuidas süsteem töötab?
  • Oleme ühel meelel SLI ja SLO osas
  • Harjutage suutlikkuse planeerimist
  • Rakenduse liikluse käivitamisel hakkavad meie kasutajad seda "kasutama".
  • Käivitatakse Prometheus, Grafana, Elastic

Teema nr 5: seire, jälgitavus ja hoiatus

  • Jälgimine vs. Vaadeldavus
  • Prometheuse jälgimise ja hoiatamise seadistamine
  • SLI ja SLO praktiline jälgimine
  • Sümptomid vs. Põhjused
  • Must kast vs. Valge kasti jälgimine
  • Rakenduste ja serveri saadavuse hajutatud jälgimine
  • 4 kuldset signaali (anomaalia tuvastamine)

Teema nr 6: Süsteemi töökindluse testimise praktika

  • Töötamine surve all
  • Ebaõnnestumine - süstimine
  • Kaose ahv

Teema nr 7: Juhtumitele reageerimise praktika

  • Stressijuhtimise algoritm
  • Intsidendi osaliste vaheline suhtlus
  • Postmortem
  • Teadmiste jagamine
  • Kultuuri kujundamine
  • Vigade jälgimine
  • Laitmatu arutelu läbiviimine

Teema nr 8: Koormusjuhtimise praktikad

  • Koormuse tasakaalustamine
  • Rakenduse tõrketaluvus: uuesti proovimine, ajalõpp, rikke süstimine, kaitselüliti
  • DDoS (koormuse loomine) + kaskaadtõrked

Teema nr 9: Juhtumitele reageerimine

  • Ülekanne
  • Valvepraktika
  • Erinevat tüüpi õnnetused (testimine, konfiguratsioonimuudatused, riistvararikked)
  • Juhtumijuhtimise protokollid

Teema nr 10: diagnoosimine ja probleemide lahendamine

  • Logimine
  • Silumine
  • Harjutage meie rakenduse analüüsi ja silumist

Teema nr 11: Süsteemi töökindluse testimine

  • Stressi testimine
  • Konfiguratsiooni testimine
  • Jõudluskontroll
  • Kanaari vabastamine

Teema nr 12: Iseseisev töö ja retsensioon

Soovitused ja nõuded osalejatele

SRE on meeskonnatöö. Soovitame tungivalt läbida kursuse meeskonnana. Seetõttu pakume valmis meeskondadele suuri allahindlusi.

Kursuse hind on 60 000 ₽ inimese kohta.
Kui ettevõte saadab grupi 5+ inimest - 40 000 ₽.

Kursus on üles ehitatud Kubernetesile. Läbimiseks peate teadma Kubernetest algtasemel. Kui te temaga koostööd ei tee, võite läbida Slurm Basicu (Online või intensiivne 18.-20.november).
Lisaks pead valdama Linuxit ning tundma Gitlabi ja Prometheust.

Registreeru

Kui Sul on mingi kompleksne osalemise idee, et kursusele tuleksid näiteks tegevjuht, CTO ja arendajate meeskond ning läbiksid nad juhtimisvertikaaliga arvestava praktika, siis kirjuta mulle personaalses sõnumis.

Allikas: www.habr.com

Lisa kommentaar