"Toivo on huono strategia." SRE-intensiivinen Moskovassa 3.-5

Julkaisemme ensimmäisen käytännön SRE-kurssin Venäjällä: Slurm SRE.

Intensiivijakson aikana vietämme kolme päivää leffalippujen myynnin aggregaattorisivuston rakentamiseen, rikkomiseen, korjaamiseen ja parantamiseen.

"Toivo on huono strategia." SRE-intensiivinen Moskovassa 3.-5

Valitsimme lippujen kokoajan, koska sillä on monia epäonnistumisskenaarioita: vierailijoiden virta ja DDoS-hyökkäykset, yhden monista kriittisistä mikropalveluista (valtuutus, varaukset, maksujen käsittely) epäonnistuminen, yhden elokuvateattereista puuttuminen (tiedonvaihto noin vapaat paikat ja varaukset) ja alempana luetteloa.

Muotoilemme aggregaattorisivustollemme Luotettavuuskonseptin, jota kehitämme edelleen Suunnittelussa, analysoimme suunnittelua SRE:n näkökulmasta, valitsemme mittareita, määritämme niiden seurannan, eliminoimme syntyviä tapauksia, järjestämme koulutusta ryhmätyöskentelyyn tapahtumien kanssa. Järjestä selvitys taistelua lähellä olevissa olosuhteissa.

Ohjelmaa ylläpitävät Booking.comin ja Googlen työntekijät.
Tällä kertaa etäosallistuminen ei tule olemaan: kurssi rakentuu henkilökohtaiselle vuorovaikutukselle ja tiimityölle.

Yksityiskohdat leikkauksen alla

Kaiuttimet

Ivan Kruglov
Pääkehittäjä osoitteessa Booking.com (Alankomaat)
Liittyessään Booking.comiin vuonna 2013 hän on työskennellyt infrastruktuuriprojekteissa, kuten hajautetussa viestien toimituksessa ja käsittelyssä, BigDatassa ja web-pinossa, haussa.
Työskentelemme parhaillaan sisäisen pilven ja Service Meshin rakentamiseen liittyvien ongelmien parissa.

Ben Tyler
Pääkehittäjä osoitteessa Booking.com (USA)
Osallistuu Booking.com-alustan sisäiseen kehittämiseen.
Erikoistunut palveluverkkoon / palvelun etsintään, erätyön ajoitukseen, tapauksiin reagoimiseen ja kuolemanjälkeiseen prosessiin.
Puhuu ja opettaa venäjää.

Jevgeni Varavva
Googlen yleinen kehittäjä (San Francisco).
Kokemusta raskaasta verkkoprojektista tietokonenäön ja robotiikan tutkimukseen.
Vuodesta 2011 lähtien hän on ollut mukana Googlen hajautettujen järjestelmien luomisessa ja käytössä osallistuen projektin koko elinkaareen: konseptointi, suunnittelu ja arkkitehtuuri, lanseeraus, taitto ja kaikki välivaiheet.

Eduard Medvedev
Tekninen johtaja, Tungsten Labs (Saksa)
Työskenteli insinöörinä StackStormissa ja vastasi alustan ChatOps-toiminnallisuuksista. Kehitetty ja toteutettu ChatOps konesaliautomaatiota varten. Puhuja venäläisissä ja kansainvälisissä konferensseissa.

Ohjelma

Ohjelmaa kehitetään aktiivisesti. Nyt näyttää tältä, helmikuuhun mennessä se saattaa parantua ja laajentua.

Aihe #1: SRE:n perusperiaatteet ja menetelmät

  • Mitä SRE:ksi tuleminen vaatii?
  • DevOps vs SRE
  • Miksi kehittäjät arvostavat SRE:tä ja ovat hyvin surullisia, kun he eivät ole mukana projektissa
  • SLI, SLO ja SLA
  • Virhebudjetti ja sen rooli SRE:ssä

Aihe #2: Hajautettujen järjestelmien suunnittelu

  • Sovellusarkkitehtuuri ja toiminnallisuus
  • Ei-abstrakti suuri järjestelmäsuunnittelu
  • Toimivuus / Suunnittelu vikaantumiselle
  • gRPC tai REST
  • Versiointi ja taaksepäin yhteensopivuus

Aihe #3: Kuinka SRE-projekti hyväksytään

  • SRE:n parhaat käytännöt
  • Projektin hyväksymisen tarkistuslista
  • Kirjaaminen, mittaukset, jäljitys
  • CI/CD:n ottaminen omiin käsiimme

Aihe nro 4: Hajautetun järjestelmän suunnittelu ja käynnistäminen

  • Käänteinen suunnittelu – miten järjestelmä toimii?
  • Olemme samaa mieltä SLI:stä ja SLO:sta
  • Harjoittele kapasiteetin suunnittelua
  • Käynnistäessään liikenteen sovellukseen käyttäjämme alkavat "käyttää" sitä
  • Käynnistetään Prometheus, Grafana, Elastic

Aihe #5: Monitorointi, havainnointi ja hälytykset

  • Seuranta vs. Havaittavuus
  • Valvonnan ja hälytyksen määrittäminen Prometheuksen avulla
  • SLI:n ja SLO:n käytännön seuranta
  • Oireet vs. Syyt
  • Black Box vs. Valkoisen laatikon valvonta
  • Sovellusten ja palvelinten saatavuuden hajautettu seuranta
  • 4 kultaista signaalia (poikkeamien havaitseminen)

Aihe nro 6: Järjestelmän luotettavuuden testauskäytäntö

  • Työskennellä paineen alla
  • Vika-injektio
  • Chaos Monkey

Aihe #7: Tapausten reagointikäytäntö

  • Stressinhallintaalgoritmi
  • Tapahtuman osallistujien välinen vuorovaikutus
  • Jälkipuinti
  • Tiedon jakaminen
  • Kulttuurin muotoileminen
  • Vian valvonta
  • Moitteeton selvitystyö

Aihe #8: Kuormanhallintakäytännöt

  • Kuormituksen tasapainoittaminen
  • Sovelluksen vikasietoisuus: uudelleenyritys, aikakatkaisu, vikainjektio, katkaisija
  • DDoS (kuorman luominen) + Cascading Failures

Aihe #9: Vastaus onnettomuuteen

  • jälkipuinti
  • Päivystysharjoittelu
  • Erityyppiset onnettomuudet (testaus, kokoonpanomuutokset, laitteistovika)
  • Tapahtumanhallintaprotokollat

Aihe #10: Diagnoosi ja ongelmanratkaisu

  • Kirjaaminen
  • Virheenkorjaus
  • Harjoittele sovelluksemme analysointia ja virheenkorjausta

Aihe #11: Järjestelmän luotettavuuden testaus

  • Stressitestaus
  • Kokoonpanon testaus
  • Suorituskyvyn testaus
  • Kanarian vapautus

Aihe nro 12: Itsenäinen työskentely ja arvostelu

Suositukset ja vaatimukset osallistujille

SRE on tiimityötä. Suosittelemme kurssille osallistumista tiiminä. Siksi tarjoamme suuria alennuksia valmiille joukkueille.

Kurssin hinta on 60 000 ₽ per henkilö.
Jos yritys lähettää yli 5 hengen ryhmän - 40 000 ₽.

Kurssi on rakennettu Kubernetesille. Läpäisemiseksi sinun tulee tuntea Kubernetes perustasolla. Jos et työskentele hänen kanssaan, voit käydä läpi Slurm Basic (онлайн tai intensiivinen 18.-20).
Lisäksi sinun tulee olla Linuxin taito ja tuntea Gitlab ja Prometheus.

Rekisteröidy

Jos sinulla on monimutkainen osallistumisidea, esimerkiksi toimitusjohtajan, teknologiajohtajan ja kehittäjätiimin tulevasta kurssille ja heistä johtamisalan huomioivaan harjoitteluun, kirjoita minulle henkilökohtaisella viestillä.

Lähde: will.com

Lisää kommentti