"Cerība ir slikta stratēģija." SRE intensīvā Maskavā, 3.-5.februāris

Mēs izsludinām pirmo praktisko kursu par SRE Krievijā: Slurm SRE.

Intensīvās nodarbībās trīs dienas pavadīsim, veidojot, laužot, remontējot un uzlabojot agregatora mājas lapu kino biļešu tirdzniecībai.

"Cerība ir slikta stratēģija." SRE intensīvā Maskavā, 3.-5.februāris

Mēs izvēlējāmies biļešu apkopotāju, jo tam ir daudz kļūmju scenāriju: apmeklētāju pieplūdums un DDoS uzbrukumi, viena no daudzajiem kritiskajiem mikropakalpojumiem (autorizācija, rezervēšana, maksājumu apstrāde) kļūme, viena no daudzajiem kinoteātriem nepieejamība (datu apmaiņa par pieejamās vietas un rezervācijas), un tālāk sarakstā.

Mēs formulēsim mūsu apkopotāja vietnes uzticamības koncepciju, kuru turpināsim pilnveidot inženierzinātnēs, analizēsim dizainu no SRE viedokļa, atlasīsim metriku, iestatīsim to uzraudzību, novērsīsim iespējamos incidentus, veiksim apmācības komandas darbam ar incidentiem. apstākļos, kas ir tuvu kaujai, organizējiet pārrunu.

Programmu vada Booking.com un Google darbinieki.
Šoreiz nebūs attālinātas dalības: kurss ir balstīts uz personisku mijiedarbību un komandas darbu.

Sīkāka informācija zem griezuma

Skaļruņi

Ivans Kruglovs
Galvenais izstrādātājs vietnē Booking.com (Nīderlande)
Kopš pievienošanās vietnei Booking.com 2013. gadā viņš ir strādājis pie tādiem infrastruktūras projektiem kā izplatīta ziņojumu piegāde un apstrāde, BigData un tīmekļa steks, meklēšana.
Pašlaik tiek strādāts pie iekšējā mākoņa un Service Mesh izveides jautājumiem.

Bens Tailers
Galvenais izstrādātājs vietnē Booking.com (ASV)
Iesaistīts Booking.com platformas iekšējā attīstībā.
Specializējas pakalpojumu tīkla/pakalpojumu atklāšanā, pakešu darbu plānošanā, reaģēšanā uz incidentiem un pēcnāves procesā.
Runā un māca krievu valodā.

Jevgeņijs Varavva
Google vispārīgais izstrādātājs (Sanfrancisko).
Pieredze no augstas slodzes tīmekļa projektiem līdz pētījumiem datorredzes un robotikas jomā.
Kopš 2011. gada viņš ir iesaistīts Google izplatīto sistēmu izveidē un darbībā, piedaloties visā projekta dzīves ciklā: konceptualizācijā, dizainā un arhitektūrā, palaišanā, salokšanā un visos starpposmos.

Eduards Medvedevs
CTO uzņēmumā Tungsten Labs (Vācija)
Strādājis par inženieri uzņēmumā StackStorm, atbildot par platformas ChatOps funkcionalitāti. Izstrādāts un ieviests ChatOps datu centru automatizācijai. Runātājs Krievijas un starptautiskās konferencēs.

Programma

Programma tiek aktīvi izstrādāta. Tagad izskatās šādi, līdz februārim tas var uzlaboties un paplašināties.

Tēma #1: SRE pamatprincipi un metodes

  • Kas nepieciešams, lai kļūtu par SRE?
  • DevOps vs SRE
  • Kāpēc izstrādātāji novērtē SRE un ir ļoti skumji, ja viņi nav projektā
  • SLI, SLO un SLA
  • Budžeta kļūda un tā loma SRE

2. tēma: Sadalīto sistēmu projektēšana

  • Lietojumprogrammu arhitektūra un funkcionalitāte
  • Neabstrakts lielas sistēmas dizains
  • Darbība / Dizains neveiksmei
  • grRPC vai REST
  • Versionēšana un atgriezeniskā saderība

3. tēma: Kā tiek pieņemts SRE projekts

  • SRE labākā prakse
  • Projektu pieņemšanas kontrolsaraksts
  • Mežizstrāde, metrika, izsekošana
  • CI/CD pārņemšana mūsu pašu rokās

Tēma Nr. 4: Izkliedētās sistēmas projektēšana un palaišana

  • Reversā inženierija — kā sistēma darbojas?
  • Mēs vienojamies par SLI un SLO
  • Praktizējiet kapacitātes plānošanu
  • Palaižot trafiku uz lietojumprogrammu, mūsu lietotāji sāk to “lietot”.
  • Prometheus, Grafana, Elastic palaišana

5. tēma: uzraudzība, novērojamība un brīdināšana

  • Uzraudzība vs. Novērojamība
  • Uzraudzības un brīdināšanas iestatīšana ar Prometheus
  • VDI un SLO praktiskā uzraudzība
  • Simptomi vs. Cēloņi
  • Melnā kaste vs. Baltās kastes uzraudzība
  • Izkliedēta lietojumprogrammu un servera pieejamības uzraudzība
  • 4 zelta signāli (anomāliju noteikšana)

Tēma Nr.6: Sistēmas uzticamības testēšanas prakse

  • Darbs zem spiediena
  • Neveiksme-injekcija
  • Haosa mērkaķis

7. tēma: Negadījumu reaģēšanas prakse

  • Stresa vadības algoritms
  • Mijiedarbība starp incidenta dalībniekiem
  • Pēcnāves
  • Zināšanu apmaiņa
  • Kultūras veidošana
  • Bojājumu uzraudzība
  • Nevainojama pārrunu veikšana

8. tēma: Slodzes pārvaldības prakse

  • Slodzes balansēšana
  • Lietojumprogrammas kļūdu tolerance: atkārtots mēģinājums, taimauts, atteices iesmidzināšana, ķēdes pārtraucējs
  • DDoS (slodzes izveide) + kaskādes kļūmes

9. tēma: reaģēšana uz incidentiem

  • Pārskats
  • Dežūras prakse
  • Dažāda veida negadījumi (testēšana, konfigurācijas izmaiņas, aparatūras kļūme)
  • Incidentu vadības protokoli

10. tēma: Diagnostika un problēmu risināšana

  • Mežizstrāde
  • Atkļūdošana
  • Praktizējiet mūsu lietojumprogrammas analīzi un atkļūdošanu

11. tēma: Sistēmas uzticamības pārbaude

  • Stresa testēšana
  • Konfigurācijas pārbaude
  • Veiktspējas pārbaude
  • Kanāriju izlaidums

Tēma Nr.12: Patstāvīgais darbs un recenzija

Ieteikumi un prasības dalībniekiem

SRE ir komandas darbs. Mēs ļoti iesakām apgūt kursu komandā. Tāpēc jau gatavām komandām piedāvājam lielas atlaides.

Kursu cena ir 60 000 ₽ vienai personai.
Ja uzņēmums nosūta 5+ cilvēku grupu - 40 000 ₽.

Kurss ir veidots uz Kubernetes. Lai nokārtotu, jums ir jāzina Kubernetes pamatlīmenī. Ja nestrādājat ar viņu, varat izmantot Slurm Basic (Online vai intensīva 18.-20.novembris).
Turklāt jums ir jāpārzina Linux un jāzina Gitlab un Prometheus.

Reģistrēšanās

Ja jums ir sarežģīta ideja par piedalīšanos, piemēram, lai uz kursiem ierastos izpilddirektors, CTO un izstrādātāju komanda un lai viņi izietu praksi, ņemot vērā vadības vertikāli, rakstiet man personīgā ziņā.

Avots: www.habr.com

Pievieno komentāru