"It-tama hija strateġija ħażina." SRE intensiv f'Moska, 3-5 Frar

Qed inħabbru l-ewwel kors prattiku dwar l-SRE fir-Russja: Slurm SRE.

Matul l-intensiva se nqattgħu tlett ijiem nibnu, inkissru, insewwu u ntejbu websajt aggregator għall-bejgħ tal-biljetti tal-films.

"It-tama hija strateġija ħażina." SRE intensiv f'Moska, 3-5 Frar

Għażilna aggregatur tal-biljetti għax għandu bosta xenarji ta’ falliment: influss ta’ viżitaturi u attakki DDoS, in-nuqqas ta’ wieħed mill-ħafna mikroservizzi kritiċi (awtorizzazzjoni, riżervi, ipproċessar ta’ pagamenti), in-nuqqas ta’ disponibbiltà ta’ waħda mill-ħafna ċinema (skambju ta’ dejta dwar postijiet disponibbli u riżervi), u aktar 'l isfel fil-lista.

Se nifformulaw il-kunċett ta 'Affidabbiltà għas-sit tal-aggregatur tagħna, li se niżviluppaw aktar fl-Inġinerija, nanalizzaw id-disinn mil-lat ta' SRE, nagħżlu metriċi, nistabbilixxu l-monitoraġġ tagħhom, neliminaw inċidenti emerġenti, inwettqu taħriġ għal xogħol f'tim b'inċidenti. f'kundizzjonijiet qrib il-ġlieda kontra, torganizza debriefing .

Il-programm huwa mmexxi minn impjegati ta’ Booking.com u Google.
Din id-darba mhux se jkun hemm parteċipazzjoni mill-bogħod: il-kors huwa mibni fuq interazzjoni personali u ħidma f’tim.

Dettalji taħt il-qatgħa

Kelliema

Ivan Kruglov
Iżviluppatur Prinċipali fuq Booking.com (l-Olanda)
Minn meta ngħaqad ma’ Booking.com fl-2013, ħadem fuq proġetti infrastrutturali bħall-kunsinna u l-ipproċessar ta’ messaġġi distribwiti, BigData u web-stack, search.
Bħalissa qed taħdem fuq kwistjonijiet ta 'bini ta' sħaba interna u Service Mesh.

Ben Tyler
Iżviluppatur Prinċipali fuq Booking.com (USA)
Involut fl-iżvilupp intern tal-pjattaforma Booking.com.
Tispeċjalizza f'malji tas-servizz / skoperta ta 'servizz, skedar ta' xogħol ta 'lott, rispons għall-inċidenti u proċess ta' wara l-mewt.
Titkellem u jgħallem bir-Russu.

Evgeniy Varavva
Żviluppatur Ġenerali fil-Google (San Francisco).
Esperjenza minn proġetti tal-web b'tagħbija għolja għal riċerka fil-viżjoni tal-kompjuter u r-robotika.
Mill-2011, huwa kien involut fil-ħolqien u t-tħaddim ta 'sistemi distribwiti fil-Google, u jipparteċipa fiċ-ċiklu tal-ħajja sħiħ tal-proġett: kunċettwali, disinn u arkitettura, tnedija, tiwi u l-istadji intermedji kollha.

Eduard Medvedev
CTO fit-Tungsten Labs (il-Ġermanja)
Ħadem bħala inġinier fi StackStorm, responsabbli għall-funzjonalità ChatOps tal-pjattaforma. ChatOps żviluppat u implimentat għall-awtomazzjoni taċ-ċentru tad-dejta. Kelliem f'konferenzi Russi u internazzjonali.

Program

Il-programm qed jiġi żviluppat b'mod attiv. Issa jidher bħal dan, sa Frar jista 'jtejjeb u jespandi.

Suġġett #1: Prinċipji bażiċi u metodi tal-SRE

  • X'hemm bżonn biex issir SRE?
  • DevOps vs SRE
  • Għaliex l-iżviluppaturi valur SRE u huma imdejjaq ħafna meta ma jkunux fil-proġett
  • SLI, SLO u SLA
  • Baġit ta' żball u r-rwol tiegħu fl-SRE

Suġġett #2: Disinn ta' sistemi distribwiti

  • Arkitettura tal-applikazzjoni u funzjonalità
  • Disinn tas-Sistema Kbira Mhux Astratta
  • Operabbiltà / Disinn għal falliment
  • gRPC jew REST
  • Verżjoni u kompatibilità b'lura

Suġġett #3: Kif jiġi aċċettat proġett SRE

  • L-aħjar prattiki minn SRE
  • Lista ta' kontroll tal-aċċettazzjoni tal-proġett
  • Logging, metriċi, traċċar
  • Nieħdu CI/CD f'idejna

Suġġett Nru 4: Disinn u tnedija ta’ sistema distribwita

  • Reverse engineering - kif taħdem is-sistema?
  • Naqblu fuq SLI u SLO
  • Ipprattika l-ippjanar tal-kapaċità
  • Meta tniedi t-traffiku għall-applikazzjoni, l-utenti tagħna jibdew "jużaw".
  • Tnedija ta' Prometheus, Grafana, Elastic

Suġġett #5: Monitoraġġ, Osservabbiltà u Twissija

  • Monitoraġġ vs. Osservabbiltà
  • Twaqqif ta 'monitoraġġ u twissija ma' Prometheus
  • Monitoraġġ prattiku ta' SLI u SLO
  • Sintomi vs. Kawżi
  • Black-Box vs. Monitoraġġ tal-Kaxxa l-Bajda
  • Monitoraġġ imqassam tal-applikazzjoni u d-disponibbiltà tas-server
  • 4 sinjali tad-deheb (skoperta ta' anomaliji)

Suġġett Nru 6: Prattika tal-affidabilità tas-sistema tal-ittestjar

  • Ħidma taħt pressjoni
  • Falliment-injezzjoni
  • Chaos Monkey

Suġġett #7: Prattika tar-rispons għall-inċidenti

  • Algoritmu tal-ġestjoni tal-istress
  • Interazzjoni bejn il-parteċipanti tal-inċident
  • Postmortem
  • Qsim tal-għarfien
  • It-tiswir tal-kultura
  • Monitoraġġ tal-ħsarat
  • Tmexxija ta' debriefing bla ħtija

Suġġett #8: Prattiċi ta' Ġestjoni tat-Tagħbija

  • Ibbilanċjar tat-tagħbija
  • Tolleranza għall-ħsarat tal-applikazzjoni: ipprova mill-ġdid, timeout, injezzjoni ta 'falliment, circuit breaker
  • DDoS (toħloq ta 'tagħbija) + Fallimenti Cascading

Suġġett #9: Rispons għall-Inċidenti

  • Debriefing
  • Prattika On-Call
  • Diversi tipi ta 'inċidenti (ittestjar, bidliet fil-konfigurazzjoni, ħsara fil-hardware)
  • Protokolli ta' ġestjoni ta' inċidenti

Suġġett #10: Dijanjosi u soluzzjoni tal-problemi

  • Logging
  • Debugging
  • Analiżi tal-prattika u debugging fuq l-applikazzjoni tagħna

Suġġett #11: Ittestjar tal-affidabbiltà tas-sistema

  • Ittestjar tal-istress
  • Ittestjar tal-konfigurazzjoni
  • Ittestjar tal-Prestazzjoni
  • Rilaxx tal-Kanarji

Suġġett Nru 12: Xogħol indipendenti u reviżjoni

Rakkomandazzjonijiet u rekwiżiti għall-parteċipanti

SRE huwa sforz ta' tim. Nirrakkomandaw bil-qawwa li tieħu l-kors bħala tim. Huwa għalhekk li noffru skontijiet kbar għal timijiet lesti.

Il-prezz tal-kors huwa 60 ₽ għal kull persuna.
Jekk kumpanija tibgħat grupp ta '5+ nies - 40 ₽.

Il-kors huwa mibni fuq Kubernetes. Biex tgħaddi, trid tkun taf lil Kubernetes f'livell bażiku. Jekk ma taħdimx miegħu, tista' tgħaddi minn Slurm Basic (онлайн jew intensiv 18-20 ta’ Novembru).
Barra minn hekk, trid tkun profiċjenti fil-Linux u tkun taf Gitlab u Prometheus.

Reġistrazzjoni

Jekk għandek idea kumplessa għall-parteċipazzjoni, pereżempju, biex is-CEO, CTO u tim ta 'żviluppaturi jiġu għall-kors, u biex jagħmlu apprendistat b'kont meħud tal-vertikali tal-ġestjoni, iktebli f'messaġġ personali.

Sors: www.habr.com

Żid kumment