"Matumaini ni mkakati mbaya." SRE kubwa huko Moscow, Februari 3-5

Tunatangaza kozi ya kwanza ya vitendo juu ya SRE nchini Urusi: Slurm SRE.

Wakati wa kazi kubwa tutatumia siku tatu kujenga, kuvunja, kukarabati na kuboresha tovuti ya kikokoteni kwa ajili ya kuuza tikiti za filamu.

"Matumaini ni mkakati mbaya." SRE kubwa huko Moscow, Februari 3-5

Tulichagua kijumlishi cha tikiti kwa sababu kina matukio mengi ya kushindwa: kuongezeka kwa wageni na mashambulizi ya DDoS, kutofaulu kwa mojawapo ya huduma ndogo ndogo (uidhinishaji, uhifadhi, usindikaji wa malipo), kutopatikana kwa mojawapo ya sinema nyingi (kubadilishana data kuhusu. viti vinavyopatikana na uhifadhi), na chini zaidi kwenye orodha.

Tutaunda dhana ya Kuegemea kwa tovuti yetu ya aggregator, ambayo tutaendeleza zaidi katika Uhandisi, kuchambua muundo kutoka kwa mtazamo wa SRE, kuchagua metrics, kuweka ufuatiliaji wao, kuondoa matukio yanayojitokeza, kufanya mafunzo kwa kazi ya timu na matukio. katika hali karibu na mapigano, panga mazungumzo.

Mpango huu unaendeshwa na wafanyakazi wa Booking.com na Google.
Wakati huu hakutakuwa na ushiriki wa mbali: kozi imejengwa juu ya mwingiliano wa kibinafsi na kazi ya pamoja.

Maelezo chini ya kukata

Wazungumzaji

Ivan Kruglov
Msanidi Mkuu katika Booking.com (Uholanzi)
Tangu ajiunge na Booking.com mwaka wa 2013, amefanya kazi katika miradi ya miundombinu kama vile usambazaji wa ujumbe na usindikaji, BigData na mtandao-stack, utafutaji.
Hivi sasa inafanya kazi katika maswala ya kuunda wingu la ndani na Mesh ya Huduma.

Ben Tyler
Msanidi Mkuu katika Booking.com (USA)
Inashiriki katika ukuzaji wa ndani wa jukwaa la Booking.com.
Mtaalamu wa matundu ya huduma / ugunduzi wa huduma, upangaji wa kazi ya kundi, majibu ya tukio na mchakato wa postmortem.
Anazungumza na kufundisha kwa Kirusi.

Evgeniy Varavva
Msanidi Mkuu katika Google (San Francisco).
Uzoefu kutoka kwa miradi ya wavuti yenye mzigo mkubwa hadi utafiti katika maono ya kompyuta na robotiki.
Tangu 2011, amekuwa akihusika katika uundaji na uendeshaji wa mifumo iliyosambazwa huko Google, akishiriki katika mzunguko kamili wa maisha ya mradi: dhana, muundo na usanifu, uzinduzi, kukunja na hatua zote za kati.

Eduard Medvedev
CTO katika Tungsten Labs (Germany)
Alifanya kazi kama mhandisi katika StackStorm, akiwajibika kwa utendaji wa ChatOps wa jukwaa. ChatOps iliyotengenezwa na kutekelezwa kwa uwekaji otomatiki wa kituo cha data. Spika katika mikutano ya Urusi na kimataifa.

Programu ya

Mpango huo unaendelezwa kikamilifu. Sasa inaonekana hivi, ifikapo Februari inaweza kuboreka na kupanuka.

Mada #1: Kanuni za msingi na mbinu za SRE

  • Inachukua nini ili kuwa SRE?
  • DevOps dhidi ya SRE
  • Kwa nini watengenezaji wanathamini SRE na wana huzuni sana wakati hawako kwenye mradi
  • SLI, SLO na SLA
  • Bajeti ya hitilafu na jukumu lake katika SRE

Mada #2: Muundo wa mifumo iliyosambazwa

  • Usanifu wa maombi na utendaji
  • Muundo Mkubwa wa Mfumo usio wa Kikemikali
  • Uendeshaji / Ubunifu kwa kutofaulu
  • gRPC au REST
  • Utayarishaji na utangamano wa nyuma

Mada #3: Jinsi mradi wa SRE unakubaliwa

  • Mbinu bora kutoka kwa SRE
  • Orodha ya kukubalika kwa mradi
  • Ukataji miti, vipimo, ufuatiliaji
  • Kuchukua CI/CD kwa mikono yetu wenyewe

Mada Na. 4: Kubuni na uzinduzi wa mfumo uliosambazwa

  • Reverse engineering - mfumo unafanya kazi vipi?
  • Tunakubali SLI na SLO
  • Fanya mazoezi ya kupanga uwezo
  • Kuzindua trafiki kwa programu, watumiaji wetu wanaanza "kuitumia".
  • Inazindua Prometheus, Grafana, Elastic

Mada #5: Ufuatiliaji, Kuonekana na Kutahadharisha

  • Ufuatiliaji dhidi ya Kuzingatiwa
  • Kuweka ufuatiliaji na arifa na Prometheus
  • Ufuatiliaji wa vitendo wa SLI na SLO
  • Dalili dhidi ya Sababu
  • Black-Box vs. Ufuatiliaji wa Sanduku Nyeupe
  • Ufuatiliaji uliosambazwa wa programu na upatikanaji wa seva
  • Ishara 4 za dhahabu (ugunduzi usio wa kawaida)

Mada Na. 6: Mazoezi ya kupima uaminifu wa mfumo

  • Kufanya kazi chini ya shinikizo
  • Kushindwa-sindano
  • Machafuko Tumbili

Mada #7: Mazoezi ya kukabiliana na tukio

  • Algorithm ya kudhibiti mafadhaiko
  • Mwingiliano kati ya washiriki wa tukio
  • Postmortem
  • Kushiriki maarifa
  • Kuunda utamaduni
  • Ufuatiliaji wa makosa
  • Kufanya mijadala isiyo na hatia

Mada #8: Mbinu za Kusimamia Mzigo

  • Kusawazisha mzigo
  • Uvumilivu wa kosa la programu: jaribu tena, umeisha, sindano ya kutofaulu, kivunja mzunguko
  • DDoS (inaunda mzigo) + Kushindwa kwa Kupunguza

Mada #9: Jibu la Tukio

  • Debriefing
  • Mazoezi ya Kupiga Simu
  • Aina anuwai za ajali (majaribio, mabadiliko ya usanidi, kushindwa kwa vifaa)
  • Itifaki za usimamizi wa matukio

Mada #10: Utambuzi na utatuzi wa matatizo

  • Kuweka magogo
  • Utatuzi
  • Fanya mazoezi ya uchanganuzi na utatuzi kwenye programu yetu

Mada #11: Jaribio la kutegemewa kwa mfumo

  • Mtihani wa Stress
  • Mtihani wa usanidi
  • Upimaji wa Utendaji
  • Kutolewa kwa Canary

Mada ya 12: Kazi ya kujitegemea na mapitio

Mapendekezo na mahitaji kwa washiriki

SRE ni juhudi za timu. Tunapendekeza sana kuchukua kozi kama timu. Ndio maana tunatoa punguzo kubwa kwa timu zilizotengenezwa tayari.

Bei ya kozi ni 60 β‚½ kwa kila mtu.
Ikiwa kampuni itatuma kikundi cha watu 5+ - 40 β‚½.

Kozi hiyo imejengwa kwenye Kubernetes. Ili kupita, unahitaji kujua Kubernetes katika kiwango cha msingi. Ikiwa hufanyi kazi naye, unaweza kupitia Slurm Basic (Online au kali Novemba 18-20).
Kwa kuongeza, unahitaji kuwa na ujuzi katika Linux na kujua Gitlab na Prometheus.

Usajili

Ikiwa una wazo tata la ushiriki, kwa mfano, kwa Mkurugenzi Mtendaji, CTO na timu ya watengenezaji kuja kwenye kozi, na kwao kupitia mafunzo ya kazi kwa kuzingatia usimamizi wima, niandikie kwa ujumbe wa kibinafsi.

Chanzo: mapenzi.com

Kuongeza maoni