"ተስፋ መጥፎ ስልት ነው." በሞስኮ, የካቲት 3-5 ውስጥ SRE የተጠናከረ

በሩሲያ ውስጥ በ SRE ላይ የመጀመሪያውን ተግባራዊ ኮርስ እናስታውቃለን። Slurm SRE.

በጠንካራው ጊዜ የፊልም ቲኬቶችን ለመሸጥ የአሰባሳቢ ድረ-ገጽን በመገንባት፣ በመስበር፣ በመጠገን እና በማሻሻል ለሦስት ቀናት ያህል እናሳልፋለን።

"ተስፋ መጥፎ ስልት ነው." በሞስኮ, የካቲት 3-5 ውስጥ SRE የተጠናከረ

የቲኬት ሰብሳቢን የመረጥነው ብዙ የውድቀት ሁኔታዎች ስላሉት ነው፡ የጎብኝዎች መጉረፍ እና የዲዶኤስ ጥቃቶች፣ ከብዙ ወሳኝ የማይክሮ አገልግሎት አገልግሎቶች (ፈቃድ፣ ቦታ ማስያዝ፣ የክፍያ ሂደት) አንዱ አለመሳካት፣ ከብዙ ሲኒማ ቤቶች ውስጥ አንዱ አለመገኘት (መረጃ ልውውጥ ስለ የሚገኙ መቀመጫዎች እና የተያዙ ቦታዎች) እና ከዝርዝሩ በታች።

ለአሰባሳቢ ጣቢያችን የአስተማማኝነት ፅንሰ-ሀሳብ እንቀርፃለን ፣በኢንጂነሪንግ የበለጠ የምናዳብረው ፣ ንድፉን ከ SRE እይታ አንፃር ይተነትናል ፣ መለኪያዎችን እንመርጣለን ፣ የእነሱን ቁጥጥር እናዘጋጃለን ፣ ብቅ ያሉ ሁኔታዎችን ያስወግዳል ፣ ከአደጋ ጋር የቡድን ስራ ስልጠና እንሰራለን ። ለጦርነት ቅርብ በሆኑ ሁኔታዎች ውስጥ መግለጫ ያዘጋጁ .

ፕሮግራሙ የሚካሄደው በ Booking.com እና Google ሰራተኞች ነው።
በዚህ ጊዜ የርቀት ተሳትፎ አይኖርም: ኮርሱ በግል መስተጋብር እና በቡድን ስራ ላይ የተገነባ ነው.

በቆርጡ ስር ዝርዝሮች

ተናጋሪዎች

ኢቫን ክሩሎቭ
ዋና ገንቢ በ Booking.com (ኔዘርላንድስ)
እ.ኤ.አ.
በአሁኑ ጊዜ የውስጥ ደመና እና የአገልግሎት መረብን በመገንባት ጉዳዮች ላይ በመስራት ላይ።

ቤን ታይለር
ዋና ገንቢ በ Booking.com (USA)
በ Booking.com መድረክ ውስጣዊ እድገት ላይ ተሰማርቷል።
በአገልግሎት መረብ/አገልግሎት ግኝት፣ ባች ሥራ መርሐግብር፣ የአደጋ ምላሽ እና የድህረ ሞት ሂደት ላይ ልዩ ነው።
በሩሲያኛ ይናገራል እና ያስተምራል።

Evgeniy Varavva
በጎግል (ሳን ፍራንሲስኮ) ላይ አጠቃላይ ገንቢ።
ከከፍተኛ ጭነት የድር ፕሮጀክቶች ልምድ በኮምፒውተር እይታ እና በሮቦቲክስ ላይ ምርምር ማድረግ።
ከ 2011 ጀምሮ በ Google ውስጥ የተከፋፈሉ ስርዓቶችን በመፍጠር እና በመሥራት በፕሮጀክቱ ሙሉ የሕይወት ዑደት ውስጥ በመሳተፍ: ጽንሰ-ሀሳብ, ዲዛይን እና አርክቴክቸር, ማስጀመር, ማጠፍ እና ሁሉም መካከለኛ ደረጃዎች.

Eduard Medvedev
CTO በ Tungsten Labs (ጀርመን)
በ StackStorm ውስጥ መሐንዲስ ሆኖ ሰርቷል፣ ለመድረኩ የChatOps ተግባር ኃላፊነት አለበት። ChatOps ለውሂብ ማዕከል አውቶማቲክ ገንብቶ ተተግብሯል። በሩሲያ እና በአለም አቀፍ ስብሰባዎች ላይ ተናጋሪ.

ፕሮግራሙ

ፕሮግራሙ በንቃት እየተዘጋጀ ነው። አሁን ይህን ይመስላል፣ በየካቲት ወር ሊሻሻል እና ሊሰፋ ይችላል።

ርዕስ #1፡ የSRE መሰረታዊ መርሆች እና ዘዴዎች

  • SRE ለመሆን ምን ያስፈልጋል?
  • DevOps vs SRE
  • ለምን ገንቢዎች ለ SRE ዋጋ ይሰጣሉ እና በፕሮጀክቱ ውስጥ በሌሉበት ጊዜ በጣም ያዝናሉ።
  • SLI, SLO እና SLA
  • የስህተት በጀት እና በSRE ውስጥ ያለው ሚና

ርዕስ #2፡ የተከፋፈሉ ስርዓቶች ንድፍ

  • የመተግበሪያ አርክቴክቸር እና ተግባራዊነት
  • ረቂቅ ያልሆነ ትልቅ የስርዓት ንድፍ
  • የክዋኔ / ለውድቀት ዲዛይን
  • gRPC ወይም REST
  • ስሪት ማውጣት እና ወደ ኋላ ተኳሃኝነት

ርዕስ #3፡ የSRE ፕሮጀክት እንዴት እንደሚቀበል

  • ከSRE ምርጥ ልምዶች
  • የፕሮጀክት ተቀባይነት ማረጋገጫ ዝርዝር
  • ምዝግብ ማስታወሻዎች ፣ መለኪያዎች ፣ ፍለጋ
  • CI/CD ወደ እጃችን መውሰድ

ርዕስ ቁጥር 4፡ የተከፋፈለ ስርዓት መንደፍ እና ማስጀመር

  • የተገላቢጦሽ ምህንድስና - ስርዓቱ እንዴት ነው የሚሰራው?
  • በ SLI እና SLO ተስማምተናል
  • የአቅም ማቀድን ይለማመዱ
  • የመተግበሪያውን ትራፊክ በማስጀመር ተጠቃሚዎቻችን "መጠቀም" ይጀምራሉ
  • Prometheus ፣ Grafana ፣ Elasticን በማስጀመር ላይ

ርዕስ #5፡ ክትትል፣ ታዛቢነት እና ማንቂያ

  • ክትትል vs. ታዛቢነት
  • ከPrometheus ጋር ክትትል እና ማስጠንቀቂያን ማዋቀር
  • የ SLI እና SLO ተግባራዊ ክትትል
  • ምልክቶች vs. ምክንያቶች
  • ብላክ-ቦክስ vs. ነጭ-ቦክስ ክትትል
  • የመተግበሪያ እና የአገልጋይ ተገኝነት ቁጥጥር ስርጭት
  • 4 ወርቃማ ምልክቶች (ያልተበላሹ መለየት)

ርዕስ ቁጥር 6: የሙከራ ስርዓት አስተማማኝነት ልምምድ

  • በግፊት መስራት
  • ሽንፈት - መርፌ
  • ትርምስ ዝንጀሮ

ርዕስ #7፡ የአደጋ ምላሽ ልምምድ

  • የጭንቀት አስተዳደር ስልተ ቀመር
  • በአደጋ ተሳታፊዎች መካከል መስተጋብር
  • የድህረ ሞት
  • የእውቀት መጋራት
  • ባህልን መቅረጽ
  • የስህተት ክትትል
  • እንከን የለሽ መግለጫዎችን ማካሄድ

ርዕስ #8፡ የጭነት አስተዳደር ልማዶች

  • ጭነት ማመጣጠን
  • የመተግበሪያ ስህተት መቻቻል፡ እንደገና ይሞክሩ፣ ጊዜው አልፏል፣ አለመሳካት መርፌ፣ የወረዳ ተላላፊ
  • DDoS (ጭነት በመፍጠር ላይ) + የማስመሰል አለመሳካቶች

ርዕስ #9፡ የአደጋ ምላሽ

  • ብሓቂ
  • የጥሪ ላይ ልምምድ
  • የተለያዩ የአደጋ ዓይነቶች (ሙከራ፣ የውቅረት ለውጦች፣ የሃርድዌር ውድቀት)
  • የክስተት አስተዳደር ፕሮቶኮሎች

ርዕስ #10፡ ምርመራ እና ችግር መፍታት

  • መግባት
  • ማረም
  • በእኛ መተግበሪያ ላይ ትንተና እና ማረም ይለማመዱ

ርዕስ #11፡ የስርዓት አስተማማኝነት ሙከራ

  • የጭንቀት ሙከራ
  • የማዋቀር ሙከራ
  • የአፈጻጸም ሙከራ
  • የካናሪ መለቀቅ

ርዕስ ቁጥር 12: ገለልተኛ ሥራ እና ግምገማ

ለተሳታፊዎች ምክሮች እና መስፈርቶች

SRE የቡድን ጥረት ነው። ትምህርቱን በቡድን እንዲወስዱ አጥብቀን እንመክራለን። ለዚህ ነው ለተዘጋጁ ቡድኖች ትልቅ ቅናሾችን የምናቀርበው።

የትምህርቱ ዋጋ በአንድ ሰው 60 ₽ ነው።
አንድ ኩባንያ 5+ ሰዎች ቡድን ከላከ - 40 ₽።

ኮርሱ በኩበርኔትስ ላይ የተገነባ ነው. ለማለፍ, Kubernetes በመሠረታዊ ደረጃ ማወቅ ያስፈልግዎታል. ከእሱ ጋር ካልሰራህ፣ በ Slurm Basic ((Slurm Basic) በኩል ማለፍ ትችላለህ።በመስመር ላይ ወይም የተጠናከረ ህዳር 18-20).
በተጨማሪም፣ በሊኑክስ ጎበዝ መሆን እና Gitlab እና Prometheusን ማወቅ ያስፈልግዎታል።

መመዝገብ

የተሳትፎ ውስብስብ ሀሳብ ካላችሁ፡ ለምሳሌ፡ ዋና ስራ አስፈፃሚ፡ ሲቲኦ እና የገንቢዎች ቡድን ወደ ኮርሱ እንዲመጡ እና የአስተዳደሩን አቀባዊ ግምት ውስጥ በማስገባት የስራ ልምምድ እንዲያደርጉ፡ በግል መልእክት ይጻፉልኝ።

ምንጭ: hab.com

አስተያየት ያክሉ