"බලාපොරොත්තුව නරක උපාය මාර්ගයකි." මොස්කව්හි SRE දැඩි, පෙබරවාරි 3-5

අපි රුසියාවේ SRE පිළිබඳ පළමු ප්‍රායෝගික පාඨමාලාව නිවේදනය කරන්නෙමු: මුඩුක්කු SRE.

දැඩි ක්‍රියාවලියේදී අපි චිත්‍රපට ප්‍රවේශපත්‍ර විකිණීම සඳහා එකතු කිරීමේ වෙබ් අඩවියක් ගොඩනැගීම, කැඩීම, අලුත්වැඩියා කිරීම සහ වැඩිදියුණු කිරීම සඳහා දින තුනක් ගත කරන්නෙමු.

"බලාපොරොත්තුව නරක උපාය මාර්ගයකි." මොස්කව්හි SRE දැඩි, පෙබරවාරි 3-5

අපි ප්‍රවේශපත්‍ර එකතු කරන්නෙකු තෝරා ගත්තේ එයට බොහෝ අසාර්ථක අවස්ථා ඇති බැවිනි: අමුත්තන් ගලා ඒම සහ DDoS ප්‍රහාර, බොහෝ තීරණාත්මක ක්ෂුද්‍ර සේවා වලින් එකක අසාර්ථකත්වය (බලය ලබා දීම, වෙන් කිරීම්, ගෙවීම් සැකසීම), බොහෝ සිනමාහල් වලින් එකක් නොතිබීම (දත්ත හුවමාරුව ගැන ලබා ගත හැකි ආසන සහ වෙන් කිරීම්), සහ ලැයිස්තුවේ තවත් පහළට.

අපි අපගේ එකතු කිරීමේ වෙබ් අඩවිය සඳහා විශ්වසනීයත්වය පිළිබඳ සංකල්පය සකසන්නෙමු, එය ඉංජිනේරු විද්‍යාවේදී අපි තවදුරටත් සංවර්ධනය කරන්නෙමු, SRE දෘෂ්ටි කෝණයෙන් සැලසුම විශ්ලේෂණය කරන්නෙමු, ප්‍රමිතික තෝරා ගනිමු, ඒවායේ අධීක්ෂණය සකස් කරන්නෙමු, නැගී එන සිදුවීම් ඉවත් කරන්නෙමු, සිදුවීම් සමඟ කණ්ඩායම් වැඩ සඳහා පුහුණුවීම් කරන්නෙමු. සටන් කිරීමට ආසන්න තත්වයන් තුළ, විවාදයක් සංවිධානය කරන්න.

මෙම වැඩසටහන Booking.com සහ Google හි සේවකයින් විසින් මෙහෙයවනු ලැබේ.
මෙවර දුරස්ථ සහභාගීත්වයක් නොමැත: පාඨමාලාව ගොඩනගා ඇත්තේ පුද්ගලික අන්තර්ක්‍රියා සහ කණ්ඩායම් වැඩ මත ය.

කප්පාදුව යටතේ විස්තර

කථිකයන්

අයිවන් කෘග්ලොව්
Booking.com හි ප්‍රධාන සංවර්ධක (නෙදර්ලන්තය)
2013 හි Booking.com හා සම්බන්ධ වූ දා සිට, ඔහු බෙදා හරින ලද පණිවිඩ බෙදා හැරීම සහ සැකසීම, BigData සහ web-stack, search වැනි යටිතල පහසුකම් ව්‍යාපෘතිවල වැඩ කර ඇත.
දැනට අභ්‍යන්තර වලාකුළක් සහ සේවා දැලක් ගොඩනැගීමේ ගැටළු පිළිබඳව වැඩ කරමින් සිටී.

බෙන් ටයිලර්
Booking.com (USA) හි ප්‍රධාන සංවර්ධක
Booking.com වේදිකාවේ අභ්‍යන්තර සංවර්ධනයේ යෙදී සිටී.
සේවා දැල්/සේවා සොයාගැනීම්, කණ්ඩායම් රැකියා කාලසටහන්ගත කිරීම, සිද්ධි ප්‍රතිචාරය සහ පශ්චාත් මරණ පරීක්ෂණ ක්‍රියාවලිය පිළිබඳව විශේෂත්වයක් දක්වයි.
රුසියානු භාෂාවෙන් කතා කරයි සහ උගන්වයි.

Evgeniy Varavva
Google හි සාමාන්‍ය සංවර්ධක (සැන් ෆ්‍රැන්සිස්කෝ).
අධි බර වෙබ් ව්‍යාපෘතිවල සිට පරිගණක දැක්ම සහ රොබෝ තාක්ෂණය පිළිබඳ පර්යේෂණ දක්වා පළපුරුද්ද.
2011 සිට, ඔහු ගූගල් හි බෙදා හරින ලද පද්ධති නිර්මාණය කිරීම සහ ක්‍රියාත්මක කිරීම සඳහා සම්බන්ධ වී ඇති අතර, ව්‍යාපෘතියේ සම්පූර්ණ ජීවන චක්‍රයට සහභාගී වේ: සංකල්පීකරණය, සැලසුම් කිරීම සහ ගෘහ නිර්මාණ ශිල්පය, දියත් කිරීම, නැමීම සහ සියලුම අතරමැදි අදියර.

එඩ්වඩ් මෙඩ්විඩෙව්
Tungsten Labs (ජර්මනිය) හි CTO
වේදිකාවේ ChatOps ක්‍රියාකාරීත්වය සඳහා වගකිව යුතු StackStorm හි ඉංජිනේරුවෙකු ලෙස සේවය කළේය. දත්ත මධ්‍යස්ථාන ස්වයංක්‍රීයකරණය සඳහා ChatOps සංවර්ධනය කර ක්‍රියාත්මක කර ඇත. රුසියානු සහ ජාත්‍යන්තර සම්මන්ත්‍රණවල කථිකයා.

වැඩසටහන

වැඩසටහන ක්රියාකාරීව සංවර්ධනය වෙමින් පවතී. දැන් පෙනෙන්නේ මෙයයි, පෙබරවාරි වන විට එය වැඩිදියුණු වී පුළුල් විය හැකිය.

මාතෘකාව #1: SRE හි මූලික මූලධර්ම සහ ක්‍රම

  • SRE බවට පත්වීමට ගත යුත්තේ කුමක්ද?
  • DevOps එදිරිව SRE
  • සංවර්ධකයින් SRE අගය කරන්නේ ඇයි සහ ඔවුන් ව්‍යාපෘතියේ නොමැති විට ඉතා කණගාටුයි
  • SLI, SLO සහ SLA
  • දෝෂ අයවැය සහ SRE හි එහි භූමිකාව

මාතෘකාව #2: බෙදා හරින ලද පද්ධති සැලසුම් කිරීම

  • යෙදුම් ගෘහ නිර්මාණ ශිල්පය සහ ක්‍රියාකාරීත්වය
  • වියුක්ත නොවන විශාල පද්ධති නිර්මාණය
  • ක්‍රියාකාරීත්වය / අසාර්ථකත්වය සඳහා නිර්මාණය
  • gRPC හෝ REST
  • අනුවාදනය සහ පසුගාමී අනුකූලතාව

මාතෘකාව #3: SRE ව්‍යාපෘතියක් පිළිගන්නා ආකාරය

  • SRE වෙතින් හොඳම භාවිතයන්
  • ව්යාපෘති පිළිගැනීමේ පිරික්සුම් ලැයිස්තුව
  • ලොග් කිරීම, මිනුම්, ලුහුබැඳීම
  • CI/CD අපේම අතට ගැනීම

මාතෘකාව අංක 4: බෙදා හරින ලද පද්ධතියක් සැලසුම් කිරීම සහ දියත් කිරීම

  • ප්‍රතිලෝම ඉංජිනේරු - පද්ධතිය ක්‍රියා කරන්නේ කෙසේද?
  • අපි SLI සහ SLO ගැන එකඟ වෙමු
  • ධාරිතාව සැලසුම් කිරීම පුහුණු වන්න
  • යෙදුම වෙත ගමනාගමනය දියත් කිරීම, අපගේ පරිශීලකයින් එය "භාවිතා කිරීමට" පටන් ගනී
  • Prometheus, Grafana, Elastic දියත් කිරීම

මාතෘකාව #5: නිරීක්ෂණය, නිරීක්ෂණ හැකියාව සහ අනතුරු ඇඟවීම

  • අධීක්ෂණ එදිරිව. නිරීක්ෂණ හැකියාව
  • Prometheus සමඟ නිරීක්ෂණ සහ අනතුරු ඇඟවීම් සැකසීම
  • SLI සහ SLO ප්‍රායෝගිකව අධීක්ෂණය කිරීම
  • රෝග ලක්ෂණ එදිරිව. හේතු
  • කළු පෙට්ටිය එදිරිව. සුදු පෙට්ටිය අධීක්ෂණය
  • යෙදුම සහ සේවාදායක ලබා ගැනීමේ බෙදාහැරීම අධීක්ෂණය
  • රන් සංඥා 4 (විෂමතා හඳුනාගැනීම)

මාතෘකාව අංක 6: පද්ධති විශ්වසනීයත්වය පරීක්ෂා කිරීමේ පරිචය

  • පීඩනය යටතේ වැඩ කිරීම
  • අසාර්ථක-එන්නත් කිරීම
  • අවුල් වඳුරා

මාතෘකාව #7: සිද්ධි ප්‍රතිචාර භාවිතය

  • ආතති කළමනාකරණ ඇල්ගොරිතම
  • සිදුවීම් සහභාගිවන්නන් අතර අන්තර්ක්‍රියා
  • පශ්චාත් මරණ පරීක්ෂණය
  • දැනුම හුවමාරු
  • සංස්කෘතිය හැඩගැස්වීම
  • දෝෂ නිරීක්ෂණය
  • නිර්දෝෂී සංවාද පැවැත්වීම

මාතෘකාව #8: පැටවුම් කළමනාකරණ පිළිවෙත්

  • පැටවීම තුලනය
  • යෙදුම් දෝෂ ඉවසීම: නැවත උත්සාහ කිරීම, කල් ඉකුත්වීම, අසාර්ථක එන්නත් කිරීම, පරිපථ කඩනය
  • DDoS (භාරය නිර්මාණය කිරීම) + කැස්කැඩින් අසමත්වීම්

මාතෘකාව #9: සිද්ධි ප්‍රතිචාරය

  • සංක්ෂිප්ත කිරීම
  • ඇමතුම් පුහුණුව
  • විවිධ ආකාරයේ අනතුරු (පරීක්ෂණ, වින්‍යාස වෙනස්කම්, දෘඪාංග අසාර්ථක වීම)
  • සිද්ධි කළමනාකරණ ප්‍රොටෝකෝල

මාතෘකාව #10: රෝග විනිශ්චය සහ ගැටළු විසඳීම

  • ලොග් කිරීම
  • නිදොස්කරණය
  • අපගේ යෙදුමේ විශ්ලේෂණය සහ නිදොස්කරණය පුහුණු කරන්න

මාතෘකාව #11: පද්ධති විශ්වසනීයත්වය පරීක්ෂා කිරීම

  • ආතතිය පරීක්ෂා කිරීම
  • වින්යාස පරීක්ෂාව
  • කාර්ය සාධන පරීක්ෂාව
  • කැනරි නිකුතුව

මාතෘකාව අංක 12: ස්වාධීන වැඩ සහ සමාලෝචනය

සහභාගිවන්නන් සඳහා නිර්දේශ සහ අවශ්යතා

SRE යනු කණ්ඩායම් උත්සාහයකි. කණ්ඩායමක් ලෙස පාඨමාලාව හැදෑරීමට අපි තරයේ නිර්දේශ කරමු. අපි සූදානම් කණ්ඩායම් සඳහා විශාල වට්ටම් ලබා දෙන්නේ එබැවිනි.

පාඨමාලාවේ මිල එක් පුද්ගලයෙකුට 60 ₽ වේ.
සමාගමක් 5+ දෙනෙකුගෙන් යුත් කණ්ඩායමක් යවන්නේ නම් - 40 ₽.

පාඨමාලාව Kubernetes මත ගොඩනගා ඇත. සමත් වීමට, ඔබ මූලික මට්ටමින් Kubernetes දැන සිටිය යුතුය. ඔබ ඔහු සමඟ වැඩ නොකරන්නේ නම්, ඔබට Slurm Basic හරහා යා හැකිය (අන්තර්ජාලය හෝ දැඩි නොවැම්බර් 18-20).
ඊට අමතරව, ඔබ ලිනක්ස් පිළිබඳ ප්‍රවීණයෙකු විය යුතු අතර Gitlab සහ Prometheus දැන සිටිය යුතුය.

ලියාපදිංචි

ඔබට සහභාගී වීම සඳහා සංකීර්ණ අදහසක් තිබේ නම්, උදාහරණයක් ලෙස, ප්‍රධාන විධායක නිලධාරී, CTO සහ සංවර්ධකයින් කණ්ඩායමක් පාඨමාලාවට පැමිණීමට සහ ඔවුන් කළමනාකාරීත්වය සිරස් අතට ගනිමින් සීමාවාසික පුහුණුවක් ලබා ගැනීමට, පුද්ගලික පණිවිඩයකින් මට ලියන්න.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න