මුඩුක්කු SRE. Booking.com සහ Google.com වෙතින් විශේෂඥයන් සමඟ සම්පූර්ණ අත්හදා බැලීමක්

අපේ කණ්ඩායම අත්හදා බැලීම් වලට කැමතියි. සෑම Slurm එකක්ම පෙර පැවති ස්ථිතික පුනරාවර්තනයක් නොව, අත්දැකීම් පිළිබිඹු කිරීම සහ හොඳ සිට වඩා හොඳ දක්වා සංක්‍රමණය වීමකි. නමුත් සමඟ මුඩුක්කු SRE අපි සම්පූර්ණයෙන්ම නව ආකෘතියක් යෙදීමට තීරණය කළෙමු - සහභාගිවන්නන්ට "සටන් කිරීමට" හැකි තරම් සමීප කොන්දේසි ලබා දීමට.

දැඩි පාඨමාලාවේදී අප කළ දේ කෙටියෙන් දක්වන්නේ නම්: "අපි ගොඩනඟමු, අපි බිඳ දමමු, අපි අලුත්වැඩියා කරමු,
අපි පාඩම් කරනවා." හුදු න්‍යාය තුළ SRE වටින්නේ අල්පයකි - ප්‍රායෝගිකව, සැබෑ විසඳුම්, සැබෑ ගැටලු පමණි.

දිමිත්‍රි ඇනටෝලිවිච්ගේ ආදර්ශය අනුගමනය කරමින් දැඩි තරඟකාරී ආත්මයක් කිසිවෙකුට නිදා ගැනීමට හෝ iPhone හි "Angry Birds" දියත් කිරීමට ඉඩ නොතබන පරිදි සහභාගිවන්නන් කණ්ඩායම් වලට බෙදා ඇත.

ගැටළු, දෝෂ, දෝෂ සහ කාර්යයන් උපදේශකයින් හතර දෙනෙකු විසින් සහභාගිවන්නන්ට සපයන ලදී. Ivan Kruglov, Booking.com හි ප්‍රධාන සංවර්ධක (නෙදර්ලන්තය). Ben Tyler, Booking.com (USA) හි ප්‍රධාන සංවර්ධක Eduard Medvedev, Tungsten Labs (ජර්මනිය) හි CTO Evgeniy Varavva, Google හි සාමාන්‍ය සංවර්ධක (සැන් ෆ්‍රැන්සිස්කෝ).

එපමණක් නොව, සහභාගිවන්නන් කණ්ඩායම් වලට බෙදී එකිනෙකා සමඟ තරඟ කරති. රසවත්ද?

මුඩුක්කු SRE. Booking.com සහ Google.com වෙතින් විශේෂඥයන් සමඟ සම්පූර්ණ අත්හදා බැලීමක්
Ivan, Ben, Eduard සහ Evgeniy තරඟය ආරම්භ වීමට පෙර කාරුණික ලෙනින්වාදී ඇස්වලින් දුප්පත් Slurm SRE සහභාගිවන්නන් දෙස බලයි.

එබැවින් කාර්යය:

අපි අපේ, අපි අලුත් ලෝකයක් ගොඩනඟමු...

චිත්‍රපට ටිකට් එකතු කිරීමේ වෙබ් අඩවියක් ඇත. සිදුවීම් පෙර-වැඩ කරන ලද තත්වයක උපදේශකයින් විසින් සොයාගනු ලැබේ (කිසිවෙකු විශේෂයෙන් සංකීර්ණ සහ ද්‍රෝහී වැඩිදියුණු කිරීම් බැහැර නොකළද), වෙබ් අඩවියේ ක්‍රියාකාරිත්වය විවිධ ප්‍රමිතික මගින් විස්තර කෙරේ. ගැටළු බෙහෙවින් වෙනස් විය හැකිය: Moulin Rouge රඟහල සඳහා ටිකට්පත් දත්ත ගබඩාවට පටවනු නොලැබේ; චිත්‍රපට සහ ප්‍රසංගවල පෝස්ටර් තත්පර 10 කට වඩා වැඩි කාලයක් දත්ත ගබඩාවට පටවනු ලැබේ; තනි චිත්රපටයක් පිළිබඳ විස්තරය කැටි කිරීම; ඇණවුම් වලින් 0,1% දැනටමත් වෙන් කර ඇත; කාලයෙන් කාලයට ගෙවීම් සැකසුම් පද්ධතිය විනාඩියකට හෝ දෙකකට කඩා වැටේ. Slurm SRE සහභාගිවන්නෙකුට ඔහුගේ සැබෑ රැකියාවේදී සිදුවිය හැකි බොහෝ, බොහෝ, බොහෝ අප්‍රසන්න දේවල්.

මුඩුක්කු SRE. Booking.com සහ Google.com වෙතින් විශේෂඥයන් සමඟ සම්පූර්ණ අත්හදා බැලීමක්
අපි ඕනෑම දෙයක් හැසිරවීමට සූදානම් ... සහ සියලු දෙනා.

අපගේ දිගුකාලීන වෙබ් අඩවිය ක්ෂුද්‍ර සේවා කිහිපයකින් සමන්විත වේ. එහි කර්තව්‍යය වන්නේ සියලුම සිනමාහල්වල සංදර්ශන, මිල ගණන් සහ පවතින ආසන පිළිබඳ දත්ත එකතු කිරීමයි; එය චිත්‍රපට නිවේදන පෙන්වයි, ඔබට සිනමා ශාලාවක්, ප්‍රදර්ශනයක්, ශාලාවක් සහ ස්ථානයක් තෝරා ගැනීමට, වෙන්කරවා ගැනීමට සහ ටිකට්පත් සඳහා ගෙවීමට ඉඩ සලසයි. පොදුවේ ගත් කල, නරඹන්නාට සිහින දැකිය හැකි සෑම දෙයක්ම. නමුත් වෙබ් අඩවියේ ස්ථාවරත්වය සහ ප්‍රවේශ්‍යතාවය සඳහා ටයිටැනික් අරගලයක් ඇතුළත සිදුවන්නේ කුමක් දැයි පරිශීලකයා සැක නොකරයි.

තීව්‍ර අඩවිය සඳහා, අපි SLO, SLI, SLA දර්ශක ජනනය කළෙමු, ගෘහ නිර්මාණ ශිල්පය සහ යටිතල පහසුකම් සංවර්ධනය කළෙමු, වෙබ් අඩවිය යෙදවූවෙමු, නිරීක්ෂණ සහ අනතුරු ඇඟවීම් සකස් කළෙමු. ඒ වගේම අපි යනවා.

SLO, SLI, SLA

SLI - සේවා මට්ටමේ දර්ශක. SLO යනු සේවා මට්ටමේ ඉලක්ක වේ. SLA - සේවා මට්ටමේ ගිවිසුම්.

SLA යනු ITIL ක්‍රමවේද පදයක් වන අතර එය සේවාවක පාරිභෝගිකයා සහ එහි සැපයුම්කරු අතර විධිමත් ගිවිසුමක්, සේවාව පිළිබඳ විස්තරයක්, පාර්ශ්වයන්ගේ අයිතිවාසිකම් සහ බැඳීම් සහ, වඩාත්ම වැදගත් ලෙස, මෙය සැපයීම සඳහා එකඟ වූ තත්ත්ව මට්ටම ඇතුළත් වේ. සේවය.

SLO යනු සේවා මට්ටමේ අරමුණකි: SLI මගින් මනිනු ලබන සේවා මට්ටමක් සඳහා ඉලක්ක අගයක් හෝ අගයන් පරාසයක්. SLO සඳහා සාමාන්‍ය අගයක් වන්නේ “SLI ≤ ඉලක්කය” හෝ “පහළ සීමාව ≤ SLI ≤ ඉහළ සීමාව” වේ.

SLI යනු සේවා මට්ටමේ දර්ශකයකි - සපයනු ලබන සේවා මට්ටමේ එක් අංශයක ප්‍රවේශමෙන් නිර්වචනය කරන ලද ප්‍රමාණාත්මක මිනුමක්. බොහෝ සේවා සඳහා, යතුර SLI ඉල්ලීම් ප්‍රමාදය ලෙස සැලකේ - ඉල්ලීමකට ප්‍රතිචාරයක් ලබා දීමට කොපමණ කාලයක් ගතවේද. අනෙකුත් පොදු SLI වලට දෝෂ අනුපාතය ඇතුළත් වේ, බොහෝ විට ලැබෙන සියලුම ඉල්ලීම් වලින් කොටසක් ලෙස ප්‍රකාශ වේ, සහ පද්ධති ප්‍රතිදානය, සාමාන්‍යයෙන් තත්පරයට ඉල්ලීම් වලින් මනිනු ලැබේ.

ඔක්කොටම කලින් අපි ගුවන් යානා කඩනවා, ඊට පස්සේ කෙල්ලෝ, ඊට පස්සේ කෙල්ලෝ...

අභ්‍යන්තර හා බාහිර සාධක පළමු මිනිත්තුවේ සිටම SLO "නරක" කිරීමට පටන් ගත්තේය. සෑම දෙයක්ම පරිපාලකයින්ගේ හිස මතට වැටුණි - සංවර්ධක වැරදි, යටිතල පහසුකම් අසාර්ථක වීම, අමුත්තන්ගේ පැමිණීම සහ DDoS ප්‍රහාර. SLO නරක අතට හැරෙන සෑම දෙයක්ම.

මුඩුක්කු SRE. Booking.com සහ Google.com වෙතින් විශේෂඥයන් සමඟ සම්පූර්ණ අත්හදා බැලීමක්
"- හිතවත් සහභාගිවන්නන්, මම ඔබව සතුටු කිරීමට ඉක්මන් වෙමි, ඔබ අසමත් වන පළමු දෙය ... සියල්ල!"

අතරමගදී, කථිකයන් ස්ථාවරත්වය, දෝෂ අයවැය, පරීක්ෂණ පරිචය, බාධා කිරීම් කළමනාකරණය සහ මෙහෙයුම් බර පිළිබඳව සාකච්ඡා කළහ.

අපි ස්ටෝකර්ලා නෙවෙයි, වඩුවා නෙවෙයි...

එවිට සහභාගිවන්නන් දේවල් නිවැරදි කිරීමට පටන් ගත්හ - ප්රධාන දෙය නම් මුලින්ම අල්ලා ගත යුතු දේ තේරුම් ගැනීමයි.

මුඩුක්කු SRE. Booking.com සහ Google.com වෙතින් විශේෂඥයන් සමඟ සම්පූර්ණ අත්හදා බැලීමක්
“ස්වාමීනි, එය මේ ආකාරයෙන්, මෙම ස්වරූපයෙන් සහ එවැනි ස්ථානයක කැඩී යයි මම කිසි දිනෙක දැක නැත!”

ඉතින්, අනතුරක් සිදු විය. ගෙවීම් සැකසුම් සේවාව අක්‍රියයි. කෙටිම කාලය තුළ ක්රියාකාරිත්වය යථා තත්ත්වයට පත් කිරීමට ක්රියා කරන්නේ කෙසේද?

මුඩුක්කු SRE. Booking.com සහ Google.com වෙතින් විශේෂඥයන් සමඟ සම්පූර්ණ අත්හදා බැලීමක්
විශේෂඥයන්, සහභාගිවන්නන් දෙස ආදරයෙන් බලා, තවත් උපක්රමයක් සූදානම් කරයි.

සෑම කණ්ඩායමක්ම අනතුර තුරන් කිරීම සඳහා කණ්ඩායමේ වැඩ සංවිධානය කරයි - සගයන් සම්බන්ධ කරයි, උනන්දුවක් දක්වන පාර්ශ්වයන් (පාර්ශ්වකරුවන්ට) දැනුම් දෙයි. ඒ සමගම, ප්රමුඛතා සකස් කර ඇත. මේ ආකාරයට, සහභාගිවන්නන් අතිශය සීමිත කාල කොන්දේසි යටතේ පීඩනය යටතේ වැඩ කිරීමට පුහුණු විය.

මුඩුක්කු SRE. Booking.com සහ Google.com වෙතින් විශේෂඥයන් සමඟ සම්පූර්ණ අත්හදා බැලීමක්
"මොන ආකාරයේ භීෂණයක් එළියට පැමිණ තිබේද?!"

හුස්ම පිට කරන්න... ව්‍යායාමය අවසන් කරන්න

කථිකයන් සමඟ එක්ව, සෑම ගැටළුවක්ම විසඳා වෙබ් අඩවිය තාවකාලිකව ස්ථාවර කළ පසු, කණ්ඩායම SRE දෘෂ්ටිකෝණයකින් සිදුවීම් අධ්‍යයනය කළේය. අපි ගැටළු විස්තරාත්මකව විශ්ලේෂණය කළෙමු - සිදුවීමට හේතු, තුරන් කිරීමේ ප්‍රගතිය. ඉන් පසුව, කණ්ඩායම් වශයෙන් සහ සාමූහික වශයෙන්, අපි ඒවා තවදුරටත් වළක්වා ගන්නේ කෙසේද යන්න පිළිබඳව තීරණ ගත්තෙමු: අධීක්ෂණය වැඩි දියුණු කරන්නේ කෙසේද, ගෘහ නිර්මාණ ශිල්පය ඥානවන්තව වෙනස් කරන්නේ කෙසේද, සංවර්ධනයට සහ ක්‍රියාකාරිත්වයට ප්‍රවේශය සකස් කරන්නේ කෙසේද, රෙගුලාසි නිවැරදි කරන්නේ කෙසේද. කථිකයන් පශ්චාත් මරණ පරීක්ෂණය පැවැත්වීමේ පිළිවෙත පෙන්නුම් කළහ.

මුඩුක්කු SRE. Booking.com සහ Google.com වෙතින් විශේෂඥයන් සමඟ සම්පූර්ණ අත්හදා බැලීමක්
“වෙන කාටද අවශ්‍ය වධහිංසා! - මම!"

කණ්ඩායම්වල ජයග්‍රහණ විද්‍යුත් ලකුණු පුවරුවේ දැඩිව සහ පැහැදිලිව සටහන් විය.

මුඩුක්කු SRE. Booking.com සහ Google.com වෙතින් විශේෂඥයන් සමඟ සම්පූර්ණ අත්හදා බැලීමක්

පළමු ස්ථාන සඳහා - පාර්ශවකරුවන්ගෙන් ප්රසාද දීමනාවක්.

මුඩුක්කු SRE. Booking.com සහ Google.com වෙතින් විශේෂඥයන් සමඟ සම්පූර්ණ අත්හදා බැලීමක්

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න