අපේ කණ්ඩායම අත්හදා බැලීම් වලට කැමතියි. සෑම Slurm එකක්ම පෙර පැවති ස්ථිතික පුනරාවර්තනයක් නොව, අත්දැකීම් පිළිබිඹු කිරීම සහ හොඳ සිට වඩා හොඳ දක්වා සංක්රමණය වීමකි. නමුත් සමඟ
දැඩි පාඨමාලාවේදී අප කළ දේ කෙටියෙන් දක්වන්නේ නම්: "අපි ගොඩනඟමු, අපි බිඳ දමමු, අපි අලුත්වැඩියා කරමු,
අපි පාඩම් කරනවා." හුදු න්යාය තුළ SRE වටින්නේ අල්පයකි - ප්රායෝගිකව, සැබෑ විසඳුම්, සැබෑ ගැටලු පමණි.
දිමිත්රි ඇනටෝලිවිච්ගේ ආදර්ශය අනුගමනය කරමින් දැඩි තරඟකාරී ආත්මයක් කිසිවෙකුට නිදා ගැනීමට හෝ iPhone හි "Angry Birds" දියත් කිරීමට ඉඩ නොතබන පරිදි සහභාගිවන්නන් කණ්ඩායම් වලට බෙදා ඇත.
ගැටළු, දෝෂ, දෝෂ සහ කාර්යයන් උපදේශකයින් හතර දෙනෙකු විසින් සහභාගිවන්නන්ට සපයන ලදී. Ivan Kruglov, Booking.com හි ප්රධාන සංවර්ධක (නෙදර්ලන්තය). Ben Tyler, Booking.com (USA) හි ප්රධාන සංවර්ධක Eduard Medvedev, Tungsten Labs (ජර්මනිය) හි CTO Evgeniy Varavva, Google හි සාමාන්ය සංවර්ධක (සැන් ෆ්රැන්සිස්කෝ).
එපමණක් නොව, සහභාගිවන්නන් කණ්ඩායම් වලට බෙදී එකිනෙකා සමඟ තරඟ කරති. රසවත්ද?
Ivan, Ben, Eduard සහ Evgeniy තරඟය ආරම්භ වීමට පෙර කාරුණික ලෙනින්වාදී ඇස්වලින් දුප්පත් Slurm SRE සහභාගිවන්නන් දෙස බලයි.
අපි අපේ, අපි අලුත් ලෝකයක් ගොඩනඟමු...
චිත්රපට ටිකට් එකතු කිරීමේ වෙබ් අඩවියක් ඇත. සිදුවීම් පෙර-වැඩ කරන ලද තත්වයක උපදේශකයින් විසින් සොයාගනු ලැබේ (කිසිවෙකු විශේෂයෙන් සංකීර්ණ සහ ද්රෝහී වැඩිදියුණු කිරීම් බැහැර නොකළද), වෙබ් අඩවියේ ක්රියාකාරිත්වය විවිධ ප්රමිතික මගින් විස්තර කෙරේ. ගැටළු බෙහෙවින් වෙනස් විය හැකිය: Moulin Rouge රඟහල සඳහා ටිකට්පත් දත්ත ගබඩාවට පටවනු නොලැබේ; චිත්රපට සහ ප්රසංගවල පෝස්ටර් තත්පර 10 කට වඩා වැඩි කාලයක් දත්ත ගබඩාවට පටවනු ලැබේ; තනි චිත්රපටයක් පිළිබඳ විස්තරය කැටි කිරීම; ඇණවුම් වලින් 0,1% දැනටමත් වෙන් කර ඇත; කාලයෙන් කාලයට ගෙවීම් සැකසුම් පද්ධතිය විනාඩියකට හෝ දෙකකට කඩා වැටේ. Slurm SRE සහභාගිවන්නෙකුට ඔහුගේ සැබෑ රැකියාවේදී සිදුවිය හැකි බොහෝ, බොහෝ, බොහෝ අප්රසන්න දේවල්.
අපි ඕනෑම දෙයක් හැසිරවීමට සූදානම් ... සහ සියලු දෙනා.
අපගේ දිගුකාලීන වෙබ් අඩවිය ක්ෂුද්ර සේවා කිහිපයකින් සමන්විත වේ. එහි කර්තව්යය වන්නේ සියලුම සිනමාහල්වල සංදර්ශන, මිල ගණන් සහ පවතින ආසන පිළිබඳ දත්ත එකතු කිරීමයි; එය චිත්රපට නිවේදන පෙන්වයි, ඔබට සිනමා ශාලාවක්, ප්රදර්ශනයක්, ශාලාවක් සහ ස්ථානයක් තෝරා ගැනීමට, වෙන්කරවා ගැනීමට සහ ටිකට්පත් සඳහා ගෙවීමට ඉඩ සලසයි. පොදුවේ ගත් කල, නරඹන්නාට සිහින දැකිය හැකි සෑම දෙයක්ම. නමුත් වෙබ් අඩවියේ ස්ථාවරත්වය සහ ප්රවේශ්යතාවය සඳහා ටයිටැනික් අරගලයක් ඇතුළත සිදුවන්නේ කුමක් දැයි පරිශීලකයා සැක නොකරයි.
තීව්ර අඩවිය සඳහා, අපි SLO, SLI, SLA දර්ශක ජනනය කළෙමු, ගෘහ නිර්මාණ ශිල්පය සහ යටිතල පහසුකම් සංවර්ධනය කළෙමු, වෙබ් අඩවිය යෙදවූවෙමු, නිරීක්ෂණ සහ අනතුරු ඇඟවීම් සකස් කළෙමු. ඒ වගේම අපි යනවා.
SLO, SLI, SLA
SLI - සේවා මට්ටමේ දර්ශක. SLO යනු සේවා මට්ටමේ ඉලක්ක වේ. SLA - සේවා මට්ටමේ ගිවිසුම්.
SLA යනු ITIL ක්රමවේද පදයක් වන අතර එය සේවාවක පාරිභෝගිකයා සහ එහි සැපයුම්කරු අතර විධිමත් ගිවිසුමක්, සේවාව පිළිබඳ විස්තරයක්, පාර්ශ්වයන්ගේ අයිතිවාසිකම් සහ බැඳීම් සහ, වඩාත්ම වැදගත් ලෙස, මෙය සැපයීම සඳහා එකඟ වූ තත්ත්ව මට්ටම ඇතුළත් වේ. සේවය.
SLO යනු සේවා මට්ටමේ අරමුණකි: SLI මගින් මනිනු ලබන සේවා මට්ටමක් සඳහා ඉලක්ක අගයක් හෝ අගයන් පරාසයක්. SLO සඳහා සාමාන්ය අගයක් වන්නේ “SLI ≤ ඉලක්කය” හෝ “පහළ සීමාව ≤ SLI ≤ ඉහළ සීමාව” වේ.
SLI යනු සේවා මට්ටමේ දර්ශකයකි - සපයනු ලබන සේවා මට්ටමේ එක් අංශයක ප්රවේශමෙන් නිර්වචනය කරන ලද ප්රමාණාත්මක මිනුමක්. බොහෝ සේවා සඳහා, යතුර SLI ඉල්ලීම් ප්රමාදය ලෙස සැලකේ - ඉල්ලීමකට ප්රතිචාරයක් ලබා දීමට කොපමණ කාලයක් ගතවේද. අනෙකුත් පොදු SLI වලට දෝෂ අනුපාතය ඇතුළත් වේ, බොහෝ විට ලැබෙන සියලුම ඉල්ලීම් වලින් කොටසක් ලෙස ප්රකාශ වේ, සහ පද්ධති ප්රතිදානය, සාමාන්යයෙන් තත්පරයට ඉල්ලීම් වලින් මනිනු ලැබේ.
ඔක්කොටම කලින් අපි ගුවන් යානා කඩනවා, ඊට පස්සේ කෙල්ලෝ, ඊට පස්සේ කෙල්ලෝ...
අභ්යන්තර හා බාහිර සාධක පළමු මිනිත්තුවේ සිටම SLO "නරක" කිරීමට පටන් ගත්තේය. සෑම දෙයක්ම පරිපාලකයින්ගේ හිස මතට වැටුණි - සංවර්ධක වැරදි, යටිතල පහසුකම් අසාර්ථක වීම, අමුත්තන්ගේ පැමිණීම සහ DDoS ප්රහාර. SLO නරක අතට හැරෙන සෑම දෙයක්ම.
"- හිතවත් සහභාගිවන්නන්, මම ඔබව සතුටු කිරීමට ඉක්මන් වෙමි, ඔබ අසමත් වන පළමු දෙය ... සියල්ල!"
අතරමගදී, කථිකයන් ස්ථාවරත්වය, දෝෂ අයවැය, පරීක්ෂණ පරිචය, බාධා කිරීම් කළමනාකරණය සහ මෙහෙයුම් බර පිළිබඳව සාකච්ඡා කළහ.
අපි ස්ටෝකර්ලා නෙවෙයි, වඩුවා නෙවෙයි...
එවිට සහභාගිවන්නන් දේවල් නිවැරදි කිරීමට පටන් ගත්හ - ප්රධාන දෙය නම් මුලින්ම අල්ලා ගත යුතු දේ තේරුම් ගැනීමයි.
“ස්වාමීනි, එය මේ ආකාරයෙන්, මෙම ස්වරූපයෙන් සහ එවැනි ස්ථානයක කැඩී යයි මම කිසි දිනෙක දැක නැත!”
ඉතින්, අනතුරක් සිදු විය. ගෙවීම් සැකසුම් සේවාව අක්රියයි. කෙටිම කාලය තුළ ක්රියාකාරිත්වය යථා තත්ත්වයට පත් කිරීමට ක්රියා කරන්නේ කෙසේද?
විශේෂඥයන්, සහභාගිවන්නන් දෙස ආදරයෙන් බලා, තවත් උපක්රමයක් සූදානම් කරයි.
සෑම කණ්ඩායමක්ම අනතුර තුරන් කිරීම සඳහා කණ්ඩායමේ වැඩ සංවිධානය කරයි - සගයන් සම්බන්ධ කරයි, උනන්දුවක් දක්වන පාර්ශ්වයන් (පාර්ශ්වකරුවන්ට) දැනුම් දෙයි. ඒ සමගම, ප්රමුඛතා සකස් කර ඇත. මේ ආකාරයට, සහභාගිවන්නන් අතිශය සීමිත කාල කොන්දේසි යටතේ පීඩනය යටතේ වැඩ කිරීමට පුහුණු විය.
"මොන ආකාරයේ භීෂණයක් එළියට පැමිණ තිබේද?!"
හුස්ම පිට කරන්න... ව්යායාමය අවසන් කරන්න
කථිකයන් සමඟ එක්ව, සෑම ගැටළුවක්ම විසඳා වෙබ් අඩවිය තාවකාලිකව ස්ථාවර කළ පසු, කණ්ඩායම SRE දෘෂ්ටිකෝණයකින් සිදුවීම් අධ්යයනය කළේය. අපි ගැටළු විස්තරාත්මකව විශ්ලේෂණය කළෙමු - සිදුවීමට හේතු, තුරන් කිරීමේ ප්රගතිය. ඉන් පසුව, කණ්ඩායම් වශයෙන් සහ සාමූහික වශයෙන්, අපි ඒවා තවදුරටත් වළක්වා ගන්නේ කෙසේද යන්න පිළිබඳව තීරණ ගත්තෙමු: අධීක්ෂණය වැඩි දියුණු කරන්නේ කෙසේද, ගෘහ නිර්මාණ ශිල්පය ඥානවන්තව වෙනස් කරන්නේ කෙසේද, සංවර්ධනයට සහ ක්රියාකාරිත්වයට ප්රවේශය සකස් කරන්නේ කෙසේද, රෙගුලාසි නිවැරදි කරන්නේ කෙසේද. කථිකයන් පශ්චාත් මරණ පරීක්ෂණය පැවැත්වීමේ පිළිවෙත පෙන්නුම් කළහ.
“වෙන කාටද අවශ්ය වධහිංසා! - මම!"
කණ්ඩායම්වල ජයග්රහණ විද්යුත් ලකුණු පුවරුවේ දැඩිව සහ පැහැදිලිව සටහන් විය.
පළමු ස්ථාන සඳහා - පාර්ශවකරුවන්ගෙන් ප්රසාද දීමනාවක්.
මූලාශ්රය: www.habr.com