Slurm SRE. د Booking.com او Google.com متخصصینو سره بشپړه تجربه

زموږ ټیم تجربې خوښوي. هر سلرم د تیرو شیانو ثابت تکرار ندی، مګر د تجربې انعکاس او له ښه څخه غوره ته لیږد. خو سره Slurm SRE موږ پریکړه وکړه چې په بشپړ ډول نوې بڼه پلي کړو - د ګډون کوونکو شرایطو ته د "جګړې" لپاره څومره چې ممکنه وي.

که موږ په لنډه توګه هغه څه په ګوته کړو چې موږ د جدي کورس په جریان کې ترسره کړل: "موږ جوړوو، ماتوو، ترمیم کوو،
موږ زده کړه کوو." SRE یوازې په تیوري کې لږ ارزښت لري - یوازې تمرین، ریښتینې حلونه، اصلي ستونزې.

برخه اخیستونکي په ټیمونو ویشل شوي ترڅو د رقابتي قوي روحیه هیچا ته اجازه ورنکړي چې ویده شي یا په آی فون کې "ناراض مرغۍ" پیل کړي، د دمیتري اناتولیویچ مثال تعقیبوي.

د څلورو استادانو لخوا ګډونوالو ته ستونزې، نیمګړتیاوې، نیمګړتیاوې او دندې وړاندې شوې. ایوان کروګلوف، په Booking.com (نیدرلینډ) کې اصلي پراختیا کونکی. بین ټیلر، په Booking.com (USA) کې اصلي پراختیا کونکی. اډوارډ میدویدیف، د ټنګسټن لابراتوار (جرمني) CTO. Evgeniy Varavva، په ګوګل کې عمومي پراختیا کونکی (سان فرانسسکو).

سربیره پردې، ګډونوال په ټیمونو ویشل شوي او د یو بل سره سیالي کوي. په زړه پورې؟

Slurm SRE. د Booking.com او Google.com متخصصینو سره بشپړه تجربه
ایوان، بین، اډوارډ او ایوګیني د سیالي د پیل څخه دمخه د Slurm SRE ضعیف ګډون کونکو ته په مهربان لیننیسټ سپیڅلیو سره ګوري.

نو دنده:

موږ خپل یو، نوې نړۍ به جوړوو...

د فلم ټکټ راټولونکی ویب پاڼه شتون لري. پیښې د مخکیني کار سناریو کې د ښوونکي لخوا ایجاد شوي (که څه هم هیڅوک په ځانګړي ډول پیچلي او پیچلي اصلاح نه کوي) ، د سایټ فعالیت د مختلف میټریکونو لخوا تشریح شوی. ستونزې خورا متفاوت کیدی شي: د مولین روج تیاتر ټکټونه په ډیټابیس کې ندي ډک شوي؛ د فلمونو او اجرااتو پوسټرونه د 10 ثانیو څخه ډیر په ډیټابیس کې بار شوي؛ د انفرادي فلم یخولو توضیحات؛ 0,1٪ سپارښتنې لا دمخه خوندي دي؛ وخت په وخت د تادیاتو پروسس کولو سیسټم د یوې یا دوه دقیقو لپاره خرابیږي. او ډیری، ډیری، ډیری ناخوښه شیان چې کولی شي د Slurm SRE ګډون کونکي په خپل اصلي دنده کې راشي.

Slurm SRE. د Booking.com او Google.com متخصصینو سره بشپړه تجربه
موږ چمتو یو چې هرڅه سمبال کړو ... او هرڅوک.

زموږ اوږدمهاله ویب پاڼه د څو مایکرو خدماتو څخه جوړه ده. د دې دنده د ټولو سینماګانو د نندارتونونو، قیمتونو او شته څوکیو په اړه د معلوماتو راټولول دي؛ دا د فلم اعلانونه ښیي، تاسو ته اجازه درکوي چې سینما، نندارتون، هال او ځای وټاکئ، کتاب او د ټکټونو لپاره پیسې ورکړئ. په عموم کې، هرڅه چې لیدونکي یوازې خوب کولی شي. مګر کاروونکي حتی شک نه کوي چې د سایټ د ثبات او لاسرسي لپاره د ټایټانیک مبارزه دننه روانه ده.

د ژور سایټ لپاره، موږ د SLO، SLI، SLA شاخصونه تولید کړل، جوړښت او زیربنا ته وده ورکړه، سایټ ځای په ځای کړ، څارنه او خبرتیا یې جوړه کړه. او موږ ځو.

SLO، SLI، SLA

SLI - د خدماتو کچې شاخصونه. SLOs د خدماتو کچې اهداف دي. SLA - د خدماتو کچې تړونونه.

SLA د ITIL میتودولوژي اصطلاح ده چې د خدماتو پیرودونکي او د هغې عرضه کونکي ترمینځ رسمي تړون په ګوته کوي ، چې پکې د خدماتو توضیحات ، د اړخونو حقونه او مکلفیتونه شامل دي او خورا مهم د دې چمتو کولو لپاره د کیفیت منل شوې کچه. خدمت

SLO د خدماتو کچې هدف دی: د خدماتو کچې لپاره د هدف ارزښت یا د ارزښتونو لړۍ چې د SLI لخوا اندازه کیږي. د SLO لپاره نورمال ارزښت "SLI ≤ هدف" یا "لږ حد ≤ SLI ≤ لوړ حد" دی.

SLI د خدماتو د کچې شاخص دی - د چمتو شوي خدماتو د کچې یو اړخ په احتیاط سره تعریف شوی کمیتي اندازه. د ډیری خدماتو لپاره، کلیدي SLI د غوښتنې ځنډ په توګه ګڼل کیږي - څومره وخت نیسي چې غوښتنې ته ځواب بیرته راشي. په نورو عام SLIs کې د غلطۍ کچه شامله ده، ډیری وختونه د ټولو ترلاسه شویو غوښتنو د یوې برخې په توګه څرګند شوي، او د سیسټم له لارې، معمولا په هره ثانیه کې په غوښتنو کې اندازه کیږي.

لومړی به الوتکې مات کړو، بیا نجونې او بیا نجونې...

داخلي او بهرني عوامل د لومړي دقیقو څخه SLO "خراب" پیل کړل. هر څه د مدیرانو په سرونو باندې راوتلي - د پراختیا کونکي غلطۍ، د زیربنا ناکامۍ، د لیدونکو زیاتوالی، او د DDoS بریدونه. هرڅه چې SLO خرابوي.

Slurm SRE. د Booking.com او Google.com متخصصینو سره بشپړه تجربه
"- ګرانو ګډونکوونکو، زه ستاسو د خوښولو لپاره ګړندۍ یم، لومړی شی چې تاسو ناکام یاست ... هرڅه!"

د لارې په اوږدو کې، ویناوالو د ثبات، تېروتنې بودیجې، د ازموینې تمرین، د مداخلو مدیریت او عملیاتي بار خبرې وکړې.

موږ نه غالۍ لرو، نه غالۍ...

بیا ګډونوالو د شیانو د سمولو لپاره پیل وکړ - اصلي شی دا دی چې پوه شي چې لومړی څه ونیسئ.

Slurm SRE. د Booking.com او Google.com متخصصینو سره بشپړه تجربه
"- ربه، ما هیڅکله نه دی لیدلی چې دا داسې مات شي، په دې بڼه او داسې حالت کې!"

نو، یوه حادثه رامنځته شوه. د تادیاتو پروسس کولو خدمت کم دی. په لنډ ممکن وخت کې د فعالیت بیا رغولو لپاره څنګه عمل وکړو؟

Slurm SRE. د Booking.com او Google.com متخصصینو سره بشپړه تجربه
ماهرین، ګډون کوونکو ته په مینه سره ګوري، یو بل چل چمتو کوي.

هر ټیم د حادثې له مینځه وړو لپاره د ډلې کار تنظیموي - همکاران پکې شامل دي ، علاقه لرونکي اړخونه (د شریکانو) ته خبر ورکوي. په ورته وخت کې، لومړیتوبونه ټاکل کیږي. په دې توګه، برخه اخیستونکي د خورا محدود وخت شرایطو لاندې د فشار لاندې کار کولو لپاره روزل شوي.

Slurm SRE. د Booking.com او Google.com متخصصینو سره بشپړه تجربه
"څه ډول وحشت راغلی دی؟!"

تنفس وکړئ ... او تمرین پای ته ورسوئ

د ویناوالو سره یوځای، وروسته له دې چې هره ستونزه حل شوه او سایټ په لنډمهاله توګه ثبات شو، ټیم پیښې د SRE نقطه نظر څخه مطالعه کړې. موږ ستونزې په تفصیل سره تحلیل کړې - د پیښې لاملونه، د له منځه وړلو پرمختګ. له هغې وروسته، د ټیم لخوا او په ډله ایزه توګه، موږ د دوی د مخنیوي څرنګوالي په اړه پریکړې وکړې: څنګه څارنه ښه کړو، څنګه په هوښیارۍ سره جوړښت بدل کړو، د پراختیا او عملیاتو طریقه څنګه تنظیم کړو، څنګه مقررات سم کړو. ويناوالو د پوسټ مارټم ترسره کولو مشق وښوده.

Slurm SRE. د Booking.com او Google.com متخصصینو سره بشپړه تجربه
"بل څوک عذاب غواړي! - زه!"

د ټیم بریالیتوبونه په کلکه او په روښانه توګه په بریښنایی سکور بورډ کې ثبت شوي.

Slurm SRE. د Booking.com او Google.com متخصصینو سره بشپړه تجربه

د لومړي ځایونو لپاره - د برخه اخیستونکو څخه بونس.

Slurm SRE. د Booking.com او Google.com متخصصینو سره بشپړه تجربه

سرچینه: www.habr.com

Add a comment