Slurm SRE. Booking.com ۽ Google.com جي ماهرن سان هڪ مڪمل تجربو

اسان جي ٽيم تجربن سان پيار ڪري ٿي. هر سلورم پوئين دور جي جامد ورجائي نه آهي، پر تجربي تي هڪ عڪاسي ۽ سٺي کان بهتر ڏانهن منتقلي. پر سان Slurm SRE اسان هڪ مڪمل طور تي نئين فارميٽ لاڳو ڪرڻ جو فيصلو ڪيو - شرڪت ڪندڙن کي "جنگ" جي ممڪن حد تائين بند ڪرڻ لاء.

جيڪڏهن اسان مختصر طور تي بيان ڪريون ٿا ته ڇا اسان سخت ڪورس دوران ڪيو: ”اسين ٺاهيندا آهيون، ڀڃندا آهيون، مرمت ڪندا آهيون،
اسان پڙهي رهيا آهيون." SRE صرف نظريي ۾ ٿورو قيمتي آهي - صرف مشق، حقيقي حل، حقيقي مسئلا.

شرڪت ڪندڙن کي ٽيمن ۾ ورهايو ويو ته جيئن مضبوط مقابلي جو جذبو ڪنهن کي ننڊ ڪرڻ يا آئي فون تي "ناراض پکين" کي لانچ ڪرڻ جي اجازت نه ڏيندو، دمتري اناتوليويچ جي مثال تي عمل ڪندي.

شرڪت ڪندڙن کي چار استادن طرفان مسئلا، گليچ، بگ ۽ ڪم مهيا ڪيا ويا. Ivan Kruglov، پرنسپل ڊولپر Booking.com (هالينڊ). Ben Tyler، Booking.com (USA) تي پرنسپل ڊولپر. Eduard Medvedev، CTO ٽنگسٽن ليبز (جرمني). Evgeniy Varavva، گوگل تي جنرل ڊولپر (سان فرانسسڪو).

ان کان علاوه، شرڪت ڪندڙ ٽيمن ۾ ورهايل آھن ۽ ھڪ ٻئي سان مقابلو ڪندا آھن. دلچسپ؟

Slurm SRE. Booking.com ۽ Google.com جي ماهرن سان هڪ مڪمل تجربو
Ivan, Ben, Eduard ۽ Evgeniy مقابلي جي شروعات کان اڳ غريب Slurm SRE شرڪت ڪندڙن کي ليننسٽ اسڪوئنٽس سان ڏسندا آھن.

پوء ڪم:

اسان پنهنجا آهيون، نئين دنيا ٺاهينداسين...

اتي هڪ فلم ٽڪيٽ جمع ڪندڙ ويب سائيٽ آهي. حادثا اڳواٽ ڪم ٿيل منظرنامي ۾ استادن پاران ايجاد ڪيا ويا آهن (جيتوڻيڪ ڪو به خاص طور تي نفيس ۽ بيچيني اصلاح کي خارج نٿو ڪري)، سائيٽ جي ڪارڪردگي مختلف ميٽرڪ ذريعي بيان ڪئي وئي آهي. مسئلا تمام مختلف ٿي سگهن ٿا: Moulin Rouge ٿيٽر لاء ٽڪيٽون ڊيٽابيس ۾ لوڊ نه آهن؛ فلمن ۽ پرفارمنس جا پوسٽر 10 سيڪنڊن کان وڌيڪ ڊيٽابيس ۾ لوڊ ڪيا ويا آهن؛ هڪ انفرادي فلم جي وضاحت منجمد؛ 0,1٪ آرڊر اڳ ۾ ئي محفوظ آهن؛ وقت بوقت ادائگي جي پروسيسنگ سسٽم کي هڪ يا ٻه منٽ لاء حادثو. ۽ ڪيتريون ئي، ڪيتريون ئي ناپسنديده شيون جيڪي Slurm SRE شرڪت ڪندڙ کي سندس حقيقي نوڪري ۾ اچي سگھن ٿيون.

Slurm SRE. Booking.com ۽ Google.com جي ماهرن سان هڪ مڪمل تجربو
اسان هر ڪنهن کي هٿ ڪرڻ لاء تيار آهيون ... ۽ هرڪو.

اسان جي ڊگهي تڪليف واري ويب سائيٽ ڪيترن ئي مائڪرو سروسز تي مشتمل آهي. ان جو ڪم سڀني سئنيما مان شوز، قيمتن ۽ دستياب سيٽن تي ڊيٽا گڏ ڪرڻ آهي؛ اهو فلمن جا اعلان ڏيکاري ٿو، توهان کي سئنيما، شو، هال ۽ جڳهه چونڊڻ، بک ڪرڻ ۽ ٽڪيٽن جي ادائيگي ڪرڻ جي اجازت ڏئي ٿو. عام طور تي، هر شيء جيڪا ناظرین صرف خواب ڏسي سگهي ٿي. پر صارف کي اهو به شڪ ناهي ته سائيٽ جي استحڪام ۽ رسائي لاءِ ڪهڙي ٽائيٽينڪ جدوجهد اندر هلي رهي آهي.

گھڻائي واري سائيٽ لاءِ، اسان SLO، SLI، SLA اشارا ٺاھيا، ترقي يافته فن تعمير ۽ انفراسٽرڪچر، سائيٽ کي ترتيب ڏنو، مانيٽرنگ ۽ خبرداري قائم ڪئي. ۽ اسان پري وڃون ٿا.

SLO، SLI، SLA

SLI - خدمت جي سطح جا اشارا. SLOs خدمت جي سطح جا مقصد آھن. SLA - خدمت جي سطح جا معاهدا.

SLA هڪ ITIL طريقو اصطلاح آهي جيڪو خدمت جي صارف ۽ ان جي فراهم ڪندڙ جي وچ ۾ هڪ رسمي معاهدي کي ظاهر ڪري ٿو، جنهن ۾ خدمت جي وضاحت، پارٽين جي حقن ۽ فرضن تي مشتمل آهي ۽، سڀ کان اهم، هن جي فراهمي لاء معيار جي متفقه سطح. خدمت.

هڪ SLO هڪ خدمت جي سطح جو مقصد آهي: خدمت جي سطح لاءِ حدف جي قيمت يا قدرن جي حد جيڪا SLI پاران ماپي ويندي آهي. SLO لاءِ هڪ عام قدر آهي "SLI ≤ ٽارگيٽ" يا "لوئر حد ≤ SLI ≤ اپر حد".

SLI هڪ خدمت جي سطح جو اشارو آهي- مهيا ڪيل خدمت جي سطح جي هڪ پاسو جو احتياط سان بيان ڪيل مقداري ماپ. اڪثر خدمتن لاءِ، اهم SLI کي گذارش جي دير سان سمجهيو ويندو آهي - هڪ درخواست جو جواب موٽڻ ۾ ڪيترو وقت لڳندو آهي. ٻيون عام SLIs ۾ غلطي جي شرح شامل آهي، اڪثر حاصل ڪيل سڀني درخواستن جي هڪ حصي جي طور تي ظاهر ڪيو ويو آهي، ۽ سسٽم جي ذريعي، عام طور تي في سيڪنڊ جي درخواستن ۾ ماپي ويندي آهي.

سڀ کان پهريان، اسان جهازن کي ٽوڙينداسين، ۽ پوء ڇوڪريون، ۽ پوء ڇوڪريون ...

اندروني ۽ بيروني عنصرن پهرين منٽن کان ئي SLO کي ”خراب“ ڪرڻ شروع ڪيو. هر شيءِ منتظمين جي سرن تي ٿي وئي - ڊولپر جون غلطيون، انفراسٽرڪچر جي ناڪامي، سياحن جي آمد، ۽ DDoS حملا. هر شيء جيڪا خراب ڪري ٿي SLO.

Slurm SRE. Booking.com ۽ Google.com جي ماهرن سان هڪ مڪمل تجربو
"- پيارا شرڪت ڪندڙ، مان توهان کي خوش ڪرڻ لاء جلدي ڪريان ٿو، پهرين شيء جيڪا توهان ناڪام ٿئي ٿي ... سڀ ڪجهه!"

رستي ۾، ڳالهائيندڙن تي بحث ڪيو ويو استحڪام، غلطي جي بجيٽ، ٽيسٽ جي مشق، مداخلت جي انتظام ۽ آپريشنل لوڊ.

اسين نه ڍڳي آهيون، نه ڪاريگر آهيون...

پوء شرڪت ڪندڙن شين کي درست ڪرڻ شروع ڪيو - بنيادي شيء اھو سمجھڻ آھي ته پھريائين ڇا ڪجي.

Slurm SRE. Booking.com ۽ Google.com جي ماهرن سان هڪ مڪمل تجربو
“- اي منهنجا مالڪ، مون ڪڏهن به ان کي اهڙي صورت ۾ ۽ اهڙي حالت ۾ ٽوڙڻ نه ڏٺو آهي!

سو، هڪ حادثو پيش آيو. ادائگي جي پروسيسنگ سروس بند آهي. گھٽ ۾ گھٽ وقت ۾ ڪارڪردگي بحال ڪرڻ لاء ڪيئن عمل ڪجي؟

Slurm SRE. Booking.com ۽ Google.com جي ماهرن سان هڪ مڪمل تجربو
ماهر، شرڪت ڪندڙن کي پيار سان ڏسي، هڪ ٻي چال تيار ڪري رهيا آهن.

هر ٽيم حادثي کي ختم ڪرڻ لاء گروپ جي ڪم کي منظم ڪري ٿو - ساٿين کي شامل ڪري ٿو، دلچسپي پارٽين (اسٽيڪ هولڊرز) کي مطلع ڪري ٿو. ساڳئي وقت، ترجيحات مقرر ڪيا ويا آهن. هن طريقي سان، شرڪت ڪندڙن کي انتهائي محدود وقت جي حالتن ۾ دٻاء هيٺ ڪم ڪرڻ جي تربيت ڏني وئي.

Slurm SRE. Booking.com ۽ Google.com جي ماهرن سان هڪ مڪمل تجربو
”ڪهڙي خوفناڪ ڳالهه سامهون آئي آهي؟!

سانس ڪڍو... ۽ ورزش ختم ڪريو

ڳالهائيندڙن سان گڏ، هر مسئلو حل ٿيڻ کان پوءِ ۽ سائيٽ کي عارضي طور تي مستحڪم ڪيو ويو، ٽيم واقعن جو اڀياس ڪيو SRE نقطي نظر کان. اسان تفصيل سان مسئلن جو تجزيو ڪيو - واقعن جا سبب، خاتمي جي ترقي. ان کان پوءِ، ٻنهي ٽيمن ۽ مجموعي طور تي، اسان فيصلا ڪيا ته انهن کي ڪيئن روڪيو وڃي: مانيٽرنگ کي ڪيئن بهتر بڻايو وڃي، فن تعمير کي عقلمنديءَ سان ڪيئن بدلايو وڃي، ترقيءَ ۽ آپريشن جي روش کي ڪيئن ترتيب ڏنو وڃي، ضابطن کي ڪيئن درست ڪجي. مقررين پوسٽ مارٽم ڪرائڻ جي مشق جو مظاهرو ڪيو.

Slurm SRE. Booking.com ۽ Google.com جي ماهرن سان هڪ مڪمل تجربو
”ٻيو ڪير عذاب چاهي! - مان!"

ٽيمن جي ڪاميابين کي سختي سان ۽ واضح طور تي اليڪٽرانڪ اسڪور بورڊ تي رڪارڊ ڪيو ويو.

Slurm SRE. Booking.com ۽ Google.com جي ماهرن سان هڪ مڪمل تجربو

پهرين جڳهن لاء - اسٽيڪ هولڊرز کان هڪ بونس.

Slurm SRE. Booking.com ۽ Google.com جي ماهرن سان هڪ مڪمل تجربو

جو ذريعو: www.habr.com

تبصرو شامل ڪريو