PagerDuty، يا ڇو آپريشن ڊپارٽمينٽ رات جو ننڊ نه ٿو ڪري سگهي

سسٽم جيترو پيچيده هوندو، اوترو ئي اهو هر قسم جي خبردارين سان اونڌو ٿي ويندو. ۽ ضرورت آھي انھن ساڳين خبردارين تي رد عمل، انھن کي گڏ ڪرڻ ۽ انھن کي ڏسڻ جي. منهنجو خيال آهي ته اها هڪ صورتحال آهي جيڪا ڪيترن ئي ماڻهن کي اعصاب جي نقطي کان واقف آهي.

اهو حل جيڪو بحث ڪيو ويندو اهو سڀ کان وڌيڪ غير متوقع نه آهي، پر ڳولا هن موضوع تي مڪمل مضمون نه موٽائي.

تنهن ڪري، مون فيصلو ڪيو FunCorp جي تجربي کي شيئر ڪرڻ ۽ انهي بابت ڳالهايو ته ڊيوٽي پروسيس ڪيئن ترتيب ڏني وئي آهي، ڪير سڏي ٿو، ڇو ۽ ڪيئن توهان اهو سڀ ڪجهه ڏسي سگهو ٿا.

PagerDuty، يا ڇو آپريشن ڊپارٽمينٽ رات جو ننڊ نه ٿو ڪري سگهي

PagerDuty ڇا آهي؟

تنهن ڪري، انهن سڀني مسئلن کي حل ڪرڻ لاء، اسان هڪ آسان اوزار ڳولڻ شروع ڪيو. ڪجهه ڳولها کان پوء، اسان چونڊيو PagerDuty. PD اسان کي وڏي تعداد ۾ انضمام ۽ سيٽنگن سان ڪافي مڪمل ۽ جامع حل ٿي لڳي. هوءَ ڪهڙي آهي؟

مختصر ۾، PagerDuty هڪ واقعا پروسيسنگ پليٽ فارم آهي جيڪو ايندڙ واقعن کي مختلف انضمام ذريعي پروسيس ڪري سگهي ٿو، ڊيوٽي آرڊر قائم ڪري ٿو ۽ پوءِ ڊيوٽي تي انجنيئر کي خبردار ڪري ٿو واقعي جي سطح جي لحاظ سان (هڪ اعلي سطح تي - هڪ ڪال، گهٽ سطح تي - ايپليڪيشن / ايس ايم ايس مان هڪ ڌڪ).

ڊيوٽي آفيسر ڪير آهي؟

اهو شايد پهريون جڳهه آهي جيڪو PD ترتيب ڏيڻ شروع ڪيو.

FunCorp ۾، ٻين ڪمپنين وانگر، ڊيوٽي آفيسر جي اعزازي پوزيشن آهي. اهو ڏينهن ۾ هڪ ڀيرو انجنيئر کان انجنيئر تائين منتقل ڪيو ويندو آهي. PagerDuty کان هڪ خبرداري جي جواب جي هڪ نام نهاد پهرين ۽ سيڪنڊ لائن آهي. فرض ڪريو هڪ اعليٰ ترجيحي خبرداري اچي ٿي، ۽ جيڪڏهن 10 منٽن کان پوءِ پهرين لائن کان ڊيوٽي آفيسر کي ڪال آئي ته ان تي ڪو به رد عمل نه آهي (يعني اهو تسليم ٿيل يا حل ٿيل اسٽيٽس ڏانهن منتقل نه ڪيو ويو آهي)، ڪال ٻئي ڏانهن ويندي. فرض انجنيئر. هي ترتيب ڏنل آهي PagerDuty پاڻ ۾ Escalation پاليسين ذريعي.

PagerDuty، يا ڇو آپريشن ڊپارٽمينٽ رات جو ننڊ نه ٿو ڪري سگهي

جيڪڏهن سيڪنڊ ڊيوٽي آفيسر جواب نه ڏئي، نوٽيفڪيشن واپس واپس اچي ٿو مکيه ڊيوٽي آفيسر ڏانهن.

اهڙيءَ طرح، ڪنهن به ايندڙ اعليٰ ترجيحي خبرداريءَ تي عمل نه ٿي ڪري سگھجي. 

هاڻي ڏسون ته واقعا ڪٿان اچن ٿا.

اسان ڪهڙي انضمام کي استعمال ڪريون ٿا؟

PD مختلف خدمتن مان ڪيترائي مختلف واقعا وصول ڪري ٿو. اسان وٽ هن وقت اٽڪل 25 اهڙيون خدمتون آهن، ۽ انهن کي پروسيس ڪرڻ لاءِ اسان ڪجهه تيار ڪيل انضمام استعمال ڪندا آهيون.

  • Prometheus

مکيه ميٽرڪ گڏ ڪرڻ وارو نظام Prometheus آهي. Habré تي ان بابت اڳ ۾ ئي گهڻو ڪجهه لکيو ويو آهي، مان صرف ايترو چوندس ته اسان وٽ انهن مان ڪيترائي مختلف ماحول لاءِ آهن: هڪ ورچوئل مشينن ۽ ڊاڪرز مان ميٽرڪ گڏ ڪري ٿو، ٻيو Amazon خدمتن مان، ٽيون هارڊويئر مشينن مان. ٽيليگراف خاص طور تي ميٽرڪس برآمد ڪندڙ طور استعمال ڪيو ويندو آهي.

  • اي ميل

هتي پڻ، مان سمجهان ٿو، عنوان مان سڀ ڪجهه واضح آهي. ھي انضمام استعمال ڪيو ويندو آھي نوٽيفڪيشن موڪلڻ لاءِ ڪجھ اسڪرپٽس کان جيڪي عمل ڪيا ويا آھن ڪرون. PD توهان کي هڪ خاص پتو ڏئي ٿو جنهن تي توهان خط موڪليندا آهيو. جڏهن اهڙي انضمام سان خدمت ٺاهي رهيا آهيو، توهان ترجيحات مقرر ڪري سگهو ٿا، ڪهڙي ترتيب ۾ ايندڙ واقعن تي عمل ڪيو ويندو، هڪ خبرداري ڪيئن ٺاهيو (هر ايندڙ خط لاء، ايندڙ خط لاء + هڪ خاص اصول، وغيره).

PagerDuty، يا ڇو آپريشن ڊپارٽمينٽ رات جو ننڊ نه ٿو ڪري سگهي

  • سست

منهنجي خيال ۾، هڪ تمام دلچسپ انضمام. اهڙا وقت آهن جڏهن ڪجهه ٿئي ٿو پر واقعن سان ڍڪيل نه آهي. تنهن ڪري، اسان هڪ واقعو پيدا ڪرڻ لاء Slack کان انضمام شامل ڪيو. اهو آهي، توهان لکي سگهو ٿا ڪارپوريٽ سست /callofduty هر شي سست آهي ۽ جلدي ڀڄي ويندي ۽ PD ان تي عمل ڪندو ۽ واقعي کي ڊيوٽي انجنيئر ڏانهن موڪليندو.

اسين ڪندا آهيون:

PagerDuty، يا ڇو آپريشن ڊپارٽمينٽ رات جو ننڊ نه ٿو ڪري سگهي

اسان ڏسون ٿا:

PagerDuty، يا ڇو آپريشن ڊپارٽمينٽ رات جو ننڊ نه ٿو ڪري سگهي

  • API

HTTP انضمام. حقيقت ۾، هتي ڪجھ به خاص دلچسپ ناهي، صرف JSON فارميٽ ۾ هڪ جسم سان پوسٽ جي درخواست. مثال طور، ڪجهه دلچسپ: اسان ان کي استعمال ڪندي ٻاهرين نگراني لاء استعمال ڪندا آهيون https://www.statuscake.com/. هي خدمت دنيا جي مختلف حصن مان اسان جي سائيٽن جي رسائي جي جانچ ڪري ٿي. ان صورت ۾ جڏهن اسان هڪ ناقابل قبول جوابي ڪوڊ حاصل ڪندا آهيون (مثال طور، 502)، هڪ واقعو پيدا ٿئي ٿو ۽ پوء هر شيء مٿي بيان ڪيل زنجير جي پٺيان آهي. StatusCake پاڻ وٽ اندروني URLs، SSL سرٽيفڪيٽ يا ڊومين جي ختم ٿيڻ جي نگراني ڪرڻ جي صلاحيت آهي.

  • LibreNMS

اهو هڪ ٻيو مانيٽرنگ سسٽم آهي، توهان ان بابت وڌيڪ پڙهي سگهو ٿا انهن جي ويب سائيٽ تي https://www.librenms.org/. ان جي مدد سان، اسان سرورز مان نيٽ ورڪ انٽرفيس ۽ iDRAC جي نگراني ڪندا آهيون.

PagerDuty، يا ڇو آپريشن ڊپارٽمينٽ رات جو ننڊ نه ٿو ڪري سگهي

اتي پڻ انضمام هئا جهڙوڪ Datadog، CloudWatch. توھان وڌيڪ ڏسي سگھوٿا انھن بابت ڇا ٿيو ھتي صحيح آھي.

زير نظر

مکيه واقعا رپورٽنگ سسٽم سست آهي. PD تي اچڻ وارا سڀئي واقعا هڪ خاص چيٽ تي لکيا ويندا آهن، ۽ جيڪڏهن انهن جي صورتحال تبديل ٿي ويندي آهي، اهو پڻ چيٽ ۾ ڏيکاريل آهي.

PagerDuty، يا ڇو آپريشن ڊپارٽمينٽ رات جو ننڊ نه ٿو ڪري سگهي

جڏهن ڇت تان لٽڪيل مانيٽر جي اسڪرينن تي ڪارائتو ڊيٽا ڏيکارڻ جو موقعو مليو، تڏهن اسان اوچتو محسوس ڪيو ته اسان وٽ (ڊيوپس ڊپارٽمينٽ ۾) انهن تي ڏيکارڻ لاءِ ڪجهه به نه هو. هتي هڪ شاندار گرافانا آهي، پر اهو هر شيء کي ڍڪي نه ٿو، ۽ ملازمن کي خبردارين تي رد عمل، نه چارٽ.

PD لاءِ هڪ جامع ۽ معلوماتي ”بورڊ“ لاءِ GitHub تي هڪ مڪمل پر ناڪام ڳولا کان پوءِ، اسان فيصلو ڪيو ته پنهنجو پاڻ لکڻ - صرف ان سان جيڪو اسان کي گهربل هجي. جيتوڻيڪ پهرين ۾ اتي هڪ خيال هو ته PD انٽرفيس پاڻ کي ظاهر ڪرڻ لاء، اهو اڃا به وڌيڪ تڪليف ڏسڻ ۾ اچي ٿو.

ان کي لکڻ لاءِ، توهان کي صرف پڙهڻ جي حقن سان PD مان هڪ ڪنجي حاصل ڪرڻ جي ضرورت آهي.
۽ اھو اھو آھي جيڪو اسان حاصل ڪيو آھي:

PagerDuty، يا ڇو آپريشن ڊپارٽمينٽ رات جو ننڊ نه ٿو ڪري سگهي

اسڪرين ڏيکاري ٿو موجوده کليل واقعا، موجوده انجنيئر جو نالو چونڊيل شيڊول مان ڊيوٽي تي، ۽ وقت بغير اعلي ترجيح واري واقعي جي (هڪ اعلي ترجيح واري واقعي سان پينل ڳاڙهي ۾ نمايان ڪيو ويندو).

هن عمل جي ذريعن کي هتي ڏسو.

نتيجي طور، اسان کي اسان جي سڀني واقعن کي ڏسڻ لاء هڪ آسان ڊيش بورڊ مليو. مون کي خوشي ٿي ويندي جيڪڏهن توهان مان ڪجهه اسان جو تجربو ڪارائتو ڳوليندا.

جو ذريعو: www.habr.com

تبصرو شامل ڪريو