PagerDuty، یا آپریشن ڈیپارٹمنٹ رات کو کیوں نہیں سو سکتا

نظام جتنا پیچیدہ ہوگا، اتنا ہی ہر قسم کے انتباہات کے ساتھ بڑھتا جاتا ہے۔ اور انہی انتباہات پر ردعمل ظاہر کرنے، ان کو جمع کرنے اور ان کا تصور کرنے کی ضرورت ہے۔ میرے خیال میں یہ ایک ایسی صورت حال ہے جو بہت سے لوگوں کے لیے گھبراہٹ کی حد تک واقف ہے۔

جس حل پر بات کی جائے گی وہ سب سے زیادہ غیر متوقع نہیں ہے، لیکن تلاش اس موضوع پر ایک مکمل مضمون واپس نہیں کرتی ہے۔

اس لیے، میں نے FunCorp کے تجربے کو شیئر کرنے اور ڈیوٹی کے عمل کی ساخت کے بارے میں بات کرنے کا فیصلہ کیا، کون کال کرتا ہے، کیوں اور آپ ان سب کو کیسے دیکھ سکتے ہیں۔

PagerDuty، یا آپریشن ڈیپارٹمنٹ رات کو کیوں نہیں سو سکتا

PagerDuty کیا ہے؟

لہذا، ان تمام مسائل کو حل کرنے کے لئے، ہم نے ایک آسان آلے کی تلاش شروع کردی. کچھ تلاش کے بعد، ہم نے PagerDuty کا انتخاب کیا۔ PD ہمیں بڑی تعداد میں انضمام اور ترتیبات کے ساتھ کافی مکمل اور جامع حل لگتا تھا۔ وہ کیا پسند کرتی ہے؟

مختصراً، PagerDuty ایک واقعہ پراسیسنگ پلیٹ فارم ہے جو آنے والے واقعات کو مختلف انضمام کے ذریعے پروسیس کر سکتا ہے، ڈیوٹی آرڈرز ترتیب دے سکتا ہے اور پھر واقعے کی سطح کے لحاظ سے ڈیوٹی پر موجود انجینئر کو الرٹ کر سکتا ہے (اعلی سطح پر - ایک کال، کم سطح پر - ایپلیکیشن / ایس ایم ایس سے ایک دھکا)۔

ڈیوٹی آفیسر کون ہے؟

PD ترتیب دینا شروع کرنے کے لیے یہ شاید پہلی جگہ ہے۔

FunCorp میں، دیگر کمپنیوں کی طرح، ڈیوٹی آفیسر کا اعزازی عہدہ ہے۔ یہ دن میں ایک بار انجینئر سے انجینئر تک منتقل ہوتا ہے۔ PagerDuty کی طرف سے الرٹ کے جواب کی ایک نام نہاد پہلی اور دوسری لائن ہے۔ فرض کریں کہ ایک اعلیٰ ترجیحی انتباہ آتا ہے، اور اگر پہلی لائن سے ڈیوٹی افسر کو کال کرنے کے 10 منٹ بعد اس پر کوئی ردعمل نہیں ہوتا ہے (یعنی اسے تسلیم شدہ یا حل شدہ حالت میں منتقل نہیں کیا جاتا ہے)، تو کال دوسری پر جاتی ہے۔ ڈیوٹی انجینئر. یہ Escalation Policies کے ذریعے خود PagerDuty میں ترتیب دیا گیا ہے۔

PagerDuty، یا آپریشن ڈیپارٹمنٹ رات کو کیوں نہیں سو سکتا

اگر دوسرا ڈیوٹی افسر جواب نہیں دیتا ہے، تو نوٹیفکیشن واپس آ جاتا ہے۔ مرکزی ڈیوٹی آفیسر کو.

اس طرح، کوئی بھی آنے والا اعلیٰ ترجیحی انتباہ بغیر کارروائی کے نہیں رہ سکتا۔ 

اب دیکھتے ہیں کہ واقعات کہاں سے آتے ہیں۔

ہم کیا انضمام استعمال کرتے ہیں؟

PD کو مختلف خدمات سے بہت سے مختلف واقعات موصول ہوتے ہیں۔ ہمارے پاس اس وقت تقریباً 25 ایسی خدمات ہیں، اور ان پر کارروائی کرنے کے لیے ہم کچھ ریڈی میڈ انضمام استعمال کرتے ہیں۔

  • Prometheus

مرکزی میٹرکس جمع کرنے کا نظام پرومیتھیس ہے۔ Habré پر اس کے بارے میں پہلے ہی بہت کچھ لکھا جا چکا ہے، میں صرف اتنا کہوں گا کہ ہمارے پاس ان میں سے کئی مختلف ماحول کے لیے ہیں: ایک ورچوئل مشینوں اور ڈاکرز سے میٹرکس اکٹھا کرتا ہے، دوسرا ایمیزون سروسز سے، تیسرا ہارڈ ویئر مشینوں سے۔ ٹیلی گراف بنیادی طور پر میٹرکس ایکسپورٹر کے طور پر استعمال ہوتا ہے۔

  • دوستوں کوارسال کریں

یہاں بھی میرے خیال میں عنوان سے سب کچھ واضح ہے۔ یہ انضمام کچھ اسکرپٹس سے اطلاعات بھیجنے کے لیے استعمال کیا جاتا ہے جنہیں کرون کے ذریعے عمل میں لایا جاتا ہے۔ PD آپ کو ایک مخصوص پتہ دیتا ہے جس پر آپ خط بھیجتے ہیں۔ اس طرح کے انضمام کے ساتھ سروس بناتے وقت، آپ ترجیحات طے کر سکتے ہیں، آنے والے واقعات کو کس ترتیب میں پروسیس کیا جائے گا، ایک الرٹ کیسے بنایا جائے (ہر آنے والے خط کے لیے، آنے والے خط کے لیے + ایک خاص اصول وغیرہ)۔

PagerDuty، یا آپریشن ڈیپارٹمنٹ رات کو کیوں نہیں سو سکتا

  • ناپختہ

میری رائے میں، ایک بہت دلچسپ انضمام. ایسے اوقات ہوتے ہیں جب کچھ ہوتا ہے لیکن واقعات کا احاطہ نہیں کیا جاتا ہے۔ لہذا، ہم نے ایک واقعہ تخلیق کرنے کے لیے سلیک سے انضمام شامل کیا۔ یعنی آپ کارپوریٹ سلیک کو لکھ سکتے ہیں۔ /callofduty سب کچھ سست ہے اور جلد ہی ٹوٹ جائے گا۔ اور PD اس پر کارروائی کرے گا اور واقعہ ڈیوٹی انجینئر کو بھیجے گا۔

ہم کرتے ہیں:

PagerDuty، یا آپریشن ڈیپارٹمنٹ رات کو کیوں نہیں سو سکتا

ہم دیکھیں:

PagerDuty، یا آپریشن ڈیپارٹمنٹ رات کو کیوں نہیں سو سکتا

  • API

HTTP انضمام۔ درحقیقت، یہاں کوئی خاص دلچسپ چیز نہیں ہے، صرف JSON فارمیٹ میں ایک باڈی کے ساتھ POST کی درخواست۔ مثال کے طور پر، کچھ دلچسپ: ہم اسے استعمال کرتے ہوئے بیرونی نگرانی کے لیے استعمال کرتے ہیں۔ https://www.statuscake.com/. یہ سروس دنیا کے مختلف حصوں سے ہماری سائٹس کی رسائی کی جانچ کرتی ہے۔ اس صورت میں جب ہمیں ایک ناقابل قبول رسپانس کوڈ موصول ہوتا ہے (مثال کے طور پر، 502)، ایک واقعہ تخلیق ہوتا ہے اور پھر سب کچھ اوپر بیان کردہ سلسلہ کی پیروی کرتا ہے۔ StatusCake خود اندرونی URLs، SSL سرٹیفکیٹ یا ڈومین کی میعاد ختم ہونے کی نگرانی کرنے کی صلاحیت رکھتا ہے۔

  • LibreNMS

یہ ایک اور نگرانی کا نظام ہے، آپ ان کی ویب سائٹ پر اس کے بارے میں مزید پڑھ سکتے ہیں۔ https://www.librenms.org/. اس کی مدد سے، ہم سرورز سے نیٹ ورک انٹرفیس اور iDRAC کی نگرانی کرتے ہیں۔

PagerDuty، یا آپریشن ڈیپارٹمنٹ رات کو کیوں نہیں سو سکتا

ڈیٹا ڈوگ، کلاؤڈ واچ جیسے انضمام بھی تھے۔ آپ ان کے ساتھ کیا ہوا اس کے بارے میں مزید دیکھ سکتے ہیں۔ یہاں.

تصور

واقعہ کی رپورٹنگ کا مرکزی نظام سلیک ہے۔ PD پر آنے والے تمام واقعات ایک خصوصی چیٹ میں لکھے جاتے ہیں، اور اگر ان کی حیثیت بدل جاتی ہے، تو یہ بھی چیٹ میں ظاہر ہوتا ہے۔

PagerDuty، یا آپریشن ڈیپارٹمنٹ رات کو کیوں نہیں سو سکتا

جب چھت سے لٹکے مانیٹروں کی اسکرینوں پر مفید ڈیٹا ڈسپلے کرنے کا موقع ملا، تو ہمیں اچانک احساس ہوا کہ ہمارے پاس (ڈیوپس ڈیپارٹمنٹ میں) ان پر ڈسپلے کرنے کے لیے کچھ نہیں ہے۔ ایک شاندار گرافانا ہے، لیکن یہ ہر چیز کا احاطہ نہیں کرتا، اور ملازمین الرٹس پر رد عمل ظاہر کرتے ہیں، چارٹس پر نہیں۔

PD کے لیے ایک مختصر اور معلوماتی "بورڈ" کے لیے GitHub پر ایک مکمل لیکن ناکام تلاش کے بعد، ہم نے فیصلہ کیا کہ ہم خود ہی لکھیں - صرف اس کے ساتھ جس کی ہمیں ضرورت ہے۔ اگرچہ پہلے تو PD انٹرفیس کو ظاہر کرنے کا خیال تھا، لیکن یہ اور بھی زیادہ تکلیف دہ لگ رہا تھا۔

اسے لکھنے کے لیے، آپ کو صرف پڑھنے کے حقوق کے ساتھ PD سے کلید حاصل کرنے کی ضرورت ہے۔
اور یہ وہی ہے جو ہمیں ملا ہے:

PagerDuty، یا آپریشن ڈیپارٹمنٹ رات کو کیوں نہیں سو سکتا

اسکرین موجودہ کھلے واقعات، منتخب کردہ شیڈول سے ڈیوٹی پر موجودہ انجینئر کا نام، اور اعلی ترجیحی واقعے کے بغیر وقت دکھاتا ہے (اعلی ترجیحی واقعے کے ساتھ پینل کو سرخ رنگ میں نمایاں کیا جائے گا)۔

اس نفاذ کے ذرائع یہاں دیکھیں.

نتیجے کے طور پر، ہمیں اپنے تمام واقعات کو دیکھنے کے لیے ایک آسان ڈیش بورڈ ملا۔ مجھے خوشی ہو گی اگر آپ میں سے کچھ کو ہمارا تجربہ کارآمد لگتا ہے۔

ماخذ: www.habr.com

نیا تبصرہ شامل کریں