میں نے بطور SRE انجینئر انٹرن ایک ہفتہ کیسے گزارا۔ سافٹ ویئر انجینئر کی نظروں سے ڈیوٹی

میں نے بطور SRE انجینئر انٹرن ایک ہفتہ کیسے گزارا۔ سافٹ ویئر انجینئر کی نظروں سے ڈیوٹی

ایس آر ای انجینئر - ٹرینی

پہلے میں اپنا تعارف کرواتا ہوں۔ میں - @tristan.readگروپ میں فرنٹ اینڈ انجینئر مانیٹر::صحت گٹ لیب۔ پچھلے ہفتے مجھے اپنے آن کال SRE انجینئرز میں سے ایک کے ساتھ انٹرننگ کا اعزاز حاصل ہوا۔ مقصد یہ دیکھنا تھا کہ آن ڈیوٹی افسر روزانہ کی بنیاد پر ہونے والے واقعات پر کس طرح ردعمل ظاہر کرتا ہے اور کام پر حقیقی زندگی کا تجربہ حاصل کرتا ہے۔ ہم چاہتے ہیں کہ ہمارے انجینئرز صارف کی ضروریات کو بہتر طور پر سمجھیں۔ افعال مانیٹر::صحت۔

مجھے ایک ہفتے تک ہر جگہ SRE انجینئر کی پیروی کرنی پڑی۔ یعنی، میں ہینڈ اوور کے وقت موجود تھا، انہی الرٹ چینلز کی نگرانی کرتا تھا اور واقعات کا جواب دیتا تھا اگر اور جب وہ پیش آئے۔

واقعات

ایک ہفتے میں 2 واقعات ہوئے۔

1. کرپٹو مائنر

GitLab.com نے بدھ کے روز استعمال میں اضافہ دیکھا گٹ لیب رنر'a، رنر کے منٹوں کو کریپٹو کرنسی کی کھدائی کے لیے استعمال کرنے کی کوششوں کی وجہ سے ہوا۔ اس واقعے کو ہمارے اپنے خلاف ورزی کے نیوٹرلائزیشن ٹول کے استعمال سے نمٹا گیا، جو رنر کے کاموں کو روکتا ہے اور اس سے وابستہ پروجیکٹ اور اکاؤنٹ کو حذف کر دیتا ہے۔

اگر اس واقعہ پر توجہ نہ دی گئی ہوتی، تو ایک خودکار ٹول اسے پکڑ لیتا، لیکن اس معاملے میں، SRE انجینئر نے سب سے پہلے خلاف ورزی کا نوٹس لیا۔ ایک واقعہ ٹاسک بنایا گیا تھا، لیکن اس پر معلومات بند ہے۔

2. کینری اور مین ایپلی کیشنز کی کارکردگی میں کمی

یہ واقعہ سست روی اور Gitlab.com پر کینری اور مین ویب ایپلیکیشنز میں غلطیوں کی بڑھتی ہوئی تعدد کی وجہ سے ہوا۔ کئی Apdex اقدار کی خلاف ورزی کی گئی۔

واقعہ کا کام کھولیں: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442

کلیدی نتائج

یہ چند چیزیں ہیں جو میں نے اپنے ہفتہ ڈیوٹی کے دوران سیکھی ہیں۔

1. معمول سے انحراف کا پتہ لگاتے وقت الرٹس سب سے زیادہ مفید ہوتے ہیں۔

انتباہات کو کئی اقسام میں تقسیم کیا جا سکتا ہے:

  • ایک مخصوص حد کی قدر پر مبنی الرٹس، جیسے کہ "10 5xx غلطیاں فی سیکنڈ ہوئیں۔"
  • انتباہات جس میں حد ایک فیصد کی قدر ہے جیسے کہ "ایک مقررہ وقت پر درخواستوں کے کل حجم کے فی 5% پر 10xx غلطیوں کی فریکوئنسی۔"
  • تاریخی اوسط پر مبنی انتباہات جیسے "5 فیصد پر 90xx کی غلطیاں"۔

عام طور پر، قسم 2 اور 3 ڈیوٹی پر SREs کے لیے زیادہ کارآمد ہیں، کیونکہ یہ عمل میں معمول سے انحراف کو ظاہر کرتے ہیں۔

2. بہت سے انتباہات کبھی بھی واقعات کی طرف نہیں بڑھتے ہیں۔

SR انجینئرز انتباہات کے ایک مستقل سلسلے سے نمٹتے ہیں، جن میں سے بہت سے اصل میں اہم نہیں ہوتے ہیں۔

تو کیوں نہ اپنے انتباہات کو صرف واقعی اہم تک محدود رکھیں؟ تاہم، اس نقطہ نظر کے ساتھ، آپ اس کی ابتدائی علامات کو نہیں پہچان سکتے ہیں جو ایک حقیقی مسئلہ میں سنو بال کرے گا جس سے بڑے نقصان کا خطرہ ہے۔

آن کال SRE کا کام اس بات کا تعین کرنا ہے کہ کون سے انتباہات درحقیقت کسی سنگین چیز کی نشاندہی کرتے ہیں، اور آیا ان کو بڑھا کر اس سے نمٹنے کی ضرورت ہے۔ مجھے شبہ ہے کہ یہ انتباہات کی لچک کی وجہ سے بھی ہے: یہ بہتر ہوگا اگر اوپر بیان کردہ صورتحال کے مطابق الرٹس کو ترتیب دینے کے کئی درجے یا "سمارٹ" طریقے ہوں۔

خصوصیت کی تجویز: https://gitlab.com/gitlab-org/gitlab/issues/42633

3. ڈیوٹی پر ہمارے SREs بہت سارے اوزار استعمال کرتے ہیں۔

اندرونی:

  • GitLab انفرا پروجیکٹ: رن بکس یہاں رہتے ہیں، شفٹ/ہفتہ اسائنمنٹس، واقعہ کے جوابی کام۔
  • گٹ لیب کے مسائل: تحقیقات، جائزے، اور دیکھ بھال کو بھی مسائل میں ٹریک کیا جاتا ہے۔
  • GitLab لیبلز: آٹومیشن ٹاسک مخصوص لیبلز کا استعمال کرتے ہوئے شروع کیے جاتے ہیں، جو بوٹس کام کی سرگرمی کو ٹریک کرنے کے لیے استعمال کرتے ہیں۔

بیرونی:

  • PagerDuty: الرٹس
  • سلیک: PagerDuty/AlertManager پیغام کا بہاؤ یہاں جاتا ہے۔ مختلف قسم کے کاموں کو انجام دینے کے لیے سلیش کمانڈز کے ساتھ انضمام، جیسے کسی الرٹ کو بند کرنا یا کسی واقعے کی طرف بڑھانا۔
  • گرافانا: طویل مدتی رجحانات پر توجہ کے ساتھ میٹرکس کا تصور۔
  • کبانا: تصور/لاگ تلاش، مخصوص واقعات میں گہرائی تک کھودنے کی صلاحیت دیتا ہے۔
  • زوم: زوم میں مسلسل "بریک آؤٹ روم" چل رہا ہے۔ یہ SRE انجینئرز کو کمرہ بنانے اور شرکاء کو جوڑنے میں قیمتی وقت ضائع کیے بغیر واقعات پر تیزی سے بات کرنے کی اجازت دیتا ہے۔

اور بہت سے دوسرے۔

4. GitLab کے ساتھ GitLab.com کی نگرانی ناکامی کا واحد نقطہ ہے۔

اگر GitLab.com کو ایک بڑی سروس بندش کا سامنا کرنا پڑتا ہے، تو ہم نہیں چاہتے کہ اس سے مسئلہ کو حل کرنے کی ہماری صلاحیت پر اثر پڑے۔ GitLab.com کو منظم کرنے کے لیے دوسرا GitLab مثال شروع کرکے اسے روکا جا سکتا ہے۔ اصل میں، یہ پہلے سے ہی ہمارے لئے کام کرتا ہے: https://ops.gitlab.net/.

5. GitLab میں شامل کرنے پر غور کرنے کے لیے چند خصوصیات

  • ملٹی یوزر ٹاسک ایڈیٹنگ, Google Docs کی طرح۔ اس سے ایونٹ کے دوران ہونے والے واقعات کے ساتھ ساتھ ڈیبریفنگ کے کاموں میں بھی مدد ملے گی۔ دونوں صورتوں میں، کئی شرکاء کو حقیقی وقت میں کچھ شامل کرنے کی ضرورت پڑ سکتی ہے۔
  • کاموں کے لیے مزید ویب ہکس۔ GitLab ورک فلو کے مختلف مراحل کو اندر سے چلانے کی صلاحیت سلیک انضمام پر آپ کے انحصار کو کم کرنے میں مدد کرے گی۔ مثال کے طور پر، گٹ لیب کے مسئلے میں سلیش کمانڈ کے ذریعے PagerDuty میں الرٹ کی اجازت دینے کی صلاحیت۔
    حاصل يہ ہوا

SRE انجینئرز کو بہت سی پیچیدگیوں کے ساتھ مشکل وقت درپیش ہے۔ ان مسائل کو حل کرتے ہوئے مزید GitLab پروڈکٹس کو دیکھنا بہت اچھا ہوگا۔ ہم پہلے ہی پروڈکٹ میں کچھ اضافے پر کام کر رہے ہیں جو اوپر بتائے گئے ورک فلو کو آسان بنا دیں گے۔ تفصیلات پر دستیاب ہے۔ Ops پروڈکٹ ویژن سیکشن.

ہم ان تمام عمدہ خصوصیات کو ایک ساتھ لانے کے لیے 2020 میں ٹیم کو بڑھا رہے ہیں۔ اگر دلچسپی ہے تو، براہ مہربانی چیک کریں آسامیاںاور ہماری ٹیم کے کسی بھی سوال کے ساتھ بلا جھجھک رابطہ کریں۔

ماخذ: www.habr.com

نیا تبصرہ شامل کریں