حبر پوسٹ مارٹم رپورٹ: یہ ایک اخبار پر گری۔

2019 کے موسم گرما کے پہلے اور دوسرے مہینے کا اختتام مشکل نکلا اور عالمی آئی ٹی خدمات میں کئی بڑی کمی کی وجہ سے نشان زد ہوا۔ قابل ذکر واقعات میں سے: CloudFlare انفراسٹرکچر میں دو سنگین واقعات (پہلا - USA کے کچھ ISPs کی طرف سے ٹیڑھے ہاتھوں اور BGP کے ساتھ لاپرواہی کا رویہ؛ دوسرا - خود CF کی ٹیڑھی تعیناتی کے ساتھ، جس نے CF استعمال کرنے والے ہر شخص کو متاثر کیا۔ ، اور یہ بہت ساری قابل ذکر خدمات ہیں) اور Facebook CDN انفراسٹرکچر کے غیر مستحکم آپریشن (انسٹاگرام اور واٹس ایپ سمیت تمام FB مصنوعات کو متاثر کیا)۔ ہمیں تقسیم میں بھی پھنسنا پڑا، حالانکہ عالمی پس منظر میں ہماری بندش بہت کم نمایاں تھی۔ کسی نے پہلے ہی سیاہ ہیلی کاپٹروں اور "خودمختار" سازشوں کو گھسیٹنا شروع کر دیا ہے، لہذا ہم اپنے واقعے کا عوامی پوسٹ مارٹم جاری کر رہے ہیں۔

حبر پوسٹ مارٹم رپورٹ: یہ ایک اخبار پر گری۔

03.07.2019، 16: 05
اندرونی نیٹ ورک کنیکٹیویٹی میں خرابی کی طرح وسائل کے ساتھ مسائل ریکارڈ کیے جانے لگے۔ ہر چیز کو مکمل طور پر چیک نہ کرنے کے بعد، انہوں نے ڈیٹا لائن کی طرف بیرونی چینل کی فعالیت کو مورد الزام ٹھہرانا شروع کر دیا، کیونکہ یہ واضح ہو گیا تھا کہ اندرونی نیٹ ورک کی انٹرنیٹ تک رسائی (NAT) میں کوئی مسئلہ تھا، یہاں تک کہ انہوں نے BGP سیشن کو معطل کر دیا۔ ڈیٹا لائن۔

03.07.2019، 16: 35
یہ واضح ہو گیا کہ نیٹ ورک ایڈریس کا ترجمہ اور سائٹ کے مقامی نیٹ ورک سے انٹرنیٹ (NAT) تک رسائی فراہم کرنے والا سامان ناکام ہو گیا تھا۔ آلات کو دوبارہ شروع کرنے کی کوششوں سے کچھ بھی نہیں ہوا، تکنیکی مدد سے جواب موصول ہونے سے پہلے کنیکٹیویٹی کو منظم کرنے کے لیے متبادل اختیارات کی تلاش شروع ہو گئی، کیونکہ تجربے کے مطابق، اس سے غالباً کوئی فائدہ نہیں ہوتا۔

مسئلہ اس حقیقت سے کچھ بڑھ گیا تھا کہ اس آلات نے کلائنٹ VPN ملازمین کے آنے والے کنکشن بھی ختم کر دیے، اور ریموٹ ریکوری کا کام کرنا مشکل ہو گیا۔

03.07.2019، 16: 40
ہم نے پہلے سے موجود بیک اپ NAT اسکیم کو بحال کرنے کی کوشش کی جو پہلے اچھی طرح کام کر چکی تھی۔ لیکن یہ واضح ہو گیا کہ نیٹ ورک کی متعدد تجدید کاری نے اس سکیم کو تقریباً مکمل طور پر ناکارہ بنا دیا ہے، کیونکہ اس کی بحالی، بہترین طور پر، کام نہیں کر سکتی، یا، بدترین طور پر، جو پہلے سے کام کر رہی تھی، توڑ سکتی ہے۔

ہم نے ٹریفک کو ریڑھ کی ہڈی کی خدمت کرنے والے نئے راؤٹرز کے سیٹ پر منتقل کرنے کے لیے چند آئیڈیاز پر کام کرنا شروع کیا، لیکن وہ بنیادی نیٹ ورک میں راستوں کی تقسیم کی خصوصیات کی وجہ سے ناقابل عمل لگ رہے تھے۔

03.07.2019، 17: 05
اسی وقت، نام کے سرورز پر نام کے حل کے طریقہ کار میں ایک مسئلہ کی نشاندہی کی گئی، جس کی وجہ سے ایپلی کیشنز میں اختتامی نکات کو حل کرنے میں غلطیاں پیدا ہوئیں، اور انہوں نے اہم خدمات کے ریکارڈ کے ساتھ میزبان فائلوں کو تیزی سے بھرنا شروع کیا۔

03.07.2019، 17: 27
Habr کی محدود فعالیت کو بحال کر دیا گیا ہے۔

03.07.2019، 17: 43
لیکن آخر میں، سرحدی راستوں میں سے ایک کے ذریعے ٹریفک کو منظم کرنے کے لیے نسبتاً محفوظ حل تلاش کیا گیا، جسے فوری طور پر نصب کر دیا گیا۔ انٹرنیٹ کنیکٹیویٹی بحال کر دی گئی ہے۔

اگلے چند منٹوں میں، مانیٹرنگ سسٹمز سے مانیٹرنگ ایجنٹس کی فعالیت کی بحالی کے بارے میں بہت ساری اطلاعات آئیں، لیکن کچھ سروسز ناکارہ ثابت ہوئیں کیونکہ نام سرورز (dns) پر نام کے حل کا طریقہ کار ٹوٹ گیا تھا۔

حبر پوسٹ مارٹم رپورٹ: یہ ایک اخبار پر گری۔

03.07.2019، 17: 52
NS کو دوبارہ شروع کیا گیا اور کیشے کو صاف کیا گیا۔ حل بحال کر دیا گیا ہے۔

03.07.2019، 17: 55
MK، Freelansim اور Toaster کے علاوہ تمام سروسز نے کام کرنا شروع کر دیا۔

03.07.2019، 18: 02
MK اور Freelansim کام کرنے لگے۔

03.07.2019، 18: 07
ڈیٹا لائن کے ساتھ ایک معصوم BGP سیشن واپس لائیں۔

03.07.2019، 18: 25
انہوں نے وسائل کے ساتھ مسائل کو ریکارڈ کرنا شروع کیا، جس کی وجہ NAT پول کے بیرونی ایڈریس میں تبدیلی اور متعدد سروسز کے acl میں اس کی عدم موجودگی تھی، جسے فوری طور پر درست کر دیا گیا۔ ٹوسٹر نے فوراً کام شروع کر دیا۔

03.07.2019، 20: 30
ہم نے ٹیلیگرام بوٹس سے متعلق غلطیاں دیکھیں۔ معلوم ہوا کہ وہ بیرونی ایڈریس کو acl (پراکسی سرورز) کے ایک جوڑے میں رجسٹر کرنا بھول گئے، جسے فوری طور پر درست کر دیا گیا۔

حبر پوسٹ مارٹم رپورٹ: یہ ایک اخبار پر گری۔

نتائج

  • سازوسامان، جس نے پہلے اس کی مناسبیت کے بارے میں شکوک و شبہات بوئے تھے، ناکام ہو گئے۔ اسے کام سے ختم کرنے کے منصوبے تھے، کیونکہ اس نے نیٹ ورک کی ترقی میں مداخلت کی تھی اور اس میں مطابقت کے مسائل تھے، لیکن ساتھ ہی اس نے ایک اہم کام انجام دیا، یہی وجہ ہے کہ خدمات میں خلل ڈالے بغیر کوئی بھی متبادل تکنیکی طور پر مشکل تھا۔ اب آپ آگے بڑھ سکتے ہیں۔
  • NAT نیٹ ورک سے باہر نئے بیک بون نیٹ ورک کے قریب لے جا کر DNS کے مسئلے سے بچا جا سکتا ہے اور پھر بھی بغیر ترجمہ کے گرے نیٹ ورک سے مکمل کنیکٹیویٹی ہے (جو کہ واقعہ سے پہلے منصوبہ تھا)۔
  • آپ کو RDBMS کلسٹرز کو جمع کرتے وقت ڈومین نام استعمال نہیں کرنا چاہیے، کیونکہ شفاف طریقے سے IP ایڈریس کو تبدیل کرنے کی سہولت خاص طور پر ضروری نہیں ہے، کیونکہ اس طرح کی ہیرا پھیری کے لیے اب بھی کلسٹر کو دوبارہ بنانے کی ضرورت ہوتی ہے۔ یہ فیصلہ تاریخی وجوہات اور سب سے پہلے، RDBMS کنفیگریشنز میں نام کے لحاظ سے اختتامی نکات کے واضح ہونے سے کیا گیا تھا۔ عام طور پر، ایک کلاسک ٹریپ.
  • اصولی طور پر، "رنیٹ کی خود مختاری" کے مقابلے کی مشقیں کی گئی ہیں؛ خود مختار بقا کی صلاحیتوں کو مضبوط بنانے کے حوالے سے کچھ سوچنے کی ضرورت ہے۔

ماخذ: www.habr.com

نیا تبصرہ شامل کریں