4 انجینئرز، 7000 سرورز اور ایک عالمی وبائی مرض

ارے حبر! مضمون کا ترجمہ آپ کی توجہ میں پیش کرتا ہوں۔ "4 انجینئرز، 7000 سرورز، اور ایک عالمی وبائی بیماری" از ادیب داؤ

اگر وہ سرخی آپ کی ریڑھ کی ہڈی میں ہلکی سی لرزش نہیں بھیجتی ہے تو آپ کو اگلے پیراگراف پر جانا چاہیے یا ہمارا صفحہ ملاحظہ کرنا چاہیے کمپنی میں کیریئر - ہم بات کرنا چاہیں گے۔

ہم کون ہیں

ہم 4 پینگوئنز کی ایک ٹیم ہیں جو کوڈ لکھنا اور ہارڈ ویئر کے ساتھ کام کرنا پسند کرتے ہیں۔ اپنے فارغ وقت میں، ہم پورے امریکہ میں 7000 مختلف ڈیٹا سینٹرز میں تقسیم کیے گئے لینکس چلانے والے 3 سے زیادہ فزیکل سرورز کے بیڑے کو تعینات کرنے، برقرار رکھنے اور چلانے کے ذمہ دار ہیں۔

ہمیں یہ کام سائٹس سے 10 کلومیٹر دور اپنے دفتر کے آرام سے کرنے کا بھی موقع ملا، جو بحیرہ روم کے ساحل سے تھوڑی دوری پر واقع ہے۔

پیمانے کے مسائل

اگرچہ نسبتاً کم ابتدائی سرمایہ کاری کی وجہ سے کلاؤڈ میں اپنے انفراسٹرکچر کی میزبانی کرکے اسٹارٹ اپ کا آغاز کرنا سمجھ میں آتا ہے، ہم نے آؤٹ برین میں اپنے سرورز استعمال کرنے کا فیصلہ کیا۔ ہم نے ایسا اس لیے کیا کیونکہ کلاؤڈ انفراسٹرکچر کی لاگت ایک خاص سطح تک ترقی کے بعد ڈیٹا سینٹرز میں واقع ہمارے اپنے آلات کو چلانے کے اخراجات سے کہیں زیادہ ہے۔ اس کے علاوہ، آپ کا سرور سب سے زیادہ کنٹرول اور ٹربل شوٹنگ کی صلاحیتیں فراہم کرتا ہے۔

جیسے جیسے ہم ترقی کرتے ہیں، مسائل ہمیشہ قریب ہوتے ہیں۔ اس کے علاوہ، وہ عام طور پر گروپوں میں آتے ہیں. سرور لائف سائیکل مینجمنٹ کو سرورز کی تعداد میں تیزی سے اضافے کے تناظر میں مناسب طریقے سے کام کرنے کے قابل ہونے کے لیے مستقل خود کو بہتر بنانے کی ضرورت ہوتی ہے۔ ڈیٹا سینٹرز میں سرور گروپس کے انتظام کے لیے سافٹ ویئر کے طریقے تیزی سے ناکارہ ہو جاتے ہیں۔ QoS معیارات پر پورا اترتے ہوئے ناکامیوں کا پتہ لگانا، ٹربل شوٹنگ کرنا اور ان کو کم کرنا ہارڈ ویئر کی انتہائی متنوع صفوں، مختلف کام کے بوجھ، اپ گریڈ ڈیڈ لائن، اور دیگر اچھی چیزوں کا معاملہ بن جاتا ہے جن کے بارے میں کوئی بھی پریشان نہیں ہونا چاہتا ہے۔

اپنے ڈومینز میں مہارت حاصل کریں۔

ان میں سے بہت سے مسائل کو حل کرنے کے لیے، ہم نے آؤٹ برین میں سرور لائف سائیکل کو اس کے اہم اجزاء میں توڑ دیا اور انہیں ڈومینز کہا۔ مثال کے طور پر، ایک ڈومین سامان کی ضروریات کا احاطہ کرتا ہے، دوسرا انوینٹری لائف سائیکل سے متعلق لاجسٹکس کا احاطہ کرتا ہے، اور تیسرا فیلڈ اہلکاروں کے ساتھ مواصلات کا احاطہ کرتا ہے۔ ہارڈ ویئر کے مشاہدے کے بارے میں ایک اور ہے، لیکن ہم تمام نکات کو بیان نہیں کریں گے۔ ہمارا مقصد ڈومینز کا مطالعہ کرنا اور ان کی وضاحت کرنا تھا تاکہ کوڈ کا استعمال کرتے ہوئے ان کا خلاصہ کیا جا سکے۔ ایک بار کام کرنے والے تجرید کو تیار کرنے کے بعد، اسے ایک دستی عمل میں منتقل کیا جاتا ہے جسے تعینات، جانچ اور بہتر کیا جاتا ہے۔ آخر میں، ڈومین کو APIs کے ذریعے دوسرے ڈومینز کے ساتھ ضم کرنے کے لیے ترتیب دیا گیا ہے، جس سے ایک جامع، متحرک، اور ہمیشہ تیار ہونے والا ہارڈویئر لائف سائیکل سسٹم بنایا گیا ہے جو قابل تعینات، قابل آزمائش، اور قابل مشاہدہ ہے۔ بالکل ہمارے تمام دوسرے پیداواری نظاموں کی طرح۔

اس نقطہ نظر کو اپنانے سے ہمیں بہت سے مسائل کو صحیح طریقے سے حل کرنے کا موقع ملا - ٹولز اور آٹومیشن بنا کر۔

ڈومین کی ضرورت ہے۔

اگرچہ ابتدائی دنوں میں ای میل اور اسپریڈشیٹ مانگ کو پورا کرنے کا ایک قابل عمل طریقہ تھا، لیکن یہ ایک کامیاب حل نہیں تھا، خاص طور پر جب سرورز کی تعداد اور آنے والی درخواستوں کا حجم ایک خاص سطح تک پہنچ جائے۔ تیز رفتار توسیع کے پیش نظر آنے والی درخواستوں کو بہتر طریقے سے ترتیب دینے اور ترجیح دینے کے لیے، ہمیں ٹکٹنگ سسٹم استعمال کرنا پڑا جو پیش کر سکتا ہے:

  • صرف متعلقہ فیلڈز کے نظارے کو اپنی مرضی کے مطابق کرنے کی اہلیت (سادہ)
  • APIs کھولیں (قابل توسیع)
  • ہماری ٹیم کو معلوم ہے (سمجھ گیا)
  • ہمارے موجودہ ورک فلوز کے ساتھ انضمام (متحد)

چونکہ ہم اپنے سپرنٹ اور اندرونی کاموں کو منظم کرنے کے لیے جیرا کا استعمال کرتے ہیں، اس لیے ہم نے ایک اور پروجیکٹ بنانے کا فیصلہ کیا جو ہمارے کلائنٹس کو ٹکٹ جمع کرانے اور ان کے نتائج کو ٹریک کرنے میں مدد فراہم کرے گا۔ آنے والی درخواستوں اور داخلی کاموں کے انتظام کے لیے جیرا کا استعمال کرنے سے ہمیں ایک واحد کنبان بورڈ بنانے کی اجازت دی گئی جس سے ہم تمام عمل کو مجموعی طور پر دیکھ سکیں۔ ہمارے اندرونی "کلائنٹس" نے اضافی کاموں (جیسے ٹولز کو بہتر بنانا، کیڑے ٹھیک کرنا) کی کم اہم تفصیلات میں کھوج لگائے بغیر، صرف آلات کی درخواستیں دیکھیں۔

4 انجینئرز، 7000 سرورز اور ایک عالمی وبائی مرض
جیرا میں کنبن بورڈ

بونس کے طور پر، یہ حقیقت کہ قطاریں اور ترجیحات اب ہر کسی کو نظر آ رہی ہیں، اس نے یہ سمجھنا ممکن بنایا کہ "قطار میں کہاں" ایک مخصوص درخواست تھی اور اس سے پہلے کیا تھا۔ اس نے مالکان کو ہم سے رابطہ کیے بغیر اپنی درخواستوں کو دوبارہ ترجیح دینے کی اجازت دی۔ اسے گھسیٹیں اور بس۔ اس نے ہمیں جیرا میں تیار کردہ میٹرکس کی بنیاد پر درخواست کی اقسام کے مطابق اپنے SLAs کی نگرانی اور جانچ کرنے کی بھی اجازت دی۔

آلات لائف سائیکل ڈومین

ہر سرور ریک میں استعمال ہونے والے ہارڈ ویئر کے انتظام کی پیچیدگی کا تصور کرنے کی کوشش کریں۔ اس سے بھی بری بات یہ ہے کہ ہارڈ ویئر کے بہت سے ٹکڑوں (RAM، ROM) کو گودام سے سرور روم اور پیچھے منتقل کیا جا سکتا ہے۔ وہ بھی ناکام ہو جاتے ہیں یا لکھے جاتے ہیں اور تبدیل کر دیے جاتے ہیں اور متبادل/مرمت کے لیے سپلائر کو واپس کر دیتے ہیں۔ یہ سب سامان کی فزیکل مینٹیننس میں شامل کولیشن سروس کے ملازمین کو بتانا ضروری ہے۔ ان مسائل کو حل کرنے کے لیے، ہم نے فلاپی نامی ایک اندرونی ٹول بنایا۔ اس کا کام ہے:

  • فیلڈ اہلکاروں کے ساتھ مواصلات کا انتظام، تمام معلومات کا مجموعہ؛
  • ہر مکمل اور تصدیق شدہ سامان کی دیکھ بھال کے کام کے بعد "گودام" ڈیٹا کو اپ ڈیٹ کرنا۔

گودام، بدلے میں، گرافانا کا استعمال کرتے ہوئے تصور کیا جاتا ہے، جسے ہم اپنے تمام میٹرکس کو پلاٹ کرنے کے لیے استعمال کرتے ہیں۔ اس طرح، ہم ایک ہی ٹول کو گودام کے تصور اور دیگر پیداواری ضروریات کے لیے استعمال کرتے ہیں۔

4 انجینئرز، 7000 سرورز اور ایک عالمی وبائی مرضگرافانا میں گودام کے سامان کا کنٹرول پینل

سرور کے آلات کے لیے جو وارنٹی کے تحت ہیں، ہم ایک اور ٹول استعمال کرتے ہیں جسے ہم ڈسپیچر کہتے ہیں۔ وہ:

  • سسٹم لاگز جمع کرتا ہے؛
  • وینڈر کے لیے مطلوبہ فارمیٹ میں رپورٹیں تیار کرتا ہے۔
  • API کے ذریعے وینڈر سے ایک درخواست بناتا ہے؛
  • اس کی پیشرفت کی مزید ٹریکنگ کے لیے ایپلیکیشن شناخت کنندہ کو وصول اور اسٹور کرتا ہے۔

ایک بار جب ہمارا دعویٰ قبول کر لیا جاتا ہے (عام طور پر کاروباری اوقات کے اندر)، اسپیئر پارٹ کو مناسب ڈیٹا سینٹر کو بھیجا جاتا ہے اور عملہ اسے قبول کرتا ہے۔

4 انجینئرز، 7000 سرورز اور ایک عالمی وبائی مرض
جینکنز کنسول آؤٹ پٹ

کمیونیکیشن ڈومین

اپنے کاروبار کی تیز رفتار ترقی کو برقرار رکھنے کے لیے، جس کے لیے مسلسل بڑھتی ہوئی صلاحیت کی ضرورت ہے، ہمیں مقامی ڈیٹا سینٹرز میں تکنیکی ماہرین کے ساتھ کام کرنے کے طریقے کو اپنانا پڑا۔ اگر پہلے اسکیل اپ کا مطلب نئے سرورز خریدنا تھا، تو پھر ایک کنسولیڈیشن پروجیکٹ کے بعد (کوبرنیٹس میں منتقلی کی بنیاد پر) یہ بالکل مختلف ہو گیا۔ ہمارا ارتقاء "ریکس شامل کرنے" سے "سرورز کو دوبارہ تیار کرنے" تک۔

ایک نیا طریقہ استعمال کرنے کے لیے نئے ٹولز کی بھی ضرورت ہوتی ہے جس نے ڈیٹا سینٹر کے اہلکاروں کے ساتھ زیادہ آرام سے بات چیت کرنا ممکن بنایا۔ ان آلات کی ضرورت تھی:

  • سادگی؛
  • خود مختاری؛
  • کارکردگی؛
  • اعتبار.

ہمیں اپنے آپ کو زنجیر سے الگ کرنا تھا اور کام کی ساخت بنانا تھی تاکہ تکنیکی ماہرین سرور کے آلات کے ساتھ براہ راست کام کر سکیں۔ ہماری مداخلت کے بغیر اور کام کے بوجھ، کام کے اوقات، آلات کی دستیابی وغیرہ کے حوالے سے ان تمام مسائل کو باقاعدگی سے اٹھائے بغیر۔

اس کو حاصل کرنے کے لیے، ہم نے ہر ڈیٹا سینٹر میں آئی پیڈز انسٹال کیے۔ سرور سے منسلک ہونے کے بعد، درج ذیل ہوگا:

  • ڈیوائس تصدیق کرتی ہے کہ اس سرور کو واقعی کچھ کام کی ضرورت ہے۔
  • سرور پر چلنے والی درخواستیں بند ہیں (اگر ضروری ہو)؛
  • کام کی ہدایات کا ایک سیٹ سلیک چینل پر پوسٹ کیا جاتا ہے جس میں ضروری اقدامات کی وضاحت ہوتی ہے۔
  • کام کی تکمیل پر، ڈیوائس سرور کی آخری حالت کی درستگی کی جانچ کرتا ہے۔
  • اگر ضروری ہو تو ایپلیکیشنز کو دوبارہ شروع کرتا ہے۔

اس کے علاوہ، ہم نے ٹیکنیشن کی مدد کے لیے ایک سلیک بوٹ بھی تیار کیا۔ صلاحیتوں کی ایک وسیع رینج کی بدولت (ہم مسلسل فعالیت کو بڑھا رہے تھے)، بوٹ نے اپنے کام کو آسان بنا دیا، اور ہماری زندگی کو بہت آسان بنا دیا۔ اس طرح ہم نے اپنے آپ کو ورک فلو سے نکال کر سرورز کو دوبارہ بنانے اور برقرار رکھنے کے زیادہ تر عمل کو بہتر بنایا۔

4 انجینئرز، 7000 سرورز اور ایک عالمی وبائی مرض
ہمارے ڈیٹا سینٹرز میں سے ایک میں آئی پیڈ

ہارڈ ویئر ڈومین

ہمارے ڈیٹا سینٹر کے بنیادی ڈھانچے کو قابل اعتماد طریقے سے پیمانہ کرنے کے لیے ہر جزو میں اچھی مرئیت کی ضرورت ہوتی ہے، مثال کے طور پر:

  • ہارڈ ویئر کی ناکامی کا پتہ لگانا
  • سرور کی حالتیں (فعال، میزبان، زومبی، وغیرہ)
  • بجلی کی کھپت
  • فرم ویئر ورژن
  • اس پورے کاروبار کے لیے تجزیات

ہمارے حل ہمیں یہ فیصلہ کرنے کی اجازت دیتے ہیں کہ سامان کیسے، کہاں اور کب خریدنا ہے، بعض اوقات اس کی اصل ضرورت سے پہلے بھی۔ نیز، مختلف آلات پر بوجھ کی سطح کا تعین کرکے، ہم وسائل کی بہتر تقسیم حاصل کرنے میں کامیاب ہوئے۔ خاص طور پر، توانائی کی کھپت. اب ہم کسی سرور کے ریک میں انسٹال ہونے اور پاور سورس سے منسلک ہونے سے پہلے اس کی زندگی بھر اور اس کی حتمی ریٹائرمنٹ تک اس کی جگہ کے بارے میں باخبر فیصلے کر سکتے ہیں۔

4 انجینئرز، 7000 سرورز اور ایک عالمی وبائی مرض
گرافانا میں انرجی ڈیش بورڈ

اور پھر COVID-19 نمودار ہوا...

ہماری ٹیم ایسی ٹیکنالوجیز تخلیق کرتی ہے جو میڈیا کمپنیوں اور پبلشرز کو آن لائن بااختیار بناتی ہیں تاکہ زائرین کو متعلقہ مواد، پروڈکٹس اور خدمات تلاش کرنے میں مدد ملے جو ان کے لیے دلچسپی کا باعث ہو۔ ہمارا بنیادی ڈھانچہ کچھ دلچسپ خبریں جاری ہونے پر پیدا ہونے والی ٹریفک کی خدمت کے لیے ڈیزائن کیا گیا ہے۔

COVID-19 کے ارد گرد میڈیا کی شدید کوریج، ٹریفک میں اضافے کے ساتھ، اس کا مطلب یہ تھا کہ ہمیں فوری طور پر یہ سیکھنے کی ضرورت ہے کہ ان دباؤ سے کیسے نمٹا جائے۔ مزید یہ کہ یہ سب کچھ عالمی بحران کے دوران کرنا پڑا، جب سپلائی چین میں خلل پڑا تھا اور زیادہ تر عملہ گھر پر تھا۔

لیکن، جیسا کہ ہم نے کہا، ہمارا ماڈل پہلے ہی یہ فرض کر چکا ہے کہ:

  • ہمارے ڈیٹا سینٹرز میں موجود آلات، زیادہ تر حصے کے لیے، جسمانی طور پر ہمارے لیے ناقابل رسائی ہیں۔
  •  ہم تقریباً تمام جسمانی کام دور سے کرتے ہیں۔
  • کام متضاد طور پر، خود مختار اور بڑے پیمانے پر کیا جاتا ہے۔
  • ہم نئے آلات خریدنے کے بجائے "پرزوں سے تعمیر" کے طریقہ کار کا استعمال کرتے ہوئے آلات کی مانگ کو پورا کرتے ہیں۔
  • ہمارے پاس ایک گودام ہے جو ہمیں کچھ نیا بنانے کی اجازت دیتا ہے، اور نہ صرف معمول کی مرمت کرتا ہے۔

اس طرح، عالمی پابندیاں جنہوں نے بہت سی کمپنیوں کو ان کے ڈیٹا سینٹرز تک جسمانی رسائی حاصل کرنے سے روکا، کا ہم پر بہت کم اثر پڑا۔ اور جہاں تک اسپیئر پارٹس اور سرورز کا تعلق ہے، ہاں، ہم نے آلات کے مستحکم آپریشن کو یقینی بنانے کی کوشش کی۔ لیکن یہ ممکنہ واقعات کو روکنے کے مقصد سے کیا گیا تھا جب اچانک پتہ چلا کہ ہارڈ ویئر کا کچھ ٹکڑا دستیاب نہیں ہے۔ ہم نے اس بات کو یقینی بنایا کہ ہمارے ذخائر موجودہ طلب کو پورا کرنے کے مقصد کے بغیر بھرے جائیں۔

خلاصہ میں، میں یہ کہنا چاہوں گا کہ ڈیٹا سینٹر انڈسٹری میں کام کرنے کے لیے ہمارا نقطہ نظر ثابت کرتا ہے کہ ڈیٹا سینٹر کے فزیکل مینجمنٹ پر اچھے کوڈ ڈیزائن کے اصولوں کو لاگو کرنا ممکن ہے۔ اور شاید آپ کو یہ دلچسپ لگے گا۔

حقیقی: ٹائٹس

ماخذ: www.habr.com

نیا تبصرہ شامل کریں