اولیگ اناستاسیف کے ساتھ منی انٹرویو: اپاچی کیسینڈرا میں غلطی کی رواداری

اولیگ اناستاسیف کے ساتھ منی انٹرویو: اپاچی کیسینڈرا میں غلطی کی رواداری

Odnoklassniki RuNet پر Apache Cassandra کا سب سے بڑا صارف اور دنیا کے سب سے بڑے صارفین میں سے ایک ہے۔ ہم نے تصویر کی درجہ بندی کو ذخیرہ کرنے کے لیے 2010 میں کیسینڈرا کا استعمال شروع کیا، اور اب کیسینڈرا ہزاروں نوڈس پر ڈیٹا کے پیٹا بائٹس کا انتظام کرتی ہے، درحقیقت، ہم نے خود بھی تیار کیا ہے۔ نیو ایس کیو ایل ٹرانزیکشنل ڈیٹا بیس.
12 ستمبر کو ہم اپنے سینٹ پیٹرزبرگ کے دفتر میں منعقد کریں گے۔ دوسری ملاقات اپاچی کیسینڈرا کے لیے وقف ہے۔. تقریب کے مرکزی مقرر Odnoklassniki کے چیف انجینئر Oleg Anastasyev ہوں گے۔ اولیگ تقسیم شدہ اور غلطی برداشت کرنے والے نظام کے شعبے میں ماہر ہیں؛ وہ کیسینڈرا کے ساتھ 10 سال سے زیادہ عرصے سے کام کر رہے ہیں اور بار بار کانفرنسوں میں اس پروڈکٹ کو استعمال کرنے کی خصوصیات کے بارے میں بات کی۔.

میٹ اپ کے موقع پر، ہم نے اولیگ سے کیسنڈرا کے ساتھ تقسیم شدہ نظاموں کی خرابی کو برداشت کرنے کے بارے میں بات کی، پوچھا کہ وہ اس میٹنگ میں کیا بات کریں گے اور اس تقریب میں شرکت کیوں ضروری ہے۔

اولیگ نے اپنے پروگرامنگ کیریئر کا آغاز 1995 میں کیا۔ اس نے بینکنگ، ٹیلی کام اور ٹرانسپورٹ میں سافٹ ویئر تیار کیا۔ وہ پلیٹ فارم ٹیم پر 2007 سے Odnoklassniki میں ایک سرکردہ ڈویلپر کے طور پر کام کر رہا ہے۔ اس کی ذمہ داریوں میں ہائی لوڈ سسٹمز، بڑے ڈیٹا گوداموں، اور پورٹل کی کارکردگی اور وشوسنییتا کے مسائل کو حل کرنے کے لیے فن تعمیر اور حل تیار کرنا شامل ہے۔ وہ کمپنی کے اندر ڈویلپرز کو بھی تربیت دیتا ہے۔

- اولیگ، ہیلو! مئی میں ہوا پہلی ملاقاتاپاچی کیسینڈرا کے لیے وقف، شرکاء کا کہنا ہے کہ بات چیت رات گئے تک جاری رہی، براہ کرم مجھے بتائیں، پہلی ملاقات کے بارے میں آپ کے کیا تاثرات ہیں؟

مختلف کمپنیوں کے مختلف پس منظر والے ڈویلپرز اپنے درد، مسائل کے غیر متوقع حل اور حیرت انگیز کہانیاں لے کر آئے۔ ہم نے زیادہ تر میٹنگ کو ڈسکشن فارمیٹ میں کرنے کا انتظام کیا، لیکن اتنی زیادہ بحثیں ہوئیں کہ ہم منصوبہ بند موضوعات میں سے صرف ایک تہائی کو چھونے کے قابل تھے۔ ہم نے اس بات پر بہت زیادہ توجہ دی کہ ہم اپنی حقیقی پیداواری خدمات کی مثال کو استعمال کرتے ہوئے کس طرح اور کس چیز کی نگرانی کرتے ہیں۔

مجھے دلچسپی تھی اور مجھے واقعی یہ پسند آیا۔

- اعلان کے مطابق، دوسری ملاقات مکمل طور پر غلطی رواداری کے لئے وقف کیا جائے گا، آپ نے اس موضوع کا انتخاب کیوں کیا؟

کیسینڈرا ایک عام مصروف تقسیم شدہ نظام ہے جس میں صارف کی درخواستوں کی براہ راست خدمت کے علاوہ بہت زیادہ فعالیت ہے: گپ شپ، ناکامی کا پتہ لگانا، اسکیما کی تبدیلیوں کا پھیلاؤ، کلسٹر کی توسیع/کمی، اینٹی اینٹروپی، بیک اپ اور ریکوری وغیرہ۔ جیسا کہ کسی بھی تقسیم شدہ نظام میں، جیسے جیسے ہارڈ ویئر کی مقدار میں اضافہ ہوتا ہے، ناکامیوں کا امکان بڑھتا جاتا ہے، اسی طرح کیسینڈرا پروڈکشن کلسٹرز کے آپریشن میں ناکامیوں اور آپریٹر کی کارروائیوں کی صورت میں رویے کی پیش گوئی کرنے کے لیے اس کی ساخت کی گہری سمجھ کی ضرورت ہوتی ہے۔ کئی سالوں کے لئے Cassandra استعمال کرنے کے بعد، ہم اہم مہارت جمع ہے، جسے ہم اشتراک کرنے کے لیے تیار ہیں، اور ہم اس بات پر بھی تبادلہ خیال کرنا چاہتے ہیں کہ دکان کے ساتھی عام مسائل کو کیسے حل کرتے ہیں۔

- جب کیسنڈرا کی بات آتی ہے تو، آپ کا کیا مطلب ہے غلطی رواداری سے؟

سب سے پہلے، یقیناً، ہارڈویئر کی عام ناکامیوں سے بچنے کے لیے سسٹم کی صلاحیت: مشینوں، ڈسکوں، یا نوڈس/ڈیٹا سینٹرز کے ساتھ نیٹ ورک کنیکٹیویٹی کا نقصان۔ لیکن موضوع بذات خود بہت وسیع ہے اور خاص طور پر ناکامیوں سے بازیابی بھی شامل ہے، بشمول وہ ناکامیاں جن کے لیے لوگ شاذ و نادر ہی تیار ہوتے ہیں، مثال کے طور پر، آپریٹر کی غلطیاں۔

- کیا آپ سب سے زیادہ بھرے ہوئے اور سب سے بڑے ڈیٹا کلسٹر کی مثال دے سکتے ہیں؟

ہمارے سب سے بڑے کلسٹرز میں سے ایک گفٹ کلسٹر ہے: 200 سے زیادہ نوڈس اور سینکڑوں ٹی بی ڈیٹا۔ لیکن یہ سب سے زیادہ بھری ہوئی نہیں ہے، کیونکہ یہ تقسیم شدہ کیشے سے ڈھکی ہوئی ہے۔ ہمارے مصروف ترین کلسٹرز لکھنے کے لیے دسیوں ہزار RPS اور پڑھنے کے لیے ہزاروں RPS کو ہینڈل کرتے ہیں۔

- زبردست! کوئی چیز کتنی بار ٹوٹتی ہے؟

ہاں ہر وقت! مجموعی طور پر، ہمارے پاس 6 ہزار سے زیادہ سرورز ہیں، اور ہر ہفتے چند سرورز اور کئی درجن ڈسکوں کو تبدیل کیا جاتا ہے (مشین بیڑے کی اپ گریڈیشن اور توسیع کے متوازی عمل کو مدنظر رکھے بغیر)۔ ہر قسم کی ناکامی کے لیے واضح ہدایات موجود ہیں کہ کیا کرنا ہے اور کس ترتیب میں، جب بھی ممکن ہو سب کچھ خودکار ہو جاتا ہے، اس لیے ناکامیاں معمول کی بات ہیں اور 99% کیسز میں صارفین کا دھیان نہیں جاتا۔

- آپ اس طرح کے انکار سے کیسے نمٹتے ہیں؟

کیسینڈرا کے آپریشن اور پہلے واقعات کے آغاز سے ہی، ہم نے بیک اپ اور ان سے بازیابی کے طریقہ کار پر کام کیا، تعیناتی کے ایسے طریقہ کار بنائے جو کیسنڈرا کلسٹرز کی حالت کو مدنظر رکھتے ہیں اور مثال کے طور پر، نوڈس کو دوبارہ شروع کرنے کی اجازت نہیں دیتے۔ اگر ڈیٹا کا نقصان ممکن ہے۔ ہم میٹنگ میں اس سب کے بارے میں بات کرنے کا ارادہ رکھتے ہیں۔

- جیسا کہ آپ نے کہا، کوئی مکمل طور پر قابل اعتماد نظام نہیں ہیں۔ آپ کس قسم کی ناکامیوں کے لیے تیار ہیں اور زندہ رہنے کے قابل ہیں؟

اگر ہم Cassandra کلسٹرز کی اپنی تنصیبات کے بارے میں بات کرتے ہیں، تو صارفین کو کچھ نظر نہیں آئے گا اگر ہم ایک DC یا ایک پورے DC میں کئی مشینیں کھو دیتے ہیں (ایسا ہوا ہے)۔ DCs کی تعداد میں اضافے کے ساتھ، ہم دو DCs کی ناکامی کی صورت میں آپریٹیبلٹی کو یقینی بنانے کے بارے میں سوچ رہے ہیں۔

- آپ کے خیال میں کیسینڈرا میں غلطی رواداری کے معاملے میں کیا کمی ہے؟

کیسینڈرا، بہت سے دوسرے ابتدائی NoSQL اسٹورز کی طرح، اس کے اندرونی ڈھانچے اور رونما ہونے والے متحرک عمل کے بارے میں گہری سمجھ کی ضرورت ہے۔ میں کہوں گا کہ اس میں سادگی، پیشین گوئی اور مشاہدے کی کمی ہے۔ لیکن اجلاس کے دیگر شرکاء کی رائے سننا دلچسپ ہوگا!

اولیگ، سوالات کے جوابات دینے کے لیے وقت نکالنے کے لیے آپ کا بہت شکریہ!

ہم ہر اس شخص کا انتظار کر رہے ہیں جو ہمارے سینٹ پیٹرزبرگ آفس میں 12 ستمبر کو ہونے والی میٹنگ میں اپاچی کیسینڈرا کو چلانے کے شعبے کے ماہرین سے بات چیت کرنا چاہتے ہیں۔

آو، یہ دلچسپ ہو جائے گا!

تقریب کے لیے رجسٹر ہوں۔

ماخذ: www.habr.com

نیا تبصرہ شامل کریں