بڑا اور چھوٹا ڈیٹا ٹیسٹر: رجحانات، نظریہ، میری کہانی

سب کو ہیلو، میرا نام الیگزینڈر ہے، اور میں ایک ڈیٹا کوالٹی انجینئر ہوں جو ڈیٹا کو اس کے معیار کے لیے چیک کرتا ہے۔ یہ مضمون اس بات کے بارے میں بات کرے گا کہ میں اس تک کیسے پہنچا اور 2020 میں ٹیسٹنگ کا یہ علاقہ ایک لہر کی چوٹی پر کیوں تھا۔

بڑا اور چھوٹا ڈیٹا ٹیسٹر: رجحانات، نظریہ، میری کہانی

عالمی رجحان

آج کی دنیا ایک اور تکنیکی انقلاب کا سامنا کر رہی ہے، جس کا ایک پہلو ہر قسم کی کمپنیوں کی طرف سے اپنی سیلز، منافع اور PR کے فلائی وہیل کو فروغ دینے کے لیے جمع کردہ ڈیٹا کا استعمال ہے۔ ایسا لگتا ہے کہ اچھے (معیاری) ڈیٹا کی موجودگی، نیز ہنر مند دماغ جو اس سے پیسہ کما سکتے ہیں (صحیح طریقے سے پروسیس، ویژولائز، مشین لرننگ ماڈلز وغیرہ)، آج بہت سے لوگوں کے لیے کامیابی کی کلید بن چکے ہیں۔ اگر 15-20 سال پہلے بڑی کمپنیاں بنیادی طور پر ڈیٹا اکٹھا کرنے اور منیٹائزیشن کے ساتھ گہرے کام میں شامل تھیں، تو آج تقریباً تمام سمجھدار لوگوں کا یہی حال ہے۔

اس سلسلے میں، کئی سال پہلے، دنیا بھر میں ملازمت کی تلاش کے لیے وقف تمام پورٹلز ڈیٹا سائنسدانوں کے لیے خالی آسامیوں سے پُر ہونے لگے، کیونکہ سب کو یقین تھا کہ ایسے ماہر کی خدمات حاصل کرنے کے بعد، مشین لرننگ کا ایک سپر ماڈل بنانا ممکن ہو جائے گا۔ مستقبل کی پیشن گوئی کریں اور کمپنی کے لیے "کوانٹم لیپ" انجام دیں۔ وقت گزرنے کے ساتھ، لوگوں نے محسوس کیا کہ یہ نقطہ نظر تقریبا کبھی بھی کہیں بھی کام نہیں کرتا، کیونکہ ایسے ماہرین کے ہاتھ میں آنے والا تمام ڈیٹا ٹریننگ ماڈلز کے لیے موزوں نہیں ہے۔

اور ڈیٹا سائنسدانوں کی جانب سے درخواستیں شروع ہوئیں: "آئیے ان اور ان سے مزید ڈیٹا خریدیں..."، "ہمارے پاس کافی ڈیٹا نہیں ہے..."، "ہمیں کچھ اور ڈیٹا کی ضرورت ہے، ترجیحاً اعلیٰ معیار کا..." . ان درخواستوں کی بنیاد پر، ان کمپنیوں کے درمیان متعدد تعاملات ہونے لگے جو ڈیٹا کے ایک یا دوسرے سیٹ کی مالک ہیں۔ فطری طور پر، اس کے لیے اس عمل کی تکنیکی تنظیم کی ضرورت تھی - ڈیٹا سورس سے منسلک ہونا، اسے ڈاؤن لوڈ کرنا، یہ چیک کرنا کہ یہ مکمل لوڈ ہے، وغیرہ۔ اس طرح کے عمل کی تعداد بڑھنے لگی، اور آج ہمیں ایک اور قسم کی بہت زیادہ ضرورت ہے۔ ماہرین - ڈیٹا کوالٹی انجینئرز - وہ لوگ جو سسٹم میں ڈیٹا کے بہاؤ (ڈیٹا پائپ لائنز)، ان پٹ اور آؤٹ پٹ پر ڈیٹا کے معیار کی نگرانی کریں گے، اور ان کی کفایت، سالمیت اور دیگر خصوصیات کے بارے میں نتیجہ اخذ کریں گے۔

ڈیٹا کوالٹی انجینئرز کا رجحان ہمارے پاس امریکہ سے آیا، جہاں سرمایہ داری کے بڑھتے ہوئے دور کے درمیان، کوئی بھی ڈیٹا کی جنگ ہارنے کے لیے تیار نہیں ہے۔ ذیل میں میں نے امریکہ میں ملازمت کی تلاش کی دو سب سے مشہور سائٹوں کے اسکرین شاٹس فراہم کیے ہیں: www.monster.com и www.dice.com - جو 17 مارچ 2020 تک کا ڈیٹا دکھاتا ہے جو مطلوبہ الفاظ کا استعمال کرتے ہوئے موصول ہونے والی آسامیوں کی تعداد پر ہوتا ہے: ڈیٹا کوالٹی اور ڈیٹا سائنٹسٹ۔

www.monster.com

ڈیٹا سائنٹسٹ – 21416 آسامیاں
ڈیٹا کوالٹی - 41104 آسامیاں

بڑا اور چھوٹا ڈیٹا ٹیسٹر: رجحانات، نظریہ، میری کہانی
بڑا اور چھوٹا ڈیٹا ٹیسٹر: رجحانات، نظریہ، میری کہانی

www.dice.com

ڈیٹا سائنٹسٹ – 404 آسامیاں
ڈیٹا کوالٹی - 2020 آسامیاں

بڑا اور چھوٹا ڈیٹا ٹیسٹر: رجحانات، نظریہ، میری کہانی
بڑا اور چھوٹا ڈیٹا ٹیسٹر: رجحانات، نظریہ، میری کہانی

ظاہر ہے کہ یہ پیشے کسی بھی طرح سے ایک دوسرے سے مقابلہ نہیں کرتے۔ اسکرین شاٹس کے ساتھ، میں صرف لیبر مارکیٹ کی موجودہ صورتحال کو ڈیٹا کوالٹی انجینئرز کی درخواستوں کے حوالے سے واضح کرنا چاہتا تھا، جن میں سے ڈیٹا سائنسدانوں سے کہیں زیادہ کی ضرورت ہے۔

جون 2019 میں، EPAM نے جدید IT مارکیٹ کی ضروریات کا جواب دیتے ہوئے، ڈیٹا کوالٹی کو ایک الگ پریکٹس میں الگ کر دیا۔ ڈیٹا کوالٹی انجینئرز، اپنے روزمرہ کے کام کے دوران، ڈیٹا کا انتظام کرتے ہیں، نئے حالات اور نظاموں میں اس کے رویے کی جانچ کرتے ہیں، ڈیٹا کی مطابقت، اس کی کفایت اور مطابقت کی نگرانی کرتے ہیں۔ اس سب کے ساتھ، عملی معنوں میں، ڈیٹا کوالٹی انجینئرز واقعی کلاسیکل فنکشنل ٹیسٹنگ کے لیے بہت کم وقت دیتے ہیں، لیکن یہ بہت زیادہ اس منصوبے پر منحصر ہے (میں ذیل میں ایک مثال دوں گا)۔

ڈیٹا کوالٹی انجینئر کی ذمہ داریاں صرف ڈیٹا بیس ٹیبلز میں "نلز، شمار اور رقوم" کے لیے معمول کی دستی/خودکار جانچ تک محدود نہیں ہیں، بلکہ اس کے لیے گاہک کی کاروباری ضروریات کی گہری سمجھ کی ضرورت ہوتی ہے اور، اس کے مطابق، دستیاب ڈیٹا کو تبدیل کرنے کی صلاحیت مفید کاروباری معلومات.

ڈیٹا کوالٹی تھیوری

بڑا اور چھوٹا ڈیٹا ٹیسٹر: رجحانات، نظریہ، میری کہانی

ایسے انجینئر کے کردار کو مکمل طور پر تصور کرنے کے لیے، آئیے یہ معلوم کریں کہ تھیوری میں ڈیٹا کوالٹی کیا ہے۔

ڈیٹا کوالٹی - ڈیٹا مینجمنٹ کے مراحل میں سے ایک (ایک پوری دنیا جسے ہم آپ کے لیے خود مطالعہ کرنے کے لیے چھوڑ دیں گے) اور درج ذیل معیارات کے مطابق ڈیٹا کا تجزیہ کرنے کے لیے ذمہ دار ہے:

بڑا اور چھوٹا ڈیٹا ٹیسٹر: رجحانات، نظریہ، میری کہانی
میرے خیال میں ہر ایک نکات کو سمجھنے کی ضرورت نہیں ہے (نظریہ میں انہیں "ڈیٹا کے طول و عرض" کہا جاتا ہے)، وہ تصویر میں کافی اچھی طرح سے بیان کیے گئے ہیں۔ لیکن جانچ کا عمل خود ان خصوصیات کو ٹیسٹ کیسز میں کاپی کرنے اور ان کی جانچ پڑتال کا مطلب نہیں ہے۔ ڈیٹا کوالٹی میں، جیسا کہ کسی بھی دوسری قسم کی جانچ میں، سب سے پہلے، ضروری ہے کہ ڈیٹا کوالٹی کی ضروریات کو تیار کیا جائے جس پر پروجیکٹ کے شرکاء کے ساتھ اتفاق کیا گیا ہے جو کاروباری فیصلے کرتے ہیں۔

ڈیٹا کوالٹی پروجیکٹ پر انحصار کرتے ہوئے، ایک انجینئر مختلف کام انجام دے سکتا ہے: ڈیٹا کے معیار کی سطحی تشخیص کے ساتھ ایک عام آٹومیشن ٹیسٹر سے، اس شخص تک جو اوپر دیے گئے معیار کے مطابق ڈیٹا کی گہری پروفائلنگ کرتا ہے۔

ڈیٹا مینجمنٹ، ڈیٹا کوالٹی اور متعلقہ عمل کی ایک بہت ہی تفصیلی وضاحت نامی کتاب میں اچھی طرح سے بیان کی گئی ہے۔ "DAMA-DMBOK: ڈیٹا مینجمنٹ باڈی آف نالج: دوسرا ایڈیشن". میں اس موضوع کے تعارف کے طور پر اس کتاب کی انتہائی سفارش کرتا ہوں (آپ کو مضمون کے آخر میں اس کا لنک مل جائے گا)۔

میری کہانی

IT انڈسٹری میں، میں نے پروڈکٹ کمپنیوں میں جونیئر ٹیسٹر سے لے کر EPAM میں لیڈ ڈیٹا کوالٹی انجینئر تک کام کیا۔ ایک ٹیسٹر کے طور پر تقریباً دو سال کام کرنے کے بعد، مجھے پختہ یقین تھا کہ میں نے بالکل تمام قسم کی جانچ کر لی ہے: رجعت، فعال، تناؤ، استحکام، سلامتی، UI، وغیرہ۔ ایک ہی وقت میں تین پروگرامنگ زبانوں میں کام کیا: Java، Scala، Python۔

پیچھے مڑ کر، میں سمجھتا ہوں کہ میری مہارت کا سیٹ اتنا متنوع کیوں تھا—میں ڈیٹا پر مبنی پروجیکٹس میں شامل تھا، چھوٹے اور بڑے۔ یہ وہی چیز ہے جس نے مجھے بہت سے اوزاروں اور ترقی کے مواقع کی دنیا میں لایا۔

نئے علم اور ہنر حاصل کرنے کے لیے مختلف ٹولز اور مواقع کی تعریف کرنے کے لیے، بس نیچے دی گئی تصویر کو دیکھیں، جو "ڈیٹا اور اے آئی" کی دنیا میں سب سے زیادہ مقبول کو دکھاتی ہے۔

بڑا اور چھوٹا ڈیٹا ٹیسٹر: رجحانات، نظریہ، میری کہانی
اس قسم کی مثال ہر سال مشہور وینچر کیپیٹلسٹ میٹ ٹرک کی طرف سے مرتب کی جاتی ہے، جو سافٹ ویئر ڈویلپمنٹ سے آتا ہے۔ یہاں لنک اس کے بلاگ پر اور وینچر کیپٹل فرمجہاں وہ ایک پارٹنر کے طور پر کام کرتا ہے۔

میں پیشہ ورانہ طور پر خاص طور پر تیزی سے بڑھ گیا جب میں اس پروجیکٹ کا واحد ٹیسٹر تھا، یا کم از کم پروجیکٹ کے آغاز میں۔ یہ ایک ایسا لمحہ ہے کہ آپ کو جانچ کے پورے عمل کے لیے ذمہ دار ہونا پڑے گا، اور آپ کے پاس پیچھے ہٹنے کا کوئی موقع نہیں ہے، صرف آگے بڑھنا ہے۔ سب سے پہلے یہ خوفناک تھا، لیکن اب اس طرح کے ٹیسٹ کے تمام فوائد میرے لئے واضح ہیں:

  • آپ پوری ٹیم کے ساتھ بات چیت کرنا شروع کر دیتے ہیں جیسا کہ پہلے کبھی نہیں ہوا، کیونکہ مواصلت کے لیے کوئی پراکسی نہیں ہے: نہ ٹیسٹ مینیجر اور نہ ہی ساتھی ٹیسٹرز۔
  • پروجیکٹ میں غرق ناقابل یقین حد تک گہرا ہو جاتا ہے، اور آپ کے پاس تمام اجزاء کے بارے میں معلومات ہوتی ہیں، دونوں عمومی اور تفصیل سے۔
  • ڈویلپرز آپ کو "ٹیسٹ کرنے والے اس آدمی کے طور پر نہیں دیکھتے ہیں جو نہیں جانتا کہ وہ کیا کر رہا ہے،" بلکہ ایک برابر کے طور پر جو ٹیم کے لیے اپنے خودکار ٹیسٹوں اور کیڑے کے مخصوص جزو میں ظاہر ہونے کی توقع کے ساتھ ناقابل یقین فوائد پیدا کرتا ہے۔ مصنوعات
  • نتیجے کے طور پر، آپ زیادہ موثر، زیادہ اہل، اور زیادہ مانگ میں ہیں۔

جیسے جیسے پروجیکٹ بڑھتا گیا، 100% معاملات میں میں نئے ٹیسٹرز کے لیے ایک سرپرست بن گیا، انہیں سکھاتا اور اس علم کو منتقل کرتا رہا جو میں نے خود سیکھا تھا۔ ایک ہی وقت میں، پراجیکٹ پر منحصر ہے، مجھے انتظامیہ کی طرف سے ہمیشہ آٹو ٹیسٹنگ کے اعلیٰ ترین ماہرین نہیں ملے اور اس کے لیے یا تو انہیں آٹومیشن کی تربیت دینے کی ضرورت تھی (دلچسپی رکھنے والوں کے لیے) یا روزمرہ کی سرگرمیوں میں استعمال کے لیے ٹولز بنانے کی ضرورت تھی۔ ڈیٹا بنانے اور انہیں سسٹم میں لوڈ کرنے کے لیے، لوڈ ٹیسٹنگ/استحکام ٹیسٹنگ "جلدی"، وغیرہ کو انجام دینے کے لیے ایک ٹول)۔

ایک مخصوص پروجیکٹ کی مثال

بدقسمتی سے، انکشاف نہ کرنے کی ذمہ داریوں کی وجہ سے، میں ان پراجیکٹس کے بارے میں تفصیل سے بات نہیں کر سکتا جن پر میں نے کام کیا، لیکن میں کسی ایک پروجیکٹ پر ڈیٹا کوالٹی انجینئر کے مخصوص کاموں کی مثالیں دوں گا۔

اس منصوبے کا خلاصہ یہ ہے کہ اس کی بنیاد پر مشین لرننگ ماڈلز کی تربیت کے لیے ڈیٹا تیار کرنے کے لیے ایک پلیٹ فارم کو نافذ کیا جائے۔ صارف امریکہ کی ایک بڑی دوا ساز کمپنی تھی۔ تکنیکی طور پر یہ ایک کلسٹر تھا۔ Kubernetes، کی طرف بڑھ رہا ہے۔ AWS EC2۔ مثالیں، کئی مائیکرو سروسز اور EPAM کے بنیادی اوپن سورس پروجیکٹ کے ساتھ - فوج، ایک مخصوص گاہک کی ضروریات کے مطابق ڈھال لیا گیا (اب اس منصوبے کو دوبارہ جنم دیا گیا ہے۔ اوڈاہو)۔ ETL کے عمل کو استعمال کرتے ہوئے منظم کیا گیا تھا۔ اپاچی ایئر فلو اور سے ڈیٹا منتقل کیا گیا۔ سیلزفورس کسٹمر کے نظام میں AWS S3۔ بالٹیاں۔ اس کے بعد، مشین لرننگ ماڈل کی ایک ڈاکر امیج پلیٹ فارم پر لگائی گئی، جسے تازہ ڈیٹا پر تربیت دی گئی اور REST API انٹرفیس کا استعمال کرتے ہوئے، ایسی پیشین گوئیاں تیار کی گئیں جو کاروبار کے لیے دلچسپی رکھتی تھیں اور مخصوص مسائل کو حل کرتی تھیں۔

بصری طور پر، ہر چیز کچھ اس طرح نظر آتی تھی:

بڑا اور چھوٹا ڈیٹا ٹیسٹر: رجحانات، نظریہ، میری کہانی
اس پروجیکٹ پر کافی فنکشنل ٹیسٹنگ موجود تھی، اور فیچر ڈویلپمنٹ کی رفتار اور ریلیز سائیکل (دو ہفتے کے اسپرنٹ) کی رفتار کو برقرار رکھنے کی ضرورت کے پیش نظر، فوری طور پر انتہائی اہم اجزاء کی خودکار جانچ کے بارے میں سوچنا ضروری تھا۔ نظام. کبرنیٹس پر مبنی زیادہ تر پلیٹ فارم خود میں لاگو کیے گئے آٹو ٹیسٹس کے ذریعے احاطہ کرتا تھا۔ روبوٹ فریم ورک + ازگر، لیکن ان کی حمایت اور توسیع کرنا بھی ضروری تھا۔ اس کے علاوہ، گاہک کی سہولت کے لیے، کلسٹر میں تعینات مشین لرننگ ماڈلز کا انتظام کرنے کے لیے ایک GUI بنایا گیا تھا، ساتھ ہی یہ بتانے کی صلاحیت بھی کہ ماڈلز کی تربیت کے لیے ڈیٹا کو کہاں اور کہاں منتقل کرنے کی ضرورت ہے۔ اس وسیع اضافے میں خودکار فنکشنل ٹیسٹنگ کی توسیع شامل تھی، جو زیادہ تر REST API کالز اور اختتامی 2-end UI ٹیسٹوں کی ایک چھوٹی تعداد کے ذریعے کی گئی تھی۔ اس تمام تحریک کے خط استوا کے آس پاس، ہمارے ساتھ ایک دستی ٹیسٹر شامل ہوا جس نے مصنوعات کے ورژن کی قبولیت کی جانچ اور اگلی ریلیز کی قبولیت کے حوالے سے کسٹمر کے ساتھ بات چیت کے ساتھ ایک بہترین کام کیا۔ اس کے علاوہ، ایک نئے ماہر کی آمد کی وجہ سے، ہم اپنے کام کو دستاویز کرنے اور کئی انتہائی اہم دستی چیک شامل کرنے میں کامیاب ہو گئے جن کا خودکار ہونا ابھی مشکل تھا۔

اور آخر کار، پلیٹ فارم سے استحکام حاصل کرنے اور اس پر GUI ایڈ آن کے بعد، ہم نے Apache Airflow DAGs کا استعمال کرتے ہوئے ETL پائپ لائنیں بنانا شروع کر دیں۔ خودکار ڈیٹا کے معیار کی جانچ خصوصی ایئر فلو DAGs لکھ کر کی گئی جس نے ETL عمل کے نتائج کی بنیاد پر ڈیٹا کو چیک کیا۔ اس پروجیکٹ کے حصے کے طور پر، ہم خوش قسمت تھے اور کسٹمر نے ہمیں گمنام ڈیٹا سیٹس تک رسائی دی جس پر ہم نے تجربہ کیا۔ ہم نے اقسام کی تعمیل، ٹوٹے ہوئے ڈیٹا کی موجودگی، پہلے اور بعد کے ریکارڈز کی کل تعداد، ایگریگیشن کے لیے ETL عمل کے ذریعے کی گئی تبدیلیوں کا موازنہ، کالم کے ناموں کو تبدیل کرنے، اور دیگر چیزوں کے لیے ڈیٹا لائن کو چیک کیا۔ اس کے علاوہ، ان چیکس کو مختلف ڈیٹا ذرائع، مثال کے طور پر، سیلز فورس کے علاوہ، MySQL تک بھی سکیل کیا گیا تھا۔

حتمی ڈیٹا کوالٹی چیک پہلے ہی S3 سطح پر کیے گئے تھے، جہاں وہ محفوظ کیے گئے تھے اور مشین لرننگ ماڈلز کی تربیت کے لیے استعمال کے لیے تیار تھے۔ S3 بالٹی پر واقع فائنل CSV فائل سے ڈیٹا حاصل کرنے اور اسے درست کرنے کے لیے، کوڈ کا استعمال کرتے ہوئے لکھا گیا boto3 کلائنٹس.

گاہک کی طرف سے ڈیٹا کا کچھ حصہ ایک S3 بالٹی میں اور کچھ حصہ دوسرے میں ذخیرہ کرنے کی بھی ضرورت تھی۔ اس کے لیے اس طرح کی چھانٹی کی وشوسنییتا کو جانچنے کے لیے اضافی چیک لکھنے کی بھی ضرورت تھی۔

دوسرے منصوبوں سے عمومی تجربہ

ڈیٹا کوالٹی انجینئر کی سرگرمیوں کی عمومی فہرست کی ایک مثال:

  • خودکار ٹول کے ذریعے ٹیسٹ ڈیٹا (درست غلط بڑا چھوٹا) تیار کریں۔
  • تیار کردہ ڈیٹا سیٹ کو اصل ماخذ پر اپ لوڈ کریں اور چیک کریں کہ یہ استعمال کے لیے تیار ہے۔
  • ڈیٹا کے ایک سیٹ کو سورس اسٹوریج سے حتمی یا انٹرمیڈیٹ سٹوریج تک پروسیس کرنے کے لیے ETL عمل شروع کریں سیٹنگز کے ایک مخصوص سیٹ کا استعمال کرتے ہوئے (اگر ممکن ہو تو ETL کام کے لیے قابل ترتیب پیرامیٹرز سیٹ کریں)۔
  • ETL عمل کے ذریعے پروسیس کیے گئے ڈیٹا کو اس کے معیار اور کاروباری تقاضوں کی تعمیل کے لیے تصدیق کریں۔

ایک ہی وقت میں، جانچ کی بنیادی توجہ صرف اس حقیقت پر نہیں ہونی چاہیے کہ سسٹم میں ڈیٹا کا بہاؤ اصولی طور پر کام کر چکا ہے اور انجام کو پہنچ چکا ہے (جو کہ فنکشنل ٹیسٹنگ کا حصہ ہے)، بلکہ زیادہ تر ڈیٹا کی جانچ اور تصدیق پر ہونا چاہیے۔ متوقع تقاضوں کی تعمیل، بے ضابطگیوں کی نشاندہی اور دیگر چیزوں کے لیے۔

فورم کے اوزار

اس طرح کے ڈیٹا کنٹرول کی تکنیکوں میں سے ایک ڈیٹا پروسیسنگ کے ہر مرحلے پر چین کی جانچ کی تنظیم ہوسکتی ہے، ادب میں نام نہاد "ڈیٹا چین" - ماخذ سے حتمی استعمال کے نقطہ تک ڈیٹا کا کنٹرول۔ اس قسم کے چیک اکثر ایس کیو ایل کے سوالات کی جانچ پڑتال لکھ کر لاگو ہوتے ہیں۔ یہ واضح ہے کہ اس طرح کے سوالات ممکنہ حد تک ہلکے ہونے چاہئیں اور ڈیٹا کوالٹی کے انفرادی ٹکڑوں کو چیک کریں (ٹیبل میٹا ڈیٹا، خالی لائنیں، NULLs، نحو میں خرابیاں - جانچ کے لیے درکار دیگر صفات)۔

ریگریشن ٹیسٹنگ کے معاملے میں، جو ریڈی میڈ (غیر تبدیل شدہ، قدرے قابل تبدیلی) ڈیٹا سیٹس کا استعمال کرتا ہے، آٹوٹیسٹ کوڈ معیار کی تعمیل کے لیے ڈیٹا چیک کرنے کے لیے تیار ٹیمپلیٹس کو اسٹور کر سکتا ہے (متوقع ٹیبل میٹا ڈیٹا کی تفصیل؛ قطار کے نمونے کی اشیاء جو ہو سکتی ہیں۔ ٹیسٹ کے دوران تصادفی طور پر منتخب کیا گیا، وغیرہ)۔

اس کے علاوہ، جانچ کے دوران، آپ کو اپاچی ایئر فلو جیسے فریم ورک کا استعمال کرتے ہوئے ETL ٹیسٹ کے عمل کو لکھنا ہوگا۔ اپاچی چمک یا بلیک باکس کلاؤڈ ٹائپ ٹول بھی جی سی پی ڈیٹاپریپ, GCP ڈیٹا فلو اور اسی طرح. یہ صورت حال ٹیسٹ انجینئر کو مندرجہ بالا ٹولز کے آپریشن کے اصولوں میں خود کو غرق کرنے پر مجبور کرتی ہے اور اس سے بھی زیادہ مؤثر طریقے سے دونوں فنکشنل ٹیسٹنگ (مثال کے طور پر، کسی پروجیکٹ پر موجود ETL عمل) کرتے ہیں اور ڈیٹا چیک کرنے کے لیے ان کا استعمال کرتے ہیں۔ خاص طور پر، Apache Airflow کے پاس مقبول تجزیاتی ڈیٹا بیس کے ساتھ کام کرنے کے لیے تیار آپریٹرز ہیں، مثال کے طور پر GCP BigQuery. اس کے استعمال کی سب سے بنیادی مثال پہلے ہی بیان کی جا چکی ہے۔ یہاں، لہذا میں خود کو نہیں دہراؤں گا۔

تیار حل کے علاوہ، کوئی بھی آپ کو اپنی تکنیکوں اور اوزاروں کو لاگو کرنے سے منع نہیں کرتا ہے۔ یہ نہ صرف پراجیکٹ کے لیے بلکہ خود ڈیٹا کوالٹی انجینئر کے لیے بھی فائدہ مند ہو گا، جو اس طرح اپنے تکنیکی افق اور کوڈنگ کی مہارت کو بہتر بنائے گا۔

یہ ایک حقیقی پروجیکٹ پر کیسے کام کرتا ہے۔

"ڈیٹا چین"، ای ٹی ایل اور ہر جگہ چیک کرنے کے بارے میں آخری پیراگراف کی ایک اچھی مثال ایک حقیقی پروجیکٹ سے درج ذیل عمل ہے:

بڑا اور چھوٹا ڈیٹا ٹیسٹر: رجحانات، نظریہ، میری کہانی

یہاں، مختلف ڈیٹا (قدرتی طور پر، ہمارے ذریعہ تیار کردہ) ہمارے سسٹم کے ان پٹ "فنل" میں داخل ہوتے ہیں: درست، غلط، مخلوط، وغیرہ، پھر وہ فلٹر ہوتے ہیں اور ایک درمیانی اسٹوریج میں ختم ہوتے ہیں، پھر وہ دوبارہ تبدیلیوں کے ایک سلسلے سے گزرتے ہیں۔ اور حتمی اسٹوریج میں رکھے گئے ہیں، جہاں سے، بدلے میں، تجزیات، ڈیٹا مارٹس کی تعمیر اور کاروباری بصیرت کی تلاش کی جائے گی۔ اس طرح کے نظام میں، ETL کے عمل کو فعال طور پر جانچے بغیر، ہم تبدیلیوں سے پہلے اور بعد میں ڈیٹا کے معیار کے ساتھ ساتھ تجزیات کے آؤٹ پٹ پر توجہ مرکوز کرتے ہیں۔

مندرجہ بالا کا خلاصہ کرنے کے لیے، قطع نظر اس جگہوں سے جہاں میں نے کام کیا، ہر جگہ میں ڈیٹا پروجیکٹس میں شامل تھا جس میں درج ذیل خصوصیات کا اشتراک کیا گیا تھا:

  • صرف آٹومیشن کے ذریعے ہی آپ کچھ معاملات کی جانچ کر سکتے ہیں اور کاروبار کے لیے قابل قبول ریلیز سائیکل حاصل کر سکتے ہیں۔
  • اس طرح کے پروجیکٹ پر ٹیسٹر ٹیم کے سب سے معزز ممبروں میں سے ایک ہوتا ہے، کیونکہ اس سے ہر ایک کو بہت فائدہ ہوتا ہے (ٹیسٹنگ میں تیزی، ڈیٹا سائنٹسٹ سے اچھا ڈیٹا، ابتدائی مراحل میں نقائص کی نشاندہی)۔
  • اس سے کوئی فرق نہیں پڑتا کہ آپ اپنے ہارڈ ویئر پر کام کرتے ہیں یا بادلوں میں - تمام وسائل کو ایک کلسٹر میں خلاصہ کیا جاتا ہے جیسے Hortonworks، Cloudera، Mesos، Kubernetes، وغیرہ۔
  • پروجیکٹ مائیکرو سرویس اپروچ پر بنائے گئے ہیں، تقسیم شدہ اور متوازی کمپیوٹنگ غالب ہے۔

میں نوٹ کرنا چاہوں گا کہ ڈیٹا کوالٹی کے شعبے میں ٹیسٹنگ کرتے وقت، ایک ٹیسٹنگ ماہر اپنی پیشہ ورانہ توجہ کو پروڈکٹ کے کوڈ اور استعمال شدہ ٹولز پر مرکوز کرتا ہے۔

ڈیٹا کوالٹی ٹیسٹنگ کی مخصوص خصوصیات

اس کے علاوہ، اپنے لیے، میں نے درج ذیل کی نشاندہی کی ہے (میں فوری طور پر ایک ریزرویشن کروں گا کہ وہ بہت عام اور خصوصی طور پر موضوعی ہیں) ڈیٹا (بگ ڈیٹا) پروجیکٹس (سسٹم) اور دیگر شعبوں میں جانچ کی مخصوص خصوصیات:

بڑا اور چھوٹا ڈیٹا ٹیسٹر: رجحانات، نظریہ، میری کہانی

کارآمد ویب سائٹس

  1. نظریہ: DAMA-DMBOK: ڈیٹا مینجمنٹ باڈی آف نالج: دوسرا ایڈیشن.
  2. تربیتی مرکز EPAM 
  3. ابتدائی ڈیٹا کوالٹی انجینئر کے لیے تجویز کردہ مواد:
    1. Stepik پر مفت کورس: ڈیٹا بیس کا تعارف
    2. لنکڈ ان لرننگ پر کورس: ڈیٹا سائنس کی بنیادیں: ڈیٹا انجینئرنگ.
    3. مضامین:
    4. ویڈیو:

حاصل يہ ہوا

ڈیٹا کوالٹی ایک بہت ہی نوجوان امید افزا سمت ہے، جس کا حصہ بننے کا مطلب ایک اسٹارٹ اپ کا حصہ بننا ہے۔ ڈیٹا کوالٹی میں آنے کے بعد، آپ بڑی تعداد میں جدید، ان ڈیمانڈ ٹیکنالوجیز میں ڈوب جائیں گے، لیکن سب سے اہم بات یہ ہے کہ آپ کے لیے اپنے آئیڈیاز تیار کرنے اور ان پر عمل درآمد کرنے کے بے پناہ مواقع کھلیں گے۔ آپ ایک ماہر کے طور پر مسلسل ترقی کرتے ہوئے نہ صرف پراجیکٹ پر بلکہ اپنے لیے بھی مسلسل بہتری کا طریقہ استعمال کر سکیں گے۔

ماخذ: www.habr.com

نیا تبصرہ شامل کریں