وڏو ۽ ننڍو ڊيٽا ٽيسٽر: رجحانات، نظريو، منهنجي ڪهاڻي

هيلو هرڪو، منهنجو نالو اليگزينڊر آهي، ۽ مان هڪ ڊيٽا معيار انجنيئر آهيان جيڪو ڊيٽا کي ان جي معيار جي جانچ ڪري ٿو. هي آرٽيڪل انهي بابت ڳالهائيندو ته مان هن وٽ ڪيئن آيو آهيان ۽ ڇو 2020 ۾ هي امتحان جو علائقو موج جي چوٽي تي هو.

وڏو ۽ ننڍو ڊيٽا ٽيسٽر: رجحانات، نظريو، منهنجي ڪهاڻي

عالمي رجحان

اڄ جي دنيا هڪ ٻئي ٽيڪنيڪي انقلاب جو تجربو ڪري رهي آهي، جنهن جو هڪ پاسو سڀني قسمن جي ڪمپنين پاران گڏ ڪيل ڊيٽا جو استعمال آهي پنهنجي سيلز، منافعي ۽ پي آر جي پنهنجي فلائي ويل کي فروغ ڏيڻ لاء. اهو لڳي ٿو ته سٺي (معيار) ڊيٽا جي موجودگي، انهي سان گڏ ماهر دماغ جيڪي ان مان پئسا ڪمائي سگهن ٿا (صحيح طريقي سان پروسيس، تصور، مشين جي سکيا جا ماڊل، وغيره)، اڄ ڪيترن ئي لاء ڪاميابي جي ڪنجي بڻجي چڪا آهن. جيڪڏهن 15-20 سال اڳ وڏيون ڪمپنيون بنيادي طور تي ڊيٽا گڏ ڪرڻ ۽ پئسي ڪرڻ سان گڏ ڪم ڪندڙ ڪم ۾ ملوث هئا، اڄ اهو تقريبا تمام سمجھدار ماڻهن جو تمام گهڻو آهي.

ان سلسلي ۾، ڪيترائي سال اڳ، سڄي دنيا ۾ نوڪريءَ جي ڳولا لاءِ وقف ڪيل سڀئي پورٽل ڊيٽا سائنسدانن لاءِ خالي جاين سان ڀرڻ شروع ڪيا ويا، ڇو ته سڀني کي پڪ هئي ته، اهڙي ماهر کي ڀرتي ڪرڻ سان، مشين سکيا جو هڪ سپر ماڊل ٺاهڻ ممڪن ٿيندو. ، مستقبل جي اڳڪٿي ڪريو ۽ ڪمپني لاءِ ”ڪانٽم ليپ“ انجام ڏيو. ڪجهه وقت کان پوء، ماڻهن اهو محسوس ڪيو ته اهو طريقو تقريبا ڪٿي به ڪم نه ڪندو آهي، ڇو ته سڀئي ڊيٽا جيڪي اهڙن ماهرن جي هٿن ۾ اچن ٿا، ٽريننگ ماڊل لاء مناسب ناهي.

۽ ڊيٽا سائنسدانن کان درخواستون شروع ٿيون: ”اچو ته هنن ۽ انهن مان وڌيڪ ڊيٽا خريد ڪريون...“، ”اسان وٽ ڪافي ڊيٽا نه آهي...“، ”اسان کي ڪجهه وڌيڪ ڊيٽا جي ضرورت آهي، ترجيحي طور تي اعليٰ معيار وارو...“ . انهن درخواستن جي بنياد تي، ڪمپنين جي وچ ۾ ڪيترن ئي ڳالهين جي تعمير ٿيڻ شروع ٿي وئي جيڪي ڊيٽا جي هڪ يا ٻئي سيٽ جي مالڪ آهن. قدرتي طور تي، هن عمل جي ٽيڪنيڪل تنظيم جي ضرورت هئي - ڊيٽا جي ماخذ سان ڳنڍڻ، ان کي ڊائون لوڊ ڪرڻ، چيڪ ڪرڻ ته اهو مڪمل طور تي لوڊ ڪيو ويو آهي، وغيره. اهڙن عملن جو تعداد وڌڻ شروع ڪيو، ۽ اڄ اسان کي هڪ ٻئي قسم جي وڏي ضرورت آهي. ماهرن - ڊيٽا جي معيار جا انجنيئر - اهي جيڪي سسٽم ۾ ڊيٽا جي وهڪري جي نگراني ڪندا (ڊيٽا پائپ لائنز)، ان پٽ ۽ آئوٽ تي ڊيٽا جي معيار، ۽ انهن جي ڪافي، سالميت ۽ ٻين خاصيتن بابت نتيجو ڪڍندا.

ڊيٽا جي معيار جي انجنيئرن جو رجحان آمريڪا کان اسان وٽ آيو، جتي سرمائيداري جي ٻرندڙ دور جي وچ ۾، ڪو به ڊيٽا لاء جنگ وڃائڻ لاء تيار ناهي. هيٺ مون آمريڪا ۾ ٻن مشهور نوڪرين جي ڳولا واري سائيٽن مان اسڪرين شاٽ فراهم ڪيا آهن: www.monster.com и www.dice.com - جيڪو ڏيکاري ٿو 17 مارچ 2020 تائين پوسٽ ٿيل خالي جاين جي تعداد تي جيڪي لفظ استعمال ڪندي وصول ڪيا ويا آهن: ڊيٽا ڪيفيت ۽ ڊيٽا سائنسدان.

www.monster.com

ڊيٽا سائنسدان - 21416 جايون
ڊيٽا جي معيار - 41104 خالي جايون

وڏو ۽ ننڍو ڊيٽا ٽيسٽر: رجحانات، نظريو، منهنجي ڪهاڻي
وڏو ۽ ننڍو ڊيٽا ٽيسٽر: رجحانات، نظريو، منهنجي ڪهاڻي

www.dice.com

ڊيٽا سائنسدان - 404 جايون
ڊيٽا جي معيار - 2020 جايون

وڏو ۽ ننڍو ڊيٽا ٽيسٽر: رجحانات، نظريو، منهنجي ڪهاڻي
وڏو ۽ ننڍو ڊيٽا ٽيسٽر: رجحانات، نظريو، منهنجي ڪهاڻي

ظاهر آهي، اهي پيشو ڪنهن به طريقي سان هڪ ٻئي سان مقابلو نٿا ڪن. اسڪرين شاٽ سان، مان صرف ڊيٽا جي معيار جي انجنيئرن جي درخواستن جي لحاظ کان مزدور مارڪيٽ تي موجوده صورتحال کي بيان ڪرڻ چاهيان ٿو، جن مان ڊيٽا سائنسدانن جي ڀيٽ ۾ وڌيڪ ضرورت آهي.

جون 2019 ۾، EPAM، جديد آئي ٽي مارڪيٽ جي ضرورتن جو جواب ڏيڻ، ڊيٽا جي معيار کي الڳ الڳ مشق ۾ الڳ ڪيو. ڊيٽا جي معيار جا انجنيئر، پنهنجي روزاني ڪم جي دوران، ڊيٽا کي منظم ڪن ٿا، ان جي رويي کي نئين حالتن ۽ سسٽم ۾ چيڪ ڪن ٿا، ڊيٽا جي مطابقت، ان جي ڪافي ۽ مطابقت جي نگراني ڪن ٿا. هن سڀني سان گڏ، هڪ عملي معنى ۾، ڊيٽا جي معيار جا انجنيئر واقعي ٿورو وقت ڪلاسيڪل فنڪشنل ٽيسٽنگ لاءِ وقف ڪندا آهن، مان اهو تمام گهڻو منحصر آهي منصوبي تي (مان هيٺ ڏنل مثال ڏيندس).

ڊيٽا ڪيفيت انجنيئر جون ذميداريون صرف ڊيٽابيس جدولن ۾ ”نال، ڳڻپ ۽ رقم“ لاءِ معمولي دستي/خودڪار چيڪن تائين محدود نه هونديون آهن، پر صارف جي ڪاروباري ضرورتن جي تمام گهڻي ڄاڻ جي ضرورت هوندي آهي ۽، مطابق، دستياب ڊيٽا کي تبديل ڪرڻ جي صلاحيت. مفيد ڪاروباري معلومات.

ڊيٽا جي معيار جو نظريو

وڏو ۽ ننڍو ڊيٽا ٽيسٽر: رجحانات، نظريو، منهنجي ڪهاڻي

اهڙي انجنيئر جي ڪردار کي مڪمل طور تي تصور ڪرڻ لاءِ، اچو ته اهو سمجهون ته ڊيٽا جي معيار کي نظريي ۾ ڇا آهي.

ڊيٽا جي معيار - ڊيٽا مئنيجمينٽ جي مرحلن مان هڪ (هڪ پوري دنيا جنهن کي اسين توهان لاءِ ڇڏينداسين توهان جي پنهنجي مطالعي لاءِ) ۽ هيٺ ڏنل معيار مطابق ڊيٽا جي تجزيو ڪرڻ جو ذميوار آهي:

وڏو ۽ ننڍو ڊيٽا ٽيسٽر: رجحانات، نظريو، منهنجي ڪهاڻي
مان سمجهان ٿو ته هر هڪ نقطي کي سمجهڻ جي ڪا ضرورت ناهي (نظريي ۾ انهن کي "ڊيٽا طول و عرض" سڏيو ويندو آهي)، اهي تصوير ۾ چڱي طرح بيان ڪيا ويا آهن. پر جانچ جي عمل جو پاڻ مراد نه ٿو سختي سان انهن خاصيتن کي ٽيسٽ ڪيسن ۾ نقل ڪرڻ ۽ انهن کي جانچڻ. ڊيٽا جي معيار ۾، جيئن ته ڪنهن ٻئي قسم جي جاچ ۾، اهو ضروري آهي، سڀ کان پهريان، ڊيٽا جي معيار جي ضرورتن تي تعمير ڪرڻ لاء پروجيڪٽ جي شرڪت ڪندڙن سان متفق آهن جيڪي ڪاروباري فيصلا ڪن ٿا.

ڊيٽا جي معيار جي منصوبي تي مدار رکندي، هڪ انجنيئر مختلف ڪم انجام ڏئي سگهي ٿو: ڊيٽا جي معيار جي سطحي تشخيص سان هڪ عام آٽوميشن ٽيسٽر کان، هڪ شخص ڏانهن جيڪو مٿي ڏنل معيار مطابق ڊيٽا جي گہرے پروفائلنگ کي منظم ڪري ٿو.

ڊيٽا جي انتظام، ڊيٽا جي معيار ۽ لاڳاپيل عملن جو هڪ تمام تفصيلي تفصيل ڪتاب ۾ چڱي طرح بيان ڪيو ويو آهي DAMA-DMBOK: ڊيٽا مئنيجمينٽ باڊي آف نالج: ٻيو ايڊيشن. مان هن ڪتاب کي هن موضوع جي تعارف جي طور تي تمام گهڻو سفارش ڪريان ٿو (توهان آرٽيڪل جي آخر ۾ ان جي لنڪ ڳوليندا).

منهنجي تاريخ

آئي ٽي انڊسٽري ۾، مون پنهنجي طريقي سان ڪم ڪيو پراڊڪٽ ڪمپنين ۾ جونيئر ٽيسٽر کان وٺي EPAM تي ليڊ ڊيٽا کيفيت انجنيئر تائين. اٽڪل ٻن سالن جي هڪ ٽيسٽر طور ڪم ڪرڻ کان پوءِ، مون کي پڪو يقين هو ته مون مڪمل طور تي سڀني قسمن جي جاچ ڪئي آهي: رجعت، فعلي، دٻاءُ، استحڪام، سيڪيورٽي، UI، وغيره. ٽي پروگرامنگ ٻولين ۾ ساڳئي وقت ڪم ڪيو: جاوا، اسڪالا، پٿون.

پوئتي ڏسندي، مان سمجهان ٿو ته منهنجي مهارت جو سيٽ ايترو متنوع ڇو هو- مان ڊيٽا تي ٻڌل منصوبن ۾ شامل هو، وڏي ۽ ننڍي. اھو اھو آھي جيڪو مون کي ڪيترن ئي اوزارن ۽ ترقي جي موقعن جي دنيا ۾ آندو.

نئين علم ۽ صلاحيتن کي حاصل ڪرڻ لاءِ اوزارن ۽ موقعن جي مختلف قسمن جي ساراهه ڪرڻ لاءِ، صرف هيٺ ڏنل تصوير کي ڏسو، جيڪا ڏيکاري ٿي ته ”ڊيٽا ۽ اي آءِ“ دنيا ۾ سڀ کان وڌيڪ مشهور آهن.

وڏو ۽ ننڍو ڊيٽا ٽيسٽر: رجحانات، نظريو، منهنجي ڪهاڻي
هن قسم جو مثال هر سال هڪ مشهور وينچر سرمائيدار Matt Turck طرفان مرتب ڪيو ويو آهي، جيڪو سافٽ ويئر ڊولپمينٽ مان ايندو آهي. هتي لنڪ هن جي بلاگ ڏانهن ۽ وينچر ڪيپيٽل فرمجتي هو هڪ پارٽنر طور ڪم ڪري ٿو.

مون پيشه ورانه طور تي خاص طور تي تيزيءَ سان وڌيو جڏهن مان پروجيڪٽ تي واحد ٽيسٽر هو، يا گهٽ ۾ گهٽ منصوبي جي شروعات ۾. اهو هڪ اهڙو وقت آهي جڏهن توهان کي پوري جاچ واري عمل جو ذميوار ٿيڻو پوندو، ۽ توهان کي پوئتي هٽڻ جو ڪو به موقعو ناهي، صرف اڳتي. پهرين ته اهو خوفناڪ هو، پر هاڻي اهڙي امتحان جا سڀئي فائدا مون لاء واضح آهن:

  • توهان پوري ٽيم سان رابطو ڪرڻ شروع ڪيو جيئن اڳ ڪڏهن به نه ٿيو، ڇو ته رابطي لاءِ ڪو به پراکسي ناهي: نه ئي ٽيسٽ مئنيجر ۽ نه ساٿي ٽيسٽ ڪندڙ.
  • پروجيڪٽ ۾ وسرڻ ناقابل يقين حد تائين عميق ٿي ويندو آهي، ۽ توهان وٽ سڀني حصن جي باري ۾ معلومات آهي، عام طور تي ۽ تفصيل ۾.
  • ڊولپرز توهان کي نه ٿا ڏسن ته ”اها ماڻهوءَ جي جاچ مان جنهن کي خبر ناهي ته هو ڇا ڪري رهيو آهي،“ بلڪه هڪ برابر جي حيثيت سان جيڪو ٽيم لاءِ ناقابل يقين فائدن پيدا ڪري ٿو پنهنجي پاڻمرادو ٽيسٽن ۽ اڳڪٿين جي هڪ مخصوص حصي ۾ ظاهر ٿيڻ جي اڳڪٿي سان. پيداوار.
  • نتيجي طور، توھان وڌيڪ اثرائتو آھيو، وڌيڪ قابل، ۽ وڌيڪ طلب ۾.

جيئن جيئن پروجيڪٽ وڌندو ويو، تيئن تيئن 100 سيڪڙو ڪيسن ۾ مان نون ٽيسٽ ڪندڙن لاءِ هڪ مرشد بڻجي ويو، انهن کي سيکاريندو رهيو ۽ ان علم کي منتقل ڪندو رهيو، جيڪو مون پاڻ سکيو هو. ساڳئي وقت، پروجيڪٽ تي منحصر ڪري، مون هميشه انتظاميا کان اعلي سطحي آٽو ٽيسٽنگ ماهرن کي حاصل نه ڪيو آهي ۽ اتي انهن کي آٽوميشن ۾ تربيت ڏيڻ جي ضرورت هئي (انهن دلچسپي رکندڙن لاء) يا روزمره جي سرگرمين ۾ استعمال لاء اوزار ٺاهڻ (اوزار). ڊيٽا پيدا ڪرڻ ۽ ان کي سسٽم ۾ لوڊ ڪرڻ لاءِ، لوڊ ٽيسٽنگ/استحڪام جي جاچ ڪرڻ لاءِ هڪ اوزار ”جلدي“ وغيره).

هڪ خاص منصوبي جو مثال

بدقسمتي سان، غير ظاهر ڪرڻ جي ذميواري جي ڪري، مان انهن منصوبن جي باري ۾ تفصيل سان نه ڳالهائي سگهان ٿو جن تي مون ڪم ڪيو، پر مان هڪ پروجيڪٽ تي ڊيٽا کيفيت انجنيئر جي عام ڪمن جا مثال ڏيندس.

منصوبي جو خلاصو اهو آهي ته ان جي بنياد تي ٽريننگ مشين لرننگ ماڊلز لاءِ ڊيٽا تيار ڪرڻ لاءِ پليٽ فارم تي عمل ڪيو وڃي. گراهڪ آمريڪا کان هڪ وڏي دوا ساز ڪمپني هئي. ٽيڪنيڪل طور تي اهو هڪ ڪلستر هو ڪوبنيٿس، ڏانهن وڌڻ AWS EC2 مثال طور، ڪيترن ئي مائڪرو سروسز ۽ EPAM جي بنيادي اوپن سورس پروجيڪٽ سان. واسو, هڪ مخصوص گراهڪ جي ضرورتن سان ٺهڪندڙ (هاڻي پروجيڪٽ ۾ ٻيهر جنم ورتو ويو آهي اوداهو). اي ٽي ايل عملن کي استعمال ڪندي منظم ڪيو ويو Apache ايئر فلو ۽ منتقل ٿيل ڊيٽا مان وڪرو فورس ڪسٽمر سسٽم ۾ AWS S3 ٻڪريون. اڳيون، هڪ مشين لرننگ ماڊل جي هڪ ڊاکر تصوير پليٽ فارم تي لڳايو ويو، جيڪو تازو ڊيٽا تي تربيت ڪئي وئي ۽، REST API انٽرفيس استعمال ڪندي، اڳڪٿيون پيدا ڪيون جيڪي ڪاروبار لاءِ دلچسپي جون هيون ۽ مخصوص مسئلا حل ڪيون ويون.

بصري طور تي، هر شيء هن وانگر نظر آئي:

وڏو ۽ ننڍو ڊيٽا ٽيسٽر: رجحانات، نظريو، منهنجي ڪهاڻي
هن پروجيڪٽ تي ڪافي فنڪشنل ٽيسٽنگ هئي، ۽ خصوصيت جي ترقي جي رفتار ۽ رليز چڪر جي رفتار کي برقرار رکڻ جي ضرورت (ٻن هفتن جي اسپرنٽ) کي ڏنو ويو، اهو ضروري هو ته فوري طور تي سڀ کان وڌيڪ نازڪ اجزاء جي خودڪار ٽيسٽ بابت سوچڻ لاء. سسٽم. اڪثر ڪبرنيٽس تي ٻڌل پليٽ فارم پاڻ کي شامل ڪيو ويو آٽو ٽيسٽ ۾ لاڳو ٿيل روبوٽ فريم ورڪ + پٿون، پر اهو پڻ ضروري هو ته انهن کي سپورٽ ۽ وڌايو. ان کان علاوه، گراهڪ جي سهولت لاءِ، هڪ GUI ٺاهي وئي ته جيئن ڪلستر تي مقرر ڪيل مشين لرننگ ماڊلز کي منظم ڪيو وڃي، انهي سان گڏ اهو بيان ڪرڻ جي صلاحيت به آهي ته ماڊلز جي تربيت لاءِ ڊيٽا کي ڪٿي ۽ ڪٿي منتقل ڪرڻ جي ضرورت آهي. هي وسيع اضافو خودڪار فنڪشنل ٽيسٽنگ جي توسيع ۾ شامل ٿيو، جيڪو گهڻو ڪري REST API ڪالز ۽ ٿورڙي تعداد جي آخر-2-آخر UI ٽيسٽن ذريعي ڪيو ويو. هن سموري تحريڪ جي خط استوا جي چوڌاري، اسان هڪ دستي ٽيسٽر سان شامل ٿي ويا هئاسين جنهن هڪ بهترين نوڪري ڪئي پراڊڪٽ ورزن جي قبوليت جي جاچ ۽ ايندڙ رليز جي قبوليت جي حوالي سان گراهڪ سان رابطو ڪرڻ سان. ان کان علاوه، هڪ نئين ماهر جي اچڻ جي ڪري، اسان پنهنجي ڪم کي دستاويز ڪرڻ جي قابل ٿي چڪا هئاسين ۽ ڪيترن ئي اهم دستي چيڪن کي شامل ڪيو جن کي فوري طور تي خودڪار ڪرڻ ڏکيو هو.

۽ آخرڪار، اسان پليٽ فارم تان استحڪام حاصل ڪرڻ کان پوء ۽ ان تي GUI اضافو، اسان اپاچي ايئر فلو ڊيگ استعمال ڪندي ETL پائپ لائنز ٺاهڻ شروع ڪيو. خودڪار ڊيٽا جي معيار جي چڪاس خاص ايئر فلو DAGs لکڻ جي ذريعي ڪئي وئي جيڪا ETL عمل جي نتيجن جي بنياد تي ڊيٽا کي چيڪ ڪيو. هن پروجيڪٽ جي حصي جي طور تي، اسان خوش قسمت هئاسين ۽ گراهڪ اسان کي گمنام ڊيٽا سيٽن تائين رسائي ڏني جنهن تي اسان آزمائش ڪئي. اسان چيڪ ڪيو ڊيٽا لائن جي ذريعي قطار جي تعميل لاءِ قسمن جي، ٽٽل ڊيٽا جي موجودگي، رڪارڊن جو ڪل تعداد اڳ ۽ پوءِ، ETL عمل پاران ڪيل تبديلين جي مقابلي لاءِ مجموعي لاءِ، ڪالمن جا نالا تبديل ڪرڻ، ۽ ٻيون شيون. ان کان علاوه، اهي چيڪ مختلف ڊيٽا ذريعن ڏانهن اسڪيل ڪيا ويا، مثال طور، SalesForce کان علاوه، MySQL ڏانهن پڻ.

حتمي ڊيٽا جي معيار جا چيڪ اڳ ۾ ئي S3 سطح تي ڪيا ويا، جتي اهي ذخيرو ٿيل هئا ۽ ٽريننگ مشين لرننگ ماڊلز لاءِ استعمال لاءِ تيار هئا. S3 بالٽ تي واقع فائنل CSV فائل مان ڊيٽا حاصل ڪرڻ ۽ ان جي تصديق ڪرڻ لاء، ڪوڊ استعمال ڪندي لکيو ويو boto3 کلائنٽ.

ڪسٽمر کان پڻ هڪ گهرج هئي ته ڊيٽا جو حصو هڪ S3 بالٽ ۾ ۽ حصو ٻئي ۾. انهي سان گڏ اهڙي ترتيب جي اعتبار کي جانچڻ لاءِ اضافي چيڪ لکڻ جي ضرورت آهي.

ٻين منصوبن کان عام تجربو

ڊيٽا معيار انجنيئر جي سرگرمين جي سڀ کان عام فهرست جو هڪ مثال:

  • تيار ڪريو ٽيسٽ ڊيٽا (درست غلط وڏو ننڍو) هڪ خودڪار اوزار ذريعي.
  • تيار ڪيل ڊيٽا سيٽ کي اصل ماخذ تي اپلوڊ ڪريو ۽ چيڪ ڪريو ته اھو استعمال لاءِ تيار آھي.
  • ڊيٽا جي ھڪڙي سيٽ کي پروسيسنگ ڪرڻ لاءِ اي ٽي ايل پروسيس شروع ڪريو ماخذ اسٽوريج کان حتمي يا وچولي اسٽوريج تائين سيٽنگن جي ھڪڙي مخصوص سيٽ کي استعمال ڪندي (جيڪڏھن ممڪن هجي، اي ٽي ايل ڪم لاءِ ترتيب ڏيڻ وارا پيرا ميٽر مقرر ڪريو).
  • تصديق ڪريو ڊيٽا جي پروسيس ٿيل ETL عمل طرفان ان جي معيار ۽ ڪاروباري گهرجن جي تعميل لاءِ.

ساڳئي وقت، چيڪن جو بنيادي ڌيان نه رڳو حقيقت تي هجڻ گهرجي ته سسٽم ۾ ڊيٽا جي وهڪري، اصول ۾، ڪم ڪيو آهي ۽ مڪمل ٿيڻ تي پهچي چڪو آهي (جيڪو فنڪشنل ٽيسٽ جو حصو آهي)، پر اڪثر ڪري ڊيٽا جي چڪاس ۽ تصديق ڪرڻ تي. توقع جي ضرورتن جي تعميل، عدم استحڪام ۽ ٻين شين جي سڃاڻپ.

اوزار

اهڙي ڊيٽا ڪنٽرول جي ٽيڪنالاجي مان هڪ ٿي سگهي ٿي ڊيٽا پروسيسنگ جي هر مرحلي تي زنجير چيڪن جي تنظيم، جنهن کي ادب ۾ "ڊيٽا زنجير" سڏيو ويندو آهي - ذريعن کان ڊيٽا جو ڪنٽرول حتمي استعمال جي نقطي تائين. انهن قسمن جا چيڪ اڪثر ڪري لاگو ڪيا ويندا آهن لکڻ سان SQL سوالن جي جانچ ڪندي. اهو واضح آهي ته اهڙن سوالن کي ممڪن حد تائين ہلڪو وزن هجڻ گهرجي ۽ ڊيٽا جي معيار جا انفرادي ٽڪرا چيڪ ڪريو (ٽيبل ميٽاداٽا، خالي لائينون، NULLs، نحو ۾ غلطيون - چيڪ ڪرڻ لاء گهربل ٻيون خاصيتون).

ريگريشن ٽيسٽ جي صورت ۾، جيڪو تيار ڪيل (غير تبديل ٿيندڙ، ٿورڙو تبديل ٿيندڙ) ڊيٽا سيٽ استعمال ڪري ٿو، آٽو ٽيسٽ ڪوڊ معيار جي تعميل لاءِ ڊيٽا کي جانچڻ لاءِ تيار ڪيل ٽيمپليٽ محفوظ ڪري سگهي ٿو (متوقع ٽيبل ميٽاڊيٽا جي وضاحت؛ قطار نموني شيون جيڪي ٿي سگهن ٿيون. ٽيسٽ دوران بي ترتيب چونڊيو ويو، وغيره).

انهي سان گڏ، جاچ دوران، توهان کي لکڻو پوندو ETL ٽيسٽ پروسيس فريم ورڪ استعمال ڪندي جهڙوڪ Apache Airflow، Apache Apache يا بليڪ باڪس ڪلائوڊ قسم جو اوزار GCP Dataprep, GCP ڊيٽا فلو ۽ ايئن. اها حالت ٽيسٽ انجنيئر کي مجبور ڪري ٿي ته هو پاڻ کي مٿي ڏنل اوزارن جي آپريشن جي اصولن ۾ غرق ڪري ۽ اڃا به وڌيڪ مؤثر طريقي سان ٻنهي فنڪشنل ٽيسٽنگ ڪن ٿا (مثال طور، موجوده اي ٽي ايل پروسيس هڪ پروجيڪٽ تي) ۽ انهن کي ڊيٽا چيڪ ڪرڻ لاءِ استعمال ڪن ٿا. خاص طور تي، Apache Airflow مشهور تجزياتي ڊيٽابيس سان ڪم ڪرڻ لاءِ تيار ڪيل آپريٽرز آهن، مثال طور GCP BigQuery. ان جي استعمال جو سڀ کان بنيادي مثال اڳ ۾ ئي بيان ڪيو ويو آهي هتي، تنهنڪري مان پاڻ کي ٻيهر نه ڏيندس.

تيار ڪيل حلن کان سواء، ڪو به توهان کي توهان جي پنهنجي ٽيڪنالاجي ۽ اوزار کي لاڳو ڪرڻ کان منع ڪري ٿو. اهو نه رڳو پروجيڪٽ لاءِ فائديمند هوندو، پر خود ڊيٽا جي معيار جي انجنيئر لاءِ به، جيڪو ان ڪري پنهنجي فني افق ۽ ڪوڊنگ جي صلاحيتن کي بهتر بڻائيندو.

اهو ڪيئن ڪم ڪري ٿو حقيقي منصوبي تي

"ڊيٽا زنجير" بابت آخري پيراگراف جو سٺو مثال، اي ٽي ايل ۽ عام چيڪن مان هڪ حقيقي منصوبن مان هيٺ ڏنل عمل آهي:

وڏو ۽ ننڍو ڊيٽا ٽيسٽر: رجحانات، نظريو، منهنجي ڪهاڻي

هتي، مختلف ڊيٽا (قدرتي طور تي، اسان جي طرفان تيار ڪيل) اسان جي سسٽم جي ان پٽ "فنل" ۾ داخل ٿين ٿا: صحيح، غلط، مخلوط، وغيره، پوء اهي فلٽر ڪيا ويندا آهن ۽ هڪ وچولي اسٽوريج ۾ ختم ٿي ويندا آهن، پوء اهي ٻيهر تبديلين جو هڪ سلسلو گذري ٿو. ۽ آخري اسٽوريج ۾ رکيا ويا آهن، جنهن مان، بدلي ۾، تجزياتي، ڊيٽا مارٽ جي تعمير ۽ ڪاروباري بصيرت جي ڳولا ڪئي ويندي. اهڙي سرشتي ۾، ETL عملن جي آپريشن کي فعال طور تي جانچڻ کان سواءِ، اسان تبديلين کان اڳ ۽ پوءِ ڊيٽا جي معيار تي ڌيان ڏين ٿا، ۽ ان سان گڏ اينالائيٽڪس جي پيداوار تي.

مٿين کي اختصار ڪرڻ لاءِ، قطع نظر انهن هنڌن جي جتي مون ڪم ڪيو، هر جاءِ تي آئون ڊيٽا پروجيڪٽس ۾ شامل هئس جن هيٺ ڏنل خاصيتون شيئر ڪيون:

  • صرف آٽوميشن ذريعي توهان ڪجهه ڪيسن جي جانچ ڪري سگهو ٿا ۽ ڪاروبار لاءِ قابل قبول رليز چڪر حاصل ڪري سگهو ٿا.
  • اهڙي پروجيڪٽ تي هڪ ٽيسٽ ڪندڙ ٽيم جي معزز ميمبرن مان هڪ آهي، ڇاڪاڻ ته اهو هر هڪ شرڪت ڪندڙن لاء عظيم فائدا آڻيندو آهي (ٽيسٽنگ جي تيز رفتار، ڊيٽا سائنسدان کان سٺي ڊيٽا، شروعاتي مرحلن ۾ خرابين جي سڃاڻپ).
  • اهو مسئلو ناهي ته توهان پنهنجي هارڊويئر تي ڪم ڪريو ٿا يا بادلن ۾ - سڀئي وسيلا هڪ ڪلستر ۾ خلاص ڪيا ويا آهن جهڙوڪ Hortonworks، Cloudera، Mesos، Kubernetes، وغيره.
  • منصوبا هڪ microservice طريقي تي ٺهيل آهن، تقسيم ۽ متوازي ڪمپيوٽنگ غالب آهن.

مان اهو نوٽ ڪرڻ چاهيان ٿو ته جڏهن ڊيٽا جي معيار جي فيلڊ ۾ جاچ ڪري رهيو آهي، هڪ ٽيسٽنگ اسپيشلسٽ پنهنجي پروفيشنل فوڪس کي پراڊڪٽ جي ڪوڊ ۽ استعمال ٿيل اوزارن ڏانهن منتقل ڪري ٿو.

ڊيٽا جي معيار جي جاچ جا خاص خاصيتون

ان کان علاوه، پنهنجي لاءِ، مون هيٺ ڏنل سڃاڻپ ڪئي آهي (مان فوري طور تي هڪ رزرويشن ڪندس ته اهي ڏاڍا عام ۽ خاص طور تي موضوعي آهن) ڊيٽا (بگ ڊيٽا) پروجيڪٽس (سسٽم) ۽ ٻين علائقن ۾ جاچ جون مخصوص خاصيتون:

وڏو ۽ ننڍو ڊيٽا ٽيسٽر: رجحانات، نظريو، منهنجي ڪهاڻي

ڪارآمد لنڪ

  1. نظريو: DAMA-DMBOK: ڊيٽا مئنيجمينٽ باڊي آف نالج: ٻيو ايڊيشن.
  2. ٽريننگ سينٽر اي پي اي ايم 
  3. شروعاتي ڊيٽا ڪيفيت انجنيئر لاءِ تجويز ڪيل مواد:
    1. Stepik تي مفت ڪورس: ڊيٽابيس جو تعارف
    2. LinkedIn لرننگ تي ڪورس: ڊيٽا سائنس فائونڊيشن: ڊيٽا انجنيئرنگ.
    3. آرٽيڪل:
    4. وڊيو:

ٿڪل

ڊيٽا جي معيار هڪ تمام نوجوان واعدو ڪندڙ هدايت آهي، جنهن جو حصو ٿيڻ جو مطلب آهي شروعات جو حصو ٿيڻ. ڊيٽا جي معيار ۾ هڪ دفعو، توهان جديد، گهربل ٽيڪنالاجيز جي وڏي تعداد ۾ غرق ٿي ويندا، پر سڀ کان اهم، توهان جي خيالن کي پيدا ڪرڻ ۽ ان تي عمل ڪرڻ لاءِ توهان لاءِ وڏا موقعا کليل هوندا. توهان مسلسل بهتري واري طريقي کي استعمال ڪرڻ جي قابل ٿي ويندا نه صرف پروجيڪٽ تي، پر پنهنجي لاء پڻ، مسلسل هڪ ماهر جي حيثيت سان ترقي ڪندي.

جو ذريعو: www.habr.com

تبصرو شامل ڪريو