ڊيٽا انجنيئر ۽ ڊيٽا سائنسدان: فرق ڇا آهي؟

ڊيٽا سائنسدان ۽ ڊيٽا انجنيئر جا پروفيسر اڪثر پريشان آهن. هر ڪمپني وٽ ڊيٽا سان ڪم ڪرڻ جا پنهنجا خاصيتون آهن، انهن جي تجزيي جا مختلف مقصد ۽ هڪ مختلف خيال آهي ته ڪهڙي ماهر کي ڪم جي ڪهڙي حصي سان معاملو ڪرڻ گهرجي، تنهن ڪري هر هڪ کي پنهنجون گهرجون آهن. 

اچو ته سمجهون ته انهن ماهرن جي وچ ۾ ڪهڙو فرق آهي، اهي ڪهڙا ڪاروباري مسئلا حل ڪن ٿا، انهن وٽ ڪهڙيون صلاحيتون آهن ۽ اهي ڪيترو ڪمائي رهيا آهن. مواد وڏو ٿي ويو، تنهنڪري اسان ان کي ٻن اشاعتن ۾ ورهايو.

پهرين مضمون ۾، الينا Gerasimova، فيڪلٽي جي سربراهه "ڊيٽا سائنس ۽ تجزياتي"Netology ۾، ٻڌائي ٿو ته ڇا فرق آهي ڊيٽا سائنسدان ۽ ڊيٽا انجنيئر جي وچ ۾ ۽ اهي ڪهڙي اوزار سان ڪم ڪن ٿا.

انجنيئرن ۽ سائنسدانن جا ڪردار ڪيئن مختلف آهن

هڪ ڊيٽا انجنيئر هڪ ماهر آهي، جيڪو هڪ طرف، ڊيٽا جي انفراسٽرڪچر کي ترقي، ٽيسٽ ۽ برقرار رکي ٿو: ڊيٽابيس، اسٽوريج ۽ ماس پروسيسنگ سسٽم. ٻئي طرف، اهو آهي جيڪو صاف ڪري ٿو ۽ "ڪمبس" ڊيٽا تجزيه نگارن ۽ ڊيٽا سائنسدانن جي استعمال لاء، اهو آهي، ڊيٽا پروسيسنگ پائپ لائنز ٺاهي ٿو.

ڊيٽا سائنسدان مشين لرننگ الگورتھم ۽ نيورل نيٽ ورڪ استعمال ڪندي اڳڪٿي ڪندڙ (۽ ٻيا) ماڊل ٺاهي ۽ ٽرين ڪري ٿو، ڪاروبار کي لڪيل نمونن کي ڳولڻ ۾ مدد ڪري ٿو، ترقي جي اڳڪٿي ڪري ٿو ۽ اهم ڪاروباري عملن کي بهتر بڻائي ٿو.

ڊيٽا سائنسدان ۽ ڊيٽا انجنيئر جي وچ ۾ بنيادي فرق اهو آهي ته اهي عام طور تي مختلف مقصد آهن. ٻئي ڪم کي يقيني بڻائڻ لاءِ ته ڊيٽا پهچ ۽ اعليٰ معيار جي آهي. پر هڪ ڊيٽا سائنسدان پنهنجي سوالن جا جواب ڳولي ٿو ۽ ڊيٽا ايڪو سسٽم ۾ مفروضن کي جانچي ٿو (مثال طور، هيڊوپ تي ٻڌل)، ۽ هڪ ڊيٽا انجنيئر هڪ مشين لرننگ الگورٿم جي خدمت لاءِ هڪ پائيپ لائين ٺاهي ٿو جيڪو هڪ ڊيٽا سائنسدان پاران لکيل هڪ اسپارڪ ڪلسٽر ۾ آهي. ماحولياتي نظام. 

هڪ ڊيٽا انجنيئر هڪ ٽيم جي حصي طور ڪم ڪندي ڪاروبار لاءِ قدر آڻيندو آهي. ان جو ڪم مختلف شرڪت ڪندڙن جي وچ ۾ هڪ اهم ڪڙي جي طور تي ڪم ڪرڻ آهي: ڊولپرز کان وٺي ڪاروباري صارفين جي رپورٽنگ تائين، ۽ تجزيه نگارن جي پيداوار کي وڌائڻ، مارڪيٽنگ ۽ پيداوار کان وٺي BI تائين. 

هڪ ڊيٽا سائنسدان، ان جي ابتڙ، ڪمپني جي حڪمت عملي ۾ هڪ سرگرم حصو وٺندو آهي ۽ بصيرت کي ڪڍڻ، فيصلا ڪرڻ، خودڪار الورورٿم لاڳو ڪرڻ، ماڊلنگ ۽ ڊيٽا مان قيمت پيدا ڪرڻ.
ڊيٽا انجنيئر ۽ ڊيٽا سائنسدان: فرق ڇا آهي؟

ڊيٽا سان ڪم ڪرڻ GIGO (گاربيج ان - گاربيج آئوٽ) اصول جي تابع آهي: جيڪڏهن تجزيه نگار ۽ ڊيٽا سائنسدان غير تيار ٿيل ۽ ممڪن طور تي غلط ڊيٽا سان ڊيل ڪن ٿا، ته پوءِ نتيجا به تمام نفيس تجزياتي الگورتھم استعمال ڪندي غلط هوندا. 

ڊيٽا انجنيئر هن مسئلي کي حل ڪرڻ لاء پائپ لائنون تعمير ڪرڻ، پروسيسنگ، صفائي ۽ ڊيٽا کي تبديل ڪرڻ ۽ ڊيٽا سائنسدانن کي اعلي معيار جي ڊيٽا سان ڪم ڪرڻ جي اجازت ڏئي ٿو. 

مارڪيٽ تي ڪيترائي اوزار آھن ڊيٽا سان ڪم ڪرڻ لاءِ جيڪي ھر اسٽيج کي ڍڪيندا آھن: ڊيٽا جي ظاهر ٿيڻ کان وٺي ڊائريڪٽرن جي بورڊ لاءِ ڊيش بورڊ تائين. ۽ اهو ضروري آهي ته انهن کي استعمال ڪرڻ جو فيصلو هڪ انجنيئر طرفان ڪيو وڃي - نه ڇاڪاڻ ته اهو فيشن آهي، پر ڇاڪاڻ ته هو واقعي عمل ۾ ٻين شرڪت ڪندڙن جي ڪم ۾ مدد ڪندو. 

روايتي طور تي: جيڪڏهن هڪ ڪمپني کي BI ۽ ETL جي وچ ۾ ڪنيڪشن ٺاهڻ جي ضرورت آهي - ڊيٽا لوڊ ڪرڻ ۽ رپورٽن کي اپڊيٽ ڪرڻ، هتي هڪ عام ورثي جو بنياد آهي جنهن سان هڪ ڊيٽا انجنيئر کي معاملو ڪرڻو پوندو (اهو سٺو آهي جيڪڏهن ٽيم تي هڪ معمار پڻ آهي).

ڊيٽا انجنيئر جون ذميواريون

  • ڊيٽا پروسيسنگ انفراسٽرڪچر جي ترقي، تعمير ۽ سار سنڀال.
  • غلطين کي سنڀالڻ ۽ قابل اعتماد ڊيٽا پروسيسنگ پائپ لائنز ٺاهڻ.
  • تجزيه نگارن جي ڪم لاءِ ضروري فارم ۾ مختلف متحرڪ ذريعن کان غير منظم ٿيل ڊيٽا آڻڻ.
  • ڊيٽا جي استحڪام ۽ معيار کي بهتر ڪرڻ لاء سفارشون مهيا ڪرڻ.
  • ڊيٽا سائنسدان ۽ ڊيٽا تجزيه نگارن پاران استعمال ڪيل ڊيٽا آرڪيٽيڪچر مهيا ڪرڻ ۽ برقرار رکڻ.
  • پروسيس ۽ اسٽور ڊيٽا کي مسلسل ۽ موثر طور تي ورهايل ڪلستر ۾ ڏهن يا سوين سرورز.
  • سادو پر مضبوط فن تعمير ٺاهڻ لاءِ اوزارن جي ٽيڪنيڪل ٽريڊ آف جو جائزو وٺو جيڪي رڪاوٽ کان بچي سگهن.
  • ڊيٽا جي وهڪري ۽ لاڳاپيل سسٽم جو ڪنٽرول ۽ سپورٽ (مانيٽرنگ ۽ الرٽ قائم ڪرڻ).

ڊيٽا انجنيئر جي پيچري جي اندر هڪ ٻيو ماهر آهي - ايم ايل انجنيئر. مختصر ۾، اهي انجنيئر مشين سکيا جا ماڊل صنعتي عمل درآمد ۽ استعمال ۾ آڻڻ ۾ ماهر آهن. گهڻو ڪري، ڊيٽا سائنسدان کان حاصل ڪيل ماڊل هڪ مطالعي جو حصو آهي ۽ جنگي حالتن ۾ ڪم نه ڪري سگھي ٿو.

ڊيٽا سائنسدان جي ذميواريون

  • مشين سکيا الگورتھم لاڳو ڪرڻ لاء ڊيٽا مان خاصيتون ڪڍڻ.
  • ڊيٽا ۾ نمونن جي اڳڪٿي ۽ درجه بندي ڪرڻ لاءِ مختلف مشين سکيا جا اوزار استعمال ڪندي.
  • مشين لرننگ الگورتھم جي ڪارڪردگي ۽ درستگي کي بهتر بنائڻ ۽ الورورٿمز کي بهتر ڪرڻ سان.
  • ڪمپني جي حڪمت عملي جي مطابق "مضبوط" مفروضن جو ٺهڻ جنهن کي جانچڻ جي ضرورت آهي.

ٻئي ڊيٽا انجنيئر ۽ ڊيٽا سائنسدان هڪ ڊيٽا ڪلچر جي ترقي ۾ هڪ خاص حصو حصيداري ڪن ٿا، جنهن ذريعي هڪ ڪمپني اضافي منافعو پيدا ڪري سگهي ٿي يا خرچ گهٽائي سگهي ٿي.

انجنيئر ۽ سائنسدان ڪهڙن ٻولين ۽ اوزارن سان ڪم ڪن ٿا؟

اڄ، ڊيٽا سائنسدانن جون اميدون تبديل ٿي ويون آهن. اڳي، انجنيئرن وڏي SQL سوالن کي گڏ ڪيو، دستي طور تي MapReduce لکيو ۽ اوزار استعمال ڪندي ڊيٽا کي پروسيس ڪيو جيئن ته Informatica ETL، Pentaho ETL، Talend. 

2020 ۾، هڪ ماهر پٿون ۽ جديد حساب ڪتاب جي اوزارن جي ڄاڻ کان سواءِ نٿو ڪري سگهي (مثال طور، ايئر فلو)، ڪلائوڊ پليٽ فارمز سان ڪم ڪرڻ جي اصولن کي سمجهڻ (انهن کي هارڊويئر تي محفوظ ڪرڻ لاءِ استعمال ڪندي، حفاظتي اصولن جو مشاهدو ڪندي).

SAP، Oracle، MySQL، Redis وڏين ڪمپنين ۾ ڊيٽا انجنيئرن لاءِ روايتي اوزار آھن. اهي سٺا آهن، پر لائسنس جي قيمت تمام گهڻي آهي ته انهن سان ڪم ڪرڻ سکڻ صرف صنعتي منصوبن ۾ احساس پيدا ڪري ٿي. ساڳئي وقت، Postgres جي صورت ۾ هڪ مفت متبادل آهي - اهو مفت ۽ مناسب آهي نه رڳو تربيت لاء. 

ڊيٽا انجنيئر ۽ ڊيٽا سائنسدان: فرق ڇا آهي؟
تاريخي طور تي، جاوا ۽ اسڪالا لاءِ درخواستون اڪثر مليون آهن، جيتوڻيڪ جيئن جيئن ٽيڪنالاجيون ۽ طريقا ترقي ڪن ٿا، اهي ٻوليون پس منظر ۾ ڦهلجي وڃن ٿيون.

بهرحال، سخت بگ ڊيٽا: هيڊوپ، اسپارڪ ۽ زو جا باقي حصا هاڻي ڊيٽا انجنيئر لاءِ گهربل شرط نه آهن، پر مسئلن کي حل ڪرڻ لاءِ هڪ قسم جو اوزار آهي، جيڪو روايتي ETL ذريعي حل نٿو ڪري سگهجي. 

رجحان اوزارن جي استعمال لاءِ خدمتون آھن بغير ٻولي جي ڄاڻ کان سواءِ جنھن ۾ اھي لکيل آھن (مثال طور، Hadoop جاوا جي ڄاڻ کان سواءِ)، ۽ گڏوگڏ اسٽريمنگ ڊيٽا جي پروسيسنگ لاءِ تيار ڪيل خدمتن جي فراهمي (آواز جي سڃاڻپ يا وڊيو تي تصوير جي سڃاڻپ) ).

SAS ۽ SPSS کان صنعتي حل مشهور آهن، جڏهن ته Tableau، Rapidminer، Stata ۽ Julia پڻ وڏي پيماني تي ڊيٽا سائنسدانن طرفان مقامي ڪمن لاءِ استعمال ڪيا ويندا آهن.

ڊيٽا انجنيئر ۽ ڊيٽا سائنسدان: فرق ڇا آهي؟
پاڻ پائپ لائنون ٺاهڻ جي صلاحيت صرف ڪجهه سال اڳ تجزيه نگارن ۽ ڊيٽا سائنسدانن کي ظاهر ٿي: مثال طور، اهو اڳ ۾ ئي ممڪن آهي ته ڊيٽا موڪلڻ لاءِ PostgreSQL-based اسٽوريج کي نسبتاً سادي لکت استعمال ڪندي. 

عام طور تي، پائپ لائنن جو استعمال ۽ مربوط ڊيٽا جي جوڙجڪ ڊيٽا انجنيئرن جي ذميواري رهي ٿي. پر اڄ، T-shaped ماهرن جو رجحان لاڳاپيل شعبن ۾ وسيع صلاحيتن سان گڏ اڳ کان وڌيڪ مضبوط آھي، ڇاڪاڻ⁠تہ اوزار مسلسل آسان ٿي رھيا آھن.

ڇو ڊيٽا انجنيئر ۽ ڊيٽا سائنسدان گڏجي ڪم ڪن ٿا

انجنيئرن سان ويجهڙائي سان ڪم ڪرڻ سان، ڊيٽا سائنسدان تحقيق جي پاسي تي ڌيان ڏئي سگهن ٿا، پيداوار لاءِ تيار مشين سکيا الگورتھم ٺاهي رهيا آهن.
۽ انجنيئرن کي اسڪيبلبلٽي، ڊيٽا جي ٻيهر استعمال تي ڌيان ڏيڻ جي ضرورت آهي، ۽ انهي کي يقيني بڻائڻ ته ڊيٽا ان پٽ ۽ آئوٽ پائيپ لائينز هر انفرادي منصوبي ۾ عالمي فن تعمير سان عمل ڪن ٿيون.

ذميوارين جي هي علحدگيءَ کي يقيني بڻائي ٿي ٽيمن جي وچ ۾ ڪم ڪندڙ مشينن جي مختلف منصوبن تي. 

تعاون نئين پروڊڪٽس کي موثر طريقي سان ٺاهڻ ۾ مدد ڪري ٿي. رفتار ۽ معيار هر ڪنهن لاءِ خدمت ٺاهڻ (عالمي اسٽوريج يا ڊيش بورڊ جي انضمام) ۽ هر مخصوص ضرورت يا منصوبي کي لاڳو ڪرڻ (انتهائي خاص پائيپ لائين، ٻاهرين ذريعن کي ڳنڍڻ) جي وچ ۾ توازن ذريعي حاصل ڪيا ويندا آهن. 

ڊيٽا سائنسدانن ۽ تجزيه نگارن سان ويجهي ڪم ڪرڻ سان انجنيئرن کي بهتر ڪوڊ لکڻ لاءِ تجزياتي ۽ تحقيقي صلاحيتن کي ترقي وٺرائڻ ۾ مدد ملندي آهي. گودام ۽ ڊيٽا ڍنڍ جي استعمال ڪندڙن جي وچ ۾ ڄاڻ جي حصيداري کي بهتر بڻائي ٿو، منصوبن کي وڌيڪ چست ۽ وڌيڪ پائيدار ڊگھي مدت جي نتيجن کي پهچائڻ.

انهن ڪمپنين ۾ جيڪي ڊيٽا سان ڪم ڪرڻ جي ثقافت کي ترقي ڪرڻ ۽ انهن جي بنياد تي ڪاروباري عملن جي تعمير جو مقصد رکن ٿا، ڊيٽا سائنسدان ۽ ڊيٽا انجنيئر هڪ ٻئي کي پورو ڪن ٿا ۽ هڪ مڪمل ڊيٽا تجزيو سسٽم ٺاهي رهيا آهن. 

ايندڙ آرٽيڪل ۾ اسين ڳالهائينداسين ته ڪهڙي قسم جي تعليم هڪ ڊيٽا انجنيئر ۽ ڊيٽا سائنسدانن کي گهرجي، انهن کي ڪهڙيون صلاحيتون پيدا ڪرڻ گهرجن ۽ مارڪيٽ ڪيئن ڪم ڪري ٿي.

Netology جي ايڊيٽرن کان

جيڪڏهن توهان ڊيٽا انجنيئر يا ڊيٽا سائنسدان جو پيشو ڏسي رهيا آهيو، اسان توهان کي اسان جي ڪورس پروگرامن جو مطالعو ڪرڻ جي دعوت ڏين ٿا:

جو ذريعو: www.habr.com

تبصرو شامل ڪريو