ڊيٽا انجنيئر جي پيشي ۾ سڀ کان وڌيڪ گهربل صلاحيتون

جي مطابق شماريات 2019، ڊيٽا انجنيئر هن وقت هڪ پيشو آهي جنهن جي طلب ڪنهن ٻئي جي ڀيٽ ۾ تيزيءَ سان وڌي رهي آهي. هڪ ڊيٽا انجنيئر هڪ تنظيم ۾ اهم ڪردار ادا ڪري ٿو - پائپ لائنز ۽ ڊيٽابيس ٺاهڻ ۽ برقرار رکڻ جيڪي ڊيٽا کي پروسيس ڪرڻ، تبديل ڪرڻ ۽ ذخيرو ڪرڻ لاء استعمال ڪيا ويا آهن. هن پيشو جي نمائندن جي صلاحيتن کي سڀ کان پهرين ضرورت آهي؟ ڇا اها فهرست مختلف آهي جيڪا ڊيٽا سائنسدانن جي گهربل آهي؟ توهان منهنجي مضمون مان هي سڀ ڪجهه سکندا.

مون ڊيٽا انجنيئر جي پوزيشن لاءِ خالي جاين جو تجزيو ڪيو جيئن اهي جنوري 2020 ۾ آهن اهو سمجهڻ لاءِ ته ڪهڙيون ٽيڪنالاجي صلاحيتون تمام مشهور آهن. پوءِ مون نتيجن جو مقابلو ڪيو ڊيٽا سائنسدان جي پوزيشن لاءِ خالي جاين تي انگن اکرن سان - ۽ ڪجهه دلچسپ اختلاف سامهون آيا.

بغير ڪنهن تمثيل جي، هتي مٿيان ڏهه ٽيڪنالاجيون آهن جن جو ذڪر اڪثر نوڪريءَ جي پوسٽنگ ۾ ڪيو ويندو آهي:

ڊيٽا انجنيئر جي پيشي ۾ سڀ کان وڌيڪ گهربل صلاحيتون

2020 ۾ ڊيٽا انجنيئر جي پوزيشن لاءِ خالي جاين تي ٽيڪنالاجيز جو ذڪر

جي ان کي منهن ڏي.

ڊيٽا انجنيئر جون ذميواريون

اڄ، ڪم جيڪو ڊيٽا انجنيئر ڪندا آهن تنظيمن لاء وڏي اهميت وارو آهي - اهي ماڻهو آهن جيڪي معلومات کي محفوظ ڪرڻ ۽ ان کي اهڙي شڪل ۾ آڻڻ جا ذميوار آهن ته ٻيا ملازم ان سان ڪم ڪري سگهن ٿيون. ڊيٽا انجنيئر ڪيترن ئي ذريعن کان ڊيٽا کي وهڪرو يا بيچ ڪرڻ لاء پائپ لائنون ٺاهيندا آهن. پائپ لائنون وري ڪڍڻ، ٽرانسفارميشن، ۽ لوڊ ڪرڻ جي عملن کي انجام ڏين ٿيون (ٻين لفظن ۾، اي ٽي ايل پروسيس)، ڊيٽا کي وڌيڪ استعمال لاء وڌيڪ موزون بڻائي ٿو. ان کان پوء، ڊيٽا تجزيه نگارن ۽ ڊيٽا سائنسدانن کي گہرے پروسيسنگ لاء جمع ڪيو ويو آهي. آخرڪار، ڊيٽا پنهنجو سفر ختم ڪري ٿو ڊيش بورڊ، رپورٽون، ۽ مشين لرننگ ماڊلز ۾.

مان معلومات ڳولي رهيو هوس ته مون کي اهو نتيجو ڪڍڻ جي اجازت ڏئي ٿي ته ڪهڙي ٽيڪنالاجي هن وقت ڊيٽا انجنيئر جي ڪم ۾ سڀ کان وڌيڪ گهربل آهن.

طريقو

مون ٽن نوڪري ڳولڻ واري سائيٽن کان معلومات گڏ ڪئي - سٿ تي نوڪري تي رکيل, يقينا и حيوان ۽ ڏٺو ويو ته ڇا لفظ ”ڊيٽا انجنيئر“ سان گڏ ملن ٿا خالي جاين جي متن ۾ جن جو مقصد آمريڪا جي رهاڪن لاءِ آهي. هن ڪم لاءِ مون ٻه پٿون لائبريريون استعمال ڪيون - درخواستن и خوبصورت سوپ. لفظن جي وچ ۾، مون اهي ٻئي شامل ڪيا آهن جيڪي اڳئين لسٽ ۾ شامل ڪيا ويا هئا ڊيٽا سائنسدان جي پوزيشن لاءِ خالي جاين جو تجزيو ڪرڻ لاءِ، ۽ اهي جيڪي مون دستي طور تي چونڊيا هئا جڏهن ڊيٽا انجنيئرن لاءِ نوڪري جون آڇون پڙهڻ دوران. LinkedIn ذريعن جي فهرست ۾ شامل نه ڪيو ويو، ڇاڪاڻ ته مون کي ڊيٽا گڏ ڪرڻ جي آخري ڪوشش کان پوء اتي منع ڪئي وئي هئي.

هر هڪ لفظ لاءِ، مون هر سائيٽ تي الڳ الڳ متنن جي ڪل تعداد مان هٽن جو سيڪڙو حساب ڪيو، ۽ پوءِ ٽن ذريعن لاءِ سراسري حساب ڪيو.

نتيجا

هيٺ ڏنل XNUMX ٽيڪنيڪل ڊيٽا انجنيئرنگ اصطلاحون آهن جن سان سڀني ٽنهي نوڪرين جي سائيٽن تي اعليٰ اسڪور آهن.

ڊيٽا انجنيئر جي پيشي ۾ سڀ کان وڌيڪ گهربل صلاحيتون

۽ هتي ساڳيا انگ آهن، پر ٽيبل فارم ۾ پيش ڪيا ويا آهن:

ڊيٽا انجنيئر جي پيشي ۾ سڀ کان وڌيڪ گهربل صلاحيتون

اچو ته ترتيب سان هلون.

نتيجن جو جائزو

ٻئي SQL ۽ پٿون نظر ثاني ٿيل نوڪري جي افتتاح جي ٻن ٽين کان وڌيڪ ۾ نظر اچن ٿا. هي اهي ٻه ٽيڪنالاجيون آهن جيڪي پهرين پڙهڻ لاءِ احساس رکن ٿيون. Python هڪ تمام مشهور پروگرامنگ ٻولي آهي جيڪا ڊيٽا سان ڪم ڪرڻ، ويب سائيٽون ٺاهڻ ۽ لکت لکڻ لاءِ استعمال ٿيندي آهي. وارو SQL ايس Structured Query Language جو مطلب آهي؛ ان ۾ ٻولين جي ھڪڙي گروپ پاران لاڳو ڪيل معيار شامل آھي ۽ تعلقي ڊيٽابيس مان ڊيٽا حاصل ڪرڻ لاءِ استعمال ڪيو ويندو آھي. اهو هڪ ڊگهو وقت اڳ ظاهر ٿيو ۽ پاڻ کي انتهائي مزاحمتي ثابت ڪيو آهي.

اسپارڪ جو ذڪر تقريباً اڌ خالي جاين ۾ آهي. Apache Apache ھڪڙو "متحد وڏو ڊيٽا اينالائيٽڪس انجڻ آھي جنھن ۾ اسٽريمنگ، SQL، مشين لرننگ، ۽ گراف پروسيسنگ لاءِ بلٽ ان ماڊلز سان گڏ." اهو خاص طور تي انهن مان مشهور آهي جيڪي وڏي ڊيٽابيس سان ڪم ڪن ٿا.

AWS تقريبن 45٪ نوڪري جي پوسٽنگ ۾ ظاهر ٿئي ٿو. اھو ھڪڙو بادل ڪمپيوٽنگ پليٽ فارم آھي جيڪو Amazon پاران ٺاھيو ويو آھي؛ اهو سڀني ڪلائوڊ پليٽ فارمن ۾ سڀ کان وڏو مارڪيٽ شيئر آهي.
اڳيان اچيو جاوا ۽ هڊوپ - ٿورڙو وڌيڪ 40٪ سندن ڀاء لاء. جاوا هڪ وڏي پيماني تي ڳالهائيندڙ، جنگ جي آزمائشي ٻولي آهي 2019 اسٽيڪ اوور فلو ڊولپر سروي انهن ٻولين ۾ ڏهين نمبر تي نوازيو ويو جيڪي پروگرامرز جي وچ ۾ خوفناڪ سبب آهن. ان جي ابتڙ، پٿون ٻيون سڀ کان وڌيڪ پياري ٻولي هئي. جاوا ٻولي Oracle جي طرفان هلائي وئي آهي، ۽ سڀ ڪجھ توهان کي ان بابت ڄاڻڻ جي ضرورت آهي جنوري 2020 کان سرڪاري صفحي جي هن اسڪرين شاٽ مان سمجهي سگهجي ٿو.

ڊيٽا انجنيئر جي پيشي ۾ سڀ کان وڌيڪ گهربل صلاحيتون

اهو هڪ ٽائيم مشين ۾ سوار ٿيڻ وانگر آهي
اپاچي هادوپ وڏي ڊيٽا لاءِ سرور ڪلسٽرز سان گڏ MapReduce پروگرامنگ ماڊل استعمال ڪري ٿو. هاڻي هن ماڊل کي تيزيء سان ختم ڪيو پيو وڃي.

پوءِ اسان ڏسون ٿا Hive، Scala، Kafka ۽ NoSQL - انهن مان هر هڪ ٽيڪنالاجي جمع ٿيل خالي جاين جي هڪ چوٿين ۾ ذڪر ڪيل آهي. Apache Hive هڪ ڊيٽا گودام سافٽ ويئر آهي جيڪو "SQL استعمال ڪندي ورهايل اسٽورن ۾ رهندڙ وڏي ڊيٽا سيٽن کي پڙهڻ، لکڻ، ۽ منظم ڪرڻ آسان بڻائي ٿو." Scala - هڪ پروگرامنگ ٻولي جيڪا فعال طور تي استعمال ڪئي ويندي آهي جڏهن وڏي ڊيٽا سان ڪم ڪندي. خاص طور تي، اسپارڪ اسڪالا ۾ پيدا ٿيو. خوفناڪ ٻولين جي اڳ ۾ ئي ذڪر ڪيل درجه بندي ۾، اسڪالا يارهين نمبر تي آهي. ايپيڪي ڪيفيڪا - پروسيسنگ اسٽريمنگ پيغامن لاءِ ورهايل پليٽ فارم. ڊيٽا جي اسٽريمنگ جي هڪ وسيلا طور تمام گهڻو مشهور.

NoSQL ڊيٽابيس پاڻ کي SQL سان برعڪس. انهن ۾ فرق آهي ته اهي غير لاڳاپا، غير منظم، ۽ افقي طور تي اسڪيلبل آهن. NoSQL ڪجهه مقبوليت حاصل ڪئي آهي، پر نقطه نظر جو جنون، حتي اڳڪٿين جي نقطي تائين ته اهو SQL کي غالب اسٽوريج مثال طور تبديل ڪندو، ختم ٿيڻ لڳي.

ڊيٽا سائنسدان جي خالي جاين ۾ شرطن سان مقابلو

هتي ٽيهه ٽيڪنالاجي اصطلاحون آهن سڀ کان عام ڊيٽا سائنس جي ملازمن ۾. مون هن لسٽ کي ساڳئي طريقي سان حاصل ڪيو جيئن مٿي بيان ڪيل ڊيٽا انجنيئرنگ لاءِ.

ڊيٽا انجنيئر جي پيشي ۾ سڀ کان وڌيڪ گهربل صلاحيتون

2020 ۾ ڊيٽا سائنسدان جي پوزيشن لاءِ خالي جاين تي ٽيڪنالاجي جو ذڪر

جيڪڏهن اسان مجموعي تعداد جي باري ۾ ڳالهايون ٿا، اڳ ۾ سمجهيل ڀرتي جي مقابلي ۾، اتي 28٪ وڌيڪ خالي جايون هيون (12 بمقابله 013). اچو ته ڏسو ته ڊيٽا انجنيئرن جي ڀيٽ ۾ ڊيٽا سائنسدانن لاءِ خالي جاين ۾ ڪهڙيون ٽيڪنالاجيون گهٽ عام آهن.

ڊيٽا انجنيئرنگ ۾ وڌيڪ مشهور

هيٺ ڏنل گراف ڏيکاري ٿو لفظن جي اوسط فرق سان 10٪ کان وڌيڪ يا گهٽ -10٪ کان.

ڊيٽا انجنيئر جي پيشي ۾ سڀ کان وڌيڪ گهربل صلاحيتون

ڊيٽا انجنيئر ۽ ڊيٽا سائنسدان جي وچ ۾ لفظي تعدد ۾ سڀ کان وڏو فرق

AWS سڀ کان وڌيڪ اهم واڌارو ڏيکاري ٿو: ڊيٽا انجنيئرنگ ۾ اهو ظاهر ٿئي ٿو 25٪ باقاعده ڊيٽا سائنس جي ڀيٽ ۾ (تقريبن 45٪ ۽ 20٪ ڪل خالي جاين جو، ترتيب سان). فرق قابل ذڪر آهي!

هتي ساڳي ڊيٽا آهي ٿورڙي مختلف پيشڪش ۾ - گراف ۾، ساڳئي لفظ جا نتيجا ڊيٽا انجنيئر ۽ ڊيٽا سائنسدان جي پوزيشن لاءِ خالي جاين تي گڏ آهن.

ڊيٽا انجنيئر جي پيشي ۾ سڀ کان وڌيڪ گهربل صلاحيتون

ڊيٽا انجنيئر ۽ ڊيٽا سائنسدان جي وچ ۾ لفظي تعدد ۾ سڀ کان وڏو فرق

اڳيون سڀ کان وڏو جمپ جيڪو مون نوٽ ڪيو اسپارڪ ۾ هو - هڪ ڊيٽا انجنيئر کي اڪثر وڏي ڊيٽا سان ڪم ڪرڻو پوندو آهي. ڪوفي پڻ 20٪ وڌايو ويو، يعني ڊيٽا سائنسدان جي خالي جاين جي نتيجن جي مقابلي ۾ تقريبا چار ڀيرا. ڊيٽا جي منتقلي هڪ ڊيٽا انجنيئر جي اهم ذميوارين مان هڪ آهي. آخرڪار، جاوا، NoSQL، Redshift، SQL ۽ Hadoop لاء ڊيٽا انجنيئرنگ جي شعبي ۾ ذڪر جو تعداد 15٪ وڌيڪ هو.

ڊيٽا انجنيئرنگ ۾ گهٽ مشهور

هاڻي اچو ته ڏسو ته ڪهڙيون ٽيڪنالاجيون گهٽ مشهور آهن ڊيٽا انجنيئر جي خالي جاين ۾.
ڊيٽا سائنس جي شعبي جي مقابلي ۾ تيز ترين گهٽتائي آئي R: اتي هو تقريبن 56٪ خالي جاين تي ظاهر ٿيو، هتي - صرف 17٪ ۾. متاثر ڪندڙ. R هڪ پروگرامنگ ٻولي آهي جيڪا سائنسدانن ۽ شمارياتي ماهرن طرفان پسند ڪئي وئي آهي، ۽ دنيا ۾ اٺين سڀ کان وڌيڪ خوفناڪ ٻولي آهي.

SAS ڊيٽا انجنيئر جي پوزيشن لاءِ خالي جاين تي پڻ ملي ٿو خاص طور تي گهٽ - فرق 14٪ آهي. SAS هڪ ملڪيت جي ٻولي آهي جيڪا شماريات ۽ ڊيٽا سان ڪم ڪرڻ لاءِ ٺهيل آهي. دلچسپ نقطو: نتيجن جو جائزو وٺڻ منهنجي تحقيق ڊيٽا سائنسدانن لاءِ نوڪري جي افتتاح ۾، اهو تازو ئي گهڻو ڪجهه وڃائي چڪو آهي - ڪنهن ٻئي ٽيڪنالاجي کان وڌيڪ.

ڊيٽا انجنيئرنگ ۽ ڊيٽا سائنس ٻنهي ۾ طلب ۾

اهو ياد رکڻ گهرجي ته ٻنهي سيٽن ۾ پهرين ڏهن مان اٺ پوزيشن ساڳي آهي. SQL، Python، Spark، AWS، Java، Hadoop، Hive ۽ Scala ان کي ڊيٽا انجنيئرنگ ۽ ڊيٽا سائنس جي صنعتن لاءِ مٿين ڏهن ۾ شامل ڪيو. هيٺ ڏنل گراف ۾ توهان ڏسي سگهو ٿا پندرهن مشهور ٽيڪنالاجيون ڊيٽا انجنيئر ملازمن جي وچ ۾، ۽ انهن جي اڳيان آهي ڊيٽا سائنسدانن لاءِ انهن جي خاليگي جي شرح.

ڊيٽا انجنيئر جي پيشي ۾ سڀ کان وڌيڪ گهربل صلاحيتون

سفارشون

جيڪڏھن توھان چاھيو ٿا ڊيٽا انجنيئرنگ ۾، مان توھان کي صلاح ڏيندس توھان کي ھيٺين ٽيڪنالاجين تي عبور حاصل ڪريو - آئون انھن کي ترتيب ۾ ترتيب ڏيان ٿو تقريبن ترجيح.

SQL سکو. مان PostgreSQL ڏانهن جھڪي رهيو آهيان ڇاڪاڻ ته اهو کليل ذريعو آهي، ڪميونٽي ۾ تمام گهڻو مشهور آهي، ۽ ترقي جي مرحلي ۾ آهي. توھان سکي سگھو ٿا ٻولي ڪيئن استعمال ڪجي ڪتاب My Memorable SQL - ان جو پائلٽ ورجن موجود آھي هتي.

ماسٽر پٿون، جيتوڻيڪ سڀ کان وڌيڪ سخت سطح تي نه. منهنجو يادگار پٿون خاص طور تي نئين سکندڙن لاءِ ٺهيل آهي. تي خريد ڪري سگهجي ٿو Amazon, اليڪٽرانڪ يا جسماني ڪاپي، توهان جي پسند، يا pdf يا epub فارميٽ ۾ ڊائون لوڊ انهي ويب سائيٽ تي.

هڪ دفعو توهان پٿون سان واقف آهيو، اڳتي وڌو پنڊس، هڪ پٿون لائبريري جيڪا ڊيٽا جي صفائي ۽ پروسيسنگ لاءِ استعمال ٿئي ٿي. جيڪڏهن توهان هڪ ڪمپني ۾ ڪم ڪرڻ جو ارادو ڪري رهيا آهيو جنهن کي Python ۾ لکڻ جي صلاحيت جي ضرورت آهي (۽ اهو انهن مان اڪثريت آهي)، توهان پڪ ڪري سگهو ٿا ته پانڊن جي ڄاڻ کي ڊفالٽ طور سمجهيو ويندو. مان هن وقت پنڊاس سان ڪم ڪرڻ لاءِ هڪ تعارفي گائيڊ تيار ڪري رهيو آهيان - توهان ڪري سگهو ٿا رڪنيت حاصل ڪريوته جيئن ڇڏڻ جو لمحو نه وڃايو وڃي.

ماسٽر AWS. جيڪڏھن توھان چاھيو ٿا ھڪڙو ڊيٽا انجنيئر، توھان نٿا ڪري سگھو بغير ڪلائوڊ پليٽ فارم جي اسٽش ۾، ۽ AWS انھن مان تمام مقبول آھي. ڪورسز مون کي تمام گهڻو مدد ڪئي لينڪس اڪيڊميجڏهن مان پڙهندو هوس گوگل ڪلائوڊ تي ڊيٽا انجنيئرنگ، مان سمجهان ٿو ته انهن وٽ پڻ AWS تي سٺو مواد هوندو.

جيڪڏهن توهان اڳ ۾ ئي مڪمل ڪيو آهي مڪمل فهرست ۽ ڊيٽا انجنيئر جي حيثيت ۾ ملازمتن جي نظر ۾ اڳتي وڌڻ چاهيو ٿا، آئون وڏي ڊيٽا سان ڪم ڪرڻ لاء Apache Spark شامل ڪرڻ جي صلاح ڏيان ٿو. جيتوڻيڪ ڊيٽا سائنسدان جي خالي جاين تي منهنجي تحقيق دلچسپي ۾ گهٽتائي ڏيکاري ٿي، ڊيٽا انجنيئرن جي وچ ۾ اهو اڃا تائين تقريبا هر سيڪنڊ جي خالي جاء تي ظاهر ٿئي ٿو.

آخر ۾

مون کي اميد آهي ته توهان ڊيٽا انجنيئرن لاءِ تمام گهڻي گهربل ٽيڪنالاجيز جو هي جائزو مفيد ثابت ڪيو. جيڪڏهن توهان حيران ٿي رهيا آهيو ته تجزيه نگار نوڪريون ڪيئن آهن، پڙهو منهنجو ٻيو مضمون. خوش انجنيئرنگ!

جو ذريعو: www.habr.com

تبصرو شامل ڪريو