جي مطابق
مون ڊيٽا انجنيئر جي پوزيشن لاءِ خالي جاين جو تجزيو ڪيو جيئن اهي جنوري 2020 ۾ آهن اهو سمجهڻ لاءِ ته ڪهڙيون ٽيڪنالاجي صلاحيتون تمام مشهور آهن. پوءِ مون نتيجن جو مقابلو ڪيو ڊيٽا سائنسدان جي پوزيشن لاءِ خالي جاين تي انگن اکرن سان - ۽ ڪجهه دلچسپ اختلاف سامهون آيا.
بغير ڪنهن تمثيل جي، هتي مٿيان ڏهه ٽيڪنالاجيون آهن جن جو ذڪر اڪثر نوڪريءَ جي پوسٽنگ ۾ ڪيو ويندو آهي:
2020 ۾ ڊيٽا انجنيئر جي پوزيشن لاءِ خالي جاين تي ٽيڪنالاجيز جو ذڪر
ڊيٽا انجنيئر جون ذميواريون
اڄ، ڪم جيڪو ڊيٽا انجنيئر ڪندا آهن تنظيمن لاء وڏي اهميت وارو آهي - اهي ماڻهو آهن جيڪي معلومات کي محفوظ ڪرڻ ۽ ان کي اهڙي شڪل ۾ آڻڻ جا ذميوار آهن ته ٻيا ملازم ان سان ڪم ڪري سگهن ٿيون. ڊيٽا انجنيئر ڪيترن ئي ذريعن کان ڊيٽا کي وهڪرو يا بيچ ڪرڻ لاء پائپ لائنون ٺاهيندا آهن. پائپ لائنون وري ڪڍڻ، ٽرانسفارميشن، ۽ لوڊ ڪرڻ جي عملن کي انجام ڏين ٿيون (ٻين لفظن ۾، اي ٽي ايل پروسيس)، ڊيٽا کي وڌيڪ استعمال لاء وڌيڪ موزون بڻائي ٿو. ان کان پوء، ڊيٽا تجزيه نگارن ۽ ڊيٽا سائنسدانن کي گہرے پروسيسنگ لاء جمع ڪيو ويو آهي. آخرڪار، ڊيٽا پنهنجو سفر ختم ڪري ٿو ڊيش بورڊ، رپورٽون، ۽ مشين لرننگ ماڊلز ۾.
مان معلومات ڳولي رهيو هوس ته مون کي اهو نتيجو ڪڍڻ جي اجازت ڏئي ٿي ته ڪهڙي ٽيڪنالاجي هن وقت ڊيٽا انجنيئر جي ڪم ۾ سڀ کان وڌيڪ گهربل آهن.
طريقو
مون ٽن نوڪري ڳولڻ واري سائيٽن کان معلومات گڏ ڪئي -
هر هڪ لفظ لاءِ، مون هر سائيٽ تي الڳ الڳ متنن جي ڪل تعداد مان هٽن جو سيڪڙو حساب ڪيو، ۽ پوءِ ٽن ذريعن لاءِ سراسري حساب ڪيو.
نتيجا
هيٺ ڏنل XNUMX ٽيڪنيڪل ڊيٽا انجنيئرنگ اصطلاحون آهن جن سان سڀني ٽنهي نوڪرين جي سائيٽن تي اعليٰ اسڪور آهن.
۽ هتي ساڳيا انگ آهن، پر ٽيبل فارم ۾ پيش ڪيا ويا آهن:
اچو ته ترتيب سان هلون.
نتيجن جو جائزو
ٻئي SQL ۽ پٿون نظر ثاني ٿيل نوڪري جي افتتاح جي ٻن ٽين کان وڌيڪ ۾ نظر اچن ٿا. هي اهي ٻه ٽيڪنالاجيون آهن جيڪي پهرين پڙهڻ لاءِ احساس رکن ٿيون.
اسپارڪ جو ذڪر تقريباً اڌ خالي جاين ۾ آهي.
AWS تقريبن 45٪ نوڪري جي پوسٽنگ ۾ ظاهر ٿئي ٿو. اھو ھڪڙو بادل ڪمپيوٽنگ پليٽ فارم آھي جيڪو Amazon پاران ٺاھيو ويو آھي؛ اهو سڀني ڪلائوڊ پليٽ فارمن ۾ سڀ کان وڏو مارڪيٽ شيئر آهي.
اڳيان اچيو جاوا ۽ هڊوپ - ٿورڙو وڌيڪ 40٪ سندن ڀاء لاء.
اهو هڪ ٽائيم مشين ۾ سوار ٿيڻ وانگر آهي
پوءِ اسان ڏسون ٿا Hive، Scala، Kafka ۽ NoSQL - انهن مان هر هڪ ٽيڪنالاجي جمع ٿيل خالي جاين جي هڪ چوٿين ۾ ذڪر ڪيل آهي. Apache Hive هڪ ڊيٽا گودام سافٽ ويئر آهي جيڪو "SQL استعمال ڪندي ورهايل اسٽورن ۾ رهندڙ وڏي ڊيٽا سيٽن کي پڙهڻ، لکڻ، ۽ منظم ڪرڻ آسان بڻائي ٿو."
ڊيٽا سائنسدان جي خالي جاين ۾ شرطن سان مقابلو
هتي ٽيهه ٽيڪنالاجي اصطلاحون آهن سڀ کان عام ڊيٽا سائنس جي ملازمن ۾. مون هن لسٽ کي ساڳئي طريقي سان حاصل ڪيو جيئن مٿي بيان ڪيل ڊيٽا انجنيئرنگ لاءِ.
2020 ۾ ڊيٽا سائنسدان جي پوزيشن لاءِ خالي جاين تي ٽيڪنالاجي جو ذڪر
جيڪڏهن اسان مجموعي تعداد جي باري ۾ ڳالهايون ٿا، اڳ ۾ سمجهيل ڀرتي جي مقابلي ۾، اتي 28٪ وڌيڪ خالي جايون هيون (12 بمقابله 013). اچو ته ڏسو ته ڊيٽا انجنيئرن جي ڀيٽ ۾ ڊيٽا سائنسدانن لاءِ خالي جاين ۾ ڪهڙيون ٽيڪنالاجيون گهٽ عام آهن.
ڊيٽا انجنيئرنگ ۾ وڌيڪ مشهور
هيٺ ڏنل گراف ڏيکاري ٿو لفظن جي اوسط فرق سان 10٪ کان وڌيڪ يا گهٽ -10٪ کان.
ڊيٽا انجنيئر ۽ ڊيٽا سائنسدان جي وچ ۾ لفظي تعدد ۾ سڀ کان وڏو فرق
AWS سڀ کان وڌيڪ اهم واڌارو ڏيکاري ٿو: ڊيٽا انجنيئرنگ ۾ اهو ظاهر ٿئي ٿو 25٪ باقاعده ڊيٽا سائنس جي ڀيٽ ۾ (تقريبن 45٪ ۽ 20٪ ڪل خالي جاين جو، ترتيب سان). فرق قابل ذڪر آهي!
هتي ساڳي ڊيٽا آهي ٿورڙي مختلف پيشڪش ۾ - گراف ۾، ساڳئي لفظ جا نتيجا ڊيٽا انجنيئر ۽ ڊيٽا سائنسدان جي پوزيشن لاءِ خالي جاين تي گڏ آهن.
ڊيٽا انجنيئر ۽ ڊيٽا سائنسدان جي وچ ۾ لفظي تعدد ۾ سڀ کان وڏو فرق
اڳيون سڀ کان وڏو جمپ جيڪو مون نوٽ ڪيو اسپارڪ ۾ هو - هڪ ڊيٽا انجنيئر کي اڪثر وڏي ڊيٽا سان ڪم ڪرڻو پوندو آهي.
ڊيٽا انجنيئرنگ ۾ گهٽ مشهور
هاڻي اچو ته ڏسو ته ڪهڙيون ٽيڪنالاجيون گهٽ مشهور آهن ڊيٽا انجنيئر جي خالي جاين ۾.
ڊيٽا سائنس جي شعبي جي مقابلي ۾ تيز ترين گهٽتائي آئي
ڊيٽا انجنيئرنگ ۽ ڊيٽا سائنس ٻنهي ۾ طلب ۾
اهو ياد رکڻ گهرجي ته ٻنهي سيٽن ۾ پهرين ڏهن مان اٺ پوزيشن ساڳي آهي. SQL، Python، Spark، AWS، Java، Hadoop، Hive ۽ Scala ان کي ڊيٽا انجنيئرنگ ۽ ڊيٽا سائنس جي صنعتن لاءِ مٿين ڏهن ۾ شامل ڪيو. هيٺ ڏنل گراف ۾ توهان ڏسي سگهو ٿا پندرهن مشهور ٽيڪنالاجيون ڊيٽا انجنيئر ملازمن جي وچ ۾، ۽ انهن جي اڳيان آهي ڊيٽا سائنسدانن لاءِ انهن جي خاليگي جي شرح.
سفارشون
جيڪڏھن توھان چاھيو ٿا ڊيٽا انجنيئرنگ ۾، مان توھان کي صلاح ڏيندس توھان کي ھيٺين ٽيڪنالاجين تي عبور حاصل ڪريو - آئون انھن کي ترتيب ۾ ترتيب ڏيان ٿو تقريبن ترجيح.
SQL سکو. مان PostgreSQL ڏانهن جھڪي رهيو آهيان ڇاڪاڻ ته اهو کليل ذريعو آهي، ڪميونٽي ۾ تمام گهڻو مشهور آهي، ۽ ترقي جي مرحلي ۾ آهي. توھان سکي سگھو ٿا ٻولي ڪيئن استعمال ڪجي ڪتاب My Memorable SQL - ان جو پائلٽ ورجن موجود آھي
ماسٽر پٿون، جيتوڻيڪ سڀ کان وڌيڪ سخت سطح تي نه. منهنجو يادگار پٿون خاص طور تي نئين سکندڙن لاءِ ٺهيل آهي. تي خريد ڪري سگهجي ٿو
هڪ دفعو توهان پٿون سان واقف آهيو، اڳتي وڌو پنڊس، هڪ پٿون لائبريري جيڪا ڊيٽا جي صفائي ۽ پروسيسنگ لاءِ استعمال ٿئي ٿي. جيڪڏهن توهان هڪ ڪمپني ۾ ڪم ڪرڻ جو ارادو ڪري رهيا آهيو جنهن کي Python ۾ لکڻ جي صلاحيت جي ضرورت آهي (۽ اهو انهن مان اڪثريت آهي)، توهان پڪ ڪري سگهو ٿا ته پانڊن جي ڄاڻ کي ڊفالٽ طور سمجهيو ويندو. مان هن وقت پنڊاس سان ڪم ڪرڻ لاءِ هڪ تعارفي گائيڊ تيار ڪري رهيو آهيان - توهان ڪري سگهو ٿا
ماسٽر AWS. جيڪڏھن توھان چاھيو ٿا ھڪڙو ڊيٽا انجنيئر، توھان نٿا ڪري سگھو بغير ڪلائوڊ پليٽ فارم جي اسٽش ۾، ۽ AWS انھن مان تمام مقبول آھي. ڪورسز مون کي تمام گهڻو مدد ڪئي
جيڪڏهن توهان اڳ ۾ ئي مڪمل ڪيو آهي مڪمل فهرست ۽ ڊيٽا انجنيئر جي حيثيت ۾ ملازمتن جي نظر ۾ اڳتي وڌڻ چاهيو ٿا، آئون وڏي ڊيٽا سان ڪم ڪرڻ لاء Apache Spark شامل ڪرڻ جي صلاح ڏيان ٿو. جيتوڻيڪ ڊيٽا سائنسدان جي خالي جاين تي منهنجي تحقيق دلچسپي ۾ گهٽتائي ڏيکاري ٿي، ڊيٽا انجنيئرن جي وچ ۾ اهو اڃا تائين تقريبا هر سيڪنڊ جي خالي جاء تي ظاهر ٿئي ٿو.
آخر ۾
مون کي اميد آهي ته توهان ڊيٽا انجنيئرن لاءِ تمام گهڻي گهربل ٽيڪنالاجيز جو هي جائزو مفيد ثابت ڪيو. جيڪڏهن توهان حيران ٿي رهيا آهيو ته تجزيه نگار نوڪريون ڪيئن آهن، پڙهو
جو ذريعو: www.habr.com