طبق
من مشاغل خالی برای موقعیت مهندس داده را همانطور که در ژانویه 2020 هستند تجزیه و تحلیل کردم تا بفهمم کدام مهارت های فناوری محبوب ترین هستند. سپس نتایج را با آمار مربوط به مشاغل خالی برای موقعیت دانشمند داده مقایسه کردم - و تفاوت های جالبی ظاهر شد.
بدون مقدمه زیاد، در اینجا ده فناوری برتری که اغلب در آگهیهای شغلی به آنها اشاره میشود، آورده شده است:
ذکر فناوری ها در موقعیت های خالی برای موقعیت مهندس داده در سال 2020
مسئولیت های یک مهندس داده
امروزه، کاری که مهندسان داده انجام می دهند برای سازمان ها از اهمیت بالایی برخوردار است - اینها افرادی هستند که مسئول ذخیره سازی اطلاعات و آوردن آن به شکلی هستند که سایر کارمندان بتوانند با آن کار کنند. مهندسان داده خطوط لوله میسازند تا دادهها را از منابع متعدد جریان یا دستهبندی کنند. خطوط لوله سپس عملیات استخراج، تبدیل و بارگذاری (به عبارت دیگر، فرآیندهای ETL) را انجام می دهند که داده ها را برای استفاده بیشتر مناسب تر می کند. پس از این، داده ها برای پردازش عمیق تر به تحلیلگران و دانشمندان داده ارسال می شود. در نهایت، دادهها سفر خود را در داشبورد، گزارشها و مدلهای یادگیری ماشین به پایان میرسانند.
من به دنبال اطلاعاتی بودم که به من اجازه دهد در مورد اینکه کدام فناوری در حال حاضر در کار یک مهندس داده بیشترین تقاضا را دارد نتیجه گیری کنم.
روش ها
من اطلاعات را از سه سایت کاریابی جمع آوری کردم -
برای هر کلمه کلیدی، درصد بازدیدها را از تعداد کل متن های هر سایت به طور جداگانه محاسبه کردم و سپس میانگین سه منبع را محاسبه کردم.
یافته ها
در زیر سی اصطلاح مهندسی داده های فنی با بالاترین امتیاز در هر سه سایت شغلی آورده شده است.
و در اینجا همان اعداد، اما به شکل جدول ارائه شده است:
به ترتیب بریم
بررسی نتایج
هر دو SQL و Python در بیش از دو سوم از فرصت های شغلی بررسی شده ظاهر می شوند. این دو فناوری هستند که ابتدا مطالعه آنها منطقی است.
در حدود نیمی از جاهای خالی اسپارک ذکر شده است.
AWS تقریباً در 45٪ از آگهی های شغلی ظاهر می شود. این یک پلت فرم رایانش ابری است که توسط آمازون ساخته شده است. بیشترین سهم بازار را در بین تمام پلتفرم های ابری دارد.
بعد جاوا و هدوپ می آیند - کمی بیش از 40 درصد برای برادرشان.
مثل سوار شدن در ماشین زمان است
سپس Hive، Scala، Kafka و NoSQL را می بینیم - هر یک از این فناوری ها در یک چهارم از پست های خالی ارسال شده ذکر شده است. Apache Hive یک نرم افزار انبار داده است که "خواندن، نوشتن و مدیریت مجموعه داده های بزرگ در فروشگاه های توزیع شده را با استفاده از SQL آسان می کند."
مقایسه با اصطلاحات موجود در مشاغل خالی دانشمندان داده
در اینجا سی اصطلاح فناوری که در میان کارفرمایان علم داده رایج است، آورده شده است. من این لیست را به همان روشی که در بالا برای مهندسی داده توضیح داده شد به دست آوردم.
ذکر فناوری در مشاغل خالی برای موقعیت دانشمند داده در سال 2020
اگر در مورد تعداد کل صحبت کنیم، در مقایسه با استخدامی که قبلاً در نظر گرفته شده بود، 28 درصد بیشتر جای خالی وجود داشت (12 در مقابل 013). بیایید ببینیم کدام فناوری ها در مشاغل خالی دانشمندان داده نسبت به مهندسان داده کمتر رایج هستند.
در مهندسی داده محبوب تر است
نمودار زیر کلمات کلیدی را با میانگین اختلاف بیشتر از 10٪ یا کمتر از -10٪ نشان می دهد.
بزرگترین تفاوت در فرکانس کلمات کلیدی بین مهندس داده و دانشمند داده
AWS قابل توجه ترین افزایش را نشان می دهد: در مهندسی داده 25٪ منظم تر از علوم داده ظاهر می شود (به ترتیب تقریباً 45٪ و 20٪ از تعداد کل مشاغل خالی). تفاوت محسوس است!
در اینجا همان داده ها با ارائه کمی متفاوت وجود دارد - در نمودار، نتایج مربوط به همان کلمه کلیدی در مشاغل خالی برای موقعیت مهندس داده و دانشمند داده در کنار هم قرار گرفته اند.
بزرگترین تفاوت در فرکانس کلمات کلیدی بین مهندس داده و دانشمند داده
بزرگترین جهش بعدی که به آن اشاره کردم در Spark بود - یک مهندس داده اغلب مجبور است با داده های بزرگ کار کند.
در مهندسی داده محبوبیت کمتری دارد
حال بیایید ببینیم کدام فناوری ها در مشاغل خالی مهندس داده محبوبیت کمتری دارند.
شدیدترین کاهش در مقایسه با بخش علم داده در سال رخ داد
مورد تقاضا در مهندسی داده و علم داده است
لازم به ذکر است که هشت موقعیت از ده موقعیت اول در هر دو ست یکسان است. SQL، Python، Spark، AWS، Java، Hadoop، Hive و Scala در هر دو صنعت مهندسی داده و علم داده در بین دهها قرار گرفتند. در نمودار زیر پانزده فناوری محبوب در میان کارفرمایان مهندس داده را مشاهده می کنید و در کنار آنها نرخ خالی آنها برای دانشمندان داده است.
توصیه
اگر می خواهید وارد مهندسی داده شوید، به شما توصیه می کنم که بر فناوری های زیر تسلط داشته باشید - آنها را به ترتیب اولویت تقریبی فهرست می کنم.
SQL را یاد بگیرید. من به سمت PostgreSQL گرایش دارم زیرا متن باز است، در جامعه بسیار محبوب است و در مرحله رشد است. می توانید نحوه استفاده از زبان را از کتاب My Memorable SQL بیاموزید - نسخه آزمایشی آن موجود است
استاد پایتون، حتی اگر در هاردکورترین سطح نباشد. My Memorable Python به طور خاص برای مبتدیان طراحی شده است. می توان آن را در
هنگامی که با پایتون آشنا شدید، به سراغ پانداها بروید، یک کتابخانه پایتون که برای تمیز کردن و پردازش داده ها استفاده می شود. اگر قصد دارید در شرکتی کار کنید که به توانایی نوشتن در پایتون نیاز دارد (و این اکثریت آنهاست)، می توانید مطمئن باشید که دانش پانداها به طور پیش فرض فرض می شود. من در حال حاضر در حال تکمیل یک راهنمای مقدماتی برای کار با پاندا هستم - شما می توانید
استاد AWS. اگر میخواهید مهندس داده شوید، نمیتوانید بدون یک پلتفرم ابری در انبار کار کنید و AWS محبوبترین آنهاست. دوره ها خیلی به من کمک کرد
اگر قبلاً کل این لیست را تکمیل کرده اید و می خواهید به عنوان یک مهندس داده در نظر کارفرمایان رشد بیشتری داشته باشید، پیشنهاد می کنم Apache Spark را برای کار با داده های بزرگ اضافه کنید. اگرچه تحقیقات من در مورد شغلهای خالی دانشمندان داده کاهش علاقه را نشان داد، اما در میان مهندسان داده هنوز تقریباً در هر ثانیه شغل خالی ظاهر میشود.
در نهایت
امیدوارم این مرور کلی از پرتقاضاترین فناوری ها برای مهندسان داده برای شما مفید بوده باشد. اگر تعجب می کنید که شغل تحلیلگر چگونه پیش می رود، بخوانید
منبع: www.habr.com