پرتقاضاترین مهارت ها در حرفه مهندس داده

طبق آمار 2019، مهندس داده در حال حاضر حرفه ای است که تقاضای آن سریعتر از هر شغل دیگری در حال رشد است. یک مهندس داده نقش مهمی در یک سازمان ایفا می کند - ایجاد و نگهداری خطوط لوله و پایگاه های داده که برای پردازش، تبدیل و ذخیره داده ها استفاده می شوند. نمایندگان این حرفه قبل از هر چیز به چه مهارت هایی نیاز دارند؟ آیا فهرست با آنچه که دانشمندان داده مورد نیاز هستند متفاوت است؟ همه اینها را از مقاله من یاد خواهید گرفت.

من مشاغل خالی برای موقعیت مهندس داده را همانطور که در ژانویه 2020 هستند تجزیه و تحلیل کردم تا بفهمم کدام مهارت های فناوری محبوب ترین هستند. سپس نتایج را با آمار مربوط به مشاغل خالی برای موقعیت دانشمند داده مقایسه کردم - و تفاوت های جالبی ظاهر شد.

بدون مقدمه زیاد، در اینجا ده فناوری برتری که اغلب در آگهی‌های شغلی به آنها اشاره می‌شود، آورده شده است:

پرتقاضاترین مهارت ها در حرفه مهندس داده

ذکر فناوری ها در موقعیت های خالی برای موقعیت مهندس داده در سال 2020

بیایید آن را کشف کنیم

مسئولیت های یک مهندس داده

امروزه، کاری که مهندسان داده انجام می دهند برای سازمان ها از اهمیت بالایی برخوردار است - اینها افرادی هستند که مسئول ذخیره سازی اطلاعات و آوردن آن به شکلی هستند که سایر کارمندان بتوانند با آن کار کنند. مهندسان داده خطوط لوله می‌سازند تا داده‌ها را از منابع متعدد جریان یا دسته‌بندی کنند. خطوط لوله سپس عملیات استخراج، تبدیل و بارگذاری (به عبارت دیگر، فرآیندهای ETL) را انجام می دهند که داده ها را برای استفاده بیشتر مناسب تر می کند. پس از این، داده ها برای پردازش عمیق تر به تحلیلگران و دانشمندان داده ارسال می شود. در نهایت، داده‌ها سفر خود را در داشبورد، گزارش‌ها و مدل‌های یادگیری ماشین به پایان می‌رسانند.

من به دنبال اطلاعاتی بودم که به من اجازه دهد در مورد اینکه کدام فناوری در حال حاضر در کار یک مهندس داده بیشترین تقاضا را دارد نتیجه گیری کنم.

روش ها

من اطلاعات را از سه سایت کاریابی جمع آوری کردم - SimplyHired, در واقع и هیولا و به کلمات کلیدی مرتبط با "مهندس داده" در متون مشاغل خالی ساکنان ایالات متحده نگاه کرد. برای این کار از دو کتابخانه پایتون استفاده کردم - درخواست ها и سوپ زیبا. در بین کلمات کلیدی، هم آنهایی را که در لیست قبلی برای تجزیه و تحلیل موقعیت های شغلی خالی برای موقعیت دانشمند داده گنجانده شده بودند، و هم آنهایی را که به صورت دستی هنگام خواندن پیشنهادهای شغلی برای مهندسان داده انتخاب کردم، وارد کردم. لینکدین در لیست منابع گنجانده نشده بود، زیرا من پس از آخرین تلاشم برای جمع آوری داده ها در آنجا ممنوع شده بودم.

برای هر کلمه کلیدی، درصد بازدیدها را از تعداد کل متن های هر سایت به طور جداگانه محاسبه کردم و سپس میانگین سه منبع را محاسبه کردم.

یافته ها

در زیر سی اصطلاح مهندسی داده های فنی با بالاترین امتیاز در هر سه سایت شغلی آورده شده است.

پرتقاضاترین مهارت ها در حرفه مهندس داده

و در اینجا همان اعداد، اما به شکل جدول ارائه شده است:

پرتقاضاترین مهارت ها در حرفه مهندس داده

به ترتیب بریم

بررسی نتایج

هر دو SQL و Python در بیش از دو سوم از فرصت های شغلی بررسی شده ظاهر می شوند. این دو فناوری هستند که ابتدا مطالعه آنها منطقی است. پــایتــون یک زبان برنامه نویسی بسیار محبوب است که برای کار با داده ها، ایجاد وب سایت و نوشتن اسکریپت استفاده می شود. SQL مخفف Structured Query Language است. این شامل استانداردی است که توسط گروهی از زبان ها پیاده سازی شده و برای بازیابی داده ها از پایگاه های داده رابطه ای استفاده می شود. مدتها پیش ظاهر شد و ثابت کرده است که بسیار مقاوم است.

در حدود نیمی از جاهای خالی اسپارک ذکر شده است. جرقه آپاچی یک موتور تجزیه و تحلیل کلان داده یکپارچه با ماژول های داخلی برای استریم، SQL، یادگیری ماشین و پردازش گراف است. به ویژه در میان کسانی که با پایگاه داده های بزرگ کار می کنند محبوبیت دارد.

AWS تقریباً در 45٪ از آگهی های شغلی ظاهر می شود. این یک پلت فرم رایانش ابری است که توسط آمازون ساخته شده است. بیشترین سهم بازار را در بین تمام پلتفرم های ابری دارد.
بعد جاوا و هدوپ می آیند - کمی بیش از 40 درصد برای برادرشان. جاوه زبانی است که به طور گسترده صحبت می شود و در نبرد آزمایش شده است که نظرسنجی توسعه دهندگان Stack Overflow 2019 رتبه دهم را در بین زبان هایی که باعث وحشت در بین برنامه نویسان می شود به دست آورد. در مقابل، پایتون دومین زبان محبوب بود. زبان جاوا توسط Oracle اجرا می شود و هر آنچه را که باید در مورد آن بدانید را می توانید از این صفحه رسمی از ژانویه 2020 درک کنید.

پرتقاضاترین مهارت ها در حرفه مهندس داده

مثل سوار شدن در ماشین زمان است
آپاچی هادوپ از مدل برنامه نویسی MapReduce با خوشه های سرور برای داده های بزرگ استفاده می کند. اکنون این مدل به طور فزاینده ای کنار گذاشته می شود.

سپس Hive، Scala، Kafka و NoSQL را می بینیم - هر یک از این فناوری ها در یک چهارم از پست های خالی ارسال شده ذکر شده است. Apache Hive یک نرم افزار انبار داده است که "خواندن، نوشتن و مدیریت مجموعه داده های بزرگ در فروشگاه های توزیع شده را با استفاده از SQL آسان می کند." اسکالا - یک زبان برنامه نویسی که به طور فعال هنگام کار با داده های بزرگ استفاده می شود. به طور خاص، Spark در اسکالا ایجاد شد. در رتبه بندی قبلا ذکر شده از زبان های ترسناک، اسکالا در رتبه یازدهم قرار دارد. آپاچی کافکا - یک پلت فرم توزیع شده برای پردازش پیام های جریان. به عنوان وسیله ای برای پخش داده ها بسیار محبوب است.

پایگاه های داده NoSQL خود را با SQL مقایسه کنند. تفاوت آنها در غیر رابطه ای بودن، بدون ساختار و مقیاس افقی است. NoSQL تا حدی محبوبیت پیدا کرده است، اما به نظر می‌رسد که شور و شوق این رویکرد، حتی تا حد پیش‌گویی که جایگزین SQL به‌عنوان پارادایم ذخیره‌سازی غالب خواهد شد، به پایان رسیده است.

مقایسه با اصطلاحات موجود در مشاغل خالی دانشمندان داده

در اینجا سی اصطلاح فناوری که در میان کارفرمایان علم داده رایج است، آورده شده است. من این لیست را به همان روشی که در بالا برای مهندسی داده توضیح داده شد به دست آوردم.

پرتقاضاترین مهارت ها در حرفه مهندس داده

ذکر فناوری در مشاغل خالی برای موقعیت دانشمند داده در سال 2020

اگر در مورد تعداد کل صحبت کنیم، در مقایسه با استخدامی که قبلاً در نظر گرفته شده بود، 28 درصد بیشتر جای خالی وجود داشت (12 در مقابل 013). بیایید ببینیم کدام فناوری ها در مشاغل خالی دانشمندان داده نسبت به مهندسان داده کمتر رایج هستند.

در مهندسی داده محبوب تر است

نمودار زیر کلمات کلیدی را با میانگین اختلاف بیشتر از 10٪ یا کمتر از -10٪ نشان می دهد.

پرتقاضاترین مهارت ها در حرفه مهندس داده

بزرگترین تفاوت در فرکانس کلمات کلیدی بین مهندس داده و دانشمند داده

AWS قابل توجه ترین افزایش را نشان می دهد: در مهندسی داده 25٪ منظم تر از علوم داده ظاهر می شود (به ترتیب تقریباً 45٪ و 20٪ از تعداد کل مشاغل خالی). تفاوت محسوس است!

در اینجا همان داده ها با ارائه کمی متفاوت وجود دارد - در نمودار، نتایج مربوط به همان کلمه کلیدی در مشاغل خالی برای موقعیت مهندس داده و دانشمند داده در کنار هم قرار گرفته اند.

پرتقاضاترین مهارت ها در حرفه مهندس داده

بزرگترین تفاوت در فرکانس کلمات کلیدی بین مهندس داده و دانشمند داده

بزرگترین جهش بعدی که به آن اشاره کردم در Spark بود - یک مهندس داده اغلب مجبور است با داده های بزرگ کار کند. کافکا همچنین 20٪ افزایش یافته است، یعنی تقریباً چهار برابر در مقایسه با نتیجه برای جاهای خالی دانشمندان داده. انتقال داده یکی از مسئولیت های کلیدی یک مهندس داده است. در نهایت، تعداد ذکر شده در زمینه مهندسی داده برای جاوا، NoSQL، Redshift، SQL و Hadoop 15 درصد بیشتر بود.

در مهندسی داده محبوبیت کمتری دارد

حال بیایید ببینیم کدام فناوری ها در مشاغل خالی مهندس داده محبوبیت کمتری دارند.
شدیدترین کاهش در مقایسه با بخش علم داده در سال رخ داد R: در آنجا او تقریباً در 56٪ از مشاغل خالی ظاهر شد ، در اینجا - فقط در 17٪. چشمگیر. R یک زبان برنامه نویسی است که مورد علاقه دانشمندان و آماردانان است و هشتمین زبان ترسناک در جهان است.

SAS همچنین در مشاغل خالی برای موقعیت مهندس داده به طور قابل توجهی کمتر یافت می شود - تفاوت 14٪ است. SAS یک زبان اختصاصی است که برای کار با آمار و داده ها طراحی شده است. نکته جالب: قضاوت بر اساس نتایج تحقیق من در مورد فرصت های شغلی برای دانشمندان داده، اخیراً جایگاه زیادی را از دست داده است - بیش از هر فناوری دیگری.

مورد تقاضا در مهندسی داده و علم داده است

لازم به ذکر است که هشت موقعیت از ده موقعیت اول در هر دو ست یکسان است. SQL، Python، Spark، AWS، Java، Hadoop، Hive و Scala در هر دو صنعت مهندسی داده و علم داده در بین ده‌ها قرار گرفتند. در نمودار زیر پانزده فناوری محبوب در میان کارفرمایان مهندس داده را مشاهده می کنید و در کنار آنها نرخ خالی آنها برای دانشمندان داده است.

پرتقاضاترین مهارت ها در حرفه مهندس داده

توصیه

اگر می خواهید وارد مهندسی داده شوید، به شما توصیه می کنم که بر فناوری های زیر تسلط داشته باشید - آنها را به ترتیب اولویت تقریبی فهرست می کنم.

SQL را یاد بگیرید. من به سمت PostgreSQL گرایش دارم زیرا متن باز است، در جامعه بسیار محبوب است و در مرحله رشد است. می توانید نحوه استفاده از زبان را از کتاب My Memorable SQL بیاموزید - نسخه آزمایشی آن موجود است اینجا.

استاد پایتون، حتی اگر در هاردکورترین سطح نباشد. My Memorable Python به طور خاص برای مبتدیان طراحی شده است. می توان آن را در آمازون، کپی الکترونیکی یا فیزیکی، به انتخاب شما، یا دانلود در قالب pdf یا epub در این سایت.

هنگامی که با پایتون آشنا شدید، به سراغ پانداها بروید، یک کتابخانه پایتون که برای تمیز کردن و پردازش داده ها استفاده می شود. اگر قصد دارید در شرکتی کار کنید که به توانایی نوشتن در پایتون نیاز دارد (و این اکثریت آنهاست)، می توانید مطمئن باشید که دانش پانداها به طور پیش فرض فرض می شود. من در حال حاضر در حال تکمیل یک راهنمای مقدماتی برای کار با پاندا هستم - شما می توانید اشتراک درتا لحظه رهایی را از دست ندهید.

استاد AWS. اگر می‌خواهید مهندس داده شوید، نمی‌توانید بدون یک پلتفرم ابری در انبار کار کنید و AWS محبوب‌ترین آنهاست. دوره ها خیلی به من کمک کرد آکادمی لینوکسوقتی درس می خواندم مهندسی داده در Google Cloud، من فکر می کنم که آنها همچنین مواد خوبی در AWS خواهند داشت.

اگر قبلاً کل این لیست را تکمیل کرده اید و می خواهید به عنوان یک مهندس داده در نظر کارفرمایان رشد بیشتری داشته باشید، پیشنهاد می کنم Apache Spark را برای کار با داده های بزرگ اضافه کنید. اگرچه تحقیقات من در مورد شغل‌های خالی دانشمندان داده کاهش علاقه را نشان داد، اما در میان مهندسان داده هنوز تقریباً در هر ثانیه شغل خالی ظاهر می‌شود.

در نهایت

امیدوارم این مرور کلی از پرتقاضاترین فناوری ها برای مهندسان داده برای شما مفید بوده باشد. اگر تعجب می کنید که شغل تحلیلگر چگونه پیش می رود، بخوانید مقاله دیگر من. مهندسی مبارک!

منبع: www.habr.com

اضافه کردن نظر