المهارات الأكثر طلبًا في مهنة مهندس البيانات

وفق إحصائيات 2019، مهندس البيانات في الوقت الحالي مهنة ، ينمو الطلب عليها بشكل أسرع من جميع المهن الأخرى. يلعب مهندس البيانات دورًا مهمًا في المؤسسة - فهو ينشئ ويحافظ على خطوط الأنابيب وقواعد البيانات المستخدمة لمعالجة البيانات وتحويلها وتخزينها. ما هي المهارات التي يحتاجها ممثلو هذه المهنة في المقام الأول؟ هل تختلف القائمة عما هو مطلوب من علماء البيانات؟ سوف تتعلم عن كل هذا من مقالي.

لقد قمت بتحليل الوظائف لمنصب مهندس البيانات كما هي في يناير 2020 لفهم المهارات الأكثر شيوعًا في مجال التكنولوجيا. ثم قارنت النتائج بإحصائيات الوظائف الشاغرة لمنصب عالم البيانات - مع الكشف عن بعض الاختلافات المثيرة للاهتمام.

بدون مقدمات طويلة ، إليك أهم عشر تقنيات يتم ذكرها غالبًا في إعلانات الوظائف:

المهارات الأكثر طلبًا في مهنة مهندس البيانات

مراجع التكنولوجيا في وظائف مهندس البيانات في 2020

دعونا الصفقة.

مسؤوليات مهندس البيانات

اليوم ، يعد العمل الذي يقوم به مهندسو البيانات ذا أهمية كبيرة للمؤسسات - فهؤلاء الأشخاص هم المسؤولون عن تخزين المعلومات ووضعها في شكل يمكن للموظفين الآخرين العمل معه. ينشئ مهندسو البيانات خطوط أنابيب للحصول على البيانات أو الدفق أو الدُفعات من مصادر متعددة. بعد ذلك ، تقوم خطوط الأنابيب بعمليات الاستخراج والتحويل والتحميل (بمعنى آخر ، عمليات ETL) ، مما يجعل البيانات أكثر ملاءمة للاستخدام الإضافي. بعد ذلك ، يتم تقديم البيانات إلى المحللين وعلماء البيانات لمعالجتها بشكل أعمق. أخيرًا ، تُنهي البيانات رحلتها في لوحات المعلومات والتقارير ونماذج التعلم الآلي.

كنت أبحث عن معلومات تسمح لي باستنتاج التقنيات الأكثر طلبًا في عمل مهندس البيانات في الوقت الحالي.

طرق

جمعت معلومات من ثلاثة مواقع للبحث عن وظائف - SimplyHired, في الواقع и مسخ ونظر في الكلمات الرئيسية التي ظهرت بالاقتران مع "مهندس البيانات" في نصوص الوظائف الشاغرة المصممة للمقيمين في الولايات المتحدة. لهذه المهمة ، استخدمت مكتبتي بايثون - الطلبات и حساء جميل. من بين الكلمات الرئيسية ، قمت بتضمين كل من تلك التي تم تضمينها في القائمة السابقة لتحليل الوظائف الشاغرة لمنصب عالم البيانات ، وتلك التي اخترتها يدويًا من خلال قراءة عروض العمل لمهندسي البيانات. لم يتم تضمين LinkedIn في عدد المصادر ، حيث تم حظري هناك بعد المحاولة الأخيرة لجمع البيانات.

لكل كلمة رئيسية ، حسبت النسبة المئوية للنتائج من إجمالي عدد النصوص في كل موقع على حدة ، ثم حسبت متوسط ​​القيمة لثلاثة مصادر.

النتائج

فيما يلي أهم XNUMX مصطلحًا لهندسة البيانات من أفضل مصطلحات هندسة البيانات أداءً عبر مواقع العمل الثلاثة.

المهارات الأكثر طلبًا في مهنة مهندس البيانات

وهنا نفس الأرقام ، لكنها مرتبة على شكل جدول:

المهارات الأكثر طلبًا في مهنة مهندس البيانات

دعنا نذهب بالترتيب.

مراجعة النتائج

تشغل كل من SQL و Python أكثر من ثلثي الوظائف التي تمت مراجعتها. هاتان التقنيتان هما المنطقيان للدراسة في المقام الأول. بايثون هي لغة برمجة شائعة جدًا تُستخدم للعمل مع البيانات وإنشاء مواقع الويب وكتابة البرامج النصية. SQL لتقف على لغة الاستعلام الهيكلية (لغة الاستعلام المهيكلة) ؛ يفترض معيارًا يتم تنفيذه بواسطة مجموعة من اللغات ويستخدم لاسترداد البيانات من قواعد البيانات العلائقية. ظهر منذ وقت طويل وثبت أنه شديد المقاومة.

تم ذكر سبارك في حوالي نصف الوظائف الشاغرة. أباتشي سبارك هو "محرك موحد لتحليلات البيانات الضخمة مع وحدات مدمجة للبث ، و SQL ، والتعلم الآلي ، ومعالجة الرسوم البيانية." إنها تحظى بشعبية خاصة بين أولئك الذين يعملون مع قواعد البيانات الكبيرة.

AWS في حوالي 45٪ من إعلانات الوظائف. إنها منصة حوسبة سحابية تصنعها أمازون ؛ لديها أكبر حصة في السوق بين جميع المنصات السحابية.
بعد ذلك تأتي Java و Hadoop - ما يزيد قليلاً عن 40 ٪ لكل أخ. جافا هي لغة منتشرة على نطاق واسع وتم اختبارها في المعارك استبيان مطوري Stack Overflow لعام 2019 حصل على المركز العاشر بين اللغات التي تسبب الرعب لدى المبرمجين. في المقابل ، كانت بايثون ثاني أكثر اللغات شعبية. يتم تشغيل Java بواسطة Oracle ، ويمكن فهم كل ما تريد معرفته عنها من لقطة الشاشة هذه للصفحة الرسمية اعتبارًا من يناير 2020.

المهارات الأكثر طلبًا في مهنة مهندس البيانات

إنه مثل ركوب آلة الزمن
اباتشي هادوب يستخدم نموذج البرمجة MapReduce مع مجموعات الخادم للبيانات الضخمة. الآن يتم التخلي عن هذا النموذج أكثر فأكثر.

ثم نرى Hive و Scala و Kafka و NoSQL - كل من هذه التقنيات مذكورة في ربع الوظائف الشاغرة المقدمة. Apache Hive هو برنامج مستودع بيانات "يجعل من السهل قراءة وكتابة وإدارة مجموعات البيانات الكبيرة الموجودة في المتاجر الموزعة باستخدام SQL." سكالا هي لغة برمجة تُستخدم بنشاط عند العمل مع البيانات الضخمة. على وجه الخصوص ، تم إنشاء Spark على Scala. في الترتيب الذي سبق ذكره للغات المخيفة ، يحتل سكالا المرتبة XNUMX. اباتشي كافكا هي عبارة عن منصة موزعة لمعالجة تدفق الرسائل. تحظى بشعبية كبيرة كوسيلة لتدفق البيانات.

قواعد بيانات NoSQL يعارضون SQL. إنها تختلف من حيث أنها ليست علائقية وغير منظمة وقابلة للتطوير أفقيًا. اكتسبت NoSQL بعض الشعبية ، ولكن يبدو أن جنون هذا النهج ، لدرجة التنبؤ بأنه سيحل محل SQL كنموذج تخزين مهيمن ، قد انتهى.

مقارنة مع المصطلحات في وظائف عالم البيانات الشاغرة

فيما يلي ثلاثون مصطلحًا تقنيًا يستخدمها أصحاب العمل في مجال علوم البيانات بشكل شائع. حصلت على هذه القائمة بنفس الطريقة التي وصفتها أعلاه لهندسة البيانات.

المهارات الأكثر طلبًا في مهنة مهندس البيانات

يذكر التكنولوجيا في الوظائف الشاغرة لمنصب عالم البيانات في عام 2020

إذا تحدثنا عن العدد الإجمالي ، مقارنةً بالمجموعة التي تم النظر فيها سابقًا ، فقد كان هناك 28٪ وظائف شاغرة (12 مقابل 013). دعونا نرى التقنيات الأقل شيوعًا في الوظائف الشاغرة لعلماء البيانات مقارنة بمهندسي البيانات.

أكثر شيوعًا في هندسة البيانات

يعرض الرسم البياني أدناه الكلمات الرئيسية بمتوسط ​​فرق في القيمة أكبر من 10٪ أو أقل من -10٪.

المهارات الأكثر طلبًا في مهنة مهندس البيانات

أكبر الاختلافات في تردد الكلمات الرئيسية بين مهندس البيانات وعالم البيانات

تُظهر AWS أكبر زيادة: في هندسة البيانات ، تظهر بشكل منتظم بنسبة 25٪ أكثر من علم البيانات (حوالي 45٪ و 20٪ من إجمالي عدد الوظائف الشاغرة ، على التوالي). الفرق واضح!

إليك نفس البيانات في عرض مختلف قليلاً - في الرسم البياني ، توجد نتائج نفس الكلمة الرئيسية في الوظائف الشاغرة لمنصب مهندس البيانات وعالم البيانات جنبًا إلى جنب.

المهارات الأكثر طلبًا في مهنة مهندس البيانات

أكبر الاختلافات في تردد الكلمات الرئيسية بين مهندس البيانات وعالم البيانات

كانت القفزة الأكبر التالية التي لاحظتها مع Spark - غالبًا ما يتعين على مهندس البيانات العمل مع البيانات الضخمة. كافكا نمت أيضًا بنسبة 20 ٪ ، أي ما يقرب من أربع مرات مقارنة بنتيجة الوظائف الشاغرة في عالم البيانات. يعد اتصال البيانات أحد المسؤوليات الرئيسية لمهندس البيانات. أخيرًا ، كان عدد الإشارات أعلى بنسبة 15٪ في هندسة البيانات لـ Java و NoSQL و Redshift و SQL و Hadoop.

أقل شيوعًا في هندسة البيانات

الآن دعنا نرى التقنيات الأقل شيوعًا في وظائف مهندس البيانات.
حدث أكبر انخفاض مقارنة بمجال علم البيانات في R: ظهر هناك في حوالي 56٪ من الوظائف الشاغرة هنا - فقط في 17٪. بديع. R هي لغة برمجة تحظى بشعبية بين العلماء والإحصائيين ، وكذلك تحتل المرتبة الثامنة في تصنيف اللغات الرهيبة.

SAS وجدت أيضًا في الوظائف الشاغرة لمنصب مهندس بيانات أقل كثيرًا - الفرق هو 14 ٪. SAS هي لغة خاصة مصممة للعمل مع الإحصائيات والبيانات. نقطة مثيرة للاهتمام: الحكم من خلال النتائج بحثي الوظيفي لعلماء البيانات، فقد فقدت الكثير من الأرض مؤخرًا - أكثر من أي تقنية أخرى.

مطلوب في كل من هندسة البيانات وعلوم البيانات

وتجدر الإشارة إلى أن ثمانية من المواضع العشرة الأولى في كلتا المجموعتين هي نفسها. احتلت SQL و Python و Spark و AWS و Java و Hadoop و Hive و Scala المراكز العشرة الأولى لكل من هندسة البيانات وعلوم البيانات. في الرسم البياني أدناه ، يمكنك رؤية الخمسة عشر تقنية الأكثر شيوعًا لأصحاب عمل مهندسي البيانات ، وبجانبهم يوجد مقياس وظيفي لعلماء البيانات.

المهارات الأكثر طلبًا في مهنة مهندس البيانات

توصيات

إذا كنت تريد القيام بهندسة البيانات ، فإنني أنصحك بإتقان التقنيات التالية - أقوم بإدراجها بترتيب الأولوية التقريبية.

تعلم لغة SQL. أنا أميل إلى PostgreSQL لأنه مفتوح المصدر وشائع جدًا في المجتمع وفي مرحلة النمو. يمكن العثور على كيفية استخدام اللغة في كتاب My Memorable SQL - نسخته التجريبية متاحة هنا.

إتقان بايثون ، حتى لو لم يكن على المستوى الأكثر تشددًا. تم تصميم كتاب My Memorable Python للمبتدئين فقط. يمكن شراؤها من أمازونأو نسخة إلكترونية أو نسخة مادية من اختيارك أو تنزيلها بتنسيق pdf أو epub على هذا الموقع.

بمجرد أن تتعرف على Python ، انتقل إلى pandas ، وهي مكتبة Python تُستخدم لتنقية البيانات ومعالجتها. إذا كنت تهدف إلى الحصول على وظيفة في شركة تتطلب القدرة على الكتابة بلغة Python (وهي الأغلبية) ، فيمكنك التأكد من أن معرفة الباندا سيتم افتراضها افتراضيًا. أنا حاليًا أنهي درسًا تعليميًا تمهيديًا للعمل مع الباندا - يمكنك ذلك الاشتراكحتى لا تفوت لحظة الخروج.

ماجستير AWS. إذا كنت تريد أن تصبح مهندس بيانات ، فلا يمكنك الاستغناء عن النظام الأساسي السحابي في الفناء الخلفي الخاص بك ، و AWS هي الأكثر شهرة منهم. الدورات ساعدتني كثيرا أكاديمية لينكسعندما كنت ادرس هندسة البيانات على جوجل كلاود، أعتقد أن لديهم أيضًا مواد جيدة على AWS.

إذا كنت قد أتقنت هذه القائمة بأكملها بالفعل وترغب في زيادة النمو في نظر أصحاب العمل كمهندس بيانات ، أقترح إضافة Apache Spark للعمل مع البيانات الضخمة. على الرغم من أن أبحاثي حول الوظائف الشاغرة في علم البيانات أظهرت انخفاضًا في الاهتمام ، إلا أنها لا تزال تومض في كل ثانية تقريبًا بالنسبة لمهندسي البيانات.

أخيرا

آمل أن تكون قد وجدت هذه النظرة العامة على التقنيات الأكثر طلبًا لمهندسي البيانات مفيدة. إذا كنت تتساءل عما يحدث مع وظائف المحللين الشاغرة ، فاقرأ مقالتي الأخرى. هندسة ناجحة!

المصدر: www.habr.com

إضافة تعليق