وفق
لقد قمت بتحليل الوظائف لمنصب مهندس البيانات كما هي في يناير 2020 لفهم المهارات الأكثر شيوعًا في مجال التكنولوجيا. ثم قارنت النتائج بإحصائيات الوظائف الشاغرة لمنصب عالم البيانات - مع الكشف عن بعض الاختلافات المثيرة للاهتمام.
بدون مقدمات طويلة ، إليك أهم عشر تقنيات يتم ذكرها غالبًا في إعلانات الوظائف:
مراجع التكنولوجيا في وظائف مهندس البيانات في 2020
مسؤوليات مهندس البيانات
اليوم ، يعد العمل الذي يقوم به مهندسو البيانات ذا أهمية كبيرة للمؤسسات - فهؤلاء الأشخاص هم المسؤولون عن تخزين المعلومات ووضعها في شكل يمكن للموظفين الآخرين العمل معه. ينشئ مهندسو البيانات خطوط أنابيب للحصول على البيانات أو الدفق أو الدُفعات من مصادر متعددة. بعد ذلك ، تقوم خطوط الأنابيب بعمليات الاستخراج والتحويل والتحميل (بمعنى آخر ، عمليات ETL) ، مما يجعل البيانات أكثر ملاءمة للاستخدام الإضافي. بعد ذلك ، يتم تقديم البيانات إلى المحللين وعلماء البيانات لمعالجتها بشكل أعمق. أخيرًا ، تُنهي البيانات رحلتها في لوحات المعلومات والتقارير ونماذج التعلم الآلي.
كنت أبحث عن معلومات تسمح لي باستنتاج التقنيات الأكثر طلبًا في عمل مهندس البيانات في الوقت الحالي.
طرق
جمعت معلومات من ثلاثة مواقع للبحث عن وظائف -
لكل كلمة رئيسية ، حسبت النسبة المئوية للنتائج من إجمالي عدد النصوص في كل موقع على حدة ، ثم حسبت متوسط القيمة لثلاثة مصادر.
النتائج
فيما يلي أهم XNUMX مصطلحًا لهندسة البيانات من أفضل مصطلحات هندسة البيانات أداءً عبر مواقع العمل الثلاثة.
وهنا نفس الأرقام ، لكنها مرتبة على شكل جدول:
دعنا نذهب بالترتيب.
مراجعة النتائج
تشغل كل من SQL و Python أكثر من ثلثي الوظائف التي تمت مراجعتها. هاتان التقنيتان هما المنطقيان للدراسة في المقام الأول.
تم ذكر سبارك في حوالي نصف الوظائف الشاغرة.
AWS في حوالي 45٪ من إعلانات الوظائف. إنها منصة حوسبة سحابية تصنعها أمازون ؛ لديها أكبر حصة في السوق بين جميع المنصات السحابية.
بعد ذلك تأتي Java و Hadoop - ما يزيد قليلاً عن 40 ٪ لكل أخ.
إنه مثل ركوب آلة الزمن
ثم نرى Hive و Scala و Kafka و NoSQL - كل من هذه التقنيات مذكورة في ربع الوظائف الشاغرة المقدمة. Apache Hive هو برنامج مستودع بيانات "يجعل من السهل قراءة وكتابة وإدارة مجموعات البيانات الكبيرة الموجودة في المتاجر الموزعة باستخدام SQL."
مقارنة مع المصطلحات في وظائف عالم البيانات الشاغرة
فيما يلي ثلاثون مصطلحًا تقنيًا يستخدمها أصحاب العمل في مجال علوم البيانات بشكل شائع. حصلت على هذه القائمة بنفس الطريقة التي وصفتها أعلاه لهندسة البيانات.
يذكر التكنولوجيا في الوظائف الشاغرة لمنصب عالم البيانات في عام 2020
إذا تحدثنا عن العدد الإجمالي ، مقارنةً بالمجموعة التي تم النظر فيها سابقًا ، فقد كان هناك 28٪ وظائف شاغرة (12 مقابل 013). دعونا نرى التقنيات الأقل شيوعًا في الوظائف الشاغرة لعلماء البيانات مقارنة بمهندسي البيانات.
أكثر شيوعًا في هندسة البيانات
يعرض الرسم البياني أدناه الكلمات الرئيسية بمتوسط فرق في القيمة أكبر من 10٪ أو أقل من -10٪.
أكبر الاختلافات في تردد الكلمات الرئيسية بين مهندس البيانات وعالم البيانات
تُظهر AWS أكبر زيادة: في هندسة البيانات ، تظهر بشكل منتظم بنسبة 25٪ أكثر من علم البيانات (حوالي 45٪ و 20٪ من إجمالي عدد الوظائف الشاغرة ، على التوالي). الفرق واضح!
إليك نفس البيانات في عرض مختلف قليلاً - في الرسم البياني ، توجد نتائج نفس الكلمة الرئيسية في الوظائف الشاغرة لمنصب مهندس البيانات وعالم البيانات جنبًا إلى جنب.
أكبر الاختلافات في تردد الكلمات الرئيسية بين مهندس البيانات وعالم البيانات
كانت القفزة الأكبر التالية التي لاحظتها مع Spark - غالبًا ما يتعين على مهندس البيانات العمل مع البيانات الضخمة.
أقل شيوعًا في هندسة البيانات
الآن دعنا نرى التقنيات الأقل شيوعًا في وظائف مهندس البيانات.
حدث أكبر انخفاض مقارنة بمجال علم البيانات في
مطلوب في كل من هندسة البيانات وعلوم البيانات
وتجدر الإشارة إلى أن ثمانية من المواضع العشرة الأولى في كلتا المجموعتين هي نفسها. احتلت SQL و Python و Spark و AWS و Java و Hadoop و Hive و Scala المراكز العشرة الأولى لكل من هندسة البيانات وعلوم البيانات. في الرسم البياني أدناه ، يمكنك رؤية الخمسة عشر تقنية الأكثر شيوعًا لأصحاب عمل مهندسي البيانات ، وبجانبهم يوجد مقياس وظيفي لعلماء البيانات.
توصيات
إذا كنت تريد القيام بهندسة البيانات ، فإنني أنصحك بإتقان التقنيات التالية - أقوم بإدراجها بترتيب الأولوية التقريبية.
تعلم لغة SQL. أنا أميل إلى PostgreSQL لأنه مفتوح المصدر وشائع جدًا في المجتمع وفي مرحلة النمو. يمكن العثور على كيفية استخدام اللغة في كتاب My Memorable SQL - نسخته التجريبية متاحة
إتقان بايثون ، حتى لو لم يكن على المستوى الأكثر تشددًا. تم تصميم كتاب My Memorable Python للمبتدئين فقط. يمكن شراؤها من
بمجرد أن تتعرف على Python ، انتقل إلى pandas ، وهي مكتبة Python تُستخدم لتنقية البيانات ومعالجتها. إذا كنت تهدف إلى الحصول على وظيفة في شركة تتطلب القدرة على الكتابة بلغة Python (وهي الأغلبية) ، فيمكنك التأكد من أن معرفة الباندا سيتم افتراضها افتراضيًا. أنا حاليًا أنهي درسًا تعليميًا تمهيديًا للعمل مع الباندا - يمكنك ذلك
ماجستير AWS. إذا كنت تريد أن تصبح مهندس بيانات ، فلا يمكنك الاستغناء عن النظام الأساسي السحابي في الفناء الخلفي الخاص بك ، و AWS هي الأكثر شهرة منهم. الدورات ساعدتني كثيرا
إذا كنت قد أتقنت هذه القائمة بأكملها بالفعل وترغب في زيادة النمو في نظر أصحاب العمل كمهندس بيانات ، أقترح إضافة Apache Spark للعمل مع البيانات الضخمة. على الرغم من أن أبحاثي حول الوظائف الشاغرة في علم البيانات أظهرت انخفاضًا في الاهتمام ، إلا أنها لا تزال تومض في كل ثانية تقريبًا بالنسبة لمهندسي البيانات.
أخيرا
آمل أن تكون قد وجدت هذه النظرة العامة على التقنيات الأكثر طلبًا لمهندسي البيانات مفيدة. إذا كنت تتساءل عما يحدث مع وظائف المحللين الشاغرة ، فاقرأ
المصدر: www.habr.com