مهندس بيانات وعالم بيانات: ما الفرق؟

غالبًا ما يتم الخلط بين مهن عالم البيانات ومهندس البيانات. كل شركة لها خصائصها الخاصة في العمل مع البيانات ، وأهداف مختلفة لتحليلها وفكرة مختلفة عن أي من المتخصصين يجب أن يشاركوا في أي جزء من العمل ، وبالتالي ، لكل منهم متطلباته الخاصة. 

نكتشف الفرق بين هؤلاء المتخصصين ، وما هي مهام العمل التي يقومون بحلها ، وما هي المهارات التي يمتلكونها ومقدار ما يكسبونه. تبين أن المادة كبيرة ، لذا تم تقسيمها إلى منشورين.

في المقال الأول ، إلينا جيراسيموفا ، رئيسة الكلية "علم البيانات والتحليلات"في Netology ، يوضح الفرق بين عالم البيانات ومهندس البيانات والأدوات التي يعملان بها.

كيف تختلف أدوار المهندسين والعلماء؟

مهندس البيانات هو متخصص يقوم ، من ناحية ، بتطوير واختبار وصيانة البنية التحتية للعمل مع البيانات: قواعد البيانات والمخازن وأنظمة المعالجة الجماعية. من ناحية أخرى ، هذا هو الشخص الذي ينظف ويمشط البيانات ليستخدمها المحللون وعلماء البيانات ، أي ينشئ خطوط أنابيب معالجة البيانات.

يقوم عالم البيانات بإنشاء وتدريب النماذج التنبؤية (والمزيد) باستخدام خوارزميات التعلم الآلي والشبكات العصبية ، مما يساعد الشركات في العثور على الأنماط المخفية والتنبؤ بالتطورات وتحسين العمليات التجارية الرئيسية.

الفرق الرئيسي بين عالم البيانات ومهندس البيانات هو أنهما عادة ما يكون لهما أهداف مختلفة. كلاهما يعمل على إبقاء البيانات في المتناول وذات جودة عالية. لكن عالم البيانات يجد إجابات لأسئلته ويختبر الفرضيات في النظام البيئي للبيانات (على سبيل المثال ، استنادًا إلى Hadoop) ، ويقوم مهندس البيانات بإنشاء خط أنابيب خدمة لخوارزمية التعلم الآلي التي كتبها عالم البيانات في مجموعة Spark داخل نفس النظام البيئي. 

يضفي مهندس البيانات قيمة على الأعمال من خلال العمل كفريق. وتتمثل مهمتها في العمل كحلقة وصل مهمة بين مختلف المشاركين - من المطورين إلى مستخدمي الأعمال من إعداد التقارير - وزيادة إنتاجية المحللين - من التسويق والمنتج إلى ذكاء الأعمال. 

من ناحية أخرى ، يلعب عالم البيانات دورًا نشطًا في استراتيجية الشركة واستخراج الرؤى واتخاذ القرارات وتنفيذ خوارزميات الأتمتة والنمذجة وتوليد القيمة من البيانات.
مهندس بيانات وعالم بيانات: ما الفرق؟

يخضع العمل مع البيانات لمبدأ GIGO (إخراج القمامة): إذا تعامل المحللون وعلماء البيانات مع بيانات غير جاهزة وربما غير صحيحة ، فإن نتائج حتى خوارزميات التحليل الأكثر تعقيدًا ستكون غير صحيحة. 

يحل مهندسو البيانات هذه المشكلة عن طريق بناء خطوط أنابيب لمعالجة البيانات وتنظيفها وتحويلها والسماح لعالم البيانات بالعمل باستخدام بيانات عالية الجودة. 

هناك العديد من أدوات البيانات في السوق والتي تغطي كل مرحلة: من ظهور البيانات إلى الإخراج إلى لوحة القيادة الخاصة بمجلس الإدارة. ومن المهم أن يتخذ المهندس قرارًا بشأن استخدامها ، ليس لأنها عصرية ، ولكن لأنه سيساعد بالفعل المشاركين الآخرين في العملية في عملهم. 

بشكل مشروط: إذا احتاجت الشركة إلى تكوين صداقات مع BI و ETL - تحميل البيانات وتحديث التقارير ، فإليك أساسًا قديمًا نموذجيًا سيتعين على مهندس البيانات التعامل معه (من الجيد إذا كان هناك أيضًا مهندس معماري في الفريق بجانبه) .

مسؤوليات مهندس البيانات

  • تطوير وإنشاء وصيانة البنية التحتية للعمل مع البيانات.
  • معالجة الأخطاء وبناء خطوط أنابيب قوية لمعالجة البيانات.
  • إحضار البيانات غير المهيكلة من مصادر ديناميكية مختلفة إلى الشكل اللازم لعمل المحللين.
  • تقديم توصيات لتحسين اتساق وجودة البيانات.
  • توفير وصيانة بنية البيانات المستخدمة من قبل علماء البيانات ومحللي البيانات.
  • معالجة البيانات وتخزينها باستمرار وكفاءة في مجموعة موزعة من عشرات أو مئات الخوادم.
  • قم بتقييم المقايضات الفنية للأدوات لإنشاء بنى بسيطة لكنها قوية يمكنها تحمل الإخفاقات.
  • مراقبة ودعم تدفق البيانات والأنظمة ذات الصلة (إعداد المراقبة والتنبيهات).

هناك تخصص آخر ضمن مسار مهندس البيانات - مهندس ML. باختصار ، يتخصص هؤلاء المهندسون في جلب نماذج التعلم الآلي للتبني والاستخدام الصناعي. غالبًا ما يكون نموذج عالم البيانات جزءًا من دراسة وقد لا يعمل في القتال.

مسؤوليات عالم البيانات

  • استخراج الميزات من البيانات لتطبيق خوارزميات التعلم الآلي.
  • استخدام أدوات التعلم الآلي المختلفة للتنبؤ بالأنماط في البيانات وتصنيفها.
  • قم بتحسين أداء ودقة خوارزميات التعلم الآلي من خلال ضبط وتحسين الخوارزميات.
  • صياغة فرضيات "قوية" وفق استراتيجية الشركة التي تحتاج إلى اختبار.

يجمع كل من مهندس البيانات وعالم البيانات بين مساهمة ملموسة في تطوير ثقافة العمل مع البيانات ، والتي من خلالها يمكن للشركة زيادة الأرباح أو تقليل التكاليف.

ما هي اللغات والأدوات التي يعمل بها المهندسون والعلماء؟

اليوم ، تغيرت توقعات علماء البيانات. في السابق ، بنى المهندسون استعلامات SQL كبيرة ، وكتبوا MapReduce يدويًا وعالجوا البيانات باستخدام أدوات مثل Informatica ETL و Pentaho ETL و Talend. 

في عام 2020 ، لا يمكن للمتخصص الاستغناء عن معرفة لغة Python وأدوات الحوسبة الحديثة (على سبيل المثال ، Airflow) ، وفهم مبادئ العمل مع الأنظمة الأساسية السحابية (استخدامها للتوفير على الأجهزة ، مع مراعاة مبادئ الأمان).

SAP و Oracle و MySQL و Redis هي أدوات هندسة بيانات تقليدية في الشركات الكبيرة. إنها جيدة ، لكن تكلفة التراخيص عالية جدًا لدرجة أنه من المنطقي فقط معرفة كيفية العمل معهم في المشاريع الصناعية. في الوقت نفسه ، هناك بديل مجاني في شكل Postgres - إنه مجاني ومناسب ليس فقط للتعلم. 

مهندس بيانات وعالم بيانات: ما الفرق؟
تاريخيًا ، غالبًا ما تمت مصادفة طلب للحصول على Java و Scala ، على الرغم من تطور التقنيات والأساليب ، تتلاشى هذه اللغات في الخلفية.

ومع ذلك ، فإن BigData المتشددين: Hadoop و Spark وبقية حديقة الحيوان لم يعد شرطًا أساسيًا لمهندس البيانات ، ولكنه نوع من الأدوات لحل المشكلات التي لا تستطيع ETL التقليدية حلها. 

الاتجاه هو خدمات لاستخدام الأدوات دون معرفة اللغة التي كُتبت بها (على سبيل المثال ، Hadoop دون معرفة Java) ، بالإضافة إلى توفير خدمات جاهزة لمعالجة البيانات المتدفقة (التعرف على الصوت أو الصور على الفيديو).

تحظى الحلول الصناعية من SAS و SPSS بشعبية ، بينما يستخدم علماء البيانات أيضًا Tableau و Rapidminer و Stata و Julia على نطاق واسع للمهام المحلية.

مهندس بيانات وعالم بيانات: ما الفرق؟
حصل المحللون وعلماء البيانات على فرصة لبناء خطوط الأنابيب بأنفسهم منذ عامين فقط: على سبيل المثال ، من الممكن بالفعل إرسال البيانات إلى التخزين المستند إلى PostgreSQL باستخدام نصوص بسيطة نسبيًا. 

عادةً ما يتم ترك استخدام خطوط الأنابيب وهياكل البيانات المتكاملة لمهندسي البيانات. ولكن اليوم ، أصبح الاتجاه نحو المتخصصين على شكل حرف T أقوى من أي وقت مضى - مع كفاءات واسعة في المجالات ذات الصلة ، لأن الأدوات يتم تبسيطها باستمرار.

لماذا يعمل مهندس البيانات وعالم البيانات معًا

من خلال العمل عن كثب مع المهندسين ، يمكن لعالم البيانات التركيز على الجانب البحثي ، وبناء خوارزميات التعلم الآلي الجاهزة للانطلاق.
ويجب على المهندسين التركيز على قابلية التوسع وإعادة استخدام البيانات والتأكد من أن خطوط إدخال البيانات والمخرجات في كل مشروع فردي تتوافق مع البنية العالمية.

يضمن هذا الفصل بين المهام الاتساق بين الفرق التي تعمل في مشاريع مختلفة للتعلم الآلي. 

يساعد التعاون على إنشاء منتجات جديدة بشكل فعال. يتم تحقيق السرعة والجودة من خلال التوازن بين إنشاء خدمة للجميع (تخزين عالمي أو تكامل لوحة القيادة) وتنفيذ كل حاجة أو مشروع محدد (خط أنابيب متخصص للغاية ، وربط المصادر الخارجية). 

يساعد العمل عن كثب مع علماء ومحللي البيانات المهندسين على تطوير مهارات تحليلية وبحثية لكتابة تعليمات برمجية أفضل. تم تحسين مشاركة المعرفة بين مستخدمي مستودعات البيانات وبحيرات البيانات ، مما يجعل المشاريع أكثر مرونة ويقدم نتائج أكثر استدامة على المدى الطويل.

في الشركات التي تهدف إلى تطوير ثقافة العمل مع البيانات وبناء العمليات التجارية على أساسها ، يكمل عالم البيانات ومهندس البيانات بعضهما البعض ويخلقان نظامًا كاملاً لتحليل البيانات. 

في المقالة التالية ، سنتحدث عن نوع التعليم الذي يجب أن يتمتع به مهندس البيانات وعلماء البيانات ، وما هي المهارات التي يحتاجون إليها لتطوير وكيف يعمل السوق.

من محرري Netology

إذا كنت تبحث في مهنة مهندس البيانات أو عالم البيانات ، فنحن ندعوك لدراسة برامج دوراتنا:

المصدر: www.habr.com

إضافة تعليق