מהנדס נתונים ומדען נתונים: מה ההבדל?

המקצועות של מדען נתונים ומהנדס נתונים מבולבלים לעתים קרובות. לכל חברה יש את הספציפיות שלה לעבודה עם נתונים, מטרות שונות לניתוח שלהן ורעיון שונה של איזה מומחה צריך לעסוק באיזה חלק בעבודה, לכן לכל אחת יש את הדרישות שלה. 

בואו נבין מה ההבדל בין המומחים הללו, אילו בעיות עסקיות הם פותרים, אילו כישורים יש להם וכמה הם מרוויחים. החומר התברר כגדול, אז חילקנו אותו לשני פרסומים.

במאמר הראשון, אלנה גרסימובה, ראש הפקולטה "מדע נתונים ואנליטיקה"בנטולוגיה, מספר מה ההבדל בין מדען נתונים למהנדס נתונים ואיזה כלים הם עובדים.

כיצד התפקידים של המהנדסים והמדענים שונים

מהנדס נתונים הוא מומחה שמצד אחד מפתח, בודק ותחזק תשתית נתונים: מסדי נתונים, מערכות אחסון ועיבוד המוני. מצד שני, זה זה שמנקה ו"מסרק" נתונים לשימושם של אנליסטים ומדעני נתונים, כלומר יוצר צינורות לעיבוד נתונים.

Data Scientist יוצר ומאמן מודלים חזויים (ואחרים) תוך שימוש באלגוריתמים של למידת מכונה ורשתות עצביות, עוזר לעסקים למצוא דפוסים נסתרים, לחזות התפתחויות ולייעל תהליכים עסקיים מרכזיים.

ההבדל העיקרי בין מדען נתונים למהנדס נתונים הוא שבדרך כלל יש להם מטרות שונות. שניהם פועלים להבטיח שהנתונים יהיו נגישים ואיכותיים. אבל מדען נתונים מוצא תשובות לשאלותיו ובוחן השערות במערכת אקולוגית של נתונים (לדוגמה, מבוסס על Hadoop), ומהנדס נתונים יוצר צינור לשירות אלגוריתם למידת מכונה שנכתב על ידי מדען נתונים באשכול Spark בתוך אותו מערכת אקולוגית. 

מהנדס נתונים מביא ערך לעסק על ידי עבודה כחלק מצוות. משימתו היא לשמש כמקשר חשוב בין משתתפים שונים: ממפתחים ועד צרכני דיווח עסקיים, ולהגדיל את הפרודוקטיביות של אנליסטים, משיווק ומוצר ועד BI. 

להיפך, Data Scientist לוקח חלק פעיל באסטרטגיה של החברה ומפיק תובנות, קבלת החלטות, הטמעת אלגוריתמי אוטומציה, מודלים ויצירת ערך מהנתונים.
מהנדס נתונים ומדען נתונים: מה ההבדל?

העבודה עם נתונים כפופה לעקרון ה-GIGO (garbage in - garbage out): אם אנליסטים ומדעני נתונים יתמודדו עם נתונים לא מוכנים ועלולים להיות שגויים, אז התוצאות אפילו באמצעות אלגוריתמי הניתוח המתוחכמים ביותר יהיו שגויות. 

מהנדסי נתונים פותרים בעיה זו על ידי בניית צינורות לעיבוד, ניקוי והמרת נתונים ומאפשרים למדעני נתונים לעבוד עם נתונים באיכות גבוהה. 

ישנם כלים רבים בשוק לעבודה עם נתונים המכסים כל שלב: מהופעת הנתונים ועד הפלט ועד לדשבורד לדירקטוריון. וחשוב שההחלטה להשתמש בהם תתקבל על ידי מהנדס - לא בגלל שזה אופנתי, אלא בגלל שהוא באמת יעזור לעבודתם של משתתפים אחרים בתהליך. 

באופן קונבנציונלי: אם חברה צריכה ליצור קשרים בין BI ל-ETL - טעינת נתונים ועדכון דוחות, הנה בסיס מסורתי טיפוסי שאיתו מהנדס נתונים יצטרך להתמודד (טוב אם יש גם ארכיטקט בצוות).

אחריות של מהנדס נתונים

  • פיתוח, הקמה ותחזוקה של תשתית עיבוד נתונים.
  • טיפול בשגיאות ויצירת צינורות עיבוד נתונים אמינים.
  • הבאת נתונים לא מובנים ממקורות דינמיים שונים לצורה הנחוצה לעבודת האנליסטים.
  • מתן המלצות לשיפור עקביות ואיכות הנתונים.
  • מתן ותחזוקה של ארכיטקטורת הנתונים המשמשים מדעני נתונים ומנתחי נתונים.
  • עבד ואחסן נתונים באופן עקבי ויעיל באשכול מבוזר של עשרות או מאות שרתים.
  • הערך את הפשרות הטכניות של כלים ליצירת ארכיטקטורות פשוטות אך חזקות שיכולות לשרוד הפרעה.
  • בקרה ותמיכה בתזרימי נתונים ומערכות נלוות (הגדרת ניטור והתראות).

קיימת התמחות נוספת בתוך מסלול Data Engineer - מהנדס ML. בקיצור, מהנדסים אלו מתמחים בהבאת מודלים של למידת מכונה ליישום ושימוש תעשייתי. לעתים קרובות, מודל שהתקבל ממדען נתונים הוא חלק ממחקר וייתכן שלא יעבוד בתנאי לחימה.

אחריות של מדען נתונים

  • חילוץ תכונות מנתונים כדי ליישם אלגוריתמים של למידת מכונה.
  • שימוש בכלי למידת מכונה שונים כדי לחזות ולסווג דפוסים בנתונים.
  • שיפור הביצועים והדיוק של אלגוריתמי למידת מכונה על ידי כוונון עדין ואופטימיזציה של האלגוריתמים.
  • גיבוש השערות "חזקות" בהתאם לאסטרטגיית החברה שיש לבחון.

גם Data Engineer וגם Data Scientist חולקים תרומה מוחשית לפיתוח תרבות נתונים, שבאמצעותה חברה יכולה לייצר רווחים נוספים או להפחית עלויות.

עם אילו שפות וכלים עובדים מהנדסים ומדענים?

כיום, הציפיות ממדעני נתונים השתנו. בעבר, מהנדסים אספו שאילתות SQL גדולות, כתבו ידנית את MapReduce ועיבדו נתונים באמצעות כלים כגון Informatica ETL, Pentaho ETL, Talend. 

בשנת 2020, מומחה לא יכול להסתדר בלי ידע של Python וכלי חישוב מודרניים (לדוגמה, Airflow), הבנה של עקרונות העבודה עם פלטפורמות ענן (שימוש בהם כדי לחסוך בחומרה, תוך שמירה על עקרונות אבטחה).

SAP, Oracle, MySQL, Redis הם כלים מסורתיים למהנדסי נתונים בחברות גדולות. הם טובים, אבל העלות של הרישיונות היא כל כך גבוהה שללימוד לעבוד איתם הגיוני רק בפרויקטים תעשייתיים. יחד עם זאת, ישנה אלטרנטיבה חינמית בדמות Postgres - היא חינמית ומתאימה לא רק לאימון. 

מהנדס נתונים ומדען נתונים: מה ההבדל?
מבחינה היסטורית, בקשות ל-Java ו-Scala נמצאות לעתים קרובות, אם כי ככל שהטכנולוגיות והגישות מתפתחות, השפות הללו נמוגות ברקע.

עם זאת, הארדקור BigData: Hadoop, Spark ושאר גן החיות הם כבר לא תנאי מוקדם למהנדס נתונים, אלא סוג של כלים לפתרון בעיות שלא ניתן לפתור על ידי ETL מסורתי. 

המגמה היא שירותים לשימוש בכלים ללא ידיעת השפה בה הם כתובים (למשל Hadoop ללא ידיעת Java), וכן מתן שירותים מוכנים לעיבוד נתונים סטרימינג (זיהוי קולי או זיהוי תמונות בווידאו). ).

פתרונות תעשייתיים של SAS ו-SPSS הם פופולריים, בעוד ש-Tableau, Rapidminer, Stata וג'וליה נמצאים בשימוש נרחב גם על ידי מדעני נתונים למשימות מקומיות.

מהנדס נתונים ומדען נתונים: מה ההבדל?
היכולת לבנות צינורות בעצמם הופיעה לאנליסטים ולמדעני נתונים רק לפני כמה שנים: למשל, כבר אפשר לשלוח נתונים לאחסון מבוסס PostgreSQL באמצעות סקריפטים פשוטים יחסית. 

בדרך כלל, השימוש בצינורות ובמבני נתונים משולבים נותר באחריותם של מהנדסי נתונים. אבל כיום, המגמה של מומחים בצורת T עם יכולות רחבות בתחומים קשורים חזקה מתמיד, כי הכלים מפושטים כל הזמן.

מדוע מהנדס נתונים ומדען נתונים עובדים יחד

על ידי עבודה צמודה עם מהנדסים, מדעני נתונים יכולים להתמקד בצד המחקרי, וליצור אלגוריתמים של למידת מכונה מוכנים לייצור.
ומהנדסים צריכים להתמקד בהרחבה, בשימוש חוזר בנתונים ובהבטחה שצינורות הקלט והפלט של הנתונים בכל פרויקט בנפרד תואמים את הארכיטקטורה הגלובלית.

הפרדת אחריות זו מבטיחה עקביות בין צוותים העובדים על פרויקטים שונים של למידת מכונה. 

שיתוף פעולה עוזר ליצור מוצרים חדשים ביעילות. המהירות והאיכות מושגות באמצעות איזון בין יצירת שירות לכולם (אחסון עולמי או אינטגרציה של לוחות מחוונים) לבין יישום כל צורך או פרויקט ספציפי (צינור מתמחה במיוחד, חיבור מקורות חיצוניים). 

עבודה צמודה עם מדעני נתונים ואנליסטים עוזרת למהנדסים לפתח מיומנויות אנליטיות ומחקריות כדי לכתוב קוד טוב יותר. שיתוף הידע בין משתמשי מחסנים ואגם נתונים משתפר, מה שהופך פרויקטים לזריזים יותר ומספק תוצאות בנות קיימא יותר לטווח ארוך.

בחברות שמטרתן לפתח תרבות של עבודה עם נתונים ובניית תהליכים עסקיים על פיהם, Data Scientist ו-Data Engineer משלימים זה את זה ויוצרים מערכת ניתוח נתונים מלאה. 

במאמר הבא נדבר על איזה סוג של השכלה צריך להיות למהנדס נתונים ומדעני נתונים, אילו מיומנויות הם צריכים לפתח וכיצד השוק עובד.

מעורכי נטולוגיה

אם אתה מסתכל על המקצוע של מהנדס נתונים או מדען נתונים, אנו מזמינים אותך ללמוד את תוכניות הקורס שלנו:

מקור: www.habr.com