Məlumat mühəndisi və məlumat alimi: fərq nədir?

Data Scientist və Data Engineer peşələri tez-tez qarışdırılır. Hər bir şirkətin məlumatlarla işləmək üçün öz xüsusiyyətləri, onların təhlili üçün fərqli məqsədlər və mütəxəssislərdən hansının işin hansı hissəsində iştirak etməsi barədə fərqli bir fikir var, buna görə də hər birinin öz tələbləri var. 

Bu mütəxəssislər arasındakı fərqin nə olduğunu, hansı biznes vəzifələrini həll etdiklərini, hansı bacarıqlara sahib olduqlarını və nə qədər qazandıqlarını anlayırıq. Materialın böyük olduğu ortaya çıxdı, ona görə də iki nəşrə bölündü.

Birinci məqalədə Elena Gerasimova, fakültə rəhbəri "Məlumat Elmləri və Analitika” Netology-də, Data Scientist və Data Engineer arasındakı fərqin nə olduğunu və hansı vasitələrlə işlədiklərini izah edir.

Mühəndislərin və alimlərin rolları necə fərqlənir?

Məlumat mühəndisi, bir tərəfdən məlumatlarla işləmək üçün infrastrukturu inkişaf etdirən, sınaqdan keçirən və təmin edən bir mütəxəssisdir: verilənlər bazası, saxlama anbarları və kütləvi emal sistemləri. Digər tərəfdən, analitiklər və məlumat alimləri tərəfindən istifadə üçün məlumatları təmizləyən və "darayan", yəni məlumat emal boru kəmərlərini yaradan budur.

Data Scientist maşın öyrənməsi alqoritmləri və neyron şəbəkələrindən istifadə edərək proqnozlaşdırıcı (və daha çox) modellər yaradır və öyrədir, bizneslərə gizli nümunələri tapmaqda, inkişafı proqnozlaşdırmaqda və əsas biznes proseslərini optimallaşdırmaqda kömək edir.

Məlumat Mühəndisi ilə Məlumat Mühəndisi arasındakı əsas fərq, ümumiyyətlə fərqli məqsədlərə sahib olmalarıdır. Hər ikisi məlumatı əlçatan və yüksək keyfiyyətli saxlamaq üçün çalışır. Lakin Data Scientist suallarına cavab tapır və məlumat ekosistemində fərziyyələri sınaqdan keçirir (məsələn, Hadoop əsasında) və Məlumat Mühəndisi eyni daxilində Spark klasterində məlumat alimi tərəfindən yazılmış maşın öyrənmə alqoritmi üçün xidmət xətti yaradır. ekosistem. 

Məlumat mühəndisi komanda şəklində işləyərək biznesə dəyər gətirir. Onun missiyası müxtəlif iştirakçılar arasında - tərtibatçılardan tutmuş hesabatların biznes istifadəçilərinə qədər - marketinq və məhsuldan tutmuş BI-ya qədər analitiklərin məhsuldarlığını artırmaqdan ibarətdir. 

Data Scientist isə şirkətin strategiyasında fəal iştirak edir və anlayışların çıxarılmasında, qərarların qəbulunda, avtomatlaşdırma alqoritmlərinin həyata keçirilməsində, modelləşdirmədə və verilənlərdən dəyər yaratmada fəal iştirak edir.
Məlumat mühəndisi və məlumat alimi: fərq nədir?

Məlumatlarla işləmək GIGO (qarbage in - garbage out) prinsipinə tabedir: əgər analitiklər və məlumat alimləri hazırlıqsız və potensial olaraq yanlış məlumatlarla məşğul olurlarsa, o zaman ən mürəkkəb analiz alqoritmlərinin belə nəticələri yanlış olacaq. 

Məlumat mühəndisləri bu problemi məlumatların emalı, təmizlənməsi və dəyişdirilməsi üçün boru kəmərləri qurmaqla və məlumat aliminə yüksək keyfiyyətli məlumatlarla işləməyə imkan verməklə həll edirlər. 

Bazarda hər bir mərhələni əhatə edən çoxlu məlumat alətləri var: məlumatların görünüşündən tutmuş idarə heyətinin idarə panelinə qədər. Və onların istifadəsi ilə bağlı qərarın mühəndis tərəfindən dəbdə olduğu üçün deyil, prosesdə digər iştirakçılara işlərində həqiqətən kömək edəcəyi üçün vacibdir. 

Şərti olaraq: əgər bir şirkət BI və ETL ilə dostluq etməlidirsə - məlumatların yüklənməsi və hesabatların yenilənməsi, burada Data Engineerin məşğul olacağı tipik bir miras əsası var (komandada ondan başqa bir memar da olsa yaxşıdır) .

Məlumat Mühəndisinin Məsuliyyətləri

  • Məlumatlarla işləmək üçün infrastrukturun inkişafı, tikintisi və saxlanması.
  • Güclü məlumat emal boru kəmərlərinin işlənməsi və qurulması xətası.
  • Müxtəlif dinamik mənbələrdən strukturlaşdırılmamış məlumatların analitiklərin işi üçün lazım olan formaya gətirilməsi.
  • Məlumatların ardıcıllığını və keyfiyyətini yaxşılaşdırmaq üçün tövsiyələrin verilməsi.
  • Məlumat alimləri və məlumat analitikləri tərəfindən istifadə olunan məlumat arxitekturasının təmin edilməsi və saxlanması.
  • Onlarla və ya yüzlərlə serverdən ibarət paylanmış klasterdə verilənlərin ardıcıl və səmərəli şəkildə işlənməsi və saxlanması.
  • Uğursuzluqlardan xilas ola biləcək sadə, lakin möhkəm arxitekturalar yaratmaq üçün alətlərin texniki mübadilələrini qiymətləndirin.
  • Məlumat axınlarına və əlaqəli sistemlərə nəzarət və dəstək (monitorinq və xəbərdarlıqların qurulması).

Data Engineer trayektoriyası daxilində başqa bir ixtisas var - ML mühəndisi. Qısacası, bu mühəndislər maşın öyrənmə modellərini sənayedə qəbul və istifadəyə gətirməkdə ixtisaslaşırlar. Çox vaxt data alimi modeli tədqiqatın bir hissəsidir və döyüşdə işləməyə bilər.

Məlumat Aliminin Məsuliyyətləri

  • Maşın öyrənmə alqoritmlərini tətbiq etmək üçün verilənlərdən xüsusiyyətlərin çıxarılması.
  • Məlumatdakı nümunələri proqnozlaşdırmaq və təsnif etmək üçün müxtəlif maşın öyrənmə vasitələrindən istifadə.
  • Alqoritmləri dəqiq tənzimləmək və optimallaşdırmaqla maşın öyrənmə alqoritmlərinin performansını və dəqiqliyini təkmilləşdirin.
  • Şirkətin strategiyasına uyğun olaraq sınaqdan keçirilməli olan “güclü” fərziyyələrin formalaşdırılması.

Həm Data Engineer, həm də Data Scientist məlumatlarla işləmək mədəniyyətinin inkişafına əhəmiyyətli töhfəni birləşdirir, bunun vasitəsilə şirkət mənfəəti artıra və ya xərcləri azalda bilər.

Mühəndislər və alimlər hansı dillər və alətlərlə işləyirlər?

Bu gün məlumat alimlərindən gözləntilər dəyişdi. Əvvəllər mühəndislər Informatica ETL, Pentaho ETL, Talend kimi alətlərdən istifadə etməklə böyük SQL sorğuları qurur, MapReduce-u əl ilə yazır və məlumatları emal edirdilər. 

2020-ci ildə bir mütəxəssis Python və müasir hesablama alətləri (məsələn, Airflow) bilmədən, bulud platformaları ilə işləmə prinsiplərini dərk etmədən (təhlükəsizlik prinsiplərinə riayət etməklə aparata qənaət etmək üçün onlardan istifadə etməklə) edə bilməz.

SAP, Oracle, MySQL, Redis böyük şirkətlərdə ənənəvi məlumat mühəndisliyi alətləridir. Onlar yaxşıdır, lakin lisenziyaların qiyməti o qədər yüksəkdir ki, sənaye layihələrində onlarla işləməyi öyrənmək yalnız məna kəsb edir. Eyni zamanda, Postgres şəklində pulsuz bir alternativ var - pulsuzdur və təkcə öyrənmək üçün deyil. 

Məlumat mühəndisi və məlumat alimi: fərq nədir?
Tarixən Java və Scala tələblərinə tez-tez rast gəlinir, baxmayaraq ki, texnologiyalar və yanaşmalar inkişaf etdikcə bu dillər arxa plana keçir.

Bununla belə, hardcore BigData: Hadoop, Spark və zooparkın qalan hissəsi artıq məlumat mühəndisi üçün ilkin şərt deyil, ənənəvi ETL-nin həll edə bilmədiyi problemlərin həlli üçün bir növ vasitədir. 

Trend, alətlərin yazıldığı dili bilmədən istifadə xidmətləri (məsələn, Java dilini bilmədən Hadoop), eləcə də axın məlumatlarının emalı (videoda səs və ya şəkillərin tanınması) üçün hazır xidmətlərin göstərilməsidir.

SAS və SPSS-dən sənaye həlləri populyardır, Tableau, Rapidminer, Stata və Julia da yerli tapşırıqlar üçün məlumat alimləri tərəfindən geniş istifadə olunur.

Məlumat mühəndisi və məlumat alimi: fərq nədir?
Analitiklər və məlumatşünaslar bir neçə il əvvəl özləri boru kəmərləri qurmaq imkanı əldə etdilər: məsələn, nisbətən sadə skriptlərlə PostgreSQL əsaslı yaddaşa məlumatları göndərmək artıq mümkündür. 

Tipik olaraq, boru kəmərlərinin və inteqrasiya edilmiş məlumat strukturlarının istifadəsi məlumat mühəndislərinin ixtiyarına verilir. Ancaq bu gün T formalı mütəxəssislər üçün tendensiya həmişəkindən daha güclüdür - əlaqəli sahələrdə geniş səlahiyyətlərə malikdir, çünki alətlər daim sadələşdirilir.

Niyə Data Mühəndisi və Məlumat Alimi Birgə İşləyir

Mühəndislərlə sıx əməkdaşlıq edərək, Data Scientist diqqətini tədqiqat tərəfinə yönəldə, getməyə hazır olan maşın öyrənmə alqoritmlərini qura bilər.
Mühəndislər miqyaslılığa, məlumatların təkrar istifadəsinə diqqət yetirməli və hər bir fərdi layihədə məlumatların daxil edilməsi və çıxışı boru kəmərlərinin qlobal arxitekturaya uyğun olmasını təmin etməlidir.

Vəzifələrin bu seqreqasiyası müxtəlif maşın öyrənmə layihələrində işləyən komandalar arasında ardıcıllığı təmin edir. 

Əməkdaşlıq effektiv şəkildə yeni məhsulların yaradılmasına kömək edir. Sürət və keyfiyyət hər kəs üçün xidmət yaratmaq (qlobal yaddaş və ya tablosuna inteqrasiya) və hər bir xüsusi ehtiyac və ya layihənin həyata keçirilməsi (yüksək ixtisaslaşmış boru kəməri, xarici mənbələri birləşdirən) arasında balans vasitəsilə əldə edilir. 

Məlumat alimləri və analitikləri ilə sıx əməkdaşlıq mühəndislərə daha yaxşı kod yazmaq üçün analitik və tədqiqat bacarıqlarını inkişaf etdirməyə kömək edir. Məlumat anbarları və məlumat göllərinin istifadəçiləri arasında bilik mübadiləsi təkmilləşdirilərək layihələri daha çevik edir və daha davamlı uzunmüddətli nəticələr verir.

Məlumatlarla işləmək mədəniyyətini inkişaf etdirməyi və onun əsasında biznes proseslərini qurmağı hədəfləyən şirkətlərdə Data Scientist və Data Engineer bir-birini tamamlayır və tam məlumat təhlili sistemi yaradır. 

Növbəti məqalədə Data Engineer və Data Scients-in hansı təhsilə sahib olması, onların hansı bacarıqları inkişaf etdirmələri və bazarın necə işləməsi barədə danışacağıq.

Netology redaktorlarından

Data Engineer və ya Data Scientist peşəsinə baxırsınızsa, sizi kurslarımızın proqramlarını öyrənməyə dəvət edirik:

Mənbə: www.habr.com

Добавить комментарий