Деректер инженері және деректер ғалымы: айырмашылығы неде?

Data Scientist және Data Engineer мамандықтары жиі шатастырылады. Әрбір компанияның деректермен жұмыс істеудің өзіндік ерекшеліктері, оларды талдаудың әртүрлі мақсаттары және қай маман жұмыстың қай бөлігімен айналысуы керектігі туралы әртүрлі идея бар, сондықтан әрқайсысының өз талаптары бар. 

Осы мамандардың арасындағы айырмашылық неде екенін, олар қандай бизнес мәселелерін шешетінін, қандай дағдыларға ие екенін және қанша табыс табатынын анықтап көрейік. Материал үлкен болып шықты, сондықтан біз оны екі басылымға бөлдік.

Бірінші мақалада Елена Герасимова, факультет меңгерушісі «Деректер туралы ғылым және аналитика« Netology-те деректер зерттеушісі мен деректер инженері арасындағы айырмашылық неде және олар қандай құралдармен жұмыс істейтінін айтады.

Инженерлер мен ғалымдардың рөлдері қалай ерекшеленеді

Деректер инженері – бұл бір жағынан деректер инфрақұрылымын: мәліметтер қорын, сақтау және жаппай өңдеу жүйелерін әзірлейтін, сынайтын және қызмет көрсететін маман. Екінші жағынан, бұл талдаушылар мен деректер ғалымдары пайдалану үшін деректерді тазартатын және «тарақтайтын», яғни деректерді өңдеу құбырларын жасайтын адам.

Data Scientist машиналық оқыту алгоритмдері мен нейрондық желілерді пайдаланып болжамдық (және басқа) модельдерді жасайды және үйретеді, бұл бизнеске жасырын үлгілерді табуға, дамуларды болжауға және негізгі бизнес процестерін оңтайландыруға көмектеседі.

Деректер ғалымы мен деректер инженерінің басты айырмашылығы - олардың әдетте әртүрлі мақсаттары болады. Екеуі де деректердің қолжетімді және жоғары сапалы болуын қамтамасыз ету үшін жұмыс істейді. Бірақ Data Scientist өз сұрақтарына жауап табады және гипотезаларды деректер экожүйесінде (мысалы, Hadoop негізінде) сынайды және деректер инженері Spark кластерінде деректер ғалымы жазған машинаны оқыту алгоритміне қызмет көрсету үшін құбырды жасайды. экожүйе. 

Деректер инженері топтың бір бөлігі ретінде жұмыс істеу арқылы бизнеске құндылық әкеледі. Оның міндеті әртүрлі қатысушылар арасында маңызды буын ретінде әрекет ету: әзірлеушілерден бизнес тұтынушыларға дейін есеп беру және маркетинг пен өнімнен BI-ға дейін талдаушылардың өнімділігін арттыру. 

Data Scientist, керісінше, компанияның стратегиясына белсенді қатысады және түсініктерді шығарады, шешімдер қабылдайды, автоматтандыру алгоритмдерін енгізеді, деректерден мәнді модельдейді және жасайды.
Деректер инженері және деректер ғалымы: айырмашылығы неде?

Деректермен жұмыс істеу GIGO (horbage in - garbage out) принципіне бағынады: егер талдаушылар мен деректер ғалымдары дайын емес және ықтимал қате деректермен айналысатын болса, онда ең күрделі талдау алгоритмдерін пайдаланғанның өзінде нәтижелер дұрыс емес болады. 

Деректер инженерлері бұл мәселені деректерді өңдеу, тазалау және түрлендіру үшін құбыр желілерін құру және деректер ғалымдарына жоғары сапалы деректермен жұмыс істеуге мүмкіндік беру арқылы шешеді. 

Нарықта әр кезеңді қамтитын деректермен жұмыс істеуге арналған көптеген құралдар бар: деректердің пайда болуынан бастап директорлар кеңесінің бақылау тақтасына дейін. Және оларды пайдалану туралы шешімді инженер қабылдағаны маңызды - бұл сәнді болғандықтан емес, ол процестің басқа қатысушыларының жұмысына шынымен көмектесетіндіктен. 

Дәстүрлі түрде: егер компания BI және ETL арасында байланыс орнатуы керек болса - деректерді жүктеу және есептерді жаңарту, мұнда деректер инженері айналысатын әдеттегі ескі негіз (командада сәулетші де болса жақсы).

Деректер инженерінің міндеттері

  • Деректерді өңдеу инфрақұрылымын дамыту, салу және қызмет көрсету.
  • Қателерді өңдеу және сенімді деректерді өңдеу құбырларын құру.
  • Әртүрлі динамикалық көздерден құрылымдалмаған деректерді талдаушылардың жұмысына қажетті пішінге келтіру.
  • Деректер дәйектілігі мен сапасын жақсарту бойынша ұсыныстар беру.
  • Деректерді зерттеушілер мен деректер талдаушылары пайдаланатын деректер архитектурасын қамтамасыз ету және қолдау.
  • Ондаған немесе жүздеген серверлердің бөлінген кластерінде деректерді дәйекті және тиімді өңдеңіз және сақтаңыз.
  • Қарапайым, бірақ үзілістерге төтеп бере алатын сенімді архитектураларды жасау үшін құралдардың техникалық сәйкестігін бағалаңыз.
  • Деректер ағындары мен байланысты жүйелерді бақылау және қолдау (мониторинг пен ескертулерді орнату).

Data Engineer траекториясында тағы бір мамандық бар - ML инженері. Қысқаша айтқанда, бұл инженерлер машиналық оқыту үлгілерін өнеркәсіптік енгізуге және пайдалануға мамандандырылған. Көбінесе деректер зерттеушісінен алынған модель зерттеудің бөлігі болып табылады және ұрыс жағдайында жұмыс істемеуі мүмкін.

Деректер жөніндегі маманның міндеттері

  • Машиналық оқыту алгоритмдерін қолдану үшін деректерден мүмкіндіктерді шығару.
  • Деректердегі үлгілерді болжау және жіктеу үшін әртүрлі машиналық оқыту құралдарын пайдалану.
  • Алгоритмдерді дәл баптау және оңтайландыру арқылы машиналық оқыту алгоритмдерінің өнімділігі мен дәлдігін арттыру.
  • Тексеруді қажет ететін компанияның стратегиясына сәйкес «күшті» гипотезаларды қалыптастыру.

Data Engineer және Data Scientist екеуі де деректер мәдениетін дамытуға елеулі үлес қосады, соның арқасында компания қосымша пайда әкеле алады немесе шығындарды азайтады.

Инженерлер мен ғалымдар қандай тілдермен және құралдармен жұмыс істейді?

Бүгінде деректер ғалымдарының күтулері өзгерді. Бұрын инженерлер үлкен SQL сұрауларын жинап, MapReduce қолмен жазып, Informatica ETL, Pentaho ETL, Talend сияқты құралдарды пайдаланып деректерді өңдейтін. 

2020 жылы маман Python және заманауи есептеу құралдарын (мысалы, Airflow) білмей, бұлттық платформалармен жұмыс істеу принциптерін түсінбей (қауіпсіздік принциптерін сақтай отырып, аппараттық құралдарды үнемдеу үшін оларды пайдалану) жасай алмайды.

SAP, Oracle, MySQL, Redis ірі компаниялардағы деректер инженерлеріне арналған дәстүрлі құралдар. Олар жақсы, бірақ лицензиялардың құны соншалықты жоғары, олармен жұмыс істеуді үйрену тек өнеркәсіптік жобаларда мағынасы бар. Сонымен қатар, Postgres түрінде тегін балама бар - бұл тегін және тек оқуға ғана емес жарамды. 

Деректер инженері және деректер ғалымы: айырмашылығы неде?
Тарихи түрде Java және Scala сұраулары жиі кездеседі, дегенмен технологиялар мен тәсілдер дамыған сайын бұл тілдер фонға түседі.

Дегенмен, BigData қаттылығы: Hadoop, Spark және хайуанаттар бағының қалған бөлігі енді деректер инженері үшін міндетті шарт емес, дәстүрлі ETL арқылы шешілмейтін мәселелерді шешуге арналған құралдардың бір түрі. 

Тренд – құралдарды олар жазылған тілді білмей пайдалану қызметтері (мысалы, Java тілін білмей Hadoop), сондай-ақ ағындық деректерді өңдеуге арналған дайын қызметтерді ұсыну (бейнеде дауысты тану немесе кескінді тану) ).

SAS және SPSS өнеркәсіптік шешімдері танымал, ал Tableau, Rapidminer, Stata және Julia сонымен қатар деректерді зерттеушілермен жергілікті тапсырмалар үшін кеңінен қолданылады.

Деректер инженері және деректер ғалымы: айырмашылығы неде?
Құбырларды өздігінен салу мүмкіндігі аналитиктер мен деректер ғалымдарына бірнеше жыл бұрын ғана пайда болды: мысалы, салыстырмалы қарапайым сценарийлер арқылы PostgreSQL негізіндегі жадқа деректерді жіберуге болады. 

Әдетте, құбыр желілерін және біріктірілген деректер құрылымдарын пайдалану деректер инженерлерінің жауапкершілігі болып қала береді. Бірақ бүгінгі күні сәйкес салаларда кең құзыреттілігі бар Т-тәрізді мамандардың үрдісі бұрынғыдан да күшті, өйткені құралдар үнемі жеңілдетіліп отырады.

Неліктен деректер инженері мен деректер ғалымы бірге жұмыс істейді?

Инженерлермен тығыз жұмыс жасай отырып, деректер ғалымдары өндіріске дайын машиналық оқыту алгоритмдерін жасай отырып, зерттеу жағына назар аудара алады.
Ал инженерлер ауқымдылыққа, деректерді қайта пайдалануға және әрбір жеке жобадағы деректерді енгізу және шығару құбырларының жаһандық архитектураға сәйкес келуіне назар аударуы керек.

Жауапкершіліктердің бұл бөлінуі әртүрлі машиналық оқыту жобаларында жұмыс істейтін командалар арасындағы үйлесімділікті қамтамасыз етеді. 

Ынтымақтастық жаңа өнімдерді тиімді жасауға көмектеседі. Жылдамдық пен сапаға барлығына арналған қызметті құру (жаһандық сақтау немесе бақылау тақталарын біріктіру) және әрбір нақты қажеттілікті немесе жобаны жүзеге асыру (жоғары мамандандырылған құбыр, сыртқы көздерді қосу) арасындағы теңгерім арқылы қол жеткізіледі. 

Деректер ғалымдарымен және талдаушылармен тығыз жұмыс істеу инженерлерге жақсырақ код жазу үшін аналитикалық және зерттеу дағдыларын дамытуға көмектеседі. Қойма және деректер көлі пайдаланушылары арасында білім алмасу жақсарып, жобаларды икемді етеді және ұзақ мерзімді тұрақты нәтижелерді береді.

Деректермен жұмыс істеу мәдениетін дамытуға және олардың негізінде бизнес-процестерді құруға бағытталған компанияларда Data Scientist және Data Engineer бірін-бірі толықтырады және толық деректерді талдау жүйесін жасайды. 

Келесі мақалада деректер инженері мен деректер ғалымдары қандай білім алуы керек, олар қандай дағдыларды дамыту керек және нарық қалай жұмыс істейтіні туралы айтатын боламыз.

Netology редакторларынан

Егер сіз деректер инженері немесе деректер ғалымы мамандығын іздесеңіз, сізді біздің курстық бағдарламаларды оқуға шақырамыз:

Ақпарат көзі: www.habr.com

пікір қалдыру