Data Engineer è Data Scientist: Chì ghjè a differenza?

I professioni di Data Scientist è Data Engineer sò spessu cunfusi. Ogni cumpagnia hà e so particularità di travaglià cù e dati, diversi scopi per a so analisi è una idea sfarente di quale specialista deve trattà cù quale parte di u travagliu, per quessa, ognunu hà i so bisogni. 

Scupritemu quale hè a diffarenza trà questi specialisti, chì prublemi di cummerciale risolvenu, quali cumpetenze anu è quantu guadagnanu. U materiale hè diventatu grande, cusì l'avemu divisu in dui publicazioni.

In u primu articulu, Elena Gerasimova, capu di a facultà "Data Science è Analytics" in Netology, dice quale hè a diffarenza trà un Data Scientist è un Data Engineer è cù quali strumenti travaglianu.

Cumu i roli di l'ingegneri è i scientisti sò diffirenti

Un ingegnere di dati hè un specialistu chì, da una banda, sviluppa, teste è mantene l'infrastruttura di dati: basa di dati, sistemi di almacenamiento è di trasfurmazioni di massa. Per d 'altra banda, questu hè quellu chì pulisce è "pettine" e dati per l'usu di l'analisti è i scientisti di dati, vale à dì, crea pipelines di trattamentu di dati.

Data Scientist crea è trena mudelli predittivi (è altri) aduprendu algoritmi di apprendimentu automaticu è rete neurali, aiutendu l'imprese à truvà mudelli nascosti, predichendu sviluppi è ottimisà i prucessi di cummerciale chjave.

A principal diferenza trà un Data Scientist è un Data Engineer hè chì di solitu anu scopi diversi. Tramindui travaglianu per assicurà chì e dati sò accessibili è di alta qualità. Ma un Data Scientist trova risposte à e so dumande è teste ipotesi in un ecosistema di dati (per esempiu, basatu annantu à Hadoop), è un Data Engineer crea un pipeline per u serviziu di un algoritmu di apprendimentu automaticu scrittu da un scientist di dati in un cluster Spark in u stessu. ecosistema. 

Un ingegnere di dati porta valore à una impresa travagliendu cum'è parte di una squadra. U so compitu hè di agisce cum'è un ligame impurtante trà i diversi participanti: da i sviluppatori à i cunsumatori cummerciale di rapportu, è per aumentà a produtividade di l'analista, da u marketing è u produttu à a BI. 

Un Data Scientist, à u cuntrariu, participa attivamente à a strategia di a cumpagnia è estrae insights, piglià decisioni, implementendu algoritmi d'automatizazione, modellendu è generà valore da e dati.
Data Engineer è Data Scientist: Chì ghjè a differenza?

U travagliu cù e dati hè sottumessu à u principiu GIGO (garbage in - garbage out): se l'analisti è i scientisti di dati si trattanu di dati impreparati è potenzialmente incorrecti, i risultati ancu cù l'algoritmi di analisi più sofisticati seranu sbagliati. 

L'ingegneri di dati risolve stu prublema custruendu pipelines per trasfurmà, pulisce è trasfurmà e dati è permette à i scientisti di dati di travaglià cù dati d'alta qualità. 

Ci hè parechje strumenti nantu à u mercatu per travaglià cù dati chì copre ogni tappa: da l'apparizione di e dati à l'output à un dashboard per u cunsigliu di direzzione. È hè impurtante chì a decisione di usà hè fatta da un ingegnere - micca perchè hè di moda, ma perchè veramente aiutà à u travagliu di l'altri participanti in u prucessu. 

Convenzionalmente: se una cumpagnia hà bisognu di cunnessione trà BI è ETL - caricate dati è aghjurnà i rapporti, quì hè una fundazione legata tipica chì un Data Engineer hà da trattà (hè bonu s'ellu ci hè ancu un architettu in a squadra).

Responsabilità di un Data Engineer

  • Sviluppu, custruzzione è mantenimentu di l'infrastruttura di trattamentu di dati.
  • Gestisce l'errori è crea pipeline di trattamentu di dati affidabili.
  • Purtendu dati non strutturati da diverse fonti dinamiche à a forma necessaria per u travagliu di l'analista.
  • Fornisce cunsiglii per migliurà a cunsistenza è a qualità di e dati.
  • Furnisce è mantene l'architettura di dati utilizata da i scientisti di dati è analisti di dati.
  • Prucessa è almacena dati in modu coerente è efficiente in un cluster distribuitu di decine o centinaie di servitori.
  • Evaluate i scambii tecnichi di l'arnesi per creà architetture simplici ma robuste chì ponu sopravvive à a disrupzione.
  • Cuntrolla è supportu di i flussi di dati è di i sistemi cunnessi (istituzione di surviglianza è alerti).

Ci hè una altra specializazione in a trajectoria di l'ingegnere di dati - ingegnere ML. In breve, questi ingegneri sò specializati in portà mudelli di apprendimentu di machine à l'implementazione è l'utilizazione industriale. Spessu, un mudellu ricevutu da un scientist di dati hè parti di un studiu è ùn pò micca travaglià in cundizioni di cummattimentu.

Responsabilità di un Data Scientist

  • Estrazione di funzioni da i dati per applicà algoritmi di apprendimentu automaticu.
  • Utilizà diversi strumenti di apprendimentu di macchina per predichendu è classificà mudelli in dati.
  • Migliurà a prestazione è a precisione di l'algoritmi di apprendimentu di macchina per sintonizà è ottimizendu l'algoritmi.
  • Formazione di ipotesi "forti" in cunfurmità cù a strategia di a cumpagnia chì deve esse pruvata.

Sia Data Engineer è Data Scientist sparte una cuntribuzione tangibile à u sviluppu di una cultura di dati, per mezu di quale una cumpagnia pò generà prufitti supplementari o riduce i costi.

Cù quali lingue è arnesi travaglianu l'ingegneri è i scientisti?

Oghje, l'aspettattivi per i scientisti di dati anu cambiatu. In precedenza, l'ingegneri cullighjavanu grandi dumande SQL, scrivevanu manualmente MapReduce è trattavanu e dati cù arnesi cum'è Informatica ETL, Pentaho ETL, Talend. 

In 2020, un specialista ùn pò fà senza cunniscenze di Python è di l'arnesi di calculu muderni (per esempiu, Airflow), capiscenu i principii di travaglià cù e plataforme di nuvola (aduprate per salvà u hardware, mentre osservanu i principii di sicurezza).

SAP, Oracle, MySQL, Redis sò strumenti tradiziunali per l'ingegneri di dati in grandi imprese. Sò boni, ma u costu di licenze hè cusì altu chì l'amparà à travaglià cun elli hè solu sensu in i prughjetti industriali. À u listessu tempu, ci hè una alternativa libera in a forma di Postgres - hè liberu è adattatu micca solu per a furmazione. 

Data Engineer è Data Scientist: Chì ghjè a differenza?
Stòricamente, e dumande per Java è Scala sò spessu trovate, ancu s'ellu si sviluppanu e tecnulugii è l'approcciu, queste lingue svaniscenu in u fondu.

In ogni casu, u hardcore BigData: Hadoop, Spark è u restu di u zoo ùn hè più un prerequisite per un ingegnere di dati, ma un tipu d'arnesi per risolve i prublemi chì ùn ponu esse risolti da ETL tradiziunale. 

A tendenza hè di servizii per l'usu di strumenti senza cunniscenze di a lingua in quale sò scritti (per esempiu, Hadoop senza cunniscenze di Java), è ancu a prestazione di servizii pronti per u processu di dati in streaming (ricunniscenza di voce o ricunniscenza d'imaghjini in video). ).

Soluzioni industriali da SAS è SPSS sò populari, mentri Tableau, Rapidminer, Stata è Julia sò ancu largamente utilizati da i scientisti di dati per i travaglii lucali.

Data Engineer è Data Scientist: Chì ghjè a differenza?
L'abilità di custruisce i pipelines stessi apparsu à l'analisti è i scientisti di dati solu un paru d'anni fà: per esempiu, hè digià pussibule di mandà dati à un almacenamentu basatu in PostgreSQL utilizendu script relativamente simplici. 

Di genere, l'usu di pipelines è strutture integrate di dati resta a rispunsabilità di l'ingegneri di dati. Ma oghje, a tendenza per i specialisti in forma di T cù cumpetenze larghe in i campi cunnessi hè più forte chì mai, perchè l'arnesi sò sempri simplificati.

Perchè Data Engineer è Data Scientist travaglianu inseme

Travagliendu strettamente cù l'ingegneri, i Data Scientists ponu fucalizza nantu à u latu di a ricerca, creendu algoritmi di apprendimentu automaticu pronti per a produzzione.
È l'ingegneri anu bisognu di fucalizza nantu à a scalabilità, a riutilizazione di dati, è assicurà chì i pipeline di input è output di dati in ogni prughjettu individuale cumplenu cù l'architettura globale.

Questa separazione di e responsabilità assicura a coerenza trà e squadre chì travaglianu in diversi prughjetti di apprendimentu automaticu. 

A cullaburazione aiuta à creà novi prudutti in modu efficiente. A rapidità è a qualità sò ottenute per mezu di un equilibriu trà a creazione di un serviziu per tutti (almacenamiento globale o integrazione di dashboards) è l'implementazione di ogni esigenza o prughjettu specificu (pipeline altamente specializatu, culligamentu di fonti esterne). 

U travagliu strettamente cù i scientisti di dati è analisti aiuta à l'ingegneri à sviluppà e cumpetenze analitiche è di ricerca per scrive un codice megliu. A spartera di cunniscenze trà l'utilizatori di magazzini è di dati di u lacu migliora, rende i prughjetti più agili è furnisce risultati più sustenibili à longu andà.

In l'imprese chì anu u scopu di sviluppà una cultura di travaglià cù e dati è di custruisce prucessi di cummerciale basati nantu à elli, Data Scientist è Data Engineer si cumplementanu è creanu un sistema cumpletu di analisi di dati. 

In u prossimu articulu, parlemu di quale tipu d'educazione deve avè un Data Engineer è Data Scientists, quali cumpetenze anu bisognu di sviluppà è cumu u mercatu funziona.

Da l'editori di Netology

Sè vo circate a professione di Data Engineer o Data Scientist, vi invitemu à studià i nostri prugrammi di corsu:

Source: www.habr.com

Add a comment