Les métiers de Data Scientist et Data Engineer sont souvent confondus. Chaque entreprise a ses propres spécificités en matiÚre de travail avec les données, des objectifs différents pour leur analyse et une idée différente de quel spécialiste doit s'occuper de quelle partie du travail, chacun a donc ses propres exigences.
Voyons quelle est la différence entre ces spécialistes, quels problÚmes commerciaux ils résolvent, quelles compétences ils possÚdent et combien ils gagnent. Le matériel s'est avéré volumineux, nous l'avons donc divisé en deux publications.
Dans le premier article, Elena Gerasimova, directrice de la faculté «" en Netologie, raconte quelle est la différence entre un Data Scientist et un Data Engineer et avec quels outils ils travaillent.
Comment les rÎles des ingénieurs et des scientifiques diffÚrent
Un data Engineer est un spĂ©cialiste qui, d'une part, dĂ©veloppe, teste et maintient l'infrastructure de donnĂ©es : bases de donnĂ©es, systĂšmes de stockage et de traitement de masse. Dâun autre cĂŽtĂ©, câest celui qui nettoie et « passe au peigne fin » les donnĂ©es destinĂ©es aux analystes et aux data scientists, câest-Ă -dire qui crĂ©e des pipelines de traitement des donnĂ©es.
Data Scientist crée et entraßne des modÚles prédictifs (et autres) à l'aide d'algorithmes d'apprentissage automatique et de réseaux neuronaux, aidant ainsi les entreprises à trouver des modÚles cachés, à prédire les développements et à optimiser les processus commerciaux clés.
La principale diffĂ©rence entre un Data Scientist et un Data Engineer est quâils ont gĂ©nĂ©ralement des objectifs diffĂ©rents. Tous deux veillent Ă ce que les donnĂ©es soient accessibles et de haute qualitĂ©. Mais un Data Scientist trouve des rĂ©ponses Ă ses questions et teste des hypothĂšses dans un Ă©cosystĂšme de donnĂ©es (par exemple, basĂ© sur Hadoop), et un Data Engineer crĂ©e un pipeline pour desservir un algorithme d'apprentissage automatique Ă©crit par un data scientist dans un cluster Spark au sein du mĂȘme Ă©cosystĂšme.
Un ingénieur de données apporte de la valeur à une entreprise en travaillant en équipe. Sa tùche est d'agir comme un lien important entre les différents acteurs : des développeurs aux professionnels consommateurs de reporting, et d'augmenter la productivité des analystes, du marketing et produit à la BI.
Un Data Scientist, au contraire, participe activement Ă la stratĂ©gie de l'entreprise et extrait des informations, prend des dĂ©cisions, met en Ćuvre des algorithmes d'automatisation, modĂ©lise et gĂ©nĂšre de la valeur Ă partir des donnĂ©es.

Le travail avec des donnĂ©es est soumis au principe GIGO (garbage in - garbage out) : si les analystes et les data scientists traitent des donnĂ©es non prĂ©parĂ©es et potentiellement incorrectes, alors les rĂ©sultats, mĂȘme en utilisant les algorithmes d'analyse les plus sophistiquĂ©s, seront incorrects.
Les ingénieurs de données résolvent ce problÚme en créant des pipelines pour traiter, nettoyer et transformer les données et en permettant aux data scientists de travailler avec des données de haute qualité.
Il existe sur le marché de nombreux outils pour travailler avec les données qui couvrent chaque étape : de l'apparition des données à la sortie jusqu'au tableau de bord pour le conseil d'administration. Et il est important que la décision de les utiliser soit prise par un ingénieur - non pas parce que c'est à la mode, mais parce qu'il aidera vraiment le travail des autres participants au processus.
Classiquement : si une entreprise a besoin d'établir des connexions entre BI et ETL - chargement de données et mise à jour de rapports, voici une base héritée typique avec laquelle un Data Engineer devra composer (c'est bien s'il y a aussi un architecte dans l'équipe).
Responsabilités d'un ingénieur de données
- Développement, construction et maintenance d'infrastructures de traitement de données.
- Gérer les erreurs et créer des pipelines de traitement de données fiables.
- Amener des données non structurées provenant de diverses sources dynamiques sous la forme nécessaire au travail des analystes.
- Fournir des recommandations pour améliorer la cohérence et la qualité des données.
- Fournir et maintenir l'architecture de données utilisée par les data scientists et les analystes de données.
- Traitez et stockez les données de maniÚre cohérente et efficace dans un cluster distribué de dizaines ou de centaines de serveurs.
- Ăvaluez les compromis techniques des outils pour crĂ©er des architectures simples mais robustes capables de survivre aux perturbations.
- ContrÎle et support des flux de données et des systÚmes associés (mise en place de surveillances et d'alertes).
Il existe une autre spĂ©cialisation dans la trajectoire Data Engineer : lâingĂ©nieur ML. En bref, ces ingĂ©nieurs se spĂ©cialisent dans la mise en Ćuvre et lâutilisation industrielles de modĂšles dâapprentissage automatique. Souvent, un modĂšle reçu d'un data scientist fait partie d'une Ă©tude et peut ne pas fonctionner dans des conditions de combat.
Responsabilités d'un data scientist
- Extraire des fonctionnalités des données pour appliquer des algorithmes d'apprentissage automatique.
- Utiliser divers outils d'apprentissage automatique pour prédire et classer des modÚles dans les données.
- Améliorer les performances et la précision des algorithmes d'apprentissage automatique en affinant et en optimisant les algorithmes.
- Formation dâhypothĂšses « fortes » en accord avec la stratĂ©gie de lâentreprise quâil convient de tester.
Data Engineer et Data Scientist partagent une contribution tangible au dĂ©veloppement dâune culture des donnĂ©es, grĂące Ă laquelle une entreprise peut gĂ©nĂ©rer des bĂ©nĂ©fices supplĂ©mentaires ou rĂ©duire ses coĂ»ts.
Avec quels langages et outils les ingénieurs et scientifiques travaillent-ils ?
Aujourdâhui, les attentes envers les data scientists ont changĂ©. Auparavant, les ingĂ©nieurs collectaient des requĂȘtes SQL volumineuses, Ă©crivaient manuellement MapReduce et traitaient les donnĂ©es Ă l'aide d'outils tels qu'Informatica ETL, Pentaho ETL, Talend.
En 2020, un spécialiste ne peut se passer de la connaissance de Python et des outils de calcul modernes (par exemple Airflow), de la compréhension des principes de travail avec les plateformes cloud (les utiliser pour économiser sur le matériel, tout en respectant les principes de sécurité).
SAP, Oracle, MySQL, Redis sont des outils traditionnels pour les ingĂ©nieurs donnĂ©es des grandes entreprises. Ils sont bons, mais le coĂ»t des licences est si Ă©levĂ© qu'apprendre Ă travailler avec eux n'a de sens que dans le cadre de projets industriels. Dans le mĂȘme temps, il existe une alternative gratuite sous la forme de Postgres - elle est gratuite et ne convient pas seulement Ă la formation.

Historiquement, les demandes pour Java et Scala sont courantes, mĂȘme si Ă mesure que les technologies et les approches se dĂ©veloppent, ces langages passent au second plan.
Cependant, le BigData hardcore : Hadoop, Spark et le reste du zoo n'est plus une condition prĂ©alable pour un ingĂ©nieur de donnĂ©es, mais une sorte d'outils pour rĂ©soudre des problĂšmes qui ne peuvent pas ĂȘtre rĂ©solus par l'ETL traditionnel.
La tendance est aux services d'utilisation d'outils sans connaissance du langage dans lequel ils sont Ă©crits (par exemple, Hadoop sans connaissance de Java), ainsi qu'Ă la fourniture de services prĂȘts Ă l'emploi pour le traitement des donnĂ©es en streaming (reconnaissance vocale ou reconnaissance d'image sur vidĂ©o ).
Les solutions industrielles de SAS et SPSS sont populaires, tandis que Tableau, Rapidminer, Stata et Julia sont également largement utilisées par les data scientists pour des tùches locales.

La possibilitĂ© de crĂ©er eux-mĂȘmes des pipelines est apparue aux analystes et aux data scientists il y a seulement quelques annĂ©es : par exemple, il est dĂ©jĂ possible d'envoyer des donnĂ©es vers un stockage basĂ© sur PostgreSQL Ă l'aide de scripts relativement simples.
GĂ©nĂ©ralement, lâutilisation de pipelines et de structures de donnĂ©es intĂ©grĂ©es reste de la responsabilitĂ© des ingĂ©nieurs de donnĂ©es. Mais aujourdâhui, la tendance aux spĂ©cialistes en forme de T dotĂ©s de vastes compĂ©tences dans des domaines connexes est plus forte que jamais, car les outils sont constamment simplifiĂ©s.
Pourquoi Data Engineer et Data Scientist travaillent ensemble
En travaillant en Ă©troite collaboration avec les ingĂ©nieurs, les Data Scientists peuvent se concentrer sur la recherche, en crĂ©ant des algorithmes d'apprentissage automatique prĂȘts pour la production.
Et les ingĂ©nieurs doivent se concentrer sur lâĂ©volutivitĂ©, la rĂ©utilisation des donnĂ©es et sâassurer que les pipelines dâentrĂ©e et de sortie de donnĂ©es dans chaque projet individuel sont conformes Ă lâarchitecture globale.
Cette séparation des responsabilités garantit la cohérence entre les équipes travaillant sur différents projets d'apprentissage automatique.
La collaboration permet de crĂ©er efficacement de nouveaux produits. RapiditĂ© et qualitĂ© s'obtiennent grĂące Ă un Ă©quilibre entre la crĂ©ation d'un service pour tous (stockage global ou intĂ©gration de tableaux de bord) et la mise en Ćuvre de chaque besoin ou projet spĂ©cifique (pipeline hautement spĂ©cialisĂ©, connexion de sources externes).
Travailler en étroite collaboration avec des scientifiques et des analystes de données aide les ingénieurs à développer des compétences analytiques et de recherche pour écrire un meilleur code. Le partage des connaissances entre les utilisateurs des entrepÎts et des lacs de données s'améliore, rendant les projets plus agiles et fournissant des résultats plus durables à long terme.
Dans les entreprises qui visent à développer une culture de travail avec les données et à construire des processus commerciaux basés sur celles-ci, Data Scientist et Data Engineer se complÚtent et créent un systÚme complet d'analyse de données.
Dans le prochain article, nous parlerons du type de formation qu'un Data Engineer et un Data Scientists devraient avoir, des compétences qu'ils doivent développer et du fonctionnement du marché.
Des éditeurs de Netology
Si vous vous intéressez au métier de Data Engineer ou Data Scientist, nous vous invitons à étudier nos programmes de formations :
- Profession "».
- Profession "».
Source: habr.com
