selon , data Engineer est actuellement un métier dont la demande croßt plus vite que tout autre. Un ingénieur de données joue un rÎle essentiel dans une organisation : créer et maintenir des pipelines et des bases de données utilisés pour traiter, transformer et stocker les données. De quelles compétences les représentants de cette profession ont-ils besoin en premier lieu ? La liste est-elle différente de ce qui est exigé des data scientists ? Vous apprendrez tout cela dans mon article.
J'ai analysé les postes vacants pour le poste d'ingénieur de données tels qu'ils sont en janvier 2020 pour comprendre quelles compétences technologiques sont les plus populaires. Ensuite, j'ai comparé les résultats avec les statistiques sur les postes vacants pour le poste de data scientist - et des différences intéressantes sont apparues.
Sans trop de prĂ©ambule, voici les dix technologies les plus souvent mentionnĂ©es dans les offres dâemploi :

Mention des technologies dans les postes vacants pour le poste d'ingénieur data en 2020
Occupons-nous.
Responsabilités d'un ingénieur de données
Aujourd'hui, le travail effectué par les ingénieurs de données est d'une grande importance pour les organisations : ce sont les personnes qui sont chargées de stocker les informations et de les présenter sous une forme telle que d'autres employés puissent les utiliser. Les ingénieurs de données créent des pipelines pour diffuser ou regrouper des données provenant de plusieurs sources. Les pipelines effectuent ensuite des opérations d'extraction, de transformation et de chargement (en d'autres termes, des processus ETL), rendant les données plus adaptées à une utilisation ultérieure. AprÚs cela, les données sont soumises aux analystes et aux data scientists pour un traitement plus approfondi. Enfin, les données terminent leur parcours dans des tableaux de bord, des rapports et des modÚles d'apprentissage automatique.
Je cherchais des informations qui me permettraient de tirer une conclusion sur les technologies les plus demandées dans le travail d'un ingénieur de données à l'heure actuelle.
Méthodes
J'ai collecté des informations sur trois sites de recherche d'emploi - , О et examiné quels mots-clés apparaissaient en conjonction avec « ingénieur de données » dans les textes d'offres d'emploi destinés aux résidents américains. Pour cette tùche, j'ai utilisé deux bibliothÚques Python - О . Parmi les mots-clés, j'ai inclus à la fois ceux qui figuraient dans la liste précédente d'analyse des offres d'emploi pour le poste de data scientist, et ceux que j'ai sélectionnés manuellement lors de la lecture des offres d'emploi pour les ingénieurs de données. LinkedIn n'était pas inclus dans la liste des sources, car j'y ai été banni aprÚs ma derniÚre tentative de collecte de données.
Pour chaque mot-clé, j'ai calculé séparément le pourcentage de visites par rapport au nombre total de textes sur chaque site, puis j'ai calculé la moyenne pour les trois sources.
résultats
Vous trouverez ci-dessous les trente termes d'ingénierie des données techniques avec les scores les plus élevés sur les trois sites d'emploi.

Et voici les mĂȘmes chiffres, mais prĂ©sentĂ©s sous forme de tableau :

Allons dans l'ordre.
Aperçu des résultats
SQL et Python apparaissent dans plus des deux tiers des offres d'emploi examinĂ©es. Ce sont ces deux technologies quâil est logique dâĂ©tudier en premier. est un langage de programmation trĂšs populaire utilisĂ© pour travailler avec des donnĂ©es, crĂ©er des sites Web et Ă©crire des scripts. signifie Structured Query Language ; il s'agit d'un standard implĂ©mentĂ© par un groupe de langages et est utilisĂ© pour rĂ©cupĂ©rer des donnĂ©es Ă partir de bases de donnĂ©es relationnelles. Il est apparu il y a longtemps et sâest rĂ©vĂ©lĂ© trĂšs rĂ©sistant.
Spark est mentionné dans environ la moitié des postes vacants. est un « moteur d'analyse Big Data unifié avec des modules intégrés pour le streaming, SQL, l'apprentissage automatique et le traitement des graphiques ». Il est particuliÚrement populaire parmi ceux qui travaillent avec de grandes bases de données.
AWS apparaßt dans environ 45 % des offres d'emploi. Il s'agit d'une plateforme de cloud computing fabriquée par Amazon ; elle détient la plus grande part de marché parmi toutes les plateformes cloud.
Viennent ensuite Java et Hadoop â un peu plus de 40 % pour leur frĂšre. est une langue largement parlĂ©e et Ă©prouvĂ©e qui a reçu la dixiĂšme place parmi les langages qui font horreur aux programmeurs. En revanche, Python Ă©tait le deuxiĂšme langage le plus apprĂ©ciĂ©. Le langage Java est gĂ©rĂ© par Oracle, et tout ce que vous devez savoir Ă son sujet peut ĂȘtre compris Ă partir de cette capture d'Ă©cran de la page officielle de janvier 2020.

C'est comme monter dans une machine Ă voyager dans le temps
utilise le modĂšle de programmation MapReduce avec des clusters de serveurs pour le Big Data. Aujourdâhui, ce modĂšle est de plus en plus abandonnĂ©.
Ensuite, nous voyons Hive, Scala, Kafka et NoSQL - chacune de ces technologies est mentionnĂ©e dans un quart des offres d'emploi soumises. Apache Hive est un logiciel d'entrepĂŽt de donnĂ©es qui « facilite la lecture, l'Ă©criture et la gestion de grands ensembles de donnĂ©es rĂ©sidant dans des magasins distribuĂ©s Ă l'aide de SQL ». â un langage de programmation activement utilisĂ© lorsque lâon travaille avec le Big Data. En particulier, Spark a Ă©tĂ© créé en Scala. Dans le classement dĂ©jĂ mentionnĂ© des langues redoutĂ©es, Scala se classe onziĂšme. â une plateforme distribuĂ©e de traitement des messages en streaming. TrĂšs populaire comme moyen de streaming de donnĂ©es.
contrastent avec SQL. Ils diffĂšrent en ce sens quâils sont non relationnels, non structurĂ©s et Ă©volutifs horizontalement. NoSQL a gagnĂ© en popularitĂ©, mais l'engouement pour cette approche, au point mĂȘme de prophĂ©tiser qu'il remplacera SQL comme paradigme de stockage dominant, semble terminĂ©.
Comparaison avec les termes des postes vacants de data scientist
Voici trente termes technologiques les plus courants parmi les employeurs en science des donnĂ©es. J'ai obtenu cette liste de la mĂȘme maniĂšre que celle dĂ©crite ci-dessus pour l'ingĂ©nierie des donnĂ©es.

Mentions de technologie dans les postes vacants pour le poste de data scientist en 2020
Si l'on parle du nombre total, par rapport au recrutement précédemment envisagé, il y a eu 28 % de postes vacants en plus (12 013 contre 9396 XNUMX). Voyons quelles technologies sont moins courantes dans les postes vacants pour les data scientists que pour les ingénieurs de données.
Plus populaire dans lâingĂ©nierie des donnĂ©es
Le graphique ci-dessous montre les mots-clés avec une différence moyenne supérieure à 10 % ou inférieure à -10 %.

Les plus grandes différences de fréquence des mots clés entre les ingénieurs de données et les scientifiques de données
AWS affiche l'augmentation la plus significative : dans l'ingénierie des données, elle apparaßt 25 % plus réguliÚrement que dans la science des données (environ 45 % et 20 % du nombre total de postes vacants, respectivement). La différence est notable !
Voici les mĂȘmes donnĂ©es dans une prĂ©sentation lĂ©gĂšrement diffĂ©rente - dans le graphique, les rĂ©sultats pour le mĂȘme mot-clĂ© dans les postes vacants d'ingĂ©nieur de donnĂ©es et de data scientist sont situĂ©s cĂŽte Ă cĂŽte.

Les plus grandes différences de fréquence des mots clés entre les ingénieurs de données et les scientifiques de données
Le prochain saut le plus important que j'ai noté concerne Spark : un ingénieur de données doit souvent travailler avec du Big Data. a également augmenté de 20 %, soit prÚs de quatre fois par rapport au résultat des postes vacants de data scientist. Le transfert de données est l'une des responsabilités clés d'un ingénieur de données. Enfin, le nombre de mentions était 15 % plus élevé dans le domaine de l'ingénierie des données pour Java, NoSQL, Redshift, SQL et Hadoop.
Moins populaire en ingénierie des données
Voyons maintenant quelles technologies sont les moins populaires dans les postes vacants d'ingénieurs de données.
La baisse la plus forte par rapport au secteur de la science des données s'est produite en : là -bas, il est apparu dans environ 56% des postes vacants, ici - seulement dans 17%. Impressionnant. R est un langage de programmation privilégié par les scientifiques et les statisticiens et constitue le huitiÚme langage le plus redouté au monde.
se retrouve également beaucoup moins souvent dans les postes vacants d'ingénieur de données - la différence est de 14 %. SAS est un langage propriétaire conçu pour travailler avec des statistiques et des données. Point intéressant : à en juger par les résultats , elle a récemment perdu beaucoup de terrain, plus que toute autre technologie.
En demande en ingénierie des données et en science des données
Il convient de noter que huit des dix premiÚres positions dans les deux sets sont identiques. SQL, Python, Spark, AWS, Java, Hadoop, Hive et Scala font partie du top dix des secteurs de l'ingénierie et de la science des données. Dans le graphique ci-dessous, vous pouvez voir les quinze technologies les plus populaires parmi les employeurs d'ingénieurs de données, et à cÎté d'elles se trouve leur taux de postes vacants pour les data scientists.

Recommandations
Si vous souhaitez vous lancer dans l'ingénierie des données, je vous conseille de maßtriser les technologies suivantes - je les liste par ordre de priorité approximative.
Apprenez SQL. Je penche pour PostgreSQL car il est open source, trÚs populaire dans la communauté et est en phase de croissance. Vous pouvez apprendre à utiliser le langage dans le livre My Memorable SQL - sa version pilote est disponible .
MaĂźtrisez Python, mĂȘme si ce n'est pas au niveau le plus hardcore. My Memorable Python est spĂ©cialement conçu pour les dĂ©butants. Il peut ĂȘtre achetĂ© Ă , copie Ă©lectronique ou physique, votre choix, ou tĂ©lĂ©chargement au format pdf ou epub .
Une fois que vous ĂȘtes familiarisĂ© avec Python, passez Ă pandas, une bibliothĂšque Python utilisĂ©e pour le nettoyage et le traitement des donnĂ©es. Si vous envisagez de travailler dans une entreprise qui nĂ©cessite la capacitĂ© d'Ă©crire en Python (et c'est la majoritĂ© d'entre eux), vous pouvez ĂȘtre sĂ»r que la connaissance des pandas sera supposĂ©e par dĂ©faut. Je suis en train de terminer un guide d'introduction au travail avec les pandas - vous pouvez pour ne pas rater le moment de la libĂ©ration.
Maßtrisez AWS. Si vous souhaitez devenir ingénieur de données, vous ne pouvez pas vous passer d'une plate-forme cloud dans votre réserve, et AWS est la plus populaire d'entre elles. Les cours m'ont beaucoup aidé quand j'étudiais , je pense qu'ils auront également du bon matériel sur AWS.
Si vous avez dĂ©jĂ complĂ©tĂ© toute cette liste et que vous souhaitez Ă©voluer davantage aux yeux des employeurs en tant qu'ingĂ©nieur de donnĂ©es, je suggĂšre d'ajouter Apache Spark pour travailler avec le Big Data. Bien que mes recherches sur les postes vacants de data scientists aient montrĂ© une baisse d'intĂ©rĂȘt, parmi les ingĂ©nieurs de donnĂ©es, il apparaĂźt toujours dans presque un poste vacant sur deux.
Enfin
J'espÚre que vous avez trouvé utile cette revue des technologies les plus demandées par les ingénieurs de données. Si vous vous demandez comment se portent les emplois d'analyste, lisez . Bonne ingénierie !
Source: habr.com
