Les compĂ©tences les plus demandĂ©es dans le mĂ©tier d’ingĂ©nieur data

selon statistiques 2019, data Engineer est actuellement un métier dont la demande croßt plus vite que tout autre. Un ingénieur de données joue un rÎle essentiel dans une organisation : créer et maintenir des pipelines et des bases de données utilisés pour traiter, transformer et stocker les données. De quelles compétences les représentants de cette profession ont-ils besoin en premier lieu ? La liste est-elle différente de ce qui est exigé des data scientists ? Vous apprendrez tout cela dans mon article.

J'ai analysé les postes vacants pour le poste d'ingénieur de données tels qu'ils sont en janvier 2020 pour comprendre quelles compétences technologiques sont les plus populaires. Ensuite, j'ai comparé les résultats avec les statistiques sur les postes vacants pour le poste de data scientist - et des différences intéressantes sont apparues.

Sans trop de prĂ©ambule, voici les dix technologies les plus souvent mentionnĂ©es dans les offres d’emploi :

Les compĂ©tences les plus demandĂ©es dans le mĂ©tier d’ingĂ©nieur data

Mention des technologies dans les postes vacants pour le poste d'ingénieur data en 2020

Occupons-nous.

Responsabilités d'un ingénieur de données

Aujourd'hui, le travail effectué par les ingénieurs de données est d'une grande importance pour les organisations : ce sont les personnes qui sont chargées de stocker les informations et de les présenter sous une forme telle que d'autres employés puissent les utiliser. Les ingénieurs de données créent des pipelines pour diffuser ou regrouper des données provenant de plusieurs sources. Les pipelines effectuent ensuite des opérations d'extraction, de transformation et de chargement (en d'autres termes, des processus ETL), rendant les données plus adaptées à une utilisation ultérieure. AprÚs cela, les données sont soumises aux analystes et aux data scientists pour un traitement plus approfondi. Enfin, les données terminent leur parcours dans des tableaux de bord, des rapports et des modÚles d'apprentissage automatique.

Je cherchais des informations qui me permettraient de tirer une conclusion sur les technologies les plus demandées dans le travail d'un ingénieur de données à l'heure actuelle.

Méthodes

J'ai collectĂ© des informations sur trois sites de recherche d'emploi - SimplyHired, Indeed Đž Monster et examinĂ© quels mots-clĂ©s apparaissaient en conjonction avec « ingĂ©nieur de donnĂ©es Â» dans les textes d'offres d'emploi destinĂ©s aux rĂ©sidents amĂ©ricains. Pour cette tĂąche, j'ai utilisĂ© deux bibliothĂšques Python - Demandes Đž Belle soupe. Parmi les mots-clĂ©s, j'ai inclus Ă  la fois ceux qui figuraient dans la liste prĂ©cĂ©dente d'analyse des offres d'emploi pour le poste de data scientist, et ceux que j'ai sĂ©lectionnĂ©s manuellement lors de la lecture des offres d'emploi pour les ingĂ©nieurs de donnĂ©es. LinkedIn n'Ă©tait pas inclus dans la liste des sources, car j'y ai Ă©tĂ© banni aprĂšs ma derniĂšre tentative de collecte de donnĂ©es.

Pour chaque mot-clé, j'ai calculé séparément le pourcentage de visites par rapport au nombre total de textes sur chaque site, puis j'ai calculé la moyenne pour les trois sources.

résultats

Vous trouverez ci-dessous les trente termes d'ingénierie des données techniques avec les scores les plus élevés sur les trois sites d'emploi.

Les compĂ©tences les plus demandĂ©es dans le mĂ©tier d’ingĂ©nieur data

Et voici les mĂȘmes chiffres, mais prĂ©sentĂ©s sous forme de tableau :

Les compĂ©tences les plus demandĂ©es dans le mĂ©tier d’ingĂ©nieur data

Allons dans l'ordre.

Aperçu des résultats

SQL et Python apparaissent dans plus des deux tiers des offres d'emploi examinĂ©es. Ce sont ces deux technologies qu’il est logique d’étudier en premier. Python est un langage de programmation trĂšs populaire utilisĂ© pour travailler avec des donnĂ©es, crĂ©er des sites Web et Ă©crire des scripts. SQL signifie Structured Query Language ; il s'agit d'un standard implĂ©mentĂ© par un groupe de langages et est utilisĂ© pour rĂ©cupĂ©rer des donnĂ©es Ă  partir de bases de donnĂ©es relationnelles. Il est apparu il y a longtemps et s’est rĂ©vĂ©lĂ© trĂšs rĂ©sistant.

Spark est mentionné dans environ la moitié des postes vacants. Apache Spark est un « moteur d'analyse Big Data unifié avec des modules intégrés pour le streaming, SQL, l'apprentissage automatique et le traitement des graphiques ». Il est particuliÚrement populaire parmi ceux qui travaillent avec de grandes bases de données.

AWS apparaĂźt dans environ 45 % des offres d'emploi. Il s'agit d'une plateforme de cloud computing fabriquĂ©e par Amazon ; elle dĂ©tient la plus grande part de marchĂ© parmi toutes les plateformes cloud.
Viennent ensuite Java et Hadoop – un peu plus de 40 % pour leur frĂšre. Java est une langue largement parlĂ©e et Ă©prouvĂ©e qui EnquĂȘte 2019 auprĂšs des dĂ©veloppeurs Stack Overflow a reçu la dixiĂšme place parmi les langages qui font horreur aux programmeurs. En revanche, Python Ă©tait le deuxiĂšme langage le plus apprĂ©ciĂ©. Le langage Java est gĂ©rĂ© par Oracle, et tout ce que vous devez savoir Ă  son sujet peut ĂȘtre compris Ă  partir de cette capture d'Ă©cran de la page officielle de janvier 2020.

Les compĂ©tences les plus demandĂ©es dans le mĂ©tier d’ingĂ©nieur data

C'est comme monter dans une machine Ă  voyager dans le temps
Apache Hadoop utilise le modĂšle de programmation MapReduce avec des clusters de serveurs pour le Big Data. Aujourd’hui, ce modĂšle est de plus en plus abandonnĂ©.

Ensuite, nous voyons Hive, Scala, Kafka et NoSQL - chacune de ces technologies est mentionnĂ©e dans un quart des offres d'emploi soumises. Apache Hive est un logiciel d'entrepĂŽt de donnĂ©es qui « facilite la lecture, l'Ă©criture et la gestion de grands ensembles de donnĂ©es rĂ©sidant dans des magasins distribuĂ©s Ă  l'aide de SQL ». Scala – un langage de programmation activement utilisĂ© lorsque l’on travaille avec le Big Data. En particulier, Spark a Ă©tĂ© créé en Scala. Dans le classement dĂ©jĂ  mentionnĂ© des langues redoutĂ©es, Scala se classe onziĂšme. Apache Kafka – une plateforme distribuĂ©e de traitement des messages en streaming. TrĂšs populaire comme moyen de streaming de donnĂ©es.

Bases de donnĂ©es NoSQL contrastent avec SQL. Ils diffĂšrent en ce sens qu’ils sont non relationnels, non structurĂ©s et Ă©volutifs horizontalement. NoSQL a gagnĂ© en popularitĂ©, mais l'engouement pour cette approche, au point mĂȘme de prophĂ©tiser qu'il remplacera SQL comme paradigme de stockage dominant, semble terminĂ©.

Comparaison avec les termes des postes vacants de data scientist

Voici trente termes technologiques les plus courants parmi les employeurs en science des donnĂ©es. J'ai obtenu cette liste de la mĂȘme maniĂšre que celle dĂ©crite ci-dessus pour l'ingĂ©nierie des donnĂ©es.

Les compĂ©tences les plus demandĂ©es dans le mĂ©tier d’ingĂ©nieur data

Mentions de technologie dans les postes vacants pour le poste de data scientist en 2020

Si l'on parle du nombre total, par rapport au recrutement précédemment envisagé, il y a eu 28 % de postes vacants en plus (12 013 contre 9396 XNUMX). Voyons quelles technologies sont moins courantes dans les postes vacants pour les data scientists que pour les ingénieurs de données.

Plus populaire dans l’ingĂ©nierie des donnĂ©es

Le graphique ci-dessous montre les mots-clĂ©s avec une diffĂ©rence moyenne supĂ©rieure Ă  10 % ou infĂ©rieure Ă  -10 %.

Les compĂ©tences les plus demandĂ©es dans le mĂ©tier d’ingĂ©nieur data

Les plus grandes différences de fréquence des mots clés entre les ingénieurs de données et les scientifiques de données

AWS affiche l'augmentation la plus significative : dans l'ingénierie des données, elle apparaßt 25 % plus réguliÚrement que dans la science des données (environ 45 % et 20 % du nombre total de postes vacants, respectivement). La différence est notable !

Voici les mĂȘmes donnĂ©es dans une prĂ©sentation lĂ©gĂšrement diffĂ©rente - dans le graphique, les rĂ©sultats pour le mĂȘme mot-clĂ© dans les postes vacants d'ingĂ©nieur de donnĂ©es et de data scientist sont situĂ©s cĂŽte Ă  cĂŽte.

Les compĂ©tences les plus demandĂ©es dans le mĂ©tier d’ingĂ©nieur data

Les plus grandes différences de fréquence des mots clés entre les ingénieurs de données et les scientifiques de données

Le prochain saut le plus important que j'ai noté concerne Spark : un ingénieur de données doit souvent travailler avec du Big Data. Kafka a également augmenté de 20 %, soit prÚs de quatre fois par rapport au résultat des postes vacants de data scientist. Le transfert de données est l'une des responsabilités clés d'un ingénieur de données. Enfin, le nombre de mentions était 15 % plus élevé dans le domaine de l'ingénierie des données pour Java, NoSQL, Redshift, SQL et Hadoop.

Moins populaire en ingénierie des données

Voyons maintenant quelles technologies sont les moins populaires dans les postes vacants d'ingénieurs de données.
La baisse la plus forte par rapport au secteur de la science des données s'est produite en R: là-bas, il est apparu dans environ 56% des postes vacants, ici - seulement dans 17%. Impressionnant. R est un langage de programmation privilégié par les scientifiques et les statisticiens et constitue le huitiÚme langage le plus redouté au monde.

SAS se retrouve également beaucoup moins souvent dans les postes vacants d'ingénieur de données - la différence est de 14 %. SAS est un langage propriétaire conçu pour travailler avec des statistiques et des données. Point intéressant : à en juger par les résultats mes recherches sur les offres d'emploi pour les data scientists, elle a récemment perdu beaucoup de terrain, plus que toute autre technologie.

En demande en ingénierie des données et en science des données

Il convient de noter que huit des dix premiÚres positions dans les deux sets sont identiques. SQL, Python, Spark, AWS, Java, Hadoop, Hive et Scala font partie du top dix des secteurs de l'ingénierie et de la science des données. Dans le graphique ci-dessous, vous pouvez voir les quinze technologies les plus populaires parmi les employeurs d'ingénieurs de données, et à cÎté d'elles se trouve leur taux de postes vacants pour les data scientists.

Les compĂ©tences les plus demandĂ©es dans le mĂ©tier d’ingĂ©nieur data

Recommandations

Si vous souhaitez vous lancer dans l'ingénierie des données, je vous conseille de maßtriser les technologies suivantes - je les liste par ordre de priorité approximative.

Apprenez SQL. Je penche pour PostgreSQL car il est open source, trÚs populaire dans la communauté et est en phase de croissance. Vous pouvez apprendre à utiliser le langage dans le livre My Memorable SQL - sa version pilote est disponible ici.

MaĂźtrisez Python, mĂȘme si ce n'est pas au niveau le plus hardcore. My Memorable Python est spĂ©cialement conçu pour les dĂ©butants. Il peut ĂȘtre achetĂ© Ă  Amazon, copie Ă©lectronique ou physique, votre choix, ou tĂ©lĂ©chargement au format pdf ou epub sur ce site.

Une fois que vous ĂȘtes familiarisĂ© avec Python, passez Ă  pandas, une bibliothĂšque Python utilisĂ©e pour le nettoyage et le traitement des donnĂ©es. Si vous envisagez de travailler dans une entreprise qui nĂ©cessite la capacitĂ© d'Ă©crire en Python (et c'est la majoritĂ© d'entre eux), vous pouvez ĂȘtre sĂ»r que la connaissance des pandas sera supposĂ©e par dĂ©faut. Je suis en train de terminer un guide d'introduction au travail avec les pandas - vous pouvez Souscrirepour ne pas rater le moment de la libĂ©ration.

MaĂźtrisez AWS. Si vous souhaitez devenir ingĂ©nieur de donnĂ©es, vous ne pouvez pas vous passer d'une plate-forme cloud dans votre rĂ©serve, et AWS est la plus populaire d'entre elles. Les cours m'ont beaucoup aidĂ© Linux Academyquand j'Ă©tudiais ingĂ©nierie des donnĂ©es sur Google Cloud, je pense qu'ils auront Ă©galement du bon matĂ©riel sur AWS.

Si vous avez dĂ©jĂ  complĂ©tĂ© toute cette liste et que vous souhaitez Ă©voluer davantage aux yeux des employeurs en tant qu'ingĂ©nieur de donnĂ©es, je suggĂšre d'ajouter Apache Spark pour travailler avec le Big Data. Bien que mes recherches sur les postes vacants de data scientists aient montrĂ© une baisse d'intĂ©rĂȘt, parmi les ingĂ©nieurs de donnĂ©es, il apparaĂźt toujours dans presque un poste vacant sur deux.

Enfin

J'espÚre que vous avez trouvé utile cette revue des technologies les plus demandées par les ingénieurs de données. Si vous vous demandez comment se portent les emplois d'analyste, lisez mon autre article. Bonne ingénierie !

Source: habr.com

Achetez un hĂ©bergement fiable pour les sites avec protection DDoS, serveurs VPS VDS đŸ”„ Achetez un hĂ©bergement web fiable avec protection DDoS, serveurs VPS et VDS | ProHoster