Les compétences les plus demandées dans le métier d’ingénieur data

selon statistiques 2019, data Engineer est actuellement un métier dont la demande croît plus vite que tout autre. Un ingénieur de données joue un rôle essentiel dans une organisation : créer et maintenir des pipelines et des bases de données utilisés pour traiter, transformer et stocker les données. De quelles compétences les représentants de cette profession ont-ils besoin en premier lieu ? La liste est-elle différente de ce qui est exigé des data scientists ? Vous apprendrez tout cela dans mon article.

J'ai analysé les postes vacants pour le poste d'ingénieur de données tels qu'ils sont en janvier 2020 pour comprendre quelles compétences technologiques sont les plus populaires. Ensuite, j'ai comparé les résultats avec les statistiques sur les postes vacants pour le poste de data scientist - et des différences intéressantes sont apparues.

Sans trop de préambule, voici les dix technologies les plus souvent mentionnées dans les offres d’emploi :

Les compétences les plus demandées dans le métier d’ingénieur data

Mention des technologies dans les postes vacants pour le poste d'ingénieur data en 2020

Occupons-nous.

Responsabilités d'un ingénieur de données

Aujourd'hui, le travail effectué par les ingénieurs de données est d'une grande importance pour les organisations : ce sont les personnes qui sont chargées de stocker les informations et de les présenter sous une forme telle que d'autres employés puissent les utiliser. Les ingénieurs de données créent des pipelines pour diffuser ou regrouper des données provenant de plusieurs sources. Les pipelines effectuent ensuite des opérations d'extraction, de transformation et de chargement (en d'autres termes, des processus ETL), rendant les données plus adaptées à une utilisation ultérieure. Après cela, les données sont soumises aux analystes et aux data scientists pour un traitement plus approfondi. Enfin, les données terminent leur parcours dans des tableaux de bord, des rapports et des modèles d'apprentissage automatique.

Je cherchais des informations qui me permettraient de tirer une conclusion sur les technologies les plus demandées dans le travail d'un ingénieur de données à l'heure actuelle.

Méthodes

J'ai collecté des informations sur trois sites de recherche d'emploi - SimplyHired, Indeed и Monster et examiné quels mots-clés apparaissaient en conjonction avec « ingénieur de données » dans les textes d'offres d'emploi destinés aux résidents américains. Pour cette tâche, j'ai utilisé deux bibliothèques Python - Demandes и Belle soupe. Parmi les mots-clés, j'ai inclus à la fois ceux qui figuraient dans la liste précédente d'analyse des offres d'emploi pour le poste de data scientist, et ceux que j'ai sélectionnés manuellement lors de la lecture des offres d'emploi pour les ingénieurs de données. LinkedIn n'était pas inclus dans la liste des sources, car j'y ai été banni après ma dernière tentative de collecte de données.

Pour chaque mot-clé, j'ai calculé séparément le pourcentage de visites par rapport au nombre total de textes sur chaque site, puis j'ai calculé la moyenne pour les trois sources.

résultats

Vous trouverez ci-dessous les trente termes d'ingénierie des données techniques avec les scores les plus élevés sur les trois sites d'emploi.

Les compétences les plus demandées dans le métier d’ingénieur data

Et voici les mêmes chiffres, mais présentés sous forme de tableau :

Les compétences les plus demandées dans le métier d’ingénieur data

Allons dans l'ordre.

Aperçu des résultats

SQL et Python apparaissent dans plus des deux tiers des offres d'emploi examinées. Ce sont ces deux technologies qu’il est logique d’étudier en premier. Python est un langage de programmation très populaire utilisé pour travailler avec des données, créer des sites Web et écrire des scripts. SQL signifie Structured Query Language ; il s'agit d'un standard implémenté par un groupe de langages et est utilisé pour récupérer des données à partir de bases de données relationnelles. Il est apparu il y a longtemps et s’est révélé très résistant.

Spark est mentionné dans environ la moitié des postes vacants. Apache Spark est un « moteur d'analyse Big Data unifié avec des modules intégrés pour le streaming, SQL, l'apprentissage automatique et le traitement des graphiques ». Il est particulièrement populaire parmi ceux qui travaillent avec de grandes bases de données.

AWS apparaît dans environ 45 % des offres d'emploi. Il s'agit d'une plateforme de cloud computing fabriquée par Amazon ; elle détient la plus grande part de marché parmi toutes les plateformes cloud.
Viennent ensuite Java et Hadoop – un peu plus de 40 % pour leur frère. Java est une langue largement parlée et éprouvée qui Enquête 2019 auprès des développeurs Stack Overflow a reçu la dixième place parmi les langages qui font horreur aux programmeurs. En revanche, Python était le deuxième langage le plus apprécié. Le langage Java est géré par Oracle, et tout ce que vous devez savoir à son sujet peut être compris à partir de cette capture d'écran de la page officielle de janvier 2020.

Les compétences les plus demandées dans le métier d’ingénieur data

C'est comme monter dans une machine à voyager dans le temps
Apache Hadoop utilise le modèle de programmation MapReduce avec des clusters de serveurs pour le Big Data. Aujourd’hui, ce modèle est de plus en plus abandonné.

Ensuite, nous voyons Hive, Scala, Kafka et NoSQL - chacune de ces technologies est mentionnée dans un quart des offres d'emploi soumises. Apache Hive est un logiciel d'entrepôt de données qui « facilite la lecture, l'écriture et la gestion de grands ensembles de données résidant dans des magasins distribués à l'aide de SQL ». Scala – un langage de programmation activement utilisé lorsque l’on travaille avec le Big Data. En particulier, Spark a été créé en Scala. Dans le classement déjà mentionné des langues redoutées, Scala se classe onzième. Apache Kafka – une plateforme distribuée de traitement des messages en streaming. Très populaire comme moyen de streaming de données.

Bases de données NoSQL contrastent avec SQL. Ils diffèrent en ce sens qu’ils sont non relationnels, non structurés et évolutifs horizontalement. NoSQL a gagné en popularité, mais l'engouement pour cette approche, au point même de prophétiser qu'il remplacera SQL comme paradigme de stockage dominant, semble terminé.

Comparaison avec les termes des postes vacants de data scientist

Voici trente termes technologiques les plus courants parmi les employeurs en science des données. J'ai obtenu cette liste de la même manière que celle décrite ci-dessus pour l'ingénierie des données.

Les compétences les plus demandées dans le métier d’ingénieur data

Mentions de technologie dans les postes vacants pour le poste de data scientist en 2020

Si l'on parle du nombre total, par rapport au recrutement précédemment envisagé, il y a eu 28 % de postes vacants en plus (12 013 contre 9396 XNUMX). Voyons quelles technologies sont moins courantes dans les postes vacants pour les data scientists que pour les ingénieurs de données.

Plus populaire dans l’ingénierie des données

Le graphique ci-dessous montre les mots-clés avec une différence moyenne supérieure à 10 % ou inférieure à -10 %.

Les compétences les plus demandées dans le métier d’ingénieur data

Les plus grandes différences de fréquence des mots clés entre les ingénieurs de données et les scientifiques de données

AWS affiche l'augmentation la plus significative : dans l'ingénierie des données, elle apparaît 25 % plus régulièrement que dans la science des données (environ 45 % et 20 % du nombre total de postes vacants, respectivement). La différence est notable !

Voici les mêmes données dans une présentation légèrement différente - dans le graphique, les résultats pour le même mot-clé dans les postes vacants d'ingénieur de données et de data scientist sont situés côte à côte.

Les compétences les plus demandées dans le métier d’ingénieur data

Les plus grandes différences de fréquence des mots clés entre les ingénieurs de données et les scientifiques de données

Le prochain saut le plus important que j'ai noté concerne Spark : un ingénieur de données doit souvent travailler avec du Big Data. Kafka a également augmenté de 20 %, soit près de quatre fois par rapport au résultat des postes vacants de data scientist. Le transfert de données est l'une des responsabilités clés d'un ingénieur de données. Enfin, le nombre de mentions était 15 % plus élevé dans le domaine de l'ingénierie des données pour Java, NoSQL, Redshift, SQL et Hadoop.

Moins populaire en ingénierie des données

Voyons maintenant quelles technologies sont les moins populaires dans les postes vacants d'ingénieurs de données.
La baisse la plus forte par rapport au secteur de la science des données s'est produite en R: là-bas, il est apparu dans environ 56% des postes vacants, ici - seulement dans 17%. Impressionnant. R est un langage de programmation privilégié par les scientifiques et les statisticiens et constitue le huitième langage le plus redouté au monde.

SAS se retrouve également beaucoup moins souvent dans les postes vacants d'ingénieur de données - la différence est de 14 %. SAS est un langage propriétaire conçu pour travailler avec des statistiques et des données. Point intéressant : à en juger par les résultats mes recherches sur les offres d'emploi pour les data scientists, elle a récemment perdu beaucoup de terrain, plus que toute autre technologie.

En demande en ingénierie des données et en science des données

Il convient de noter que huit des dix premières positions dans les deux sets sont identiques. SQL, Python, Spark, AWS, Java, Hadoop, Hive et Scala font partie du top dix des secteurs de l'ingénierie et de la science des données. Dans le graphique ci-dessous, vous pouvez voir les quinze technologies les plus populaires parmi les employeurs d'ingénieurs de données, et à côté d'elles se trouve leur taux de postes vacants pour les data scientists.

Les compétences les plus demandées dans le métier d’ingénieur data

Recommandations

Si vous souhaitez vous lancer dans l'ingénierie des données, je vous conseille de maîtriser les technologies suivantes - je les liste par ordre de priorité approximative.

Apprenez SQL. Je penche pour PostgreSQL car il est open source, très populaire dans la communauté et est en phase de croissance. Vous pouvez apprendre à utiliser le langage dans le livre My Memorable SQL - sa version pilote est disponible ici.

Maîtrisez Python, même si ce n'est pas au niveau le plus hardcore. My Memorable Python est spécialement conçu pour les débutants. Il peut être acheté à Amazon, copie électronique ou physique, votre choix, ou téléchargement au format pdf ou epub sur ce site.

Une fois que vous êtes familiarisé avec Python, passez à pandas, une bibliothèque Python utilisée pour le nettoyage et le traitement des données. Si vous envisagez de travailler dans une entreprise qui nécessite la capacité d'écrire en Python (et c'est la majorité d'entre eux), vous pouvez être sûr que la connaissance des pandas sera supposée par défaut. Je suis en train de terminer un guide d'introduction au travail avec les pandas - vous pouvez Souscrirepour ne pas rater le moment de la libération.

Maîtrisez AWS. Si vous souhaitez devenir ingénieur de données, vous ne pouvez pas vous passer d'une plate-forme cloud dans votre réserve, et AWS est la plus populaire d'entre elles. Les cours m'ont beaucoup aidé Académie Linuxquand j'étudiais ingénierie des données sur Google Cloud, je pense qu'ils auront également du bon matériel sur AWS.

Si vous avez déjà complété toute cette liste et que vous souhaitez évoluer davantage aux yeux des employeurs en tant qu'ingénieur de données, je suggère d'ajouter Apache Spark pour travailler avec le Big Data. Bien que mes recherches sur les postes vacants de data scientists aient montré une baisse d'intérêt, parmi les ingénieurs de données, il apparaît toujours dans presque un poste vacant sur deux.

Enfin

J'espère que vous avez trouvé utile cette revue des technologies les plus demandées par les ingénieurs de données. Si vous vous demandez comment se portent les emplois d'analyste, lisez mon autre article. Bonne ingénierie !

Source: habr.com

Ajouter un commentaire