selon
J'ai analysé les postes vacants pour le poste d'ingénieur de données tels qu'ils sont en janvier 2020 pour comprendre quelles compétences technologiques sont les plus populaires. Ensuite, j'ai comparé les résultats avec les statistiques sur les postes vacants pour le poste de data scientist - et des différences intéressantes sont apparues.
Sans trop de préambule, voici les dix technologies les plus souvent mentionnées dans les offres d’emploi :
Mention des technologies dans les postes vacants pour le poste d'ingénieur data en 2020
Responsabilités d'un ingénieur de données
Aujourd'hui, le travail effectué par les ingénieurs de données est d'une grande importance pour les organisations : ce sont les personnes qui sont chargées de stocker les informations et de les présenter sous une forme telle que d'autres employés puissent les utiliser. Les ingénieurs de données créent des pipelines pour diffuser ou regrouper des données provenant de plusieurs sources. Les pipelines effectuent ensuite des opérations d'extraction, de transformation et de chargement (en d'autres termes, des processus ETL), rendant les données plus adaptées à une utilisation ultérieure. Après cela, les données sont soumises aux analystes et aux data scientists pour un traitement plus approfondi. Enfin, les données terminent leur parcours dans des tableaux de bord, des rapports et des modèles d'apprentissage automatique.
Je cherchais des informations qui me permettraient de tirer une conclusion sur les technologies les plus demandées dans le travail d'un ingénieur de données à l'heure actuelle.
Méthodes
J'ai collecté des informations sur trois sites de recherche d'emploi -
Pour chaque mot-clé, j'ai calculé séparément le pourcentage de visites par rapport au nombre total de textes sur chaque site, puis j'ai calculé la moyenne pour les trois sources.
résultats
Vous trouverez ci-dessous les trente termes d'ingénierie des données techniques avec les scores les plus élevés sur les trois sites d'emploi.
Et voici les mêmes chiffres, mais présentés sous forme de tableau :
Allons dans l'ordre.
Aperçu des résultats
SQL et Python apparaissent dans plus des deux tiers des offres d'emploi examinées. Ce sont ces deux technologies qu’il est logique d’étudier en premier.
Spark est mentionné dans environ la moitié des postes vacants.
AWS apparaît dans environ 45 % des offres d'emploi. Il s'agit d'une plateforme de cloud computing fabriquée par Amazon ; elle détient la plus grande part de marché parmi toutes les plateformes cloud.
Viennent ensuite Java et Hadoop – un peu plus de 40 % pour leur frère.
C'est comme monter dans une machine à voyager dans le temps
Ensuite, nous voyons Hive, Scala, Kafka et NoSQL - chacune de ces technologies est mentionnée dans un quart des offres d'emploi soumises. Apache Hive est un logiciel d'entrepôt de données qui « facilite la lecture, l'écriture et la gestion de grands ensembles de données résidant dans des magasins distribués à l'aide de SQL ».
Comparaison avec les termes des postes vacants de data scientist
Voici trente termes technologiques les plus courants parmi les employeurs en science des données. J'ai obtenu cette liste de la même manière que celle décrite ci-dessus pour l'ingénierie des données.
Mentions de technologie dans les postes vacants pour le poste de data scientist en 2020
Si l'on parle du nombre total, par rapport au recrutement précédemment envisagé, il y a eu 28 % de postes vacants en plus (12 013 contre 9396 XNUMX). Voyons quelles technologies sont moins courantes dans les postes vacants pour les data scientists que pour les ingénieurs de données.
Plus populaire dans l’ingénierie des données
Le graphique ci-dessous montre les mots-clés avec une différence moyenne supérieure à 10 % ou inférieure à -10 %.
Les plus grandes différences de fréquence des mots clés entre les ingénieurs de données et les scientifiques de données
AWS affiche l'augmentation la plus significative : dans l'ingénierie des données, elle apparaît 25 % plus régulièrement que dans la science des données (environ 45 % et 20 % du nombre total de postes vacants, respectivement). La différence est notable !
Voici les mêmes données dans une présentation légèrement différente - dans le graphique, les résultats pour le même mot-clé dans les postes vacants d'ingénieur de données et de data scientist sont situés côte à côte.
Les plus grandes différences de fréquence des mots clés entre les ingénieurs de données et les scientifiques de données
Le prochain saut le plus important que j'ai noté concerne Spark : un ingénieur de données doit souvent travailler avec du Big Data.
Moins populaire en ingénierie des données
Voyons maintenant quelles technologies sont les moins populaires dans les postes vacants d'ingénieurs de données.
La baisse la plus forte par rapport au secteur de la science des données s'est produite en
En demande en ingénierie des données et en science des données
Il convient de noter que huit des dix premières positions dans les deux sets sont identiques. SQL, Python, Spark, AWS, Java, Hadoop, Hive et Scala font partie du top dix des secteurs de l'ingénierie et de la science des données. Dans le graphique ci-dessous, vous pouvez voir les quinze technologies les plus populaires parmi les employeurs d'ingénieurs de données, et à côté d'elles se trouve leur taux de postes vacants pour les data scientists.
Recommandations
Si vous souhaitez vous lancer dans l'ingénierie des données, je vous conseille de maîtriser les technologies suivantes - je les liste par ordre de priorité approximative.
Apprenez SQL. Je penche pour PostgreSQL car il est open source, très populaire dans la communauté et est en phase de croissance. Vous pouvez apprendre à utiliser le langage dans le livre My Memorable SQL - sa version pilote est disponible
Maîtrisez Python, même si ce n'est pas au niveau le plus hardcore. My Memorable Python est spécialement conçu pour les débutants. Il peut être acheté à
Une fois que vous êtes familiarisé avec Python, passez à pandas, une bibliothèque Python utilisée pour le nettoyage et le traitement des données. Si vous envisagez de travailler dans une entreprise qui nécessite la capacité d'écrire en Python (et c'est la majorité d'entre eux), vous pouvez être sûr que la connaissance des pandas sera supposée par défaut. Je suis en train de terminer un guide d'introduction au travail avec les pandas - vous pouvez
Maîtrisez AWS. Si vous souhaitez devenir ingénieur de données, vous ne pouvez pas vous passer d'une plate-forme cloud dans votre réserve, et AWS est la plus populaire d'entre elles. Les cours m'ont beaucoup aidé
Si vous avez déjà complété toute cette liste et que vous souhaitez évoluer davantage aux yeux des employeurs en tant qu'ingénieur de données, je suggère d'ajouter Apache Spark pour travailler avec le Big Data. Bien que mes recherches sur les postes vacants de data scientists aient montré une baisse d'intérêt, parmi les ingénieurs de données, il apparaît toujours dans presque un poste vacant sur deux.
Enfin
J'espère que vous avez trouvé utile cette revue des technologies les plus demandées par les ingénieurs de données. Si vous vous demandez comment se portent les emplois d'analyste, lisez
Source: habr.com