Conforme
Analisei as vagas para o cargo de engenheiro de dados em janeiro de 2020 para entender quais habilidades tecnológicas são mais procuradas. Depois comparei os resultados com estatísticas sobre vagas para o cargo de cientista de dados – e surgiram algumas diferenças interessantes.
Sem muitos preâmbulos, aqui estão as dez principais tecnologias mencionadas com mais frequência em anúncios de emprego:
Menção de tecnologias em vagas para o cargo de engenheiro de dados em 2020
Responsabilidades de um engenheiro de dados
Hoje, o trabalho realizado pelos engenheiros de dados é de grande importância para as organizações - são essas as pessoas responsáveis por armazenar as informações e colocá-las em um formato que outros funcionários possam trabalhar com elas. Os engenheiros de dados criam pipelines para transmitir ou agrupar dados de diversas fontes. Os pipelines então realizam operações de extração, transformação e carregamento (em outras palavras, processos ETL), tornando os dados mais adequados para uso posterior. Depois disso, os dados são submetidos a analistas e cientistas de dados para um processamento mais aprofundado. Por fim, os dados terminam sua jornada em dashboards, relatórios e modelos de machine learning.
Procurava informações que me permitissem tirar uma conclusão sobre quais tecnologias são mais procuradas no trabalho de um engenheiro de dados no momento.
Métodos
Coletei informações de três sites de busca de emprego -
Para cada palavra-chave, calculei a porcentagem de acessos do total de textos de cada site separadamente e depois calculei a média das três fontes.
Descobertas
Abaixo estão os trinta termos técnicos de engenharia de dados com as pontuações mais altas em todos os três locais de trabalho.
E aqui estão os mesmos números, mas apresentados em forma de tabela:
Vamos em ordem.
Visão geral dos resultados
Tanto SQL quanto Python aparecem em mais de dois terços das vagas analisadas. São essas duas tecnologias que faz sentido estudar primeiro.
Spark é citado em cerca de metade das vagas.
A AWS aparece em aproximadamente 45% das ofertas de emprego. É uma plataforma de computação em nuvem fabricada pela Amazon; possui a maior participação de mercado entre todas as plataformas em nuvem.
Em seguida vêm Java e Hadoop - um pouco mais de 40% para seu irmão.
É como andar em uma máquina do tempo
Depois vemos Hive, Scala, Kafka e NoSQL – cada uma dessas tecnologias é mencionada em um quarto das vagas enviadas. Apache Hive é um software de data warehouse que “facilita a leitura, gravação e gerenciamento de grandes conjuntos de dados residentes em armazenamentos distribuídos usando SQL”.
Comparação com termos em vagas de cientista de dados
Aqui estão trinta termos de tecnologia mais comuns entre os empregadores de ciência de dados. Obtive esta lista da mesma forma descrita acima para engenharia de dados.
Menções à tecnologia em vagas para o cargo de cientista de dados em 2020
Se falarmos do número total, comparativamente ao recrutamento considerado anteriormente, havia mais 28% de vagas (12 versus 013). Vamos ver quais tecnologias são menos comuns em vagas para cientistas de dados do que para engenheiros de dados.
Mais popular em engenharia de dados
O gráfico abaixo mostra palavras-chave com diferença média superior a 10% ou inferior a -10%.
As maiores diferenças na frequência de palavras-chave entre engenheiro de dados e cientista de dados
A AWS apresenta o aumento mais significativo: na engenharia de dados aparece com 25% mais regularidade do que na ciência de dados (aproximadamente 45% e 20% do total de vagas, respectivamente). A diferença é perceptível!
Aqui estão os mesmos dados em uma apresentação um pouco diferente - no gráfico, os resultados para a mesma palavra-chave nas vagas para o cargo de engenheiro de dados e cientista de dados estão localizados lado a lado.
As maiores diferenças na frequência de palavras-chave entre engenheiro de dados e cientista de dados
O próximo grande salto que observei foi no Spark – um engenheiro de dados geralmente precisa trabalhar com big data.
Menos popular em engenharia de dados
Agora vamos ver quais tecnologias são menos populares nas vagas de engenheiro de dados.
O declínio mais acentuado em comparação com o setor de ciência de dados ocorreu em
Muito procurado em engenharia e ciência de dados
De salientar que oito das dez primeiras posições em ambos os conjuntos são iguais. SQL, Python, Spark, AWS, Java, Hadoop, Hive e Scala estão entre os dez primeiros para os setores de engenharia e ciência de dados. No gráfico abaixo você pode ver as quinze tecnologias mais populares entre os empregadores de engenheiros de dados e, ao lado delas, está a taxa de vagas para cientistas de dados.
Recomendações
Se você deseja entrar na área de engenharia de dados, aconselho que domine as seguintes tecnologias - eu as listo em ordem de prioridade aproximada.
Aprenda SQL. Estou inclinado para o PostgreSQL porque é de código aberto, muito popular na comunidade e está em fase de crescimento. Você pode aprender como usar a linguagem no livro My Memorable SQL - sua versão piloto está disponível
Domine Python, mesmo que não no nível mais hardcore. My Memorable Python foi projetado especificamente para iniciantes. Pode ser adquirido em
Quando estiver familiarizado com Python, passe para pandas, uma biblioteca Python usada para limpeza e processamento de dados. Se você pretende trabalhar em uma empresa que exige habilidade para escrever em Python (e esta é a maioria delas), pode ter certeza que o conhecimento de pandas será assumido por padrão. Atualmente estou terminando um guia introdutório para trabalhar com pandas - você pode
Domine AWS. Se você deseja se tornar um engenheiro de dados, não pode prescindir de uma plataforma de nuvem disponível, e AWS é a mais popular delas. Os cursos me ajudaram muito
Se você já completou toda essa lista e deseja crescer ainda mais aos olhos dos empregadores como engenheiro de dados, sugiro adicionar o Apache Spark para trabalhar com big data. Embora minha pesquisa sobre vagas de cientistas de dados tenha mostrado um declínio no interesse, entre os engenheiros de dados ele ainda aparece em quase todas as vagas.
Afinal
Espero que você tenha achado útil esta visão geral das tecnologias mais procuradas pelos engenheiros de dados. Se você está se perguntando como estão os empregos de analista, leia
Fonte: habr.com