As habilidades mais exigidas na profissão de engenheiro de dados

Conforme estatísticas 2019, o engenheiro de dados é atualmente uma profissão cuja demanda está crescendo mais rapidamente do que qualquer outra. Um engenheiro de dados desempenha um papel crítico em uma organização – criando e mantendo pipelines e bancos de dados que são usados ​​para processar, transformar e armazenar dados. De quais habilidades os representantes desta profissão precisam em primeiro lugar? A lista é diferente do que é exigido dos cientistas de dados? Você aprenderá sobre tudo isso em meu artigo.

Analisei as vagas para o cargo de engenheiro de dados em janeiro de 2020 para entender quais habilidades tecnológicas são mais procuradas. Depois comparei os resultados com estatísticas sobre vagas para o cargo de cientista de dados – e surgiram algumas diferenças interessantes.

Sem muitos preâmbulos, aqui estão as dez principais tecnologias mencionadas com mais frequência em anúncios de emprego:

As habilidades mais exigidas na profissão de engenheiro de dados

Menção de tecnologias em vagas para o cargo de engenheiro de dados em 2020

Vamos descobrir.

Responsabilidades de um engenheiro de dados

Hoje, o trabalho realizado pelos engenheiros de dados é de grande importância para as organizações - são essas as pessoas responsáveis ​​​​por armazenar as informações e colocá-las em um formato que outros funcionários possam trabalhar com elas. Os engenheiros de dados criam pipelines para transmitir ou agrupar dados de diversas fontes. Os pipelines então realizam operações de extração, transformação e carregamento (em outras palavras, processos ETL), tornando os dados mais adequados para uso posterior. Depois disso, os dados são submetidos a analistas e cientistas de dados para um processamento mais aprofundado. Por fim, os dados terminam sua jornada em dashboards, relatórios e modelos de machine learning.

Procurava informações que me permitissem tirar uma conclusão sobre quais tecnologias são mais procuradas no trabalho de um engenheiro de dados no momento.

Métodos

Coletei informações de três sites de busca de emprego - SimplyHired, de fato и Monstro e analisou quais palavras-chave surgiram em conjunto com “engenheiro de dados” nos textos de vagas destinadas a residentes nos EUA. Para esta tarefa usei duas bibliotecas Python - pedidos и Sopa linda. Entre as palavras-chave, incluí tanto aquelas que constavam na lista anterior para análise de vagas para o cargo de cientista de dados, quanto aquelas que selecionei manualmente ao ler ofertas de emprego para engenheiros de dados. O LinkedIn não foi incluído na lista de fontes, pois fui banido de lá após minha última tentativa de coleta de dados.

Para cada palavra-chave, calculei a porcentagem de acessos do total de textos de cada site separadamente e depois calculei a média das três fontes.

Descobertas

Abaixo estão os trinta termos técnicos de engenharia de dados com as pontuações mais altas em todos os três locais de trabalho.

As habilidades mais exigidas na profissão de engenheiro de dados

E aqui estão os mesmos números, mas apresentados em forma de tabela:

As habilidades mais exigidas na profissão de engenheiro de dados

Vamos em ordem.

Visão geral dos resultados

Tanto SQL quanto Python aparecem em mais de dois terços das vagas analisadas. São essas duas tecnologias que faz sentido estudar primeiro. Python é uma linguagem de programação muito popular usada para trabalhar com dados, criar sites e escrever scripts. SQL significa Linguagem de Consulta Estruturada; envolve um padrão implementado por um grupo de linguagens e é usado para recuperar dados de bancos de dados relacionais. Surgiu há muito tempo e provou ser altamente resistente.

Spark é citado em cerca de metade das vagas. Apache Spark é um “mecanismo unificado de análise de big data com módulos integrados para streaming, SQL, aprendizado de máquina e processamento gráfico”. É especialmente popular entre aqueles que trabalham com grandes bancos de dados.

A AWS aparece em aproximadamente 45% das ofertas de emprego. É uma plataforma de computação em nuvem fabricada pela Amazon; possui a maior participação de mercado entre todas as plataformas em nuvem.
Em seguida vêm Java e Hadoop - um pouco mais de 40% para seu irmão. Java é uma língua amplamente falada e testada em batalha que Pesquisa de desenvolvedores Stack Overflow 2019 ficou em décimo lugar entre as linguagens que causam horror entre os programadores. Em contraste, Python foi a segunda linguagem mais apreciada. A linguagem Java é executada pela Oracle, e tudo o que você precisa saber sobre ela pode ser entendido nesta captura de tela da página oficial de janeiro de 2020.

As habilidades mais exigidas na profissão de engenheiro de dados

É como andar em uma máquina do tempo
Apache Hadoop usa o modelo de programação MapReduce com clusters de servidores para big data. Agora esse modelo está sendo cada vez mais abandonado.

Depois vemos Hive, Scala, Kafka e NoSQL – cada uma dessas tecnologias é mencionada em um quarto das vagas enviadas. Apache Hive é um software de data warehouse que “facilita a leitura, gravação e gerenciamento de grandes conjuntos de dados residentes em armazenamentos distribuídos usando SQL”. Scala – uma linguagem de programação que é usada ativamente ao trabalhar com big data. Em particular, o Spark foi criado em Scala. No já mencionado ranking de linguagens temidas, Scala ocupa o décimo primeiro lugar. Apache Kafka – uma plataforma distribuída para processamento de mensagens de streaming. Muito popular como meio de streaming de dados.

Bancos de dados NoSQL contrastar-se com SQL. Eles diferem porque são não relacionais, não estruturados e escaláveis ​​horizontalmente. O NoSQL ganhou alguma popularidade, mas a mania pela abordagem, a ponto de haver profecias de que substituirá o SQL como paradigma de armazenamento dominante, parece ter acabado.

Comparação com termos em vagas de cientista de dados

Aqui estão trinta termos de tecnologia mais comuns entre os empregadores de ciência de dados. Obtive esta lista da mesma forma descrita acima para engenharia de dados.

As habilidades mais exigidas na profissão de engenheiro de dados

Menções à tecnologia em vagas para o cargo de cientista de dados em 2020

Se falarmos do número total, comparativamente ao recrutamento considerado anteriormente, havia mais 28% de vagas (12 versus 013). Vamos ver quais tecnologias são menos comuns em vagas para cientistas de dados do que para engenheiros de dados.

Mais popular em engenharia de dados

O gráfico abaixo mostra palavras-chave com diferença média superior a 10% ou inferior a -10%.

As habilidades mais exigidas na profissão de engenheiro de dados

As maiores diferenças na frequência de palavras-chave entre engenheiro de dados e cientista de dados

A AWS apresenta o aumento mais significativo: na engenharia de dados aparece com 25% mais regularidade do que na ciência de dados (aproximadamente 45% e 20% do total de vagas, respectivamente). A diferença é perceptível!

Aqui estão os mesmos dados em uma apresentação um pouco diferente - no gráfico, os resultados para a mesma palavra-chave nas vagas para o cargo de engenheiro de dados e cientista de dados estão localizados lado a lado.

As habilidades mais exigidas na profissão de engenheiro de dados

As maiores diferenças na frequência de palavras-chave entre engenheiro de dados e cientista de dados

O próximo grande salto que observei foi no Spark – um engenheiro de dados geralmente precisa trabalhar com big data. Kafka também aumentou 20%, ou seja, quase quatro vezes em relação ao resultado das vagas de cientista de dados. A transferência de dados é uma das principais responsabilidades de um engenheiro de dados. Por fim, o número de menções foi 15% maior na área de engenharia de dados para Java, NoSQL, Redshift, SQL e Hadoop.

Menos popular em engenharia de dados

Agora vamos ver quais tecnologias são menos populares nas vagas de engenheiro de dados.
O declínio mais acentuado em comparação com o setor de ciência de dados ocorreu em R: lá ele apareceu em aproximadamente 56% das vagas, aqui - apenas em 17%. Impressionante. R é uma linguagem de programação preferida por cientistas e estatísticos e é a oitava linguagem mais temida do mundo.

SAS também é encontrado com muito menos frequência nas vagas para o cargo de engenheiro de dados - a diferença é de 14%. SAS é uma linguagem proprietária projetada para trabalhar com estatísticas e dados. Ponto interessante: a julgar pelos resultados minha pesquisa sobre vagas de emprego para cientistas de dados, perdeu muito terreno recentemente – mais do que qualquer outra tecnologia.

Muito procurado em engenharia e ciência de dados

De salientar que oito das dez primeiras posições em ambos os conjuntos são iguais. SQL, Python, Spark, AWS, Java, Hadoop, Hive e Scala estão entre os dez primeiros para os setores de engenharia e ciência de dados. No gráfico abaixo você pode ver as quinze tecnologias mais populares entre os empregadores de engenheiros de dados e, ao lado delas, está a taxa de vagas para cientistas de dados.

As habilidades mais exigidas na profissão de engenheiro de dados

Recomendações

Se você deseja entrar na área de engenharia de dados, aconselho que domine as seguintes tecnologias - eu as listo em ordem de prioridade aproximada.

Aprenda SQL. Estou inclinado para o PostgreSQL porque é de código aberto, muito popular na comunidade e está em fase de crescimento. Você pode aprender como usar a linguagem no livro My Memorable SQL - sua versão piloto está disponível aqui.

Domine Python, mesmo que não no nível mais hardcore. My Memorable Python foi projetado especificamente para iniciantes. Pode ser adquirido em Amazon, cópia eletrônica ou física, à sua escolha, ou download em formato pdf ou epub sobre este site.

Quando estiver familiarizado com Python, passe para pandas, uma biblioteca Python usada para limpeza e processamento de dados. Se você pretende trabalhar em uma empresa que exige habilidade para escrever em Python (e esta é a maioria delas), pode ter certeza que o conhecimento de pandas será assumido por padrão. Atualmente estou terminando um guia introdutório para trabalhar com pandas - você pode Subscreverpara não perder o momento do lançamento.

Domine AWS. Se você deseja se tornar um engenheiro de dados, não pode prescindir de uma plataforma de nuvem disponível, e AWS é a mais popular delas. Os cursos me ajudaram muito Academia Linuxquando eu estava estudando engenharia de dados no Google Cloud, Acho que eles também terão bons materiais na AWS.

Se você já completou toda essa lista e deseja crescer ainda mais aos olhos dos empregadores como engenheiro de dados, sugiro adicionar o Apache Spark para trabalhar com big data. Embora minha pesquisa sobre vagas de cientistas de dados tenha mostrado um declínio no interesse, entre os engenheiros de dados ele ainda aparece em quase todas as vagas.

Afinal

Espero que você tenha achado útil esta visão geral das tecnologias mais procuradas pelos engenheiros de dados. Se você está se perguntando como estão os empregos de analista, leia meu outro artigo. Feliz engenharia!

Fonte: habr.com

Adicionar um comentário