As habilidades máis demandadas na profesión de enxeñeiro de datos

Conforme estatísticas 2019, o enxeñeiro de datos é actualmente unha profesión cuxa demanda crece máis rápido que calquera outra. Un enxeñeiro de datos desempeña un papel fundamental nunha organización: crea e mantén canalizacións e bases de datos que se utilizan para procesar, transformar e almacenar datos. Que competencias necesitan ante todo os representantes desta profesión? A lista é diferente do que se lles esixe aos científicos de datos? Todo isto aprenderás co meu artigo.

Analizei as vacantes para o posto de enxeñeiro de datos tal e como están en xaneiro de 2020 para comprender cales son as habilidades tecnolóxicas máis populares. Despois comparei os resultados coas estatísticas sobre prazas para o posto de científico de datos, e xurdiron algunhas diferenzas interesantes.

Sen moito preámbulo, aquí están as dez principais tecnoloxías que se mencionan con máis frecuencia nas ofertas de traballo:

As habilidades máis demandadas na profesión de enxeñeiro de datos

Mención de tecnoloxías nas vacantes para a praza de enxeñeiro de datos no ano 2020

Imos descubrilo.

Responsabilidades dun enxeñeiro de datos

Hoxe, o traballo que realizan os enxeñeiros de datos é de gran importancia para as organizacións: estas son as persoas que se encargan de almacenar a información e traela de tal forma que outros empregados poidan traballar con ela. Os enxeñeiros de datos constrúen canalizacións para transmitir ou agrupar datos de varias fontes. A continuación, as canalizacións realizan operacións de extracción, transformación e carga (noutras palabras, procesos ETL), facendo que os datos sexan máis adecuados para un uso posterior. Despois diso, os datos son enviados a analistas e científicos de datos para un procesamento máis profundo. Finalmente, os datos rematan a súa viaxe en paneis, informes e modelos de aprendizaxe automática.

Buscaba información que me permitise sacar unha conclusión sobre cales son as tecnoloxías máis demandadas no traballo dun enxeñeiro de datos neste momento.

Métodos

Recollei información de tres sitios de busca de emprego − SimplyHired, Por suposto и Monstro e comprobou que palabras clave se atopaban en conxunto con "enxeñeiro de datos" nos textos de prazas dirixidas a residentes en EE.UU. Para esta tarefa usei dúas bibliotecas de Python − solicitudes и Sopa fermosa. Entre as palabras clave, incluín tanto as que figuraban na lista anterior para analizar as vacantes para o posto de científico de datos, como as que seleccionei manualmente ao ler ofertas de traballo para enxeñeiros de datos. LinkedIn non estaba incluído na lista de fontes, xa que alí fun prohibido despois do meu último intento de recoller datos.

Para cada palabra clave, calculei a porcentaxe de accesos do número total de textos en cada sitio por separado e, a continuación, calculei a media das tres fontes.

Descubrimentos

A continuación móstranse os trinta termos de enxeñería de datos técnicos coas puntuacións máis altas nos tres sitios de traballo.

As habilidades máis demandadas na profesión de enxeñeiro de datos

E aquí están os mesmos números, pero presentados en forma de táboa:

As habilidades máis demandadas na profesión de enxeñeiro de datos

Imos en orde.

Revisión de resultados

Tanto SQL como Python aparecen en máis de dous terzos das ofertas de traballo revisadas. Son estas dúas tecnoloxías as que teñen sentido estudar primeiro. Pitão é unha linguaxe de programación moi popular que se usa para traballar con datos, crear sitios web e escribir scripts. SQL son as siglas de Structured Query Language; implica un estándar implementado por un grupo de linguaxes e úsase para recuperar datos das bases de datos relacionais. Apareceu hai moito tempo e demostrou ser moi resistente.

Spark menciónase en preto da metade das vacantes. Apache Spark é un "motor unificado de análise de grandes datos con módulos integrados para streaming, SQL, aprendizaxe automática e procesamento de gráficos". É especialmente popular entre aqueles que traballan con grandes bases de datos.

AWS aparece en aproximadamente o 45 % das ofertas de traballo. É unha plataforma de computación en nube fabricada por Amazon; ten a maior cota de mercado entre todas as plataformas na nube.
A continuación veñen Java e Hadoop, algo máis do 40% para o seu irmán. Java é unha lingua moi falada e probada na batalla que Enquisa aos desenvolvedores de Stack Overflow de 2019 foi galardoado co décimo lugar entre as linguaxes que causan horror entre os programadores. Pola contra, Python foi a segunda lingua máis querida. A linguaxe Java corre a cargo de Oracle, e todo o que precisa saber sobre ela pódese entender desde esta captura de pantalla da páxina oficial de xaneiro de 2020.

As habilidades máis demandadas na profesión de enxeñeiro de datos

É como andar nunha máquina do tempo
Apache Hadoop usa o modelo de programación MapReduce con clústeres de servidores para grandes datos. Agora este modelo está cada vez máis abandonado.

Despois vemos Hive, Scala, Kafka e NoSQL - cada unha destas tecnoloxías menciónase nunha cuarta parte das vacantes presentadas. Apache Hive é un software de almacén de datos que "facilita a lectura, escritura e xestión de grandes conxuntos de datos que residen en tendas distribuídas mediante SQL". Scala – unha linguaxe de programación que se usa activamente cando se traballa con big data. En particular, Spark creouse en Scala. No xa mencionado ranking de linguas temidas, Scala ocupa o undécimo posto. Apache Kafka – unha plataforma distribuída para procesar mensaxes en tempo real. Moi popular como medio de transmisión de datos.

Bases de datos NoSQL contrastarse con SQL. Diferéncianse en que son non relacionais, non estruturados e escalables horizontalmente. NoSQL gañou certa popularidade, pero a mania polo enfoque, ata o punto das profecías de que substituirá a SQL como paradigma de almacenamento dominante, parece que acabou.

Comparación cos termos das prazas de data scientist

Aquí tes trinta termos tecnolóxicos máis comúns entre os empregadores de ciencia de datos. Obtiven esta lista do mesmo xeito que se describe anteriormente para a enxeñaría de datos.

As habilidades máis demandadas na profesión de enxeñeiro de datos

Mencións á tecnoloxía nas vacantes para a praza de data scientist en 2020

Se falamos da cifra total, fronte á contratación considerada anteriormente, houbo un 28% máis de prazas (12 fronte a 013). Vexamos que tecnoloxías son menos comúns nas vacantes de científicos de datos que de enxeñeiros de datos.

Máis popular en enxeñaría de datos

O seguinte gráfico mostra palabras clave cunha diferenza media superior ao 10 % ou inferior ao -10 %.

As habilidades máis demandadas na profesión de enxeñeiro de datos

As maiores diferenzas na frecuencia das palabras clave entre o enxeñeiro de datos e o científico de datos

AWS mostra o incremento máis significativo: en enxeñaría de datos aparece un 25% máis regularmente que en ciencia de datos (aproximadamente un 45% e un 20% do total de vacantes, respectivamente). A diferenza nótase!

Aquí tes os mesmos datos nunha presentación lixeiramente diferente: no gráfico, os resultados para a mesma palabra clave nas vacantes para o posto de enxeñeiro de datos e científico de datos sitúanse un ao carón.

As habilidades máis demandadas na profesión de enxeñeiro de datos

As maiores diferenzas na frecuencia das palabras clave entre o enxeñeiro de datos e o científico de datos

O seguinte salto máis grande que notei foi en Spark: un enxeñeiro de datos moitas veces ten que traballar con big data. Kafka tamén aumentou un 20%, é dicir, case catro veces en comparación co resultado das prazas de data scientist. A transferencia de datos é unha das principais responsabilidades dun enxeñeiro de datos. Finalmente, o número de mencións foi un 15% superior no ámbito da enxeñaría de datos para Java, NoSQL, Redshift, SQL e Hadoop.

Menos popular na enxeñaría de datos

Agora vexamos que tecnoloxías son menos populares nas prazas de enxeñeiro de datos.
O descenso máis acusado en comparación co sector da ciencia de datos produciuse en R: alí apareceu en aproximadamente o 56% das vacantes, aquí - só no 17%. Impresionante. R é unha linguaxe de programación que é favorecida por científicos e estatísticos, e é a oitava linguaxe máis temida do mundo.

SAS tamén se atopa nas vacantes para o posto de enxeñeiro de datos significativamente con menos frecuencia - a diferenza é do 14%. SAS é unha linguaxe propietaria deseñada para traballar con estatísticas e datos. Punto interesante: a xulgar polos resultados a miña investigación sobre ofertas de traballo para científicos de datos, perdeu moito terreo recentemente, máis que calquera outra tecnoloxía.

Demandado tanto en enxeñaría de datos como en ciencia de datos

Cómpre salientar que oito dos dez primeiros postos en ambos conxuntos son iguais. SQL, Python, Spark, AWS, Java, Hadoop, Hive e Scala situáronse entre os dez mellores tanto para a industria de enxeñaría de datos como para a ciencia de datos. No gráfico de abaixo podes ver as quince tecnoloxías máis populares entre os empresarios de enxeñeiros de datos, e xunto a elas está a súa taxa de vacantes para os científicos de datos.

As habilidades máis demandadas na profesión de enxeñeiro de datos

Recomendacións

Se queres entrar na enxeñaría de datos, recoméndoche dominar as seguintes tecnoloxías: enuméroas por orde de prioridade aproximada.

Aprende SQL. Estou inclinado por PostgreSQL porque é de código aberto, moi popular na comunidade e está en fase de crecemento. Podes aprender a usar o idioma no libro My Memorable SQL: a súa versión piloto está dispoñible aquí.

Mestre Python, aínda que non sexa ao nivel máis hardcore. My Memorable Python está deseñado especificamente para principiantes. Pódese mercar en Amazonas, copia electrónica ou física, a súa elección, ou descarga en formato pdf ou epub neste sitio.

Unha vez que esteas familiarizado con Python, pasa a pandas, unha biblioteca de Python que se usa para limpar e procesar datos. Se pretendes traballar nunha empresa que require a capacidade de escribir en Python (e esta é a maioría delas), podes estar seguro de que o coñecemento de pandas será asumido por defecto. Actualmente estou rematando unha guía introdutoria para traballar con pandas, podes subscríbetepara non perder o momento da liberación.

Mestre AWS. Se queres converterte nun enxeñeiro de datos, non podes prescindir dunha plataforma na nube no alixo, e AWS é o máis popular deles. Os cursos axudáronme moito Academia Linuxcando estudaba enxeñaría de datos en Google Cloud, Creo que tamén terán bos materiais en AWS.

Se xa completaches toda esta lista e queres seguir crecendo aos ollos dos empresarios como enxeñeiro de datos, suxiro engadir Apache Spark para traballar con big data. Aínda que a miña investigación sobre as vacantes de científicos de datos mostrou un descenso do interese, entre os enxeñeiros de datos aínda aparece en case cada segundo vacante.

Por fin

Espero que che resulte útil esta visión xeral das tecnoloxías máis demandadas para os enxeñeiros de datos. Se estás a preguntar como están a traballar os analistas, le meu outro artigo. Feliz enxeñería!

Fonte: www.habr.com

Engadir un comentario