Conforme
Analizei as vacantes para o posto de enxeñeiro de datos tal e como están en xaneiro de 2020 para comprender cales son as habilidades tecnolóxicas máis populares. Despois comparei os resultados coas estatísticas sobre prazas para o posto de científico de datos, e xurdiron algunhas diferenzas interesantes.
Sen moito preámbulo, aquí están as dez principais tecnoloxías que se mencionan con máis frecuencia nas ofertas de traballo:
Mención de tecnoloxías nas vacantes para a praza de enxeñeiro de datos no ano 2020
Responsabilidades dun enxeñeiro de datos
Hoxe, o traballo que realizan os enxeñeiros de datos é de gran importancia para as organizacións: estas son as persoas que se encargan de almacenar a información e traela de tal forma que outros empregados poidan traballar con ela. Os enxeñeiros de datos constrúen canalizacións para transmitir ou agrupar datos de varias fontes. A continuación, as canalizacións realizan operacións de extracción, transformación e carga (noutras palabras, procesos ETL), facendo que os datos sexan máis adecuados para un uso posterior. Despois diso, os datos son enviados a analistas e científicos de datos para un procesamento máis profundo. Finalmente, os datos rematan a súa viaxe en paneis, informes e modelos de aprendizaxe automática.
Buscaba información que me permitise sacar unha conclusión sobre cales son as tecnoloxías máis demandadas no traballo dun enxeñeiro de datos neste momento.
Métodos
Recollei información de tres sitios de busca de emprego −
Para cada palabra clave, calculei a porcentaxe de accesos do número total de textos en cada sitio por separado e, a continuación, calculei a media das tres fontes.
Descubrimentos
A continuación móstranse os trinta termos de enxeñería de datos técnicos coas puntuacións máis altas nos tres sitios de traballo.
E aquí están os mesmos números, pero presentados en forma de táboa:
Imos en orde.
Revisión de resultados
Tanto SQL como Python aparecen en máis de dous terzos das ofertas de traballo revisadas. Son estas dúas tecnoloxías as que teñen sentido estudar primeiro.
Spark menciónase en preto da metade das vacantes.
AWS aparece en aproximadamente o 45 % das ofertas de traballo. É unha plataforma de computación en nube fabricada por Amazon; ten a maior cota de mercado entre todas as plataformas na nube.
A continuación veñen Java e Hadoop, algo máis do 40% para o seu irmán.
É como andar nunha máquina do tempo
Despois vemos Hive, Scala, Kafka e NoSQL - cada unha destas tecnoloxías menciónase nunha cuarta parte das vacantes presentadas. Apache Hive é un software de almacén de datos que "facilita a lectura, escritura e xestión de grandes conxuntos de datos que residen en tendas distribuídas mediante SQL".
Comparación cos termos das prazas de data scientist
Aquí tes trinta termos tecnolóxicos máis comúns entre os empregadores de ciencia de datos. Obtiven esta lista do mesmo xeito que se describe anteriormente para a enxeñaría de datos.
Mencións á tecnoloxía nas vacantes para a praza de data scientist en 2020
Se falamos da cifra total, fronte á contratación considerada anteriormente, houbo un 28% máis de prazas (12 fronte a 013). Vexamos que tecnoloxías son menos comúns nas vacantes de científicos de datos que de enxeñeiros de datos.
Máis popular en enxeñaría de datos
O seguinte gráfico mostra palabras clave cunha diferenza media superior ao 10 % ou inferior ao -10 %.
As maiores diferenzas na frecuencia das palabras clave entre o enxeñeiro de datos e o científico de datos
AWS mostra o incremento máis significativo: en enxeñaría de datos aparece un 25% máis regularmente que en ciencia de datos (aproximadamente un 45% e un 20% do total de vacantes, respectivamente). A diferenza nótase!
Aquí tes os mesmos datos nunha presentación lixeiramente diferente: no gráfico, os resultados para a mesma palabra clave nas vacantes para o posto de enxeñeiro de datos e científico de datos sitúanse un ao carón.
As maiores diferenzas na frecuencia das palabras clave entre o enxeñeiro de datos e o científico de datos
O seguinte salto máis grande que notei foi en Spark: un enxeñeiro de datos moitas veces ten que traballar con big data.
Menos popular na enxeñaría de datos
Agora vexamos que tecnoloxías son menos populares nas prazas de enxeñeiro de datos.
O descenso máis acusado en comparación co sector da ciencia de datos produciuse en
Demandado tanto en enxeñaría de datos como en ciencia de datos
Cómpre salientar que oito dos dez primeiros postos en ambos conxuntos son iguais. SQL, Python, Spark, AWS, Java, Hadoop, Hive e Scala situáronse entre os dez mellores tanto para a industria de enxeñaría de datos como para a ciencia de datos. No gráfico de abaixo podes ver as quince tecnoloxías máis populares entre os empresarios de enxeñeiros de datos, e xunto a elas está a súa taxa de vacantes para os científicos de datos.
Recomendacións
Se queres entrar na enxeñaría de datos, recoméndoche dominar as seguintes tecnoloxías: enuméroas por orde de prioridade aproximada.
Aprende SQL. Estou inclinado por PostgreSQL porque é de código aberto, moi popular na comunidade e está en fase de crecemento. Podes aprender a usar o idioma no libro My Memorable SQL: a súa versión piloto está dispoñible
Mestre Python, aínda que non sexa ao nivel máis hardcore. My Memorable Python está deseñado especificamente para principiantes. Pódese mercar en
Unha vez que esteas familiarizado con Python, pasa a pandas, unha biblioteca de Python que se usa para limpar e procesar datos. Se pretendes traballar nunha empresa que require a capacidade de escribir en Python (e esta é a maioría delas), podes estar seguro de que o coñecemento de pandas será asumido por defecto. Actualmente estou rematando unha guía introdutoria para traballar con pandas, podes
Mestre AWS. Se queres converterte nun enxeñeiro de datos, non podes prescindir dunha plataforma na nube no alixo, e AWS é o máis popular deles. Os cursos axudáronme moito
Se xa completaches toda esta lista e queres seguir crecendo aos ollos dos empresarios como enxeñeiro de datos, suxiro engadir Apache Spark para traballar con big data. Aínda que a miña investigación sobre as vacantes de científicos de datos mostrou un descenso do interese, entre os enxeñeiros de datos aínda aparece en case cada segundo vacante.
Por fin
Espero que che resulte útil esta visión xeral das tecnoloxías máis demandadas para os enxeñeiros de datos. Se estás a preguntar como están a traballar os analistas, le
Fonte: www.habr.com