Las habilidades más demandadas en la profesión de ingeniero de datos

según estadísticas 2019, el ingeniero de datos es actualmente una profesión cuya demanda está creciendo más rápido que cualquier otra. Un ingeniero de datos desempeña un papel fundamental en una organización: crea y mantiene canales y bases de datos que se utilizan para procesar, transformar y almacenar datos. ¿Qué habilidades necesitan en primer lugar los representantes de esta profesión? ¿Es la lista diferente de lo que se exige a los científicos de datos? Aprenderás sobre todo esto en mi artículo.

Analicé las vacantes para el puesto de ingeniero de datos tal como estaban en enero de 2020 para comprender qué habilidades tecnológicas son las más populares. Luego comparé los resultados con las estadísticas sobre vacantes para el puesto de científico de datos y surgieron algunas diferencias interesantes.

Sin mucho preámbulo, aquí están las diez tecnologías principales que se mencionan con más frecuencia en las ofertas de trabajo:

Las habilidades más demandadas en la profesión de ingeniero de datos

Mención de tecnologías en vacantes para el puesto de ingeniero de datos en 2020

Vamos a resolverlo.

Responsabilidades de un ingeniero de datos

Hoy en día, el trabajo que realizan los ingenieros de datos es de gran importancia para las organizaciones: estas son las personas responsables de almacenar la información y darle forma tal que otros empleados puedan trabajar con ella. Los ingenieros de datos crean canales para transmitir o agrupar datos de múltiples fuentes. Luego, las canalizaciones realizan operaciones de extracción, transformación y carga (en otras palabras, procesos ETL), lo que hace que los datos sean más adecuados para su uso posterior. Después de esto, los datos se envían a analistas y científicos de datos para un procesamiento más profundo. Finalmente, los datos finalizan su viaje en paneles, informes y modelos de aprendizaje automático.

Estaba buscando información que me permitiera sacar una conclusión sobre qué tecnologías tienen más demanda en el trabajo de un ingeniero de datos en este momento.

Métodos

Recopilé información de tres sitios de búsqueda de empleo: SimplyHired, Indeed и Monster y analizó qué palabras clave aparecían junto con "ingeniero de datos" en los textos de las vacantes dirigidas a residentes de EE. UU. Para esta tarea utilicé dos bibliotecas de Python: Solicitudes и Hermosa sopa. Entre las palabras clave incluí tanto las que estaban incluidas en la lista anterior para analizar vacantes para el puesto de científico de datos, como las que seleccioné manualmente mientras leía ofertas de trabajo para ingenieros de datos. LinkedIn no estaba incluido en la lista de fuentes, ya que me prohibieron allí después de mi último intento de recopilar datos.

Para cada palabra clave, calculé el porcentaje de visitas del número total de textos en cada sitio por separado y luego calculé el promedio de las tres fuentes.

resultados

A continuación se muestran los treinta términos de ingeniería de datos técnicos con las puntuaciones más altas en los tres sitios de trabajo.

Las habilidades más demandadas en la profesión de ingeniero de datos

Y aquí están los mismos números, pero presentados en forma de tabla:

Las habilidades más demandadas en la profesión de ingeniero de datos

Vamos en orden.

Resumen de resultados

Tanto SQL como Python aparecen en más de dos tercios de las ofertas de trabajo revisadas. Son estas dos tecnologías las que tiene sentido estudiar primero. Python es un lenguaje de programación muy popular que se utiliza para trabajar con datos, crear sitios web y escribir guiones. SQL significa lenguaje de consulta estructurado; Se trata de un estándar implementado por un grupo de lenguajes y se utiliza para recuperar datos de bases de datos relacionales. Apareció hace mucho tiempo y ha demostrado ser muy resistente.

Spark se menciona en aproximadamente la mitad de las vacantes. Apache Spark es un "motor unificado de análisis de big data con módulos integrados para transmisión, SQL, aprendizaje automático y procesamiento de gráficos". Es especialmente popular entre quienes trabajan con grandes bases de datos.

AWS aparece en aproximadamente el 45% de las ofertas de trabajo. Es una plataforma de computación en la nube fabricada por Amazon; tiene la mayor participación de mercado entre todas las plataformas en la nube.
Luego vienen Java y Hadoop: un poco más del 40% para su hermano. Java es un lenguaje ampliamente hablado y probado en batalla que Encuesta para desarrolladores de Stack Overflow de 2019 Obtuvo el décimo lugar entre los lenguajes que causan horror entre los programadores. Por el contrario, Python fue el segundo lenguaje más querido. El lenguaje Java lo ejecuta Oracle y todo lo que necesita saber al respecto se puede entender en esta captura de pantalla de la página oficial de enero de 2020.

Las habilidades más demandadas en la profesión de ingeniero de datos

Es como viajar en una máquina del tiempo.
Apache Hadoop utiliza el modelo de programación MapReduce con clústeres de servidores para big data. Ahora este modelo está cada vez más abandonado.

Luego vemos Hive, Scala, Kafka y NoSQL; cada una de estas tecnologías se menciona en una cuarta parte de las vacantes presentadas. Apache Hive es un software de almacenamiento de datos que "facilita la lectura, escritura y gestión de grandes conjuntos de datos que residen en almacenes distribuidos mediante SQL". Scala – un lenguaje de programación que se utiliza activamente cuando se trabaja con big data. En particular, Spark se creó en Scala. En el ya mencionado ranking de lenguas temidas, Scala ocupa el undécimo lugar. Apache Kafka – una plataforma distribuida para procesar mensajes en streaming. Muy popular como medio de transmisión de datos.

Bases de datos NoSQL contrastan con SQL. Se diferencian en que son no relacionales, no estructurados y escalables horizontalmente. NoSQL ha ganado cierta popularidad, pero la locura por este enfoque, incluso hasta el punto de profecías de que reemplazará a SQL como paradigma de almacenamiento dominante, parece haber terminado.

Comparación con las condiciones de las vacantes de científico de datos

Aquí hay treinta términos tecnológicos más comunes entre los empleadores de ciencia de datos. Obtuve esta lista de la misma manera que se describió anteriormente para la ingeniería de datos.

Las habilidades más demandadas en la profesión de ingeniero de datos

Menciones de tecnología en vacantes para el puesto de científico de datos en 2020

Si hablamos del número total, respecto a la contratación anteriormente considerada, hubo un 28% más de vacantes (12 frente a 013). Veamos qué tecnologías son menos comunes en las vacantes de científicos de datos que de ingenieros de datos.

Más popular en ingeniería de datos

El siguiente gráfico muestra palabras clave con una diferencia promedio superior al 10% o inferior al -10%.

Las habilidades más demandadas en la profesión de ingeniero de datos

Las mayores diferencias en la frecuencia de palabras clave entre ingeniero de datos y científico de datos

AWS muestra el aumento más significativo: en ingeniería de datos aparece un 25% más regularmente que en ciencia de datos (aproximadamente el 45% y el 20% del número total de vacantes, respectivamente). ¡La diferencia se nota!

Aquí se muestran los mismos datos en una presentación ligeramente diferente: en el gráfico, los resultados para la misma palabra clave en las vacantes para el puesto de ingeniero de datos y científico de datos están ubicados uno al lado del otro.

Las habilidades más demandadas en la profesión de ingeniero de datos

Las mayores diferencias en la frecuencia de palabras clave entre ingeniero de datos y científico de datos

El siguiente gran salto que noté fue en Spark: un ingeniero de datos a menudo tiene que trabajar con big data. Kafka también aumentó un 20%, es decir, casi cuatro veces en comparación con el resultado de las vacantes de científicos de datos. La transferencia de datos es una de las responsabilidades clave de un ingeniero de datos. Finalmente, el número de menciones fue un 15% mayor en el campo de la ingeniería de datos para Java, NoSQL, Redshift, SQL y Hadoop.

Menos popular en ingeniería de datos

Ahora veamos qué tecnologías son menos populares en las vacantes de ingeniero de datos.
La caída más pronunciada en comparación con el sector de la ciencia de datos se produjo en R: allí apareció en aproximadamente el 56% de las vacantes, aquí sólo en el 17%. Impresionante. R es un lenguaje de programación preferido por científicos y estadísticos, y es el octavo lenguaje más temido del mundo.

SAS también se encuentra con mucha menos frecuencia en las vacantes para el puesto de ingeniero de datos: la diferencia es del 14%. SAS es un lenguaje propietario diseñado para trabajar con estadísticas y datos. Punto interesante: a juzgar por los resultados. mi investigación sobre ofertas de trabajo para científicos de datos, ha perdido mucho terreno recientemente, más que cualquier otra tecnología.

En demanda tanto en ingeniería de datos como en ciencia de datos

Cabe señalar que ocho de las diez primeras posiciones en ambos conjuntos son iguales. SQL, Python, Spark, AWS, Java, Hadoop, Hive y Scala se ubicaron entre los diez primeros para las industrias de ingeniería y ciencia de datos. En el siguiente gráfico puede ver las quince tecnologías más populares entre los empleadores de ingenieros de datos y, junto a ellas, su tasa de vacantes para científicos de datos.

Las habilidades más demandadas en la profesión de ingeniero de datos

Recomendaciones

Si desea dedicarse a la ingeniería de datos, le aconsejaría que domine las siguientes tecnologías; las enumero en orden de prioridad aproximada.

Aprenda SQL. Me inclino por PostgreSQL porque es de código abierto, muy popular en la comunidad y está en una fase de crecimiento. Puede aprender a utilizar el lenguaje en el libro My Memorable SQL: su versión piloto está disponible. aquí.

Domina Python, aunque no al nivel más duro. My Memorable Python está diseñado específicamente para principiantes. Se puede comprar en Amazon, copia electrónica o física, a su elección, o descargar en formato pdf o epub en este sitio.

Una vez que esté familiarizado con Python, pase a pandas, una biblioteca de Python que se utiliza para la limpieza y el procesamiento de datos. Si su objetivo es trabajar en una empresa que requiere la capacidad de escribir en Python (y esta es la mayoría de ellas), puede estar seguro de que el conocimiento de pandas se asumirá de forma predeterminada. Actualmente estoy terminando una guía introductoria para trabajar con pandas; puedes Suscribirpara no perderse el momento del lanzamiento.

Maestro AWS. Si desea convertirse en ingeniero de datos, no puede prescindir de una plataforma en la nube, y AWS es la más popular de ellas. Los cursos me ayudaron mucho. Academia de Linuxcuando estaba estudiando ingeniería de datos en Google CloudCreo que también tendrán buenos materiales en AWS.

Si ya completó toda esta lista y desea crecer aún más ante los ojos de los empleadores como ingeniero de datos, le sugiero agregar Apache Spark para trabajar con big data. Aunque mi investigación sobre las vacantes de científicos de datos mostró una disminución en el interés, entre los ingenieros de datos todavía aparece en casi una de cada dos vacantes.

Por fin

Espero que haya encontrado útil esta descripción general de las tecnologías más demandadas por los ingenieros de datos. Si se pregunta cómo les va a los trabajos de analista, lea mi otro articulo. ¡Feliz ingeniería!

Fuente: habr.com

Añadir un comentario