según
Analicé las vacantes para el puesto de ingeniero de datos tal como estaban en enero de 2020 para comprender qué habilidades tecnológicas son las más populares. Luego comparé los resultados con las estadísticas sobre vacantes para el puesto de científico de datos y surgieron algunas diferencias interesantes.
Sin mucho preámbulo, aquí están las diez tecnologías principales que se mencionan con más frecuencia en las ofertas de trabajo:
Mención de tecnologías en vacantes para el puesto de ingeniero de datos en 2020
Responsabilidades de un ingeniero de datos
Hoy en día, el trabajo que realizan los ingenieros de datos es de gran importancia para las organizaciones: estas son las personas responsables de almacenar la información y darle forma tal que otros empleados puedan trabajar con ella. Los ingenieros de datos crean canales para transmitir o agrupar datos de múltiples fuentes. Luego, las canalizaciones realizan operaciones de extracción, transformación y carga (en otras palabras, procesos ETL), lo que hace que los datos sean más adecuados para su uso posterior. Después de esto, los datos se envían a analistas y científicos de datos para un procesamiento más profundo. Finalmente, los datos finalizan su viaje en paneles, informes y modelos de aprendizaje automático.
Estaba buscando información que me permitiera sacar una conclusión sobre qué tecnologías tienen más demanda en el trabajo de un ingeniero de datos en este momento.
Métodos
Recopilé información de tres sitios de búsqueda de empleo:
Para cada palabra clave, calculé el porcentaje de visitas del número total de textos en cada sitio por separado y luego calculé el promedio de las tres fuentes.
resultados
A continuación se muestran los treinta términos de ingeniería de datos técnicos con las puntuaciones más altas en los tres sitios de trabajo.
Y aquí están los mismos números, pero presentados en forma de tabla:
Vamos en orden.
Resumen de resultados
Tanto SQL como Python aparecen en más de dos tercios de las ofertas de trabajo revisadas. Son estas dos tecnologías las que tiene sentido estudiar primero.
Spark se menciona en aproximadamente la mitad de las vacantes.
AWS aparece en aproximadamente el 45% de las ofertas de trabajo. Es una plataforma de computación en la nube fabricada por Amazon; tiene la mayor participación de mercado entre todas las plataformas en la nube.
Luego vienen Java y Hadoop: un poco más del 40% para su hermano.
Es como viajar en una máquina del tiempo.
Luego vemos Hive, Scala, Kafka y NoSQL; cada una de estas tecnologías se menciona en una cuarta parte de las vacantes presentadas. Apache Hive es un software de almacenamiento de datos que "facilita la lectura, escritura y gestión de grandes conjuntos de datos que residen en almacenes distribuidos mediante SQL".
Comparación con las condiciones de las vacantes de científico de datos
Aquí hay treinta términos tecnológicos más comunes entre los empleadores de ciencia de datos. Obtuve esta lista de la misma manera que se describió anteriormente para la ingeniería de datos.
Menciones de tecnología en vacantes para el puesto de científico de datos en 2020
Si hablamos del número total, respecto a la contratación anteriormente considerada, hubo un 28% más de vacantes (12 frente a 013). Veamos qué tecnologías son menos comunes en las vacantes de científicos de datos que de ingenieros de datos.
Más popular en ingeniería de datos
El siguiente gráfico muestra palabras clave con una diferencia promedio superior al 10% o inferior al -10%.
Las mayores diferencias en la frecuencia de palabras clave entre ingeniero de datos y científico de datos
AWS muestra el aumento más significativo: en ingeniería de datos aparece un 25% más regularmente que en ciencia de datos (aproximadamente el 45% y el 20% del número total de vacantes, respectivamente). ¡La diferencia se nota!
Aquí se muestran los mismos datos en una presentación ligeramente diferente: en el gráfico, los resultados para la misma palabra clave en las vacantes para el puesto de ingeniero de datos y científico de datos están ubicados uno al lado del otro.
Las mayores diferencias en la frecuencia de palabras clave entre ingeniero de datos y científico de datos
El siguiente gran salto que noté fue en Spark: un ingeniero de datos a menudo tiene que trabajar con big data.
Menos popular en ingeniería de datos
Ahora veamos qué tecnologías son menos populares en las vacantes de ingeniero de datos.
La caída más pronunciada en comparación con el sector de la ciencia de datos se produjo en
En demanda tanto en ingeniería de datos como en ciencia de datos
Cabe señalar que ocho de las diez primeras posiciones en ambos conjuntos son iguales. SQL, Python, Spark, AWS, Java, Hadoop, Hive y Scala se ubicaron entre los diez primeros para las industrias de ingeniería y ciencia de datos. En el siguiente gráfico puede ver las quince tecnologías más populares entre los empleadores de ingenieros de datos y, junto a ellas, su tasa de vacantes para científicos de datos.
Recomendaciones
Si desea dedicarse a la ingeniería de datos, le aconsejaría que domine las siguientes tecnologías; las enumero en orden de prioridad aproximada.
Aprenda SQL. Me inclino por PostgreSQL porque es de código abierto, muy popular en la comunidad y está en una fase de crecimiento. Puede aprender a utilizar el lenguaje en el libro My Memorable SQL: su versión piloto está disponible.
Domina Python, aunque no al nivel más duro. My Memorable Python está diseñado específicamente para principiantes. Se puede comprar en
Una vez que esté familiarizado con Python, pase a pandas, una biblioteca de Python que se utiliza para la limpieza y el procesamiento de datos. Si su objetivo es trabajar en una empresa que requiere la capacidad de escribir en Python (y esta es la mayoría de ellas), puede estar seguro de que el conocimiento de pandas se asumirá de forma predeterminada. Actualmente estoy terminando una guía introductoria para trabajar con pandas; puedes
Maestro AWS. Si desea convertirse en ingeniero de datos, no puede prescindir de una plataforma en la nube, y AWS es la más popular de ellas. Los cursos me ayudaron mucho.
Si ya completó toda esta lista y desea crecer aún más ante los ojos de los empleadores como ingeniero de datos, le sugiero agregar Apache Spark para trabajar con big data. Aunque mi investigación sobre las vacantes de científicos de datos mostró una disminución en el interés, entre los ingenieros de datos todavía aparece en casi una de cada dos vacantes.
Por fin
Espero que haya encontrado útil esta descripción general de las tecnologías más demandadas por los ingenieros de datos. Si se pregunta cómo les va a los trabajos de analista, lea
Fuente: habr.com