Ingeniero de datos y científico de datos: ¿cuál es la diferencia?

Las profesiones de científico de datos e ingeniero de datos a menudo se confunden. Cada empresa tiene sus propias particularidades en el trabajo con datos, diferentes propósitos para su análisis y una idea diferente de qué especialista debe ocuparse de qué parte del trabajo, por lo que cada una tiene sus propios requisitos. 

Averigüemos cuál es la diferencia entre estos especialistas, qué problemas comerciales resuelven, qué habilidades tienen y cuánto ganan. El material resultó ser extenso, por lo que lo dividimos en dos publicaciones.

En el primer artículo, Elena Gerasimova, directora de la facultad “Ciencia de datos y análisis" en Netología, cuenta cuál es la diferencia entre un Científico de Datos y un Ingeniero de Datos y con qué herramientas trabajan.

En qué se diferencian los roles de ingenieros y científicos

Un ingeniero de datos es un especialista que, por un lado, desarrolla, prueba y mantiene la infraestructura de datos: bases de datos, sistemas de almacenamiento y procesamiento masivo. Por otro lado, este es quien limpia y “peina” los datos para uso de analistas y científicos de datos, es decir, crea pipelines de procesamiento de datos.

Data Scientist crea y entrena modelos predictivos (y otros) utilizando algoritmos de aprendizaje automático y redes neuronales, ayudando a las empresas a encontrar patrones ocultos, predecir desarrollos y optimizar procesos comerciales clave.

La principal diferencia entre un científico de datos y un ingeniero de datos es que suelen tener objetivos diferentes. Ambos trabajan para garantizar que los datos sean accesibles y de alta calidad. Pero un científico de datos encuentra respuestas a sus preguntas y prueba hipótesis en un ecosistema de datos (por ejemplo, basado en Hadoop), y un ingeniero de datos crea una canalización para dar servicio a un algoritmo de aprendizaje automático escrito por un científico de datos en un clúster Spark dentro del mismo. ecosistema. 

Un ingeniero de datos aporta valor a una empresa trabajando como parte de un equipo. Su tarea es actuar como un vínculo importante entre los diferentes participantes: desde los desarrolladores hasta los consumidores empresariales de informes, y aumentar la productividad de los analistas, desde marketing y productos hasta BI. 

Un científico de datos, por el contrario, participa activamente en la estrategia de la empresa y extrae insights, toma decisiones, implementa algoritmos de automatización, modela y genera valor a partir de los datos.
Ingeniero de datos y científico de datos: ¿cuál es la diferencia?

Trabajar con datos está sujeto al principio GIGO (basura que entra, basura que sale): si los analistas y científicos de datos manejan datos no preparados y potencialmente incorrectos, los resultados, incluso utilizando los algoritmos de análisis más sofisticados, serán incorrectos. 

Los ingenieros de datos resuelven este problema construyendo canales para procesar, limpiar y transformar datos y permitir que los científicos de datos trabajen con datos de alta calidad. 

Hay muchas herramientas en el mercado para trabajar con datos que cubren todas las etapas: desde la aparición de los datos hasta la salida y un panel para la junta directiva. Y es importante que la decisión de utilizarlos la tome un ingeniero, no porque esté de moda, sino porque realmente ayudará en el trabajo de otros participantes en el proceso. 

Convencionalmente: si una empresa necesita establecer conexiones entre BI y ETL (cargar datos y actualizar informes), aquí hay una base heredada típica con la que tendrá que lidiar un ingeniero de datos (es bueno si también hay un arquitecto en el equipo).

Responsabilidades de un ingeniero de datos

  • Desarrollo, construcción y mantenimiento de infraestructura de procesamiento de datos.
  • Manejar errores y crear canales de procesamiento de datos confiables.
  • Llevar datos no estructurados de diversas fuentes dinámicas a la forma necesaria para el trabajo de los analistas.
  • Proporcionar recomendaciones para mejorar la coherencia y la calidad de los datos.
  • Proporcionar y mantener la arquitectura de datos utilizada por los científicos y analistas de datos.
  • Procese y almacene datos de manera consistente y eficiente en un clúster distribuido de decenas o cientos de servidores.
  • Evalúe las ventajas y desventajas técnicas de las herramientas para crear arquitecturas simples pero sólidas que puedan sobrevivir a la disrupción.
  • Control y soporte de flujos de datos y sistemas relacionados (configuración de seguimiento y alertas).

Existe otra especialización dentro de la trayectoria del ingeniero de datos: el ingeniero de ML. En resumen, estos ingenieros se especializan en llevar modelos de aprendizaje automático a la implementación y uso industrial. A menudo, un modelo recibido de un científico de datos es parte de un estudio y es posible que no funcione en condiciones de combate.

Responsabilidades de un científico de datos

  • Extracción de características de los datos para aplicar algoritmos de aprendizaje automático.
  • Utilizar diversas herramientas de aprendizaje automático para predecir y clasificar patrones en los datos.
  • Mejorar el rendimiento y la precisión de los algoritmos de aprendizaje automático mediante el ajuste y la optimización de los algoritmos.
  • Formación de hipótesis “fuertes” de acuerdo con la estrategia de la empresa que deben ser probadas.

Tanto el ingeniero de datos como el científico de datos comparten una contribución tangible al desarrollo de una cultura de datos, a través de la cual una empresa puede generar ganancias adicionales o reducir costos.

¿Con qué lenguajes y herramientas trabajan los ingenieros y científicos?

Hoy, las expectativas de los científicos de datos han cambiado. Anteriormente, los ingenieros recopilaban grandes consultas SQL, escribían MapReduce manualmente y procesaban datos utilizando herramientas como Informatica ETL, Pentaho ETL, Talend. 

En 2020, un especialista no puede prescindir del conocimiento de Python y de las herramientas de cálculo modernas (por ejemplo, Airflow), de la comprensión de los principios de trabajar con plataformas en la nube (usándolas para ahorrar en hardware, respetando los principios de seguridad).

SAP, Oracle, MySQL, Redis son herramientas tradicionales para ingenieros de datos en grandes empresas. Son buenos, pero el coste de las licencias es tan alto que aprender a trabajar con ellos sólo tiene sentido en proyectos industriales. Al mismo tiempo, existe una alternativa gratuita en forma de Postgres: es gratuito y adecuado no sólo para la formación. 

Ingeniero de datos y científico de datos: ¿cuál es la diferencia?
Históricamente, a menudo se encuentran solicitudes de Java y Scala, aunque a medida que se desarrollan tecnologías y enfoques, estos lenguajes pasan a un segundo plano.

Sin embargo, BigData incondicional: Hadoop, Spark y el resto del zoológico ya no es un requisito previo para un ingeniero de datos, sino una especie de herramienta para resolver problemas que no pueden resolverse mediante ETL tradicional. 

La tendencia son los servicios de uso de herramientas sin conocimiento del lenguaje en el que están escritas (por ejemplo, Hadoop sin conocimiento de Java), así como la provisión de servicios listos para procesar datos en streaming (reconocimiento de voz o reconocimiento de imágenes en video). ).

Las soluciones industriales de SAS y SPSS son populares, mientras que los científicos de datos también utilizan ampliamente Tableau, Rapidminer, Stata y Julia para tareas locales.

Ingeniero de datos y científico de datos: ¿cuál es la diferencia?
La capacidad de construir canales por sí mismos apareció ante los analistas y científicos de datos hace solo un par de años: por ejemplo, ya es posible enviar datos a un almacenamiento basado en PostgreSQL utilizando scripts relativamente simples. 

Normalmente, el uso de canalizaciones y estructuras de datos integradas sigue siendo responsabilidad de los ingenieros de datos. Pero hoy en día, la tendencia a contar con especialistas en forma de T con amplias competencias en campos relacionados es más fuerte que nunca, porque las herramientas se simplifican constantemente.

Por qué el ingeniero de datos y el científico de datos trabajan juntos

Al trabajar en estrecha colaboración con los ingenieros, los científicos de datos pueden centrarse en la investigación y crear algoritmos de aprendizaje automático listos para producción.
Y los ingenieros deben centrarse en la escalabilidad, la reutilización de datos y en garantizar que los canales de entrada y salida de datos en cada proyecto individual cumplan con la arquitectura global.

Esta separación de responsabilidades garantiza la coherencia entre los equipos que trabajan en diferentes proyectos de aprendizaje automático. 

La colaboración ayuda a crear nuevos productos de manera eficiente. La velocidad y la calidad se logran mediante un equilibrio entre la creación de un servicio para todos (almacenamiento global o integración de paneles) y la implementación de cada necesidad o proyecto específico (canal altamente especializado, conexión de fuentes externas). 

Trabajar en estrecha colaboración con analistas y científicos de datos ayuda a los ingenieros a desarrollar habilidades analíticas y de investigación para escribir un mejor código. El intercambio de conocimientos entre los usuarios del almacén y del lago de datos mejora, lo que hace que los proyectos sean más ágiles y ofrezcan resultados más sostenibles a largo plazo.

En las empresas que pretenden desarrollar una cultura de trabajo con datos y construir procesos de negocio basados ​​en ellos, el científico de datos y el ingeniero de datos se complementan y crean un sistema completo de análisis de datos. 

En el próximo artículo hablaremos sobre qué tipo de educación debe tener un Ingeniero de Datos y un Científico de Datos, qué habilidades necesitan desarrollar y cómo funciona el mercado.

De los editores de Netology

Si estás buscando la profesión de Ingeniero de Datos o Científico de Datos, te invitamos a estudiar nuestros programas de cursos:

Fuente: habr.com

Añadir un comentario