Pavel Klemenkov, NVIDIA: Estamos intentando reducir la brecha entre lo que un científico de datos puede hacer y lo que debería poder hacer

Ha comenzado la segunda promoción de estudiantes del programa de maestría en ciencia de datos e inteligencia empresarial Ozon Masters, y para que sea más fácil decidir dejar una solicitud y realizar la prueba en línea, preguntamos a los profesores del programa qué esperar de estudiar y trabajar. con datos.

Pavel Klemenkov, NVIDIA: Estamos intentando reducir la brecha entre lo que un científico de datos puede hacer y lo que debería poder hacer Jefe científico de datos NVIDIA y profesor cursos sobre Big Data e Ingeniería de Datos Pavel Klemenkov habló de por qué los matemáticos necesitan escribir códigos y estudiar en Ozon Masters durante dos años.

— ¿Hay muchas empresas que utilizan algoritmos de ciencia de datos?

- En realidad bastantes. Muchas grandes empresas que tienen big data realmente están empezando a trabajar con ellos de forma eficaz o ya llevan mucho tiempo trabajando con ellos. Está claro que la mitad del mercado utiliza datos que caben en una hoja de cálculo de Excel o se pueden calcular en un servidor grande, pero no se puede decir que sean pocas las empresas que puedan trabajar con datos.

— Cuéntanos un poco sobre los proyectos donde se utiliza la ciencia de datos.

— Por ejemplo, mientras trabajábamos en Rambler, estábamos creando un sistema de publicidad que funcionaba según los principios de RTB (Real Time Bidding): necesitábamos crear muchos modelos que optimizaran la compra de publicidad o, por ejemplo, pudieran predecir la probabilidad. de un clic, conversión, etc. Al mismo tiempo, una subasta publicitaria genera una gran cantidad de datos: registros de solicitudes de sitios a posibles compradores de publicidad, registros de impresiones publicitarias, registros de clics: esto equivale a decenas de terabytes de datos por día.

Además, para estas tareas observamos un fenómeno interesante: cuantos más datos se proporcionen para entrenar el modelo, mayor será su calidad. Por lo general, después de una cierta cantidad de datos, la calidad del pronóstico deja de mejorar y, para mejorar aún más la precisión, es necesario utilizar un modelo fundamentalmente diferente, un enfoque diferente para preparar datos, características, etc. Aquí subimos más datos y la calidad aumentó.

Este es un caso típico en el que los analistas tuvieron que, en primer lugar, trabajar con grandes conjuntos de datos para al menos realizar un experimento, y donde era imposible arreglárselas con una muestra pequeña que cabe en un cómodo MacBook. Al mismo tiempo, necesitábamos modelos distribuidos porque, de lo contrario, no se podrían entrenar. Con la introducción de la visión por computadora en la producción, estos ejemplos se están volviendo cada vez más comunes, ya que las imágenes son una gran cantidad de datos y se necesitan millones de imágenes para entrenar un modelo grande.

Inmediatamente surge la pregunta: cómo almacenar toda esta información, cómo procesarla eficazmente, cómo utilizar algoritmos de aprendizaje distribuido: la atención se desplaza de las matemáticas puras a la ingeniería. Incluso si no escribe código en producción, debe poder trabajar con herramientas de ingeniería para realizar un experimento.

— ¿Cómo ha cambiado el enfoque de las vacantes en ciencia de datos en los últimos años?

— El big data ha dejado de ser una exageración y se ha convertido en una realidad. Los discos duros son bastante baratos, lo que significa que es posible recopilar todos los datos para que en el futuro haya suficiente para probar cualquier hipótesis. Como resultado, el conocimiento de las herramientas para trabajar con big data se está volviendo muy popular y, como resultado, aparecen cada vez más vacantes para ingenieros de datos.

Según tengo entendido, el resultado del trabajo de un científico de datos no es un experimento, sino un producto que ha llegado a producción. Y desde este punto de vista, antes de la aparición del revuelo en torno a big data, el proceso era más simple: los ingenieros se dedicaban al aprendizaje automático para resolver problemas específicos y no había problemas para llevar los algoritmos a producción.

— ¿Qué se necesita para seguir siendo un especialista solicitado?

— Ahora han llegado a la ciencia de datos muchas personas que han estudiado matemáticas, la teoría del aprendizaje automático y han participado en concursos de análisis de datos, donde se proporciona una infraestructura ya preparada: los datos se limpian, se definen las métricas y no hay requisitos para que la solución sea reproducible y rápida.

Como resultado, los muchachos llegan a trabajar mal preparados para las realidades de los negocios y se forma una brecha entre los novatos y los desarrolladores experimentados.

Con el desarrollo de herramientas que le permitan ensamblar su propio modelo a partir de módulos prefabricados (y Microsoft, Google y muchos otros ya tienen soluciones de este tipo) y la automatización del aprendizaje automático, esta brecha se volverá aún más pronunciada. En el futuro, la profesión necesitará investigadores serios que creen nuevos algoritmos y empleados con habilidades de ingeniería desarrolladas que implementen modelos y automaticen procesos. El curso Ozon Masters en ingeniería de datos está diseñado para desarrollar habilidades de ingeniería y la capacidad de utilizar algoritmos de aprendizaje automático distribuido en big data. Estamos intentando reducir la brecha entre lo que un científico de datos puede hacer y lo que debería poder hacer en la práctica.

— ¿Por qué un matemático diplomado debería ir a estudiar empresariales?

— La comunidad rusa de ciencia de datos ha comprendido que las habilidades y la experiencia se convierten muy rápidamente en dinero, por lo tanto, tan pronto como un especialista tiene experiencia práctica, su costo comienza a crecer muy rápidamente, las personas más capacitadas son muy caras, y esto Esto es cierto en el momento actual de desarrollo del mercado.

Una gran parte del trabajo de un científico de datos es profundizar en los datos, comprender lo que hay allí, consultar con las personas responsables de los procesos de negocio y generar estos datos, y sólo entonces utilizarlos para construir modelos. Para comenzar a trabajar con big data, es extremadamente importante tener habilidades de ingeniería; esto hace que sea mucho más fácil evitar las esquinas cerradas, que abundan en la ciencia de datos.

Una historia típica: usted escribió una consulta en SQL que se ejecuta utilizando el marco de Hive que se ejecuta en big data. La solicitud se procesa en diez minutos, en el peor de los casos, en una o dos horas y, a menudo, cuando recibe descargas de estos datos, se da cuenta de que olvidó tener en cuenta algún factor o información adicional. Tienes que reenviar la solicitud y esperar estos minutos y horas. Si eres un genio de la eficiencia, asumirás otra tarea, pero, como muestra la práctica, tenemos pocos genios de la eficiencia y la gente simplemente está esperando. Por eso, en los cursos dedicaremos mucho tiempo a la eficiencia del trabajo para poder redactar inicialmente consultas que funcionen no durante dos horas, sino durante varios minutos. Esta habilidad multiplica la productividad y con ella el valor de un especialista.

– ¿En qué se diferencia Ozon Masters de otros cursos?

— Ozon Masters lo imparten empleados de Ozon y las tareas se basan en casos de negocio reales que se resuelven en las empresas. De hecho, además de la falta de conocimientos de ingeniería, una persona que estudió ciencia de datos en la universidad tiene otro problema: la tarea de una empresa está formulada en el lenguaje de los negocios y su objetivo es bastante simple: ganar más dinero. Y un matemático sabe bien cómo optimizar las métricas matemáticas, pero es difícil encontrar un indicador que se correlacione con una métrica empresarial. Y debe comprender que está resolviendo un problema empresarial y, junto con la empresa, formular métricas que puedan optimizarse matemáticamente. Esta habilidad se adquiere a través de casos reales, y los imparte Ozon.
E incluso si ignoramos los casos, la escuela cuenta con muchos profesionales que resuelven problemas comerciales en empresas reales. Como resultado, el enfoque de la enseñanza en sí está aún más orientado a la práctica. Al menos en mi curso, intentaré centrarme en cómo utilizar las herramientas, qué enfoques existen, etc. Junto a los estudiantes entenderemos que cada tarea tiene su propia herramienta, y cada herramienta tiene su área de aplicabilidad.

— El programa de formación en análisis de datos más famoso, por supuesto, es ShAD. ¿En qué se diferencia exactamente?

— Está claro que ShAD y Ozon Masters, además de la función educativa, resuelven el problema local de la formación del personal. Los mejores graduados de SHAD son reclutados principalmente para Yandex, pero el problema es que Yandex, debido a sus características específicas, y es grande y se creó cuando había pocas herramientas buenas para trabajar con big data, tiene su propia infraestructura y herramientas para trabajar con datos. , lo que significa que tendrás que dominarlos. Ozon Masters tiene un mensaje diferente: si ha dominado con éxito el programa y Ozon o una del 99% de otras empresas lo invita a trabajar, será mucho más fácil comenzar a beneficiar el negocio; el conjunto de habilidades adquiridas como parte de Ozon Masters Será suficiente con empezar a trabajar.

— El curso tiene una duración de dos años. ¿Por qué necesitas dedicar tanto tiempo a esto?

- Buena pregunta. Lleva mucho tiempo, porque en términos de contenidos y nivel de profesores, este es un programa de maestría integral que requiere mucho tiempo para dominarlo, incluidas las tareas.

Desde la perspectiva de mi curso, es común esperar que un estudiante dedique de 2 a 3 horas a la semana a las tareas. En primer lugar, las tareas se realizan en un grupo de entrenamiento y cualquier grupo compartido implica que varias personas lo utilizan simultáneamente. Es decir, tendrá que esperar a que la tarea comience a ejecutarse; algunos recursos pueden ser seleccionados y transferidos a una cola de mayor prioridad. Por otro lado, cualquier trabajo con big data requiere mucho tiempo.

Si tiene más preguntas sobre el programa, el trabajo con big data o habilidades de ingeniería, Ozon Masters realizará una jornada de puertas abiertas en línea el sábado 25 de abril a las 12:00. Nos reunimos con profesores y estudiantes en Meet y YouTube.

Fuente: habr.com

Añadir un comentario