Pavel Klemenkov, NVIDIA: Estamos tentando reducir a diferenza entre o que un científico de datos pode facer e o que debería ser capaz de facer

Comezou a segunda convocatoria de estudantes do programa de máster en ciencia de datos e intelixencia empresarial Ozon Masters, e para facilitar a decisión de deixar unha solicitude e facer a proba en liña, preguntámoslles aos profesores do programa que esperar de estudar e traballar. con datos.

Pavel Klemenkov, NVIDIA: Estamos tentando reducir a diferenza entre o que un científico de datos pode facer e o que debería ser capaz de facer Científico de datos xefe de NVIDIA e profesor cursos sobre Big Data e Enxeñaría de Datos Pavel Klemenkov falou sobre por que os matemáticos necesitan escribir código e estudar en Ozon Masters durante dous anos.

— ¿Hai moitas empresas que usan algoritmos de ciencia de datos?

- En realidade, bastante. Moitas empresas grandes que teñen datos realmente grandes están empezando a traballar con eles de forma eficaz ou levan moito tempo traballando con eles. Está claro que a metade do mercado utiliza datos que poden caber nunha folla de cálculo de Excel ou se poden calcular nun gran servidor, pero non se pode dicir que só haxa unhas poucas empresas que poidan traballar con datos.

— Fálanos un pouco dos proxectos onde se utiliza a ciencia de datos.

— Por exemplo, mentres traballabamos en Rambler, estabamos facendo un sistema de publicidade que funcionaba nos principios de RTB (Real Time Bidding): necesitabamos construír moitos modelos que optimizasen a compra de publicidade ou, por exemplo, puidesen predecir a probabilidade. dun clic, conversión, etc. Ao mesmo tempo, unha poxa de publicidade xera moitos datos: rexistros de solicitudes de sitios a potenciais compradores de publicidade, rexistros de impresións publicitarias, rexistros de clics - isto é decenas de terabytes de datos por día.

Ademais, para estas tarefas observamos un fenómeno interesante: cantos máis datos deas para adestrar o modelo, maior será a súa calidade. Normalmente, despois dunha certa cantidade de datos, a calidade da previsión deixa de mellorar e, para mellorar aínda máis a precisión, cómpre utilizar un modelo fundamentalmente diferente, un enfoque diferente para preparar datos, funcións, etc. Aquí subimos máis datos e aumentou a calidade.

Este é un caso típico no que os analistas tiñan que, en primeiro lugar, traballar con grandes conxuntos de datos para, polo menos, realizar un experimento, e no que era imposible saír adiante cunha pequena mostra que cabe nun MacBook acolledor. Ao mesmo tempo, necesitabamos modelos distribuídos, porque senón non se poderían adestrar. Coa introdución da visión por ordenador na produción, tales exemplos son cada vez máis comúns, xa que as imaxes son unha gran cantidade de datos e, para adestrar un modelo grande, son necesarios millóns de imaxes.

Xorde inmediatamente a pregunta: como almacenar toda esta información, como procesala de forma eficaz, como usar algoritmos de aprendizaxe distribuídos: o foco está cambiando das matemáticas puras á enxeñería. Aínda que non escribas código en produción, debes ser capaz de traballar con ferramentas de enxeñería para realizar un experimento.

— Como cambiou o enfoque das prazas de ciencia de datos nos últimos anos?

— O big data deixou de ser publicidade e converteuse nunha realidade. Os discos duros son bastante baratos, o que significa que é posible recoller todos os datos para que no futuro haxa suficientes para probar calquera hipótese. Como resultado, o coñecemento de ferramentas para traballar con big data está a ser moi popular e, como resultado, aparecen cada vez máis prazas de enxeñeiros de datos.

Segundo o meu entender, o resultado do traballo dun científico de datos non é un experimento, senón un produto que chegou á produción. E só desde este punto de vista, antes da chegada do bombo en torno ao big data, o proceso era máis sinxelo: os enxeñeiros dedicáronse á aprendizaxe automática para resolver problemas específicos e non había problemas para levar os algoritmos á produción.

— Que se necesita para seguir sendo un especialista solicitado?

— Agora chegaron á ciencia de datos moitas persoas que estudaron matemáticas, teoría da aprendizaxe automática e participaron en concursos de análise de datos, nos que se proporciona unha infraestrutura preparada: límpanse os datos, defínense as métricas e non hai requisitos para que a solución sexa reproducible e rápida.

Como resultado, os mozos chegan a traballar mal preparados para as realidades dos negocios, e fórmase unha brecha entre os novatos e os desenvolvedores experimentados.

Co desenvolvemento de ferramentas que che permiten montar o teu propio modelo a partir de módulos preparados -e Microsoft, Google e moitos outros xa teñen tales solucións- e a automatización da aprendizaxe automática, esta brecha farase aínda máis acusada. No futuro, a profesión será demandada por investigadores serios que crean novos algoritmos e empregados con habilidades de enxeñería desenvolvidas que implementen modelos e automaticen procesos. O curso Ozon Master en enxeñaría de datos está deseñado para desenvolver habilidades de enxeñaría e a capacidade de usar algoritmos de aprendizaxe automática distribuídos en big data. Estamos tentando reducir a diferenza entre o que un científico de datos pode facer e o que debería ser capaz de facer na práctica.

— Por que un matemático diplomado debería ir a estudar negocios?

— A comunidade rusa de ciencia de datos entendeu que a habilidade e a experiencia convértense moi rapidamente en diñeiro, polo tanto, en canto un especialista ten experiencia práctica, o seu custo comeza a crecer moi rapidamente, as persoas máis cualificadas son moi caras, e isto é certo no momento actual do mercado de desenvolvemento.

Unha gran parte do traballo dun científico de datos é entrar nos datos, comprender o que hai, consultar coas persoas responsables dos procesos comerciais e xerar estes datos, e só despois utilizalos para construír modelos. Para comezar a traballar con big data, é extremadamente importante ter habilidades de enxeñaría; isto fai que sexa moito máis fácil evitar cantos agudos, dos que hai moitos en ciencia de datos.

Unha historia típica: escribiu unha consulta en SQL que se executa usando o marco Hive que se executa en big data. A solicitude procesase en dez minutos, no peor dos casos, nunha ou dúas horas, e moitas veces, cando recibe descargas destes datos, dáse conta de que se esqueceu de ter en conta algún factor ou información adicional. Ten que reenviar a solicitude e esperar estes minutos e horas. Se es un xenio da eficiencia, asumirás outra tarefa, pero, como mostra a práctica, temos poucos xenios da eficiencia e a xente só está esperando. Polo tanto, nos cursos dedicaremos moito tempo á eficiencia laboral para poder redactar inicialmente consultas que funcionen non durante dúas horas, senón durante varios minutos. Esta habilidade multiplica a produtividade, e con ela o valor dun especialista.

– En que se diferencia o Ozon Masters doutros cursos?

— Ozon Masters é impartido por empregados de Ozon, e as tarefas baséanse en casos de negocio reais que se resolven nas empresas. De feito, ademais da falta de habilidades de enxeñaría, unha persoa que estudou ciencia de datos na universidade ten outro problema: a tarefa dunha empresa está formulada na linguaxe dos negocios, e o seu obxectivo é bastante sinxelo: gañar máis cartos. E un matemático sabe ben como optimizar as métricas matemáticas, pero é difícil atopar un indicador que se correlacione cunha métrica empresarial. E cómpre comprender que está a resolver un problema empresarial e, xunto coa empresa, formular métricas que se poidan optimizar matematicamente. Esta habilidade adquírese a través de casos reais, e son dadas por Ozon.
E aínda que ignoramos os casos, a escola é impartida por moitos profesionais que resolven problemas empresariais en empresas reais. Como resultado, o propio enfoque do ensino aínda está máis orientado á práctica. Polo menos no meu curso, tentarei cambiar o foco cara a como usar as ferramentas, cales enfoques existen, etc. Xunto co alumnado, entenderemos que cada tarefa ten a súa propia ferramenta, e cada ferramenta ten o seu ámbito de aplicación.

- O programa de adestramento de análise de datos máis famoso, por suposto, é ShAD; cal é exactamente a diferenza?

— Está claro que ShAD e Ozon Masters, ademais da función educativa, solucionan o problema local da formación do persoal. Os principais graduados de SHAD son contratados principalmente para Yandex, pero o problema é que Yandex, debido ás súas características específicas -e é grande e creouse cando había poucas ferramentas boas para traballar con big data- ten a súa propia infraestrutura e ferramentas para traballar con datos. , o que significa que terás que dominalos. Ozon Masters ten unha mensaxe diferente: se dominaches con éxito o programa e Ozon ou unha do 99% doutras empresas te invita a traballar, será moito máis fácil comezar a beneficiar o negocio; o conxunto de habilidades adquiridos como parte de Ozon Masters. será suficiente para comezar a traballar.

— O curso ten unha duración de dous anos. Por que necesitas dedicar tanto tempo a isto?

- Boa pregunta. Leva moito tempo, porque en canto ao contido e ao nivel do profesorado, este é un programa de máster integral que require moito tempo para dominar, incluídos os deberes.

Desde a miña perspectiva do curso, é común esperar que un estudante pase 2-3 horas á semana en tarefas. En primeiro lugar, as tarefas realízanse nun clúster de adestramento e calquera clúster compartido implica que varias persoas o usen simultaneamente. É dicir, terás que esperar a que a tarefa comece a executarse; algúns recursos poden ser seleccionados e transferidos a unha cola de maior prioridade. Por outra banda, calquera traballo con big data leva moito tempo.

Se tes máis preguntas sobre o programa, traballando con big data ou habilidades de enxeñería, Ozon Masters terá unha xornada de portas abertas en liña o sábado 25 de abril ás 12:00. Reunímonos con profesores e estudantes en zoom e YouTube.

Fonte: www.habr.com

Engadir un comentario