Pavel Klemenkov, NVIDIA: Estamos tentando reduzir a lacuna entre o que um cientista de dados pode fazer e o que ele deveria ser capaz de fazer

Já começou a segunda captação de alunos do programa de mestrado em ciência de dados e business intelligence Ozon Masters – e para facilitar a decisão de sair da inscrição e fazer a prova online, perguntamos aos professores do programa o que esperar de estudar e trabalhar com dados.

Pavel Klemenkov, NVIDIA: Estamos tentando reduzir a lacuna entre o que um cientista de dados pode fazer e o que ele deveria ser capaz de fazer Cientista-chefe de dados NVIDIA e professor cursos sobre Big Data e Engenharia de Dados Pavel Klemenkov falou sobre por que os matemáticos precisam escrever código e estudar na Ozon Masters por dois anos.

— Existem muitas empresas que usam algoritmos de ciência de dados?

- Na verdade bastante. Muitas grandes empresas que possuem big data estão começando a trabalhar com ele de forma eficaz ou já trabalham com ele há muito tempo. É claro que metade do mercado utiliza dados que cabem em uma planilha Excel ou podem ser calculados em um grande servidor, mas não se pode dizer que sejam poucas as empresas que conseguem trabalhar com dados.

— Conte-nos um pouco sobre os projetos onde a ciência de dados é utilizada.

— Por exemplo, enquanto trabalhávamos na Rambler, estávamos fazendo um sistema de publicidade que funcionava com base nos princípios do RTB (Real Time Bidding) - precisávamos construir muitos modelos que otimizassem a compra de publicidade ou, por exemplo, pudessem prever a probabilidade de um clique, conversão e assim por diante. Ao mesmo tempo, um leilão de publicidade gera muitos dados: registros de solicitações de sites para potenciais compradores de publicidade, registros de impressões de publicidade, registros de cliques - são dezenas de terabytes de dados por dia.

Além disso, para essas tarefas observamos um fenômeno interessante: quanto mais dados você fornecer para treinar o modelo, maior será sua qualidade. Normalmente, após uma certa quantidade de dados, a qualidade da previsão para de melhorar e, para melhorar ainda mais a precisão, é necessário usar um modelo fundamentalmente diferente, uma abordagem diferente para preparar dados, recursos e assim por diante. Aqui carregamos mais dados e a qualidade aumentou.

Este é um caso típico em que os analistas tiveram que, em primeiro lugar, trabalhar com grandes conjuntos de dados para pelo menos realizar um experimento, e onde era impossível sobreviver com uma pequena amostra que cabesse em um aconchegante MacBook. Ao mesmo tempo, precisávamos de modelos distribuídos, caso contrário eles não poderiam ser treinados. Com a introdução da visão computacional na produção, esses exemplos estão se tornando mais comuns, uma vez que as imagens representam uma grande quantidade de dados e, para treinar um modelo grande, são necessárias milhões de imagens.

Surge imediatamente a questão: como armazenar toda esta informação, como processá-la eficazmente, como utilizar algoritmos de aprendizagem distribuída – o foco está a mudar da matemática pura para a engenharia. Mesmo que você não escreva código em produção, precisará ser capaz de trabalhar com ferramentas de engenharia para conduzir um experimento.

— Como a abordagem às vagas em ciência de dados mudou nos últimos anos?

— O big data deixou de ser um exagero e se tornou uma realidade. Os discos rígidos são bastante baratos, o que significa que é possível coletar todos os dados para que no futuro haja o suficiente para testar quaisquer hipóteses. Com isso, o conhecimento de ferramentas para trabalhar com big data está se tornando muito popular e, com isso, surgem cada vez mais vagas para engenheiros de dados.

No meu entendimento, o resultado do trabalho de um cientista de dados não é um experimento, mas um produto que atingiu a produção. E só desse ponto de vista, antes do advento do hype em torno do big data, o processo era mais simples: os engenheiros estavam engajados no aprendizado de máquina para resolver problemas específicos e não havia problemas em colocar os algoritmos em produção.

— O que é preciso para continuar sendo um especialista requisitado?

— Agora muitas pessoas chegaram à ciência de dados que estudaram matemática, a teoria do aprendizado de máquina e participaram de competições de análise de dados, onde uma infraestrutura pronta é fornecida: os dados são limpos, as métricas são definidas e não há requisitos para que a solução seja reproduzível e rápida.

Como resultado, os caras chegam ao trabalho mal preparados para a realidade dos negócios, e uma lacuna se forma entre iniciantes e desenvolvedores experientes.

Com o desenvolvimento de ferramentas que permitem montar seu próprio modelo a partir de módulos prontos - e Microsoft, Google e muitos outros já possuem tais soluções - e a automação do aprendizado de máquina, essa lacuna se tornará ainda mais acentuada. No futuro, a profissão será procurada por pesquisadores sérios que criem novos algoritmos e por funcionários com habilidades de engenharia desenvolvidas que irão implementar modelos e automatizar processos. O curso Ozon Masters em engenharia de dados foi desenvolvido para desenvolver habilidades de engenharia e a capacidade de usar algoritmos de aprendizado de máquina distribuído em big data. Estamos tentando reduzir a lacuna entre o que um cientista de dados pode fazer e o que deveria ser capaz de fazer na prática.

— Por que um matemático com diploma deveria estudar administração?

— A comunidade russa de ciência de dados entendeu que habilidade e experiência são rapidamente convertidas em dinheiro, portanto, assim que um especialista tem experiência prática, seu custo começa a crescer muito rapidamente, as pessoas mais qualificadas são muito caras - e isso é verdade no atual momento de desenvolvimento do mercado.

Uma grande parte do trabalho de um cientista de dados é analisar os dados, entender o que existe neles, consultar as pessoas responsáveis ​​pelos processos de negócios e gerar esses dados – e só então usá-los para construir modelos. Para começar a trabalhar com big data, é extremamente importante ter habilidades de engenharia – isso torna muito mais fácil evitar curvas fechadas, que são muitas na ciência de dados.

Uma história típica: você escreveu uma consulta em SQL que é executada usando a estrutura Hive executada em big data. A solicitação é processada em dez minutos, na pior das hipóteses - em uma ou duas horas, e muitas vezes, ao receber downloads desses dados, você percebe que se esqueceu de levar em consideração algum fator ou informação adicional. Você deve reenviar a solicitação e aguardar esses minutos e horas. Se você for um gênio da eficiência, assumirá outra tarefa, mas, como mostra a prática, temos poucos gênios da eficiência e as pessoas estão apenas esperando. Portanto, nos cursos dedicaremos muito tempo à eficiência do trabalho para podermos inicialmente escrever consultas que funcionem não por duas horas, mas por vários minutos. Essa habilidade multiplica a produtividade e com ela o valor de um especialista.

– Como o Ozon Masters difere de outros cursos?

— O Ozon Masters é ministrado por funcionários da Ozon e as tarefas são baseadas em casos de negócios reais que são resolvidos nas empresas. Na verdade, além da falta de habilidades em engenharia, quem estudou ciência de dados na universidade tem outro problema: a tarefa de uma empresa é formulada na linguagem dos negócios e seu objetivo é bastante simples: ganhar mais dinheiro. E um matemático sabe bem como otimizar métricas matemáticas - mas é difícil encontrar um indicador que se correlacione com uma métrica de negócios. E você precisa entender que está resolvendo um problema de negócio e, junto com o negócio, formular métricas que possam ser otimizadas matematicamente. Essa habilidade é adquirida por meio de casos reais, e são ministrados pela Ozon.
E mesmo ignorando os casos, a escola é ministrada por muitos profissionais que resolvem problemas de negócios em empresas reais. Como resultado, a abordagem do ensino em si é ainda mais orientada para a prática. Pelo menos no meu curso, tentarei mudar o foco para como usar as ferramentas, quais abordagens existem e assim por diante. Junto com os alunos entenderemos que cada tarefa possui sua ferramenta, e cada ferramenta possui sua área de aplicabilidade.

— O programa de treinamento em análise de dados mais famoso, é claro, é o ShAD — qual é exatamente a diferença dele?

— É claro que o ShAD e o Ozon Masters, além da função educativa, resolvem o problema local de formação de pessoal. Os principais graduados do SHAD são recrutados principalmente para o Yandex, mas o problema é que o Yandex, devido às suas especificidades - e é grande e foi criado quando havia poucas ferramentas boas para trabalhar com big data - possui sua própria infraestrutura e ferramentas para trabalhar com dados , o que significa que você terá que dominá-los. Ozon Masters tem uma mensagem diferente - se você tiver dominado o programa com sucesso e a Ozon ou uma das 99% de outras empresas o convidar para trabalhar, será muito mais fácil começar a beneficiar o negócio; o conjunto de habilidades adquiridas como parte do Ozon Masters será suficiente para começar a trabalhar.

— O curso dura dois anos. Por que você precisa gastar tanto tempo nisso?

- Boa pergunta. Demora muito, porque em termos de conteúdo e nível dos professores, este é um programa de mestrado integral que requer muito tempo para ser dominado, incluindo trabalhos de casa.

Da perspectiva do meu curso, é comum esperar que um aluno gaste de 2 a 3 horas por semana em tarefas. Em primeiro lugar, as tarefas são executadas num cluster de treino, e qualquer cluster partilhado implica que várias pessoas o utilizem simultaneamente. Ou seja, será necessário aguardar o início da execução da tarefa, alguns recursos poderão ser selecionados e transferidos para uma fila de maior prioridade. Por outro lado, qualquer trabalho com big data leva muito tempo.

Se você tiver mais dúvidas sobre o programa, como trabalhar com big data ou habilidades de engenharia, a Ozon Masters terá um dia aberto online no sábado, 25 de abril, às 12h. Nos reunimos com professores e alunos em Zoom e YouTube.

Fonte: habr.com

Adicionar um comentário