Como organizei o treinamento de aprendizado de máquina na NSU

Meu nome é Sasha e adoro aprendizado de máquina e também adoro ensinar pessoas. Agora supervisiono programas educacionais no Centro de Ciência da Computação e dirijo o bacharelado em análise de dados na Universidade Estadual de São Petersburgo. Antes, trabalhou como analista na Yandex, e ainda antes como cientista: trabalhou com modelagem matemática no Instituto de Ciência da Computação da SB RAS.

Neste post quero contar a vocês o que surgiu com a ideia de lançar o treinamento em aprendizado de máquina para estudantes, graduados da Universidade Estadual de Novosibirsk e todos os demais.

Como organizei o treinamento de aprendizado de máquina na NSU

Há muito tempo que desejo organizar um curso especial sobre preparação para competições de análise de dados no Kaggle e outras plataformas. Pareceu uma ótima ideia:

  • Os alunos e interessados ​​aplicarão os conhecimentos teóricos na prática e ganharão experiência na resolução de problemas em concursos públicos.
  • Os alunos que ficam no topo em tais competições têm um bom efeito na atratividade da NSU para candidatos, estudantes e graduados. O mesmo acontece com o treinamento de programação esportiva.
  • Este curso especial complementa e expande perfeitamente o conhecimento fundamental: os participantes implementam modelos de aprendizado de máquina de forma independente e muitas vezes formam equipes que competem em nível global.
  • Outras universidades já haviam realizado esse treinamento, então eu esperava o sucesso do curso especial da NSU.

Lançar

O Akademgorodok de Novosibirsk tem um terreno muito fértil para tais empreendimentos: estudantes, graduados e professores do Centro de Ciência da Computação e fortes corpo docentes técnicos, por exemplo, FIT, MMF, FF, forte apoio da administração NSU, uma comunidade ativa de ODS, engenheiros experientes e analistas de diversas empresas de TI. Na mesma época, aprendemos sobre o programa de subsídios de Botânica Investimentos — o fundo apoia equipas que apresentem bons resultados nas competições desportivas do ML.

Encontramos público na NSU para reuniões semanais, criamos um chat no Telegram e lançamos no dia 1º de outubro junto com alunos e graduados do centro de CS. 19 pessoas compareceram à primeira aula. Seis deles tornaram-se participantes regulares em treinamentos. No total, 31 pessoas compareceram ao encontro pelo menos uma vez durante o ano letivo.

Primeiros resultados

A galera e eu nos conhecemos, trocamos experiências, discutimos competições e um plano aproximado para o futuro. Rapidamente percebemos que lutar por vagas em competições de análise de dados é um trabalho regular e cansativo, semelhante ao trabalho não remunerado em tempo integral, mas muito interessante e emocionante 🙂 Um dos participantes, Kaggle-master Maxim, aconselhou-nos a avançar primeiro nas competições individualmente , e apenas algumas semanas depois se unem em equipes, levando em consideração a pontuação pública. Foi isso que fizemos! Durante o treinamento presencial, discutimos modelos, artigos científicos e os meandros das bibliotecas Python, e resolvemos problemas juntos.

Os resultados do semestre de outono foram três medalhas de prata em duas competições no Kaggle: Identificação de Sal TGS и Classificação Astronômica PLAsTiCC. E um terceiro lugar na competição CFT para correção de erros de digitação com o primeiro dinheiro ganho (no dinheiro, como dizem os keglers experientes).

Outro resultado indireto muito importante do curso especial foi o lançamento e configuração do cluster NSU VKI. Seu poder de computação melhorou significativamente nossa vida competitiva: 40 CPUs, 755 Gb de RAM, 8 GPUs NVIDIA Tesla V100.

Como organizei o treinamento de aprendizado de máquina na NSU

Antes disso, sobrevivíamos o melhor que podíamos: calculamos em laptops e desktops pessoais, no Google Colab e em kernels Kaggle. Uma equipe tinha até um script escrito por ela mesma que salvava automaticamente o modelo e reiniciava o cálculo que havia sido interrompido devido a um limite de tempo.

No semestre da primavera, continuámos a reunir-nos, a partilhar descobertas bem-sucedidas e a falar sobre as nossas soluções para a concorrência. Novos participantes interessados ​​começaram a vir até nós. Durante o semestre da primavera, conseguimos um ouro, três pratas e nove bronzes em oito competições no Kaggle: Pet Finder, Santander, Resolução de gênero, Identificação de Baleia, Quora, Marcos do Google e outros, bronze em Desafio Recco, terceiro lugar na Changellenge>>Cup e primeiro lugar (novamente no dinheiro) na competição de aprendizado de máquina em campeonato de programação de Yandex.

O que dizem os participantes do treinamento

Mikhail Karchevsky
“Fico muito feliz que tais atividades sejam realizadas aqui na Sibéria, pois acredito que a participação em competições é a forma mais rápida de dominar o ML. Para essas competições, o hardware é bastante caro para comprar, mas aqui você pode experimentar ideias gratuitamente.”

Kirill Brodt
“Antes do advento do treinamento de ML, eu não participava particularmente de competições, com exceção de treinamentos e competições hindus: não via sentido nisso, pois tinha trabalho na área de ML e estava familiarizado com isso. O primeiro semestre que frequentei como estudante. E a partir do segundo semestre, assim que os recursos computacionais ficaram disponíveis, pensei, por que não participar. E isso me fisgou. A tarefa, os dados e as métricas foram inventados e preparados para você, vá em frente e use todo o poder do MO, verifique os modelos e técnicas de última geração. Se não fosse a formação e, igualmente importante, os recursos informáticos, não teria começado a participar tão cedo.”

Andrey Shevelev
“O treinamento presencial em ML me ajudou a encontrar pessoas com ideias semelhantes, com quem pude aprofundar meus conhecimentos na área de aprendizado de máquina e análise de dados. Esta também é uma excelente opção para quem não tem muito tempo livre para analisar de forma independente e mergulhar no tema das competições, mas ainda quer estar no assunto.”

Junte-se a nós

As competições no Kaggle e outras plataformas aprimoram habilidades práticas e rapidamente se convertem em trabalhos interessantes no campo da ciência de dados. As pessoas que participaram juntas de uma competição difícil muitas vezes tornam-se colegas e continuam a resolver com sucesso problemas relacionados ao trabalho. Isso também aconteceu conosco: Mikhail Karchevsky, junto com um amigo da equipe, foi trabalhar para a mesma empresa por meio de um sistema de recomendação.

Com o tempo, pretendemos expandir esta atividade com publicações científicas e participação em conferências de machine learning. Junte-se a nós como participantes ou especialistas em Novosibirsk - escreva me ou Kirill. Organize treinamentos semelhantes em suas cidades e universidades.

Aqui está uma pequena folha de dicas para ajudá-lo a dar os primeiros passos:

  1. Considere um local e horário convenientes para aulas regulares. Idealmente - 1-2 vezes por semana.
  2. Escreva aos participantes potencialmente interessados ​​sobre a primeira reunião. Em primeiro lugar, são estudantes de universidades técnicas, participantes do ODS.
  3. Inicie um bate-papo para discutir assuntos atuais: Telegram, VK, WhatsApp ou qualquer outro mensageiro conveniente para a maioria.
  4. Mantenha um plano de aula acessível ao público, uma lista de competições e participantes e monitore os resultados.
  5. Encontre poder de computação gratuito ou bolsas para isso em universidades, institutos de pesquisa ou empresas próximas.
  6. LUCRO!

Fonte: www.habr.com

Adicionar um comentário