Prêmio em homenagem a Ilya Segalovich. Uma história sobre ciência da computação e publicações de lançamento

Prêmio em homenagem a Ilya Segalovich. Uma história sobre ciência da computação e publicações de lançamento

Hoje estamos lançando um prêmio científico com o nome de Ilya Segalovich iseg. Será concedido por conquistas na área de ciência da computação. Alunos de graduação e pós-graduação podem enviar sua própria inscrição para o prêmio ou nomear supervisores científicos. Os laureados serão escolhidos por representantes da comunidade acadêmica e da Yandex. Os principais critérios de seleção: publicações e apresentações em congressos, bem como contribuição para o desenvolvimento da comunidade.

A primeira cerimônia de premiação acontecerá em abril. Como parte do prêmio, jovens cientistas receberão 350 mil rublos e, além disso, poderão participar de uma conferência internacional, trabalhar com um mentor e fazer um estágio no departamento de pesquisa da Yandex. Os supervisores científicos receberão 700 mil rublos.

Por ocasião do lançamento do prêmio, decidimos falar aqui no Habré sobre os critérios de sucesso no mundo da informática. Alguns leitores de Habr já estão familiarizados com estes critérios, enquanto outros podem ter uma falsa impressão sobre eles. Hoje iremos colmatar esta lacuna – abordaremos todos os tópicos principais, incluindo artigos, conferências, conjuntos de dados e a transferência de ideias científicas para serviços.

Para os cientistas da área da informática, o principal critério de sucesso é a publicação do seu trabalho científico numa das principais conferências internacionais. Este é o primeiro “ponto de verificação” de reconhecimento do trabalho do pesquisador. Por exemplo, no campo do aprendizado de máquina em geral, destacam-se a Conferência Internacional sobre Aprendizado de Máquina (ICML) e a Conferência sobre Sistemas de Processamento de Informação Neural (NeurIPS, antigo NIPS). Existem muitas conferências em áreas específicas de ML, como visão computacional, recuperação de informação, tecnologia de fala, tradução automática, etc.

Por que publicar suas ideias

Pessoas que estão longe da ciência da computação podem ter a ideia errada de que é melhor manter em segredo as ideias mais valiosas e se esforçar para lucrar com sua singularidade. No entanto, a situação real no nosso campo é exatamente oposta. A autoridade de um cientista é julgada pela importância de seus trabalhos, pela frequência com que seus artigos são citados por outros cientistas (índice de citação). Esta é uma característica importante de sua carreira. Um pesquisador sobe na carreira profissional, tornando-se mais respeitado em sua comunidade, somente se produzir consistentemente um trabalho forte que seja publicado, se torne famoso e forme a base para o trabalho de outros cientistas.

Muitos artigos importantes (talvez a maioria) são o resultado da colaboração entre pesquisadores de diferentes universidades e empresas ao redor do mundo. Um momento importante e muito valioso na carreira de um pesquisador é quando ele tem a oportunidade de encontrar e peneirar ideias por conta própria com base em sua experiência - mas mesmo depois disso, seus colegas continuam a lhe fornecer uma ajuda inestimável. Os cientistas ajudam-se mutuamente a desenvolver ideias, escrevem artigos em colaboração - e quanto maior for a contribuição de um cientista para a ciência, mais fácil será para ele encontrar pessoas com ideias semelhantes.

Finalmente, a densidade e a disponibilidade de informação são agora tão grandes que diferentes investigadores apresentam simultaneamente ideias científicas muito semelhantes (e verdadeiramente valiosas). Se você não publicar sua ideia, é quase certo que outra pessoa a publicará para você. O “vencedor” muitas vezes não é aquele que apresentou a inovação um pouco antes, mas sim aquele que a publicou um pouco antes. Ou - aquele que conseguiu revelar a ideia da forma mais completa, clara e convincente possível.

Prêmio em homenagem a Ilya Segalovich. Uma história sobre ciência da computação e publicações de lançamento

Artigos e conjuntos de dados

Assim, um artigo científico é construído em torno da ideia principal que o pesquisador propõe. Essa ideia é sua contribuição para a ciência da computação. O artigo começa com uma descrição da ideia, formulada em poucas frases. Segue-se uma introdução que descreve a gama de problemas resolvidos com a ajuda da inovação proposta. A descrição e a introdução são geralmente escritas em linguagem simples e compreensível para um público amplo. Após a introdução, é necessário formalizar os problemas apresentados em linguagem matemática e introduzir notação estrita. Então, usando as notações introduzidas, você precisa criar uma declaração clara e abrangente da essência da inovação proposta e identificar as diferenças em relação aos métodos anteriores semelhantes. Todas as afirmações teóricas devem ser apoiadas por referências a evidências previamente compiladas ou comprovadas de forma independente. Isso pode ser feito com algumas suposições. Por exemplo, você pode fornecer uma prova para o caso em que há uma quantidade infinita de dados de treinamento (uma situação obviamente inatingível) ou eles são completamente independentes um do outro. No final do artigo, o cientista fala sobre os resultados experimentais que conseguiu obter.

Prêmio em homenagem a Ilya Segalovich. Uma história sobre ciência da computação e publicações de lançamento

Para que os revisores recrutados pelos organizadores da conferência tenham maior probabilidade de aprovar um artigo, ele deve ter um ou mais atributos. Um fator chave que aumenta as chances de aprovação é a novidade científica da ideia proposta. Muitas vezes, a novidade é avaliada em relação a ideias já existentes – e o trabalho de avaliação não é feito pelo revisor, mas pelo próprio autor do artigo. O ideal é que o autor descreva detalhadamente no artigo os métodos existentes e, se possível, apresente-os como casos especiais de seu método. Assim, o cientista mostra que as abordagens aceitas nem sempre funcionam, que as generalizou e propôs uma formulação teórica mais ampla, mais flexível e, portanto, mais eficaz. Se a novidade for inegável, caso contrário, os revisores avaliarão o artigo de maneira não tão exigente - por exemplo, eles podem fechar os olhos ao inglês ruim.

Para reforçar a novidade, é útil incluir uma comparação com métodos existentes num ou mais conjuntos de dados. Cada um deles deve ser aberto e aceito no ambiente acadêmico. Por exemplo, existe o repositório de imagens ImageNet e bancos de dados de institutos como o Instituto Nacional Modificado de Padrões e Tecnologia (MNIST) e o CIFAR (Instituto Canadense de Pesquisa Avançada). A dificuldade é que esse conjunto de dados “acadêmico” muitas vezes difere na estrutura do conteúdo dos dados reais com os quais a indústria lida. Dados diferentes significam resultados diferentes do método proposto. Os cientistas que trabalham parcialmente para a indústria tentam ter isto em conta e por vezes inserem isenções de responsabilidade como “nos nossos dados o resultado é tal e tal, mas no conjunto de dados público – tal e tal”.

Acontece que o método proposto é totalmente “adaptado” a uma base de dados aberta e não funciona em dados reais. É possível combater este problema comum abrindo novos conjuntos de dados mais representativos, mas muitas vezes estamos a falar de conteúdo privado que as empresas simplesmente não têm o direito de abrir. Em alguns casos, eles realizam a anonimização (às vezes complexa e meticulosa) dos dados - removem quaisquer fragmentos que apontem para uma pessoa específica. Por exemplo, rostos e números em fotografias são apagados ou tornados ilegíveis. Além disso, para que o conjunto de dados não apenas esteja disponível para todos, mas se torne um padrão entre os cientistas sobre o qual seja conveniente comparar ideias, é necessário não apenas publicá-lo, mas também escrever um artigo citado separado sobre isso e suas vantagens.

É pior quando não há conjuntos de dados abertos no tópico em estudo. Então o revisor só poderá aceitar os resultados apresentados pelo autor com base na fé. Teoricamente, o autor poderia até superestimá-los e passar despercebido, mas no ambiente acadêmico isso é improvável, pois vai contra o desejo da grande maioria dos cientistas de desenvolver a ciência.

Em diversas áreas do ML, incluindo visão computacional, também é comum anexar links ao código (geralmente para o GitHub) com artigos. Os próprios artigos contêm muito pouco código ou são pseudocódigo. E aqui, novamente, surgem dificuldades se o artigo for escrito por um pesquisador de uma empresa, e não de uma universidade. Por padrão, o código escrito em uma empresa ou startup é rotulado como NDA. Os pesquisadores e seus colegas têm que trabalhar duro para separar o código relacionado à ideia que está sendo descrita dos repositórios internos e certamente fechados.

A chance de publicação também depende da relevância do tema escolhido. A relevância é amplamente ditada por produtos e serviços: se uma empresa ou startup estiver interessada em construir um novo serviço ou melhorar um existente com base na ideia de um artigo, isso é uma vantagem.

Prêmio em homenagem a Ilya Segalovich. Uma história sobre ciência da computação e publicações de lançamento

Como já mencionado, os artigos de ciência da computação raramente são escritos sozinhos. Mas, via de regra, um dos autores despende muito mais tempo e esforço do que os outros. Sua contribuição para a novidade científica é a maior. Na lista de autores, tal pessoa é indicada primeiro - e no futuro, ao se referir a um artigo, só poderá mencioná-la (por exemplo, “Ivanov et al” - “Ivanov e outros” traduzido do latim). No entanto, as contribuições de outros também são extremamente valiosas – caso contrário, é impossível estar na lista de autores.

Processo de revisão

Os artigos geralmente deixam de ser aceitos vários meses antes da conferência. Depois que um artigo é enviado, os revisores têm de 3 a 5 semanas para lê-lo, avaliá-lo e comentá-lo. Isso ocorre segundo o sistema single blind, quando os autores não veem os nomes dos revisores, ou double blind, quando os próprios revisores não veem os nomes dos autores. A segunda opção é considerada mais imparcial: diversos artigos científicos mostram que a popularidade do autor influencia a decisão do revisor. Por exemplo, ele pode considerar que um cientista com um grande número de artigos já publicados é a priori digno de uma classificação mais elevada.

Além disso, mesmo no caso do duplo-cego, o revisor provavelmente adivinhará o autor se trabalhar na mesma área. Além disso, no momento da revisão, o artigo já pode estar publicado na base de dados arXiv, maior repositório de artigos científicos. Os organizadores da conferência não proíbem isso, mas recomendam o uso de um título e um resumo diferentes nas publicações do arXiv. Mas se o artigo foi postado lá, ainda não será difícil encontrá-lo.

Sempre há vários revisores avaliando um artigo. A um deles é atribuída a função de meta-revisor, que deve apenas revisar os veredictos de seus colegas e tomar a decisão final. Se os revisores discordarem sobre o artigo, o meta-revisor também poderá lê-lo para ver se está completo.

Às vezes, após revisar a classificação e os comentários, o autor tem a oportunidade de iniciar uma discussão com o revisor; existe até uma oportunidade de convencê-lo a mudar a sua decisão (no entanto, tal sistema não funciona para todas as conferências e é ainda menos possível influenciar seriamente o veredicto). Na discussão não se pode fazer referência a outros trabalhos científicos, com exceção daqueles já referenciados no artigo. Você só pode “ajudar” o revisor a entender melhor o conteúdo do artigo.

Prêmio em homenagem a Ilya Segalovich. Uma história sobre ciência da computação e publicações de lançamento

Conferências e revistas

Artigos de ciência da computação são submetidos com mais frequência para conferências do que para revistas científicas. Isso ocorre porque as publicações em periódicos têm requisitos mais difíceis de atender e o processo de revisão por pares pode levar meses ou até anos. A ciência da computação é um campo em rápida evolução, por isso os autores geralmente não estão dispostos a esperar tanto tempo pela publicação. No entanto, um artigo já aceite para a conferência pode então ser complementado (por exemplo, apresentando resultados mais detalhados) e publicado numa revista onde as restrições de espaço não sejam tão rigorosas.

Eventos na conferência

O formato de presença dos autores dos artigos aprovados no congresso é determinado pelos revisores. Se o artigo receber luz verde, na maioria das vezes você receberá um estande de pôster. Um pôster é um slide estático com um resumo do artigo e ilustrações. Algumas salas de conferência estão repletas de longas fileiras de estandes de cartazes. O autor passa grande parte do tempo próximo ao pôster, comunicando-se com cientistas interessados ​​​​no artigo.

Prêmio em homenagem a Ilya Segalovich. Uma história sobre ciência da computação e publicações de lançamento

Prêmio em homenagem a Ilya Segalovich. Uma história sobre ciência da computação e publicações de lançamento

Uma opção de participação um pouco mais prestigiada é uma palestra relâmpago. Se os revisores considerarem o artigo digno de um relatório rápido, o autor terá cerca de três minutos para falar para um público amplo. Por um lado, uma palestra relâmpago é uma boa oportunidade para contar a sua ideia não apenas para quem se interessou pelo cartaz por iniciativa própria. Por outro lado, os visitantes proativos dos cartazes estão mais preparados e mais imersos no seu tópico específico do que o ouvinte médio na sala. Portanto, em um relatório rápido, você ainda precisa de tempo para atualizar as pessoas.

Prêmio em homenagem a Ilya Segalovich. Uma história sobre ciência da computação e publicações de lançamento

Normalmente, ao final de sua palestra relâmpago, os autores nomeiam o número do pôster para que os ouvintes possam localizá-lo e compreender melhor o artigo.

Prêmio em homenagem a Ilya Segalovich. Uma história sobre ciência da computação e publicações de lançamento

A última e mais prestigiada opção é um pôster mais uma apresentação completa da ideia, quando não há mais pressa para contar a história.

Prêmio em homenagem a Ilya Segalovich. Uma história sobre ciência da computação e publicações de lançamento

Mas é claro que os cientistas – incluindo os autores dos artigos aprovados – vêm à próxima conferência não apenas para se exibirem. Primeiro, eles tendem a encontrar pôsteres relacionados à sua área por motivos óbvios. E em segundo lugar, é importante que alarguem a sua lista de contactos para efeitos de trabalhos académicos conjuntos no futuro. Isto não é uma caça - ou, pelo menos, a sua primeira fase, que é pelo menos seguida por uma troca mutuamente benéfica de ideias, desenvolvimentos e trabalho conjunto em um ou mais artigos.

Ao mesmo tempo, o networking produtivo numa conferência de topo é difícil devido à total falta de tempo livre. Se, depois de um dia inteiro de apresentações e discussões em cartazes, o cientista manteve as forças e já superou o jet lag, então ele vai a uma das muitas festas. Eles são organizados por empresas - como resultado, as festas costumam ter um caráter mais caçador. Ao mesmo tempo, muitos convidados os utilizam não para encontrar um novo emprego, mas, novamente, para networking. À noite não há mais reportagens e cartazes - é mais fácil “pegar” o especialista de seu interesse.

Prêmio em homenagem a Ilya Segalovich. Uma história sobre ciência da computação e publicações de lançamento

Da ideia à produção

A ciência da computação é uma das poucas indústrias onde os interesses das corporações e startups estão fortemente ligados ao ambiente acadêmico. NIPS, ICML e outras conferências semelhantes atraem muitas pessoas da indústria, não apenas das universidades. Isso é típico do campo da ciência da computação, mas vice-versa para a maioria das outras ciências.

Por outro lado, nem todas as ideias apresentadas nos artigos vão imediatamente para a criação ou melhoria de serviços. Mesmo dentro de uma empresa, um pesquisador pode propor aos colegas do serviço uma ideia que seja inovadora para os padrões científicos e ser recusado em implementá-la por uma série de razões. Um deles já foi mencionado aqui - é a diferença entre o conjunto de dados “acadêmicos” sobre o qual o artigo foi escrito e o conjunto de dados real. Além disso, a implementação de uma ideia pode atrasar, exigir uma grande quantidade de recursos ou melhorar apenas um indicador ao custo da deterioração de outras métricas.

Prêmio em homenagem a Ilya Segalovich. Uma história sobre ciência da computação e publicações de lançamento

A situação é salva pelo fato de muitos desenvolvedores serem eles próprios um pouco pesquisadores. Eles participam de conferências, falam a mesma língua com acadêmicos, propõem ideias, às vezes participam da criação de artigos (por exemplo, escrevendo códigos) ou até mesmo atuam como autores. Se um desenvolvedor está imerso no processo acadêmico, acompanha o que está acontecendo no departamento de pesquisa, enfim - se ele demonstra um contra-movimento em relação aos cientistas, então o ciclo de transformação de ideias científicas em novas capacidades de serviço é encurtado.

Desejamos a todos os jovens investigadores boa sorte e grandes realizações no seu trabalho. Se esta postagem não trouxe nada de novo, então você já pode ter publicado em uma conferência importante. Registrar para o prêmio você mesmo e nomear supervisores científicos.

Fonte: habr.com

Adicionar um comentário