Premio que leva o nome de Ilya Segalovich. Unha historia sobre informática e lanzamento de publicacións

Premio que leva o nome de Ilya Segalovich. Unha historia sobre informática e lanzamento de publicacións

Hoxe lanzamos un premio científico que leva o nome de Ilya Segalovich iseg. Concederase por logros no campo da informática. Estudantes de grao e posgrao poden presentar a súa propia solicitude para o premio ou nomear supervisores científicos. Os laureados serán elixidos por representantes da comunidade académica e Yandex. Os principais criterios de selección: publicacións e presentacións en congresos, así como contribución ao desenvolvemento da comunidade.

A primeira entrega de premios terá lugar no mes de abril. Como parte do premio, os mozos científicos recibirán 350 mil rublos e, ademais, poderán ir a unha conferencia internacional, traballar cun mentor e realizar prácticas no departamento de investigación de Yandex. Os supervisores científicos recibirán 700 mil rublos.

Con motivo da posta en marcha do premio, decidimos falar aquí en Habré dos criterios de éxito no mundo da informática. Algúns lectores de Habr xa están familiarizados con estes criterios, mentres que outros poden ter unha impresión falsa sobre eles. Hoxe imos salvar esta brecha: tocaremos todos os temas principais, incluíndo artigos, conferencias, conxuntos de datos e transferencia de ideas científicas a servizos.

Para os científicos do campo da informática, o principal criterio de éxito é a publicación do seu traballo científico nun dos principais congresos internacionais. Este é o primeiro "punto de control" para recoñecer o traballo do investigador. Por exemplo, no ámbito da aprendizaxe automática en xeral, distínguense a International Conference on Machine Learning (ICML) e a Conference on Neural Information Processing Systems (NeurIPS, antes NIPS). Hai moitas conferencias sobre áreas específicas do ML, como visión por ordenador, recuperación de información, tecnoloxía da fala, tradución automática, etc.

Por que publicar as túas ideas

As persoas que están lonxe da informática poden ter a idea errónea de que é mellor manter en segredo as ideas máis valiosas e esforzarse por sacar proveito da súa singularidade. Porén, a situación real no noso campo é exactamente a contraria. A autoridade dun científico xulgase pola importancia dos seus traballos, pola frecuencia coa que outros científicos citan os seus artigos (índice de citas). Esta é unha característica importante da súa carreira. Un investigador ascende na escaleira profesional, sendo máis respectado na súa comunidade, só se produce de forma consistente un traballo forte que se publica, se fai famoso e constitúe a base para o traballo doutros científicos.

Moitos artigos destacados (quizais a maioría) son o resultado da colaboración entre investigadores de diferentes universidades e empresas de todo o mundo. Un momento importante e moi valioso na carreira dun investigador é cando ten a oportunidade de atopar e peneirar ideas por conta propia a partir da súa experiencia, pero aínda despois, os seus colegas seguen proporcionándolle unha axuda inestimable. Os científicos axúdanse mutuamente a desenvolver ideas, escriben artigos en colaboración, e canto maior sexa a contribución do científico á ciencia, máis doado lle resultará atopar persoas con ideas afines.

Finalmente, a densidade e dispoñibilidade de información é agora tan grande que diferentes investigadores simultaneamente veñen con ideas científicas moi similares (e verdadeiramente valiosas). Se non publicas a túa idea, case seguramente alguén a publicará por ti. O "gañador" moitas veces non é quen chegou coa innovación un pouco antes, senón quen a publicou un pouco antes. Ou - o que conseguiu revelar a idea da forma máis completa, clara e convincente posible.

Premio que leva o nome de Ilya Segalovich. Unha historia sobre informática e lanzamento de publicacións

Artigos e conxuntos de datos

Así, un artigo científico constrúese arredor da idea principal que propón o investigador. Esta idea é a súa contribución á informática. O artigo comeza cunha descrición da idea, formulada en poucas frases. A continuación, unha introdución que describe a gama de problemas resoltos coa axuda da innovación proposta. A descrición e introdución adoitan escribirse nunha linguaxe sinxela e comprensible para un amplo público. Despois da introdución, é necesario formalizar os problemas presentados en linguaxe matemática e introducir a notación estrita. Despois, utilizando as notacións introducidas, cómpre crear unha declaración clara e completa da esencia da innovación proposta e identificar as diferenzas con métodos similares anteriores. Todas as afirmacións teóricas deben estar apoiadas por referencias a evidencias compiladas previamente ou probadas de forma independente. Isto pódese facer con algunhas suposicións. Por exemplo, podes dar unha proba para o caso en que hai unha cantidade infinita de datos de adestramento (unha situación obviamente inalcanzable) ou son completamente independentes entre si. Cara ao final do artigo, o científico fala dos resultados experimentais que puido obter.

Premio que leva o nome de Ilya Segalovich. Unha historia sobre informática e lanzamento de publicacións

Para que os revisores contratados polos organizadores da conferencia teñan máis probabilidades de aprobar un traballo, este debe ter un ou máis atributos. Un factor clave que aumenta as posibilidades de aprobación é a novidade científica da idea proposta. Moitas veces, a novidade avalíase en relación coas ideas xa existentes, e o traballo de avaliación non o realiza o revisor, senón o propio autor do artigo. Idealmente, o autor debería contar en detalle no artigo sobre os métodos existentes e, se é posible, presentalos como casos especiais do seu método. Así, o científico demostra que os enfoques aceptados non sempre funcionan, que os xeneralizou e propuxo unha formulación teórica máis ampla, flexible e, polo tanto, máis eficaz. Se a novidade é innegable, se non, os revisores avalían o artigo de forma non tan esixente; por exemplo, poden facer a vista gorda ante un inglés pobre.

Para reforzar a novidade, é útil incluír unha comparación cos métodos existentes nun ou máis conxuntos de datos. Cada un deles debe ser aberto e aceptado no ámbito académico. Por exemplo, está o repositorio de imaxes ImageNet e as bases de datos de institutos como o Instituto Nacional Modificado de Estándares e Tecnoloxía (MNIST) e o CIFAR (Instituto Canadiense de Investigación Avanzada). A dificultade é que un conxunto de datos tan "académico" adoita diferir na estrutura do contido dos datos reais cos que trata a industria. Datos diferentes significan resultados diferentes do método proposto. Os científicos que traballan parcialmente para a industria tratan de telo en conta e ás veces introducen exencións de responsabilidade como "nos nosos datos o resultado é tal e tal, pero no conxunto de datos públicos, tal e tal".

Ocorre que o método proposto está completamente "adaptado" a unha base de datos aberta e non funciona con datos reais. Podes combater este problema común abrindo novos conxuntos de datos máis representativos, pero moitas veces estamos a falar de contido privado que as empresas simplemente non teñen dereito a abrir. Nalgúns casos, realizan (ás veces complexa e minuciosa) a anonimización dos datos: eliminan os fragmentos que apunten a unha persoa específica. Por exemplo, as caras e os números das fotografías bórranse ou fanse ilexíbeis. Ademais, para que o conxunto de datos non só estea dispoñible para todos, senón que se converta nun estándar entre os científicos no que sexa conveniente comparar ideas, é necesario non só publicalo, senón tamén escribir un artigo citado por separado sobre el e as súas vantaxes.

É peor cando non hai conxuntos de datos abertos no tema que se estuda. Entón o revisor só pode aceptar os resultados presentados polo autor sobre a fe. Teoricamente, o autor podería incluso sobrevaloralos e permanecer sen ser detectado, pero nun ambiente académico isto é pouco probable, xa que vai en contra do desexo da gran maioría dos científicos de desenvolver a ciencia.

Nunha serie de áreas de ML, incluída a visión por ordenador, tamén é común engadir ligazóns ao código (xeralmente a GitHub) con artigos. Os artigos en si conteñen moi pouco código ou son pseudocódigo. E aquí, de novo, xorden dificultades se o artigo está escrito por un investigador dunha empresa, e non dunha universidade. De forma predeterminada, o código escrito nunha corporación ou startup é etiquetado como NDA. Os investigadores e os seus colegas teñen que traballar duro para separar o código relacionado coa idea que se describe dos repositorios internos e certamente pechados.

A posibilidade de publicación tamén depende da relevancia do tema elixido. A relevancia vén ditada en gran medida polos produtos e servizos: se unha corporación ou startup está interesada en construír un servizo novo ou mellorar un xa existente a partir dunha idea dun artigo, iso é un plus.

Premio que leva o nome de Ilya Segalovich. Unha historia sobre informática e lanzamento de publicacións

Como xa se mencionou, os traballos de informática raramente se escriben sós. Pero, por regra xeral, un dos autores dedica moito máis tempo e esforzo que os outros. A súa contribución á novidade científica é a maior. Na lista de autores, indícase primeiro tal persoa e, no futuro, cando se refire a un artigo, só poden mencionalo (por exemplo, "Ivanov et al" - "Ivanov e outros" traducido do latín). Non obstante, as contribucións doutros tamén son moi valiosas; se non, é imposible estar na lista de autores.

Proceso de revisión

Os traballos normalmente deixan de ser aceptados varios meses antes da conferencia. Unha vez enviado un artigo, os revisores teñen de 3 a 5 semanas para lelo, avalialo e comentalo. Isto ocorre segundo o sistema single blind, cando os autores non ven os nomes dos revisores, ou o dobre cego, cando os propios revisores non ven os nomes dos autores. A segunda opción considérase máis imparcial: varios traballos científicos demostraron que a popularidade do autor inflúe na decisión do revisor. Por exemplo, pode considerar que un científico cunha gran cantidade de artigos xa publicados é a priori digno dunha valoración superior.

Ademais, mesmo no caso do dobre cego, o revisor probablemente adiviñe o autor se traballa no mesmo campo. Ademais, no momento da revisión, o artigo pode estar xa publicado na base de datos arXiv, o maior repositorio de artigos científicos. Os organizadores da conferencia non o prohiben, pero recomendan usar un título diferente e un resumo diferente nas publicacións para arXiv. Pero se o artigo foi publicado alí, aínda non será difícil atopalo.

Sempre hai varios revisores que avalían un artigo. A un deles asígnaselle o papel de meta-revisor, que só debe revisar os veredictos dos seus compañeiros e tomar a decisión final. Se os revisores non están de acordo co artigo, o meta-revisor tamén pode lelo para completar.

Ás veces, despois de revisar a valoración e os comentarios, o autor ten a oportunidade de entrar en discusión co revisor; incluso hai unha oportunidade de convencelo de que cambie a súa decisión (sen embargo, tal sistema non funciona para todas as conferencias, e aínda é menos posible influír seriamente no veredicto). Na discusión, non se pode facer referencia a outros traballos científicos, con excepción dos xa referenciados no artigo. Só podes "axudar" ao revisor a comprender mellor o contido do artigo.

Premio que leva o nome de Ilya Segalovich. Unha historia sobre informática e lanzamento de publicacións

Conferencias e revistas

Os artigos de informática envíanse máis a miúdo a congresos que a revistas científicas. Isto débese a que as publicacións de revistas teñen requisitos que son máis difíciles de cumprir e o proceso de revisión por pares pode levar meses ou mesmo anos. A informática é un campo moi rápido, polo que os autores normalmente non están dispostos a esperar tanto tempo para a súa publicación. Porén, un artigo que xa foi aceptado para a conferencia pódese completar (por exemplo, presentando resultados máis detallados) e publicado nunha revista onde as restricións de espazo non sexan tan estritas.

Eventos na conferencia

O formato para a presenza dos autores dos artigos aprobados na conferencia está determinado polos revisores. Se o artigo recibe luz verde, a maioría das veces se lle asigna un posto de carteis. Un cartel é unha diapositiva estática cun resumo do artigo e ilustracións. Algunhas salas de conferencias están cheas de longas filas de postos de carteis. O autor pasa unha parte importante do seu tempo preto do seu cartel, comunicándose cos científicos que están interesados ​​no artigo.

Premio que leva o nome de Ilya Segalovich. Unha historia sobre informática e lanzamento de publicacións

Premio que leva o nome de Ilya Segalovich. Unha historia sobre informática e lanzamento de publicacións

Unha opción de participación un pouco máis prestixiosa é unha charla lóstrego. Se os revisores consideran que o artigo merece un informe rápido, o autor dispón duns tres minutos para falar cun amplo público. Por unha banda, unha charla lóstrego é unha boa oportunidade para contar a túa idea non só a aqueles que se interesaron polo cartel pola súa propia iniciativa. Por outra banda, os visitantes proactivos do cartel están máis preparados e están máis inmersos no teu tema específico que o oínte medio no salón. Polo tanto, nun informe rápido, aínda cómpre ter tempo para poñer ao día á xente.

Premio que leva o nome de Ilya Segalovich. Unha historia sobre informática e lanzamento de publicacións

Normalmente, ao final da súa charla lóstrego, os autores nomean o número do cartel para que os oíntes poidan atopalo e comprender mellor o artigo.

Premio que leva o nome de Ilya Segalovich. Unha historia sobre informática e lanzamento de publicacións

A última opción, máis prestixiosa, é un cartel máis unha presentación completa da idea, cando xa non hai que apresurarse a contar a historia.

Premio que leva o nome de Ilya Segalovich. Unha historia sobre informática e lanzamento de publicacións

Pero, por suposto, os científicos, incluídos os autores de artigos aprobados, veñen á próxima conferencia non só para presumir. En primeiro lugar, adoitan atopar carteis relacionados co seu campo por razóns obvias. E en segundo lugar, é importante que amplíen a súa lista de contactos coa finalidade dun traballo académico conxunto no futuro. Non se trata de caza, nin, polo menos, da súa primeira etapa, que é seguida polo menos dun intercambio mutuamente beneficioso de ideas, desenvolvementos e traballo conxunto sobre un ou varios artigos.

Ao mesmo tempo, o traballo en rede produtivo nunha conferencia superior é difícil debido á falta total de tempo libre. Se, despois de todo un día dedicado a presentacións e discusións en carteis, o científico conservou forzas e xa superou o jet lag, entón vai a unha das moitas festas. Están aloxados por corporacións; como resultado, as festas adoitan ter un carácter máis cazador. Ao mesmo tempo, moitos hóspedes non os usan para atopar un novo traballo, senón, de novo, para facer redes. Á noite non hai máis informes e carteis: é máis fácil "captar" ao especialista que che interesa.

Premio que leva o nome de Ilya Segalovich. Unha historia sobre informática e lanzamento de publicacións

Da idea á produción

A informática é unha das poucas industrias onde os intereses das corporacións e startups están fortemente ligados ao ámbito académico. NIPS, ICML e outras conferencias similares atraen a moita xente da industria, non só das universidades. Isto é típico para o campo da informática, pero viceversa para a maioría das outras ciencias.

Por outra banda, non todas as ideas que se presentan nos artigos van directamente á creación ou mellora dos servizos. Incluso dentro dunha empresa, un investigador pode propoñer aos compañeiros do servizo unha idea que está a ser un avance para os estándares científicos e recibir a negativa a implementala por varias razóns. Un deles xa se mencionou aquí: esta é a diferenza entre o conxunto de datos "académicos" no que se escribiu o artigo e o conxunto de datos reais. Ademais, a implementación dunha idea pode atrasarse, requirir unha gran cantidade de recursos ou mellorar só un indicador a costa de deteriorar outras métricas.

Premio que leva o nome de Ilya Segalovich. Unha historia sobre informática e lanzamento de publicacións

A situación é salvada polo feito de que moitos desenvolvedores son un pouco investigadores. Asisten a congresos, falan o mesmo idioma cos académicos, propoñen ideas, participan en ocasións na creación de artigos (por exemplo, escribindo código), ou mesmo actúan como propios autores. Se un desenvolvedor está inmerso no proceso académico, segue o que está a suceder no departamento de investigación, nunha palabra, se demostra un movemento contrario cara aos científicos, entón o ciclo de transformación de ideas científicas en novas capacidades de servizo acúrtase.

Desexamos a todos os novos investigadores moita sorte e grandes logros no seu traballo. Se esta publicación non che dixo nada novo, é posible que xa o publicaches nunha conferencia principal. Rexístrate para premio ti mesmo e nomea supervisores científicos.

Fonte: www.habr.com

Engadir un comentario