Premio que lleva el nombre de Ilya Segalovich. Una historia sobre informática y publicaciones de lanzamiento.

Premio que lleva el nombre de Ilya Segalovich. Una historia sobre informática y publicaciones de lanzamiento.

Hoy lanzamos un premio científico que lleva el nombre de Ilya Segalovich iseg. Se otorgará por logros en el campo de la informática. Estudiantes de pregrado y posgrado pueden presentar su propia solicitud para el premio o nombrar supervisores científicos. Los galardonados serán elegidos por representantes de la comunidad académica y de Yandex. Los principales criterios de selección: publicaciones y presentaciones en congresos, así como contribución al desarrollo de la comunidad.

La primera ceremonia de premiación tendrá lugar en abril. Como parte del premio, los jóvenes científicos recibirán 350 mil rublos y, además, podrán asistir a una conferencia internacional, trabajar con un mentor y realizar una pasantía en el departamento de investigación de Yandex. Los supervisores científicos recibirán 700 mil rublos.

Con motivo del lanzamiento del premio, decidimos hablar aquí en Habré sobre los criterios de éxito en el mundo de la informática. Algunos lectores de Habr ya están familiarizados con estos criterios, mientras que otros pueden tener una impresión errónea sobre ellos. Hoy cerraremos esta brecha: tocaremos todos los temas principales, incluidos artículos, conferencias, conjuntos de datos y la transferencia de ideas científicas a los servicios.

Para los científicos del campo de la informática, el principal criterio de éxito es la publicación de su trabajo científico en una de las principales conferencias internacionales. Este es el primer “punto de control” para reconocer el trabajo del investigador. Por ejemplo, en el campo del aprendizaje automático en general, se distinguen la Conferencia Internacional sobre Aprendizaje Automático (ICML) y la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS, antes NIPS). Hay muchas conferencias sobre áreas específicas del ML, como visión por computadora, recuperación de información, tecnología del habla, traducción automática, etc.

¿Por qué publicar tus ideas?

Las personas alejadas de la informática pueden tener la idea errónea de que es mejor mantener en secreto las ideas más valiosas y esforzarse por sacar provecho de su singularidad. Sin embargo, la situación real en nuestro campo es exactamente la contraria. La autoridad de un científico se juzga por la importancia de sus trabajos, por la frecuencia con la que otros científicos citan sus artículos (índice de citas). Ésta es una característica importante de su carrera. Un investigador asciende en la escala profesional y se vuelve más respetado en su comunidad, sólo si produce consistentemente un trabajo sólido que se publica, se vuelve famoso y constituye la base para el trabajo de otros científicos.

Muchos de los artículos destacados (quizás la mayoría) son el resultado de la colaboración entre investigadores de diferentes universidades y empresas de todo el mundo. Un momento importante y muy valioso en la carrera de un investigador es cuando tiene la oportunidad de encontrar y seleccionar ideas por sí mismo basándose en su experiencia, pero incluso después de esto, sus colegas continúan brindándole una ayuda invaluable. Los científicos se ayudan mutuamente a desarrollar ideas, escribir artículos en colaboración y cuanto mayor sea la contribución de un científico a la ciencia, más fácil le resultará encontrar personas con ideas afines.

Finalmente, la densidad y disponibilidad de información es ahora tan grande que diferentes investigadores presentan simultáneamente ideas científicas muy similares (y verdaderamente valiosas). Si no publica su idea, es casi seguro que otra persona la publicará por usted. El "ganador" a menudo no es el que ideó la innovación un poco antes, sino el que la publicó un poco antes. O el que logró revelar la idea de la manera más completa, clara y convincente posible.

Premio que lleva el nombre de Ilya Segalovich. Una historia sobre informática y publicaciones de lanzamiento.

Artículos y conjuntos de datos

Así, un artículo científico se construye en torno a la idea principal que propone el investigador. Esta idea es su contribución a la informática. El artículo comienza con una descripción de la idea, formulada en unas pocas frases. A esto le sigue una introducción que describe la gama de problemas resueltos con la ayuda de la innovación propuesta. La descripción y la introducción suelen estar escritas en un lenguaje sencillo que sea comprensible para una amplia audiencia. Tras la introducción, es necesario formalizar los problemas presentados en lenguaje matemático e introducir una notación estricta. Luego, utilizando las notaciones introducidas, es necesario crear una declaración clara y completa de la esencia de la innovación propuesta e identificar las diferencias con métodos similares anteriores. Todas las afirmaciones teóricas deben estar respaldadas por referencias a pruebas previamente recopiladas o demostradas de forma independiente. Esto se puede hacer con algunas suposiciones. Por ejemplo, puede dar una prueba para el caso en el que hay una cantidad infinita de datos de entrenamiento (una situación obviamente inalcanzable) o son completamente independientes entre sí. Hacia el final del artículo, el científico habla de los resultados experimentales que pudo obtener.

Premio que lleva el nombre de Ilya Segalovich. Una historia sobre informática y publicaciones de lanzamiento.

Para que los revisores reclutados por los organizadores de la conferencia tengan más probabilidades de aprobar un artículo, este debe tener uno o más atributos. Un factor clave que aumenta las posibilidades de aprobación es la novedad científica de la idea propuesta. A menudo, la novedad se evalúa en relación con ideas ya existentes, y el trabajo de evaluarla no lo realiza el revisor, sino el propio autor del artículo. Idealmente, el autor debería explicar en detalle en el artículo los métodos existentes y, si es posible, presentarlos como casos especiales de su método. Así, el científico demuestra que los enfoques aceptados no siempre funcionan, que los generalizó y propuso una formulación teórica más amplia, más flexible y por tanto más eficaz. Si la novedad es innegable, de lo contrario los revisores no evalúan el artículo con tanta precisión; por ejemplo, pueden hacer la vista gorda ante un inglés deficiente.

Para reforzar la novedad, es útil incluir una comparación con métodos existentes en uno o más conjuntos de datos. Cada uno de ellos debe ser abierto y aceptado en el entorno académico. Por ejemplo, existe el repositorio de imágenes ImageNet y las bases de datos de institutos como el Instituto Nacional Modificado de Estándares y Tecnología (MNIST) y el CIFAR (Instituto Canadiense de Investigación Avanzada). La dificultad es que un conjunto de datos “académicos” de este tipo a menudo difiere en su estructura de contenido de los datos reales con los que trata la industria. Diferentes datos significan diferentes resultados del método propuesto. Los científicos que trabajan parcialmente para la industria intentan tener esto en cuenta y a veces insertan advertencias como “en nuestros datos el resultado es tal o cual, pero en el conjunto de datos públicos, tal y cual”.

Sucede que el método propuesto está completamente "adaptado" a una base de datos abierta y no funciona con datos reales. Puede combatir este problema común abriendo conjuntos de datos nuevos y más representativos, pero a menudo hablamos de contenido privado que las empresas simplemente no tienen derecho a abrir. En algunos casos, llevan a cabo una anonimización (a veces compleja y minuciosa) de los datos: eliminan cualquier fragmento que apunte a una persona específica. Por ejemplo, las caras y los números de las fotografías se borran o se vuelven ilegibles. Además, para que el conjunto de datos no solo esté disponible para todos, sino que se convierta en un estándar entre los científicos en el que sea conveniente comparar ideas, es necesario no solo publicarlo, sino también escribir un artículo citado por separado sobre él y sus ventajas.

Es peor cuando no hay conjuntos de datos abiertos sobre el tema que se estudia. Entonces el revisor sólo puede aceptar los resultados presentados por el autor por fe. En teoría, el autor podría incluso sobreestimarlos y pasar desapercibidos, pero en el entorno académico esto es poco probable, ya que va en contra del deseo de la gran mayoría de los científicos de desarrollar la ciencia.

En varias áreas del aprendizaje automático, incluida la visión por computadora, también es común adjuntar enlaces al código (generalmente a GitHub) con artículos. Los artículos en sí contienen muy poco código o son pseudocódigo. Y aquí, nuevamente, surgen dificultades si el artículo lo escribe un investigador de una empresa y no de una universidad. De forma predeterminada, el código escrito en una corporación o startup se denomina NDA. Los investigadores y sus colegas tienen que trabajar duro para separar el código relacionado con la idea que se describe de los repositorios internos y ciertamente cerrados.

La posibilidad de publicación también depende de la relevancia del tema elegido. La relevancia viene dictada en gran medida por los productos y servicios: si una corporación o una startup está interesada en crear un nuevo servicio o mejorar uno existente basándose en una idea de un artículo, eso es una ventaja.

Premio que lleva el nombre de Ilya Segalovich. Una historia sobre informática y publicaciones de lanzamiento.

Como ya se mencionó, los artículos de informática rara vez se escriben solos. Pero, por regla general, uno de los autores dedica mucho más tiempo y esfuerzo que los demás. Su contribución a la novedad científica es la mayor. En la lista de autores, dicha persona se indica primero, y en el futuro, cuando se hace referencia a un artículo, solo se puede mencionar a él (por ejemplo, "Ivanov et al" - "Ivanov y otros" en la traducción del latín). Sin embargo, las contribuciones de otros también son extremadamente valiosas; de lo contrario, es imposible estar en la lista de autores.

Proceso de revisión

Los artículos suelen dejar de aceptarse varios meses antes de la conferencia. Una vez enviado un artículo, los revisores tienen entre 3 y 5 semanas para leerlo, evaluarlo y comentarlo. Esto ocurre según el sistema simple ciego, cuando los autores no ven los nombres de los revisores, o el doble ciego, cuando los propios revisores no ven los nombres de los autores. La segunda opción se considera más imparcial: varios artículos científicos han demostrado que la popularidad del autor influye en la decisión del revisor. Por ejemplo, puede considerar que un científico con un gran número de artículos ya publicados es a priori digno de una calificación más alta.

Además, incluso en el caso de doble ciego, el revisor probablemente adivinará el autor si trabaja en el mismo campo. Además, en el momento de la revisión, es posible que el artículo ya esté publicado en la base de datos arXiv, el mayor repositorio de artículos científicos. Los organizadores de la conferencia no lo prohíben, pero recomiendan usar un título diferente y un resumen diferente en las publicaciones para arXiv. Pero si el artículo se publicó allí, no será difícil encontrarlo de todos modos.

Siempre hay varios revisores evaluando un artículo. A uno de ellos se le asigna el rol de metarevisor, quien sólo debe revisar los veredictos de sus compañeros y tomar la decisión final. Si los revisores no están de acuerdo con el artículo, el metarrevisor también puede leerlo para verificar que esté completo.

A veces, después de revisar la calificación y los comentarios, el autor tiene la oportunidad de entablar una discusión con el revisor; incluso existe la posibilidad de convencerlo de que cambie su decisión (sin embargo, un sistema de este tipo no funciona para todas las conferencias y es aún menos posible influir seriamente en el veredicto). En la discusión no se puede hacer referencia a otros trabajos científicos, con excepción de aquellos ya referenciados en el artículo. Sólo puedes “ayudar” al revisor a comprender mejor el contenido del artículo.

Premio que lleva el nombre de Ilya Segalovich. Una historia sobre informática y publicaciones de lanzamiento.

Congresos y revistas

Los artículos de informática se envían con más frecuencia a congresos que a revistas científicas. Esto se debe a que las publicaciones de revistas tienen requisitos que son más difíciles de cumplir y el proceso de revisión por pares puede llevar meses o incluso años. La informática es un campo que evoluciona muy rápidamente, por lo que los autores no suelen estar dispuestos a esperar tanto tiempo para la publicación. Sin embargo, un artículo que ya haya sido aceptado para la conferencia puede complementarse (por ejemplo, presentando resultados más detallados) y publicarse en una revista donde las restricciones de espacio no sean tan estrictas.

Eventos en la conferencia

El formato de presencia de los autores de los artículos aprobados en el congreso lo determinan los revisores. Si el artículo recibe luz verde, lo más probable es que se le asigne un soporte para carteles. Un cartel es una diapositiva estática con un resumen del artículo e ilustraciones. Algunas salas de conferencias están llenas de largas filas de soportes para carteles. El autor pasa una parte importante de su tiempo cerca de su cartel, comunicándose con científicos interesados ​​en el artículo.

Premio que lleva el nombre de Ilya Segalovich. Una historia sobre informática y publicaciones de lanzamiento.

Premio que lleva el nombre de Ilya Segalovich. Una historia sobre informática y publicaciones de lanzamiento.

Una opción de participación un poco más prestigiosa es una charla relámpago. Si los revisores consideran que el artículo merece un informe rápido, el autor dispone de unos tres minutos para hablar ante una amplia audiencia. Por un lado, una charla relámpago es una buena oportunidad para contar tu idea no sólo a aquellos que se interesaron por el cartel por iniciativa propia. Por otro lado, los visitantes proactivos que publican carteles están más preparados y más inmersos en su tema específico que el oyente promedio en la sala. Por lo tanto, en un informe rápido, aún necesita tiempo para actualizar a las personas.

Premio que lleva el nombre de Ilya Segalovich. Una historia sobre informática y publicaciones de lanzamiento.

Por lo general, al final de su charla relámpago, los autores nombran el número del cartel para que los oyentes puedan encontrarlo y comprender mejor el artículo.

Premio que lleva el nombre de Ilya Segalovich. Una historia sobre informática y publicaciones de lanzamiento.

La última opción, la más prestigiosa, es un cartel más una presentación completa de la idea, cuando ya no es necesario apresurarse a contar la historia.

Premio que lleva el nombre de Ilya Segalovich. Una historia sobre informática y publicaciones de lanzamiento.

Pero, por supuesto, los científicos, incluidos los autores de artículos aprobados, no vienen a la próxima conferencia sólo para lucirse. En primer lugar, tienden a encontrar carteles relacionados con su campo por razones obvias. Y en segundo lugar, es importante que amplíen su lista de contactos con vistas a realizar trabajos académicos conjuntos en el futuro. No se trata de una caza, o al menos de su primera etapa, a la que sigue al menos un intercambio mutuamente beneficioso de ideas, desarrollos y trabajo conjunto sobre uno o más artículos.

Al mismo tiempo, es difícil establecer contactos productivos en una conferencia importante debido a la falta total de tiempo libre. Si después de un día entero de presentaciones y debates sobre carteles, el científico ha conservado sus fuerzas y ya ha superado el desfase horario, entonces acude a una de las muchas fiestas. Son organizados por corporaciones, por lo que las fiestas suelen tener un carácter más cazador. Al mismo tiempo, muchos invitados no los utilizan en absoluto para encontrar un nuevo trabajo, sino, nuevamente, para establecer contactos. Por la noche ya no hay informes ni carteles: es más fácil "atrapar" al especialista que le interesa.

Premio que lleva el nombre de Ilya Segalovich. Una historia sobre informática y publicaciones de lanzamiento.

De la idea a la producción

La informática es una de las pocas industrias donde los intereses de las corporaciones y las nuevas empresas están fuertemente vinculados al entorno académico. NIPS, ICML y otras conferencias similares atraen a mucha gente de la industria, no sólo de las universidades. Esto es típico del campo de la informática, pero viceversa en la mayoría de las demás ciencias.

Por otro lado, no todas las ideas presentadas en los artículos se destinan inmediatamente a crear o mejorar servicios. Incluso dentro de una misma empresa, un investigador puede proponer a sus colegas del servicio una idea innovadora según los estándares científicos y recibir la negativa a implementarla por varias razones. Uno de ellos ya se ha mencionado aquí: esta es la diferencia entre el conjunto de datos "académicos" sobre el cual se escribió el artículo y el conjunto de datos real. Además, la implementación de una idea puede retrasarse, requerir una gran cantidad de recursos o mejorar solo un indicador a costa de deteriorar otras métricas.

Premio que lleva el nombre de Ilya Segalovich. Una historia sobre informática y publicaciones de lanzamiento.

La situación se salva por el hecho de que muchos desarrolladores son un poco investigadores. Asisten a conferencias, hablan el mismo idioma con académicos, proponen ideas, a veces participan en la creación de artículos (por ejemplo, escribiendo código) o incluso actúan como autores. Si un desarrollador está inmerso en el proceso académico, sigue lo que sucede en el departamento de investigación, en una palabra, si demuestra un movimiento contrario hacia los científicos, entonces se acorta el ciclo de convertir ideas científicas en nuevas capacidades de servicio.

Deseamos a todos los jóvenes investigadores mucha suerte y grandes logros en su trabajo. Si esta publicación no le dijo nada nuevo, es posible que ya haya publicado en una de las principales conferencias. Regístrese para el premio usted mismo y designe supervisores científicos.

Fuente: habr.com

Añadir un comentario