Prix ​​nommé d'après Ilya Segalovich. Une histoire sur l'informatique et des publications à l'occasion du lancement

Prix ​​nommé d'après Ilya Segalovich. Une histoire sur l'informatique et des publications à l'occasion du lancement

Aujourd'hui, nous lançons le prix scientifique Ilya Segalovich iseg. Il sera décerné pour des réalisations dans le domaine de l'informatique. Étudiants de premier cycle et des cycles supérieurs peuvent soumettre leur propre candidature pour le prix ou nommer des directeurs de recherche. Les gagnants seront sélectionnés par des représentants de la communauté universitaire et de Yandex. Les principaux critères de sélection : la présence de publications et de présentations lors de conférences, ainsi que la contribution au développement de la communauté.

Le premier prix aura lieu en avril. Dans le cadre de ce prix, les jeunes scientifiques recevront chacun 350 700 roubles et pourront en outre assister à une conférence internationale, travailler avec un mentor et effectuer un stage au département de recherche de Yandex. Les superviseurs scientifiques recevront chacun XNUMX XNUMX roubles.

A l'occasion du lancement du prix, nous avons décidé de parler ici sur Habré des critères de réussite dans le monde de l'informatique. Certains des lecteurs de Habr connaissent déjà ces critères, tandis que les autres pourraient en avoir une mauvaise impression. Aujourd'hui, nous allons combler ce fossé - nous aborderons tous les sujets principaux, y compris les articles, les conférences, les ensembles de données et le transfert d'idées scientifiques aux services.

Pour les scientifiques du domaine de l'informatique, le principal critère de réussite est la publication de leurs travaux scientifiques dans l'une des plus grandes conférences internationales. C'est le premier "point de contrôle" de la reconnaissance du travail du chercheur. Par exemple, dans le domaine de l'apprentissage automatique en général, on distingue l'International Conference on Machine Learning (ICML) et la Conference on Neural Information Processing Systems (NeurIPS, anciennement NIPS). Il existe de nombreuses conférences sur des domaines spécifiques du ML, tels que la vision par ordinateur, la recherche d'informations, la technologie de la parole, la traduction automatique, etc.

Pourquoi publier vos idées

Les personnes éloignées de l'informatique peuvent avoir l'illusion qu'il vaut mieux garder secrètes les idées les plus précieuses et s'efforcer de tirer parti de leur caractère unique. Cependant, la situation réelle dans notre sphère est exactement le contraire. L'autorité d'un scientifique se juge à l'importance de son travail, à la fréquence à laquelle d'autres scientifiques se réfèrent à ses articles (index de citations). C'est une caractéristique importante de sa carrière. Un chercheur gravit les échelons professionnels, devient plus respecté dans son milieu, seulement s'il produit constamment des travaux forts qui sont publiés, deviennent connus et forment la base des travaux d'autres scientifiques.

Bon nombre des meilleurs articles (peut-être la plupart d'entre eux) sont le résultat de collaborations entre des chercheurs de différentes universités et entreprises du monde entier. Un moment important et très précieux dans la carrière d'un chercheur est le moment où il a la possibilité de trouver et d'éliminer des idées par lui-même en fonction de son expérience - mais même après cela, des collègues continuent de lui apporter une aide inestimable. Les scientifiques s'entraident pour élaborer des idées, rédiger des articles en co-auteur - et plus la contribution d'un scientifique à la science est importante, plus il lui est facile de trouver des personnes partageant les mêmes idées.

Enfin, la densité et la disponibilité de l'information sont maintenant si grandes que différents chercheurs ont simultanément des idées scientifiques très similaires (et en fait précieuses). Si l'idée n'est pas publiée, quelqu'un la publiera presque certainement pour vous. Le « gagnant » n'est souvent pas celui qui a proposé l'innovation un peu plus tôt, mais celui qui l'a publiée un peu plus tôt. Ou - celui qui a réussi à révéler l'idée aussi complètement que possible, clairement et de manière convaincante.

Prix ​​nommé d'après Ilya Segalovich. Une histoire sur l'informatique et des publications à l'occasion du lancement

Articles et ensembles de données

Ainsi, un article scientifique est construit autour de l'idée principale que le chercheur propose. Cette idée est sa contribution à l'informatique. L'article commence par une description de l'idée, formulée en quelques phrases. Elle est suivie d'une introduction qui décrit l'éventail des problèmes résolus par l'innovation proposée. La description et l'introduction sont généralement écrites dans un langage simple qui peut être compris par un large public. Après l'introduction, il est nécessaire de formaliser les problèmes énoncés en langage mathématique, d'introduire une notation stricte. Ensuite, en utilisant la notation introduite, vous devez faire une présentation claire et exhaustive de l'essence de l'innovation proposée, pour indiquer les différences par rapport aux méthodes précédentes similaires. Tous les calculs théoriques doivent soit être étayés par des références à des preuves précédemment compilées, soit prouvés de manière indépendante. Cela peut être fait avec quelques hypothèses. Par exemple, on peut donner une preuve pour le cas où il y a une infinité de données en formation (une situation évidemment inaccessible) ou elles sont complètement indépendantes les unes des autres. Vers la fin de l'article, le scientifique parle des résultats expérimentaux qu'il a réussi à obtenir.

Prix ​​nommé d'après Ilya Segalovich. Une histoire sur l'informatique et des publications à l'occasion du lancement

Pour être plus susceptibles d'être approuvés par les organisateurs de la conférence, les examinateurs doivent avoir un ou plusieurs attributs. Le facteur clé qui augmente les chances d'approbation est la nouveauté scientifique de l'idée proposée. Souvent, la nouveauté est évaluée par rapport aux idées existantes - et le travail d'évaluation n'est pas effectué par l'examinateur, mais par l'auteur de l'article lui-même. Idéalement, l'auteur devrait décrire en détail les méthodes existantes dans l'article et, si possible, les présenter comme des cas particuliers de sa méthode. Ainsi, le scientifique montre que les approches admises ne fonctionnent pas toujours, qu'il les généralise et propose une formulation théorique plus large, plus souple et donc plus efficace. Si la nouveauté est indéniable, les autres critiques évaluent l'article de manière moins méticuleuse - par exemple, ils peuvent fermer les yeux sur le mauvais anglais.

Pour renforcer la nouveauté, il est utile d'ajouter à l'article une comparaison avec des méthodes existantes sur un ou plusieurs jeux de données. Chacun d'eux doit être ouvert, accepté dans le milieu académique. Par exemple, il existe un référentiel d'images ImageNet et des bases de données d'institutions telles que l'Institut national modifié des normes et de la technologie (MNIST) et l'ICRA (Institut canadien de recherches avancées). La difficulté est qu'un tel ensemble de données "académiques" diffère souvent dans la structure du contenu des données réelles que l'industrie traite. Données différentes - résultats différents de la méthode proposée. Les scientifiques, travaillant en partie pour l'industrie, tentent d'en tenir compte et insèrent parfois des réserves du type « sur nos données, le résultat est tel ou tel, mais sur le jeu de données public, il est tel ou tel ».

Il arrive que la méthode proposée soit complètement "affinée" pour une base de données ouverte et ne fonctionne pas sur des données réelles. Ce problème courant peut être combattu en découvrant de nouveaux ensembles de données plus représentatifs, mais il s'agit souvent de contenus privés que les entreprises n'ont tout simplement pas le droit d'ouvrir. Dans certains cas, ils effectuent une anonymisation (parfois complexe et laborieuse) des données - ils suppriment tous les fragments qui pointent vers une personne spécifique. Par exemple, les visages et les chiffres sur les photographies sont effacés ou rendus illisibles. De plus, pour que l'ensemble de données soit non seulement accessible à tous, mais devienne une norme parmi les scientifiques, sur laquelle il convient de comparer les idées, il est nécessaire non seulement de le publier, mais également d'écrire un article cité séparé à ce sujet et ses avantages.

C'est pire quand il n'y a pas d'ensembles de données ouverts dans le sujet recherché. Il reste ensuite à l'examinateur à prendre sur la foi les résultats présentés par l'auteur. Théoriquement, l'auteur peut même les surestimer et ne pas être capturé, mais dans un environnement académique, cela est peu probable, car cela va à l'encontre du désir de la grande majorité des scientifiques de développer la science.

Dans un certain nombre de domaines du ML, y compris la vision par ordinateur, il est également courant de joindre des liens vers du code (généralement GitHub) aux articles. Il y a soit très peu de code dans les articles eux-mêmes, soit c'est du pseudocode. Et là encore, des difficultés surgissent si l'article est écrit par un chercheur d'une entreprise, et non d'une université. Par défaut, le code écrit par une entreprise ou une startup est marqué NDA. Les chercheurs et leurs collègues doivent faire beaucoup d'efforts pour séparer le code lié à l'idée décrite des référentiels internes et certainement fermés.

La chance de publication dépend aussi de la pertinence du sujet choisi. La pertinence est largement dictée par les produits et services : si une entreprise ou une startup est intéressée par la création d'un nouveau service ou l'amélioration d'un service existant basé sur l'idée de l'article, c'est un plus.

Prix ​​nommé d'après Ilya Segalovich. Une histoire sur l'informatique et des publications à l'occasion du lancement

Comme déjà mentionné, les articles en informatique sont rarement écrits seuls. Mais en règle générale, l'un des auteurs consacre beaucoup plus de temps et d'efforts que les autres. Sa contribution à la nouveauté scientifique est la plus grande. Dans la liste des auteurs, une telle personne est indiquée en premier - et à l'avenir, en se référant à l'article, ils ne peuvent que le mentionner (par exemple, "Ivanov et al" - "Ivanov et autres" en latin). Cependant, la contribution des autres est également extrêmement précieuse - sinon, il est impossible d'être sur la liste des auteurs.

Processus de vérification

Les articles cessent généralement d'être acceptés quelques mois avant la conférence. Après avoir soumis un article, les évaluateurs disposent de 3 à 5 semaines pour le lire, le noter et le commenter. Cela se produit selon le système en simple aveugle, lorsque les auteurs ne voient pas les noms des relecteurs, ou en double aveugle, lorsque les relecteurs eux-mêmes ne voient pas les noms des auteurs. La deuxième option est considérée comme plus impartiale : plusieurs articles scientifiques ont montré que la popularité de l'auteur influe sur la décision de l'examinateur. Par exemple, il peut considérer qu'un scientifique avec un grand nombre d'articles déjà publiés est a priori digne d'une note plus élevée.

De plus, même dans le cas d'un double aveugle, l'examinateur devinera probablement l'auteur s'il travaille dans le même domaine. De plus, au moment de l'examen, l'article peut déjà être publié dans la base de données arXiv, le plus grand référentiel de travaux scientifiques. Les organisateurs de la conférence ne l'interdisent pas, cependant, ils recommandent d'utiliser un nom différent et une annotation différente dans la publication pour arXiv. Mais si l'article y a été posté, le trouver n'est toujours pas difficile.

Il y a toujours plusieurs relecteurs évaluant un article. L'un d'eux se voit confier le rôle de méta-examinateur, qui ne devrait regarder que les verdicts de ses collègues et prendre la décision finale. Si les examinateurs diffèrent dans leur évaluation de l'article, le méta-examinateur peut également le lire pour compléter le tableau.

Parfois, après avoir examiné la note et les commentaires, l'auteur a la possibilité d'entamer une discussion avec l'examinateur ; il y a même une chance de le convaincre de changer d'avis (cependant, un tel système ne marche pas pour toutes les conférences, et il est encore moins possible d'influencer sérieusement le verdict). Dans la discussion, vous ne pouvez pas faire référence à d'autres travaux scientifiques, à l'exception de ceux qui sont déjà référencés dans l'article. Vous ne pouvez qu'"aider" l'examinateur à mieux comprendre le contenu de l'article.

Prix ​​nommé d'après Ilya Segalovich. Une histoire sur l'informatique et des publications à l'occasion du lancement

Conférences et revues

Les articles sur l'informatique sont plus souvent envoyés à des congrès qu'à des revues scientifiques. La raison en est que les publications de revues ont des exigences plus difficiles à satisfaire et que le processus d'examen par les pairs peut prendre des mois, voire des années. L'informatique est un domaine en pleine croissance, de sorte que les auteurs ne sont généralement pas prêts à attendre aussi longtemps pour être publiés. Cependant, un article déjà accepté pour la conférence peut alors être complété (par exemple, avec des résultats plus détaillés) et publié dans une revue où les restrictions de taille ne sont pas si strictes.

Événements à la conférence

Le format de la présence des auteurs d'articles approuvés à la conférence est déterminé par les relecteurs. Si l'article reçoit le feu vert, on vous donne le plus souvent un support pour une affiche. Une affiche est une diapositive statique avec un résumé de l'article et des illustrations. Une partie des salles de conférence est remplie de longues rangées de porte-affiches. L'auteur passe une grande partie de son temps près de son affiche, communiquant avec des scientifiques intéressés par l'article.

Prix ​​nommé d'après Ilya Segalovich. Une histoire sur l'informatique et des publications à l'occasion du lancement

Prix ​​nommé d'après Ilya Segalovich. Une histoire sur l'informatique et des publications à l'occasion du lancement

Une option un peu plus prestigieuse pour la participation est un rapport rapide (discussion éclair). Si les examinateurs jugent l'article digne d'un rapport rapide, l'auteur dispose d'environ trois minutes pour s'adresser à un large public. D'une part, le discours éclair est une bonne occasion de parler de votre idée non seulement à ceux qui, de leur propre initiative, se sont intéressés à l'affiche. D'autre part, les visiteurs d'affiches entreprenants sont mieux préparés, plus immergés dans votre sujet particulier que l'auditeur moyen dans la salle. Par conséquent, dans un rapport rapide, vous avez encore besoin d'avoir le temps de mettre les gens au courant.

Prix ​​nommé d'après Ilya Segalovich. Une histoire sur l'informatique et des publications à l'occasion du lancement

Habituellement, à la fin de leur discours éclair, les auteurs donnent le numéro de l'affiche afin que les auditeurs puissent la trouver et mieux comprendre l'article.

Prix ​​nommé d'après Ilya Segalovich. Une histoire sur l'informatique et des publications à l'occasion du lancement

La dernière option, la plus prestigieuse, est une affiche plus une présentation complète de l'idée, lorsque vous n'avez pas besoin de vous précipiter autant avec l'histoire.

Prix ​​nommé d'après Ilya Segalovich. Une histoire sur l'informatique et des publications à l'occasion du lancement

Mais bien sûr, les scientifiques - y compris les auteurs d'articles approuvés - ne viennent pas seulement à la prochaine conférence pour se montrer. Premièrement, ils sont, pour des raisons évidentes, avides de trouver des affiches liées à leur domaine. Et deuxièmement, il est important pour eux de reconstituer la liste des contacts dans le but d'un travail universitaire commun à l'avenir. Ce n'est pas de la chasse - ou du moins la toute première étape de celle-ci, suivie au moins d'un échange mutuellement bénéfique d'idées, de développements et d'un travail commun sur un ou plusieurs articles.

Dans le même temps, un réseautage productif lors d'une conférence de haut niveau est difficile en raison du manque total de temps libre. Si, après une journée entière consacrée à des présentations et à des discussions sur des affiches, le scientifique a conservé ses forces et a déjà surmonté le décalage horaire, alors il se rend à l'une des nombreuses soirées. Ils sont hébergés par des entreprises - par conséquent, les fêtes sont souvent plus de nature chasse. Dans le même temps, de nombreux invités ne les utilisent pas du tout pour trouver un nouvel emploi, mais, encore une fois, pour le réseautage. Le soir, il n'y a plus de rapports et d'affiches - il est plus facile "d'attraper" le spécialiste qui vous intéresse.

Prix ​​nommé d'après Ilya Segalovich. Une histoire sur l'informatique et des publications à l'occasion du lancement

De l'idée à la réalisation

L'informatique est l'une des rares industries où les intérêts des entreprises et des startups sont fortement associés à l'environnement académique. NIPS, ICML et d'autres conférences similaires ont beaucoup de gens venant de l'industrie, pas seulement des universités. Pour le domaine de l'informatique, c'est typique, mais pour la plupart des autres sciences, c'est le contraire qui est vrai.

En revanche, toutes les idées présentées dans les articles ne vont pas immédiatement à la création ou à l'amélioration de services. Même au sein d'une même entreprise, un chercheur peut proposer à des collègues du service une idée révolutionnaire selon les normes scientifiques et se voir refuser la mise en œuvre pour un certain nombre de raisons. L'un d'eux a déjà été mentionné ici - c'est la différence entre l'ensemble de données "académique", selon lequel l'article est écrit, et l'ensemble de données réel. De plus, la mise en œuvre d'une idée peut être retardée, nécessiter une grande quantité de ressources ou n'améliorer qu'un seul indicateur au prix de la dégradation d'autres métriques.

Prix ​​nommé d'après Ilya Segalovich. Une histoire sur l'informatique et des publications à l'occasion du lancement

La situation est sauvée par le fait que de nombreux développeurs et eux-mêmes sont un peu chercheurs. Ils assistent à des conférences, parlent le même langage avec des universitaires, proposent des idées, participent parfois à la création d'articles (par exemple, en écrivant du code), ou même agissent eux-mêmes en tant qu'auteurs. Si un développeur est immergé dans le processus académique, suit ce qui se passe dans le département de recherche, en un mot, s'il démontre un contre-mouvement envers les scientifiques, alors le cycle de transformation des idées scientifiques en nouvelles capacités de service est réduit.

Nous souhaitons bonne chance à tous les jeunes chercheurs et de belles réalisations dans leurs travaux. Si cet article ne vous a rien appris de nouveau, vous avez peut-être déjà publié lors d'une conférence de haut niveau. S'inscrire à le prix et nommer vous-même des directeurs de recherche.

Source: habr.com

Ajouter un commentaire