Preis benannt nach Ilya Segalovich. Eine Geschichte über Informatik und Startpublikationen

Preis benannt nach Ilya Segalovich. Eine Geschichte über Informatik und Startpublikationen

Heute lancieren wir einen wissenschaftlichen Preis, der nach Ilya Segalovich benannt ist iseg. Er wird für Leistungen auf dem Gebiet der Informatik verliehen. Studenten und Doktoranden können eine eigene Bewerbung für die Auszeichnung einreichen oder wissenschaftliche Betreuer nominieren. Die Preisträger werden von Vertretern der akademischen Gemeinschaft und von Yandex ausgewählt. Die wichtigsten Auswahlkriterien: Veröffentlichungen und Präsentationen auf Konferenzen sowie Beitrag zur Entwicklung der Community.

Die erste Preisverleihung findet im April statt. Im Rahmen der Auszeichnung erhalten junge Wissenschaftler 350 Rubel und können außerdem an einer internationalen Konferenz teilnehmen, mit einem Mentor zusammenarbeiten und ein Praktikum in der Yandex-Forschungsabteilung absolvieren. Wissenschaftliche Betreuer erhalten 700 Rubel.

Anlässlich der Preisverleihung haben wir beschlossen, hier auf Habré über die Erfolgskriterien in der Welt der Informatik zu sprechen. Einige Habr-Leser sind mit diesen Kriterien bereits vertraut, während andere möglicherweise einen falschen Eindruck davon haben. Heute werden wir diese Lücke schließen – wir werden alle Hauptthemen ansprechen, darunter Artikel, Konferenzen, Datensätze und die Übertragung wissenschaftlicher Ideen in Dienstleistungen.

Für Wissenschaftler auf dem Gebiet der Informatik ist die Veröffentlichung ihrer wissenschaftlichen Arbeiten auf einer der wichtigsten internationalen Konferenzen das wichtigste Erfolgskriterium. Dies ist der erste „Checkpoint“ zur Anerkennung der Arbeit des Forschers. Im Bereich des maschinellen Lernens im Allgemeinen werden beispielsweise die International Conference on Machine Learning (ICML) und die Conference on Neural Information Processing Systems (NeurIPS, ehemals NIPS) unterschieden. Es gibt viele Konferenzen zu bestimmten Bereichen des ML, wie z. B. Computer Vision, Information Retrieval, Sprachtechnologie, maschinelle Übersetzung usw.

Warum Ihre Ideen veröffentlichen?

Menschen, die weit von der Informatik entfernt sind, haben möglicherweise die falsche Vorstellung, dass es besser ist, die wertvollsten Ideen geheim zu halten und danach zu streben, von ihrer Einzigartigkeit zu profitieren. Die tatsächliche Situation in unserem Bereich ist jedoch genau das Gegenteil. Die Autorität eines Wissenschaftlers wird an der Bedeutung seiner Werke gemessen, daran, wie oft seine Artikel von anderen Wissenschaftlern zitiert werden (Zitierindex). Dies ist ein wichtiges Merkmal seiner Karriere. Ein Forscher steigt auf der beruflichen Leiter nur dann auf und genießt in seiner Gemeinschaft mehr Ansehen, wenn er regelmäßig überzeugende Arbeiten produziert, die veröffentlicht werden, berühmt werden und die Grundlage für die Arbeit anderer Wissenschaftler bilden.

Viele Spitzenartikel (vielleicht die meisten) sind das Ergebnis der Zusammenarbeit zwischen Forschern verschiedener Universitäten und Unternehmen auf der ganzen Welt. Ein wichtiger und sehr wertvoller Moment in der Karriere eines Forschers ist, wenn er die Gelegenheit erhält, auf der Grundlage seiner Erfahrungen selbst Ideen zu finden und auszusortieren – aber auch danach leisten ihm seine Kollegen weiterhin unschätzbare Hilfe. Wissenschaftler helfen sich gegenseitig bei der Entwicklung von Ideen, schreiben gemeinsam Artikel – und je größer der Beitrag des Wissenschaftlers zur Wissenschaft ist, desto einfacher ist es für ihn, Gleichgesinnte zu finden.

Schließlich ist die Informationsdichte und -verfügbarkeit mittlerweile so groß, dass verschiedene Forscher gleichzeitig auf sehr ähnliche (und wirklich wertvolle) wissenschaftliche Ideen kommen. Wenn Sie Ihre Idee nicht veröffentlichen, wird sie höchstwahrscheinlich jemand anderes für Sie veröffentlichen. Der „Gewinner“ ist oft nicht derjenige, der die Innovation etwas früher erfunden hat, sondern derjenige, der sie etwas früher veröffentlicht hat. Oder – derjenige, der es geschafft hat, die Idee so vollständig, klar und überzeugend wie möglich darzustellen.

Preis benannt nach Ilya Segalovich. Eine Geschichte über Informatik und Startpublikationen

Artikel und Datensätze

Ein wissenschaftlicher Artikel basiert also auf der Hauptidee, die der Forscher vorschlägt. Diese Idee ist sein Beitrag zur Informatik. Der Artikel beginnt mit einer Beschreibung der Idee, formuliert in wenigen Sätzen. Anschließend folgt eine Einleitung, die die Bandbreite der mit Hilfe der vorgeschlagenen Innovation gelösten Probleme beschreibt. Beschreibung und Einleitung sind in der Regel in einer einfachen Sprache verfasst, die für ein breites Publikum verständlich ist. Nach der Einführung ist es notwendig, die dargestellten Probleme in mathematischer Sprache zu formalisieren und eine strenge Notation einzuführen. Anschließend müssen Sie mithilfe der eingeführten Notationen eine klare und umfassende Darstellung des Wesens der vorgeschlagenen Innovation erstellen und die Unterschiede zu früheren, ähnlichen Methoden identifizieren. Alle theoretischen Aussagen müssen entweder durch Verweise auf zuvor zusammengestellte Beweise gestützt oder unabhängig bewiesen werden. Dies kann mit einigen Annahmen erfolgen. Sie können beispielsweise einen Beweis für den Fall liefern, dass unendlich viele Trainingsdaten vorhanden sind (eine offensichtlich unerreichbare Situation) oder diese völlig unabhängig voneinander sind. Gegen Ende des Artikels spricht der Wissenschaftler über die experimentellen Ergebnisse, die er erzielen konnte.

Preis benannt nach Ilya Segalovich. Eine Geschichte über Informatik und Startpublikationen

Damit die von den Konferenzorganisatoren rekrutierten Gutachter eine größere Wahrscheinlichkeit haben, einen Beitrag zu genehmigen, muss er über ein oder mehrere Attribute verfügen. Ein entscheidender Faktor, der die Zulassungschancen erhöht, ist die wissenschaftliche Neuartigkeit der vorgeschlagenen Idee. Oftmals wird die Neuheit in Bezug auf bereits vorhandene Ideen beurteilt – und die Beurteilung erfolgt nicht durch den Rezensenten, sondern durch den Autor des Artikels selbst. Idealerweise sollte der Autor im Artikel ausführlich über bestehende Methoden berichten und diese nach Möglichkeit als Sonderfälle seiner Methode darstellen. Damit zeigt der Wissenschaftler, dass die akzeptierten Ansätze nicht immer funktionieren, dass er sie verallgemeinert und eine breitere, flexiblere und damit effektivere theoretische Formulierung vorgeschlagen hat. Wenn die Neuheit nicht zu leugnen ist, bewerten die Rezensenten den Artikel ansonsten nicht so wählerisch – zum Beispiel können sie bei schlechtem Englisch die Augen verschließen.

Um die Neuheit zu verstärken, ist es sinnvoll, einen Vergleich mit vorhandenen Methoden für einen oder mehrere Datensätze einzubeziehen. Jeder von ihnen sollte im akademischen Umfeld offen und akzeptiert sein. Beispielsweise gibt es das Bildarchiv ImageNet und Datenbanken von Instituten wie dem Modified National Institute of Standards and Technology (MNIST) und CIFAR (Canadian Institute For Advanced Research). Die Schwierigkeit besteht darin, dass sich ein solcher „akademischer“ Datensatz häufig in seiner Inhaltsstruktur von den realen Daten unterscheidet, mit denen die Branche arbeitet. Unterschiedliche Daten bedeuten unterschiedliche Ergebnisse der vorgeschlagenen Methode. Wissenschaftler, die teilweise für die Industrie arbeiten, versuchen dem Rechnung zu tragen und fügen manchmal Klauseln ein wie „Auf unseren Daten ist das Ergebnis so und so, aber auf dem öffentlichen Datensatz – so und so.“

Es kommt vor, dass die vorgeschlagene Methode vollständig auf eine offene Datenbank „zugeschnitten“ ist und nicht mit echten Daten funktioniert. Sie können diesem häufigen Problem entgegenwirken, indem Sie neue, repräsentativere Datensätze öffnen. Oft handelt es sich jedoch um private Inhalte, zu deren Öffnung Unternehmen einfach nicht berechtigt sind. In einigen Fällen führen sie eine (manchmal aufwändige und mühsame) Anonymisierung der Daten durch – sie entfernen alle Fragmente, die auf eine bestimmte Person verweisen. Beispielsweise werden Gesichter und Zahlen auf Fotos gelöscht oder unleserlich gemacht. Damit der Datensatz nicht nur für jedermann verfügbar ist, sondern unter Wissenschaftlern zu einem Standard wird, anhand dessen Ideen bequem verglichen werden können, ist es außerdem erforderlich, ihn nicht nur zu veröffentlichen, sondern auch einen separaten zitierten Artikel darüber zu schreiben es und seine Vorteile.

Noch schlimmer ist es, wenn es zu dem untersuchten Thema keine offenen Datensätze gibt. Dann kann der Gutachter die vom Autor vorgelegten Ergebnisse nur nach Treu und Glauben akzeptieren. Theoretisch könnte der Autor sie sogar überschätzen und unentdeckt bleiben, aber in einem akademischen Umfeld ist dies unwahrscheinlich, da es dem Wunsch der überwiegenden Mehrheit der Wissenschaftler widerspricht, die Wissenschaft weiterzuentwickeln.

In einer Reihe von ML-Bereichen, einschließlich Computer Vision, ist es auch üblich, Artikeln Links zu Code (normalerweise zu GitHub) beizufügen. Die Artikel selbst enthalten entweder sehr wenig Code oder sind Pseudocode. Und auch hier treten Schwierigkeiten auf, wenn der Artikel von einem Forscher eines Unternehmens und nicht von einer Universität verfasst wurde. Standardmäßig trägt Code, der in einem Unternehmen oder Startup geschrieben wurde, die Bezeichnung „NDA“. Forscher und ihre Kollegen müssen hart daran arbeiten, den Code, der sich auf die beschriebene Idee bezieht, aus internen und sicherlich geschlossenen Repositories zu trennen.

Die Chance auf eine Veröffentlichung hängt auch von der Relevanz des gewählten Themas ab. Die Relevanz wird weitgehend von Produkten und Dienstleistungen bestimmt: Wenn ein Unternehmen oder Startup daran interessiert ist, auf der Grundlage einer Idee aus einem Artikel einen neuen Dienst aufzubauen oder einen bestehenden zu verbessern, ist das ein Pluspunkt.

Preis benannt nach Ilya Segalovich. Eine Geschichte über Informatik und Startpublikationen

Wie bereits erwähnt, werden Informatikarbeiten selten alleine verfasst. Aber in der Regel investiert einer der Autoren viel mehr Zeit und Mühe als die anderen. Sein Beitrag zur wissenschaftlichen Neuheit ist der größte. In der Autorenliste wird eine solche Person zuerst angegeben – und in Zukunft kann sie bei Verweisen auf einen Artikel nur noch erwähnt werden (z. B. „Ivanov et al“ – „Ivanov und andere“ übersetzt aus dem Lateinischen). Aber auch die Beiträge anderer sind äußerst wertvoll – sonst ist eine Aufnahme in die Autorenliste nicht möglich.

Überprüfungsprozess

Die Annahme von Beiträgen endet in der Regel mehrere Monate vor der Konferenz. Nachdem ein Artikel eingereicht wurde, haben die Gutachter drei bis fünf Wochen Zeit, ihn zu lesen, zu bewerten und zu kommentieren. Dies geschieht nach dem Single-Blind-System, wenn die Autoren die Namen der Gutachter nicht sehen, oder nach dem Double-Blind-System, wenn die Gutachter selbst die Namen der Autoren nicht sehen. Die zweite Option gilt als unparteiischer: Mehrere wissenschaftliche Arbeiten haben gezeigt, dass die Popularität des Autors die Entscheidung des Rezensenten beeinflusst. Beispielsweise könnte er der Meinung sein, dass ein Wissenschaftler mit einer großen Anzahl bereits veröffentlichter Artikel von vornherein eine höhere Bewertung verdient.

Darüber hinaus wird der Rezensent wahrscheinlich selbst im Falle einer Doppelblindstudie den Autor erraten, wenn er im gleichen Fachgebiet arbeitet. Darüber hinaus kann es sein, dass der Artikel zum Zeitpunkt der Begutachtung bereits in der arXiv-Datenbank, dem größten Repository für wissenschaftliche Arbeiten, veröffentlicht ist. Konferenzveranstalter verbieten dies nicht, empfehlen jedoch, in Veröffentlichungen für arXiv einen anderen Titel und ein anderes Abstract zu verwenden. Aber wenn der Artikel dort gepostet wurde, wird es trotzdem nicht schwer sein, ihn zu finden.

Es gibt immer mehrere Rezensenten, die einen Artikel bewerten. Einem von ihnen wird die Rolle des Meta-Rezensenten zugewiesen, der lediglich die Urteile seiner Kollegen überprüfen und die endgültige Entscheidung treffen muss. Wenn die Gutachter mit dem Artikel nicht einverstanden sind, kann der Meta-Rezensent ihn zur Vollständigkeit auch lesen.

Manchmal hat der Autor nach Durchsicht der Bewertung und Kommentare die Möglichkeit, mit dem Rezensenten ins Gespräch zu kommen; es besteht sogar die Möglichkeit, ihn davon zu überzeugen, seine Entscheidung zu ändern (ein solches System funktioniert jedoch nicht für alle Konferenzen und es ist noch weniger möglich, das Urteil ernsthaft zu beeinflussen). In der Diskussion können Sie nicht auf andere wissenschaftliche Arbeiten verweisen, mit Ausnahme derjenigen, auf die im Artikel bereits Bezug genommen wird. Sie können dem Rezensenten nur „helfen“, den Inhalt des Artikels besser zu verstehen.

Preis benannt nach Ilya Segalovich. Eine Geschichte über Informatik und Startpublikationen

Konferenzen und Zeitschriften

Informatikartikel werden häufiger auf Konferenzen als in wissenschaftlichen Zeitschriften eingereicht. Dies liegt daran, dass für Zeitschriftenpublikationen schwieriger zu erfüllende Anforderungen gelten und der Peer-Review-Prozess Monate oder sogar Jahre dauern kann. Da es sich bei der Informatik um ein sehr schnelllebiges Fachgebiet handelt, sind Autoren in der Regel nicht bereit, so lange auf eine Veröffentlichung zu warten. Allerdings kann ein Artikel, der bereits zur Konferenz angenommen wurde, dann ergänzt (z. B. durch die Präsentation detaillierterer Ergebnisse) und in einer Zeitschrift veröffentlicht werden, in der die Platzbeschränkungen nicht so streng sind.

Veranstaltungen auf der Konferenz

Das Format für die Anwesenheit von Autoren genehmigter Artikel auf der Konferenz wird von den Gutachtern festgelegt. Wenn der Artikel grünes Licht erhält, wird Ihnen in den meisten Fällen ein Plakatstand zugewiesen. Ein Poster ist eine statische Folie mit einer Zusammenfassung des Artikels und Abbildungen. Einige Konferenzräume sind mit langen Reihen von Plakatständern gefüllt. Der Autor verbringt einen erheblichen Teil seiner Zeit in der Nähe seines Posters und kommuniziert mit Wissenschaftlern, die sich für den Artikel interessieren.

Preis benannt nach Ilya Segalovich. Eine Geschichte über Informatik und Startpublikationen

Preis benannt nach Ilya Segalovich. Eine Geschichte über Informatik und Startpublikationen

Eine etwas prestigeträchtigere Möglichkeit der Teilnahme ist ein Lightning Talk. Wenn die Rezensenten den Artikel als würdig für einen kurzen Bericht erachten, hat der Autor etwa drei Minuten Zeit, um vor einem breiten Publikum zu sprechen. Einerseits ist ein Blitzvortrag eine gute Gelegenheit, nicht nur denen, die sich aus eigener Initiative für das Poster interessiert haben, von Ihrer Idee zu erzählen. Andererseits sind proaktive Posterbesucher besser vorbereitet und tiefer in Ihr spezifisches Thema vertieft als der durchschnittliche Zuhörer im Saal. Deshalb muss man bei einem Kurzbericht noch Zeit haben, die Leute auf den neuesten Stand zu bringen.

Preis benannt nach Ilya Segalovich. Eine Geschichte über Informatik und Startpublikationen

Normalerweise nennen Autoren am Ende ihres Blitzvortrags die Posternummer, damit die Zuhörer sie finden und den Artikel besser verstehen können.

Preis benannt nach Ilya Segalovich. Eine Geschichte über Informatik und Startpublikationen

Die letzte und prestigeträchtigste Option ist ein Poster plus eine umfassende Präsentation der Idee, wenn keine Eile mehr besteht, um die Geschichte zu erzählen.

Preis benannt nach Ilya Segalovich. Eine Geschichte über Informatik und Startpublikationen

Aber natürlich kommen Wissenschaftler – darunter auch die Autoren genehmigter Artikel – zur nächsten Konferenz nicht nur, um anzugeben. Erstens neigen sie aus offensichtlichen Gründen dazu, Poster zu finden, die sich auf ihr Fachgebiet beziehen. Und zweitens ist es für sie wichtig, ihre Kontaktliste für die gemeinsame wissenschaftliche Arbeit in der Zukunft zu erweitern. Dies ist keine Jagd – oder zumindest nicht die allererste Phase, auf die zumindest ein für beide Seiten vorteilhafter Austausch von Ideen, Entwicklungen und die gemeinsame Arbeit an einem oder mehreren Artikeln folgt.

Gleichzeitig ist produktives Networking auf einer Top-Konferenz aufgrund des völligen Mangels an Freizeit schwierig. Wenn der Wissenschaftler nach einem ganzen Tag voller Vorträge und Diskussionen auf Postern noch bei Kräften ist und den Jetlag bereits überwunden hat, geht er auf eine der vielen Partys. Gastgeber sind Konzerne – dadurch haben die Partys oft eher jagdlichen Charakter. Gleichzeitig nutzen viele Gäste sie keineswegs, um einen neuen Job zu finden, sondern wiederum zum Networking. Abends gibt es keine Berichte und Plakate mehr – es ist einfacher, den Spezialisten zu „fangen“, der Sie interessiert.

Preis benannt nach Ilya Segalovich. Eine Geschichte über Informatik und Startpublikationen

Von der Idee bis zur Produktion

Die Informatik ist eine der wenigen Branchen, in der die Interessen von Konzernen und Startups stark mit dem akademischen Umfeld verknüpft sind. NIPS, ICML und andere ähnliche Konferenzen ziehen viele Menschen aus der Industrie an, nicht nur von Universitäten. Dies ist typisch für den Bereich der Informatik, aber umgekehrt gilt es auch für die meisten anderen Wissenschaften.

Andererseits fließen nicht alle in den Artikeln vorgestellten Ideen sofort in die Schaffung oder Verbesserung von Dienstleistungen ein. Selbst innerhalb eines Unternehmens kann ein Forscher Kollegen aus dem Dienst eine nach wissenschaftlichen Maßstäben bahnbrechende Idee vorschlagen und aus verschiedenen Gründen eine Ablehnung bei der Umsetzung erhalten. Einer davon wurde hier bereits erwähnt – das ist der Unterschied zwischen dem „akademischen“ Datensatz, auf dem der Artikel geschrieben wurde, und dem realen Datensatz. Darüber hinaus kann sich die Umsetzung einer Idee verzögern, einen großen Ressourcenaufwand erfordern oder nur einen Indikator auf Kosten einer Verschlechterung anderer Metriken verbessern.

Preis benannt nach Ilya Segalovich. Eine Geschichte über Informatik und Startpublikationen

Die Situation wird dadurch gerettet, dass viele Entwickler selbst ein bisschen Forscher sind. Sie besuchen Konferenzen, sprechen mit Wissenschaftlern die gleiche Sprache, schlagen Ideen vor, beteiligen sich manchmal an der Erstellung von Artikeln (z. B. beim Schreiben von Code) oder fungieren sogar selbst als Autoren. Wenn ein Entwickler in den akademischen Prozess vertieft ist, das Geschehen in der Forschungsabteilung verfolgt, mit einem Wort – wenn er eine Gegenbewegung gegenüber Wissenschaftlern zeigt, dann verkürzt sich der Zyklus der Umsetzung wissenschaftlicher Ideen in neue Servicemöglichkeiten.

Wir wünschen allen Nachwuchsforschern viel Glück und tolle Erfolge bei ihrer Arbeit. Wenn Ihnen dieser Beitrag nichts Neues gebracht hat, haben Sie möglicherweise bereits auf einer Top-Konferenz veröffentlicht. Registrieren für Der Preis sich selbst und benennen Sie wissenschaftliche Betreuer.

Source: habr.com

Kommentar hinzufügen