Prijs vernoemd naar Ilya Segalovich. Een verhaal over informatica en lanceringspublicaties

Prijs vernoemd naar Ilya Segalovich. Een verhaal over informatica en lanceringspublicaties

Vandaag lanceren we een wetenschappelijke prijs vernoemd naar Ilya Segalovich iseg. De prijs wordt toegekend voor prestaties op het gebied van de informatica. Niet-gegradueerde en postdoctorale studenten kunnen zelf een aanvraag indienen voor de prijs of wetenschappelijke toezichthouders benoemen. De laureaten worden gekozen door vertegenwoordigers van de academische gemeenschap en Yandex. De belangrijkste selectiecriteria: publicaties en presentaties op conferenties, evenals bijdrage aan de ontwikkeling van de gemeenschap.

In april vindt de eerste prijsuitreiking plaats. Als onderdeel van de prijs ontvangen jonge wetenschappers 350 duizend roebel, daarnaast kunnen ze naar een internationale conferentie gaan, met een mentor werken en stage lopen op de onderzoeksafdeling van Yandex. Wetenschappelijke toezichthouders ontvangen 700 duizend roebel.

Ter gelegenheid van de lancering van de prijs besloten we hier op Habré te praten over de criteria voor succes in de wereld van de informatica. Sommige Habr-lezers zijn al bekend met deze criteria, terwijl anderen er misschien een verkeerde indruk van hebben. Vandaag zullen we deze kloof overbruggen - we zullen alle belangrijke onderwerpen bespreken, waaronder artikelen, conferenties, datasets en de overdracht van wetenschappelijke ideeën in diensten.

Voor wetenschappers op het gebied van de informatica is het belangrijkste criterium voor succes de publicatie van hun wetenschappelijk werk op een van de internationale topconferenties. Dit is het eerste ‘controlepunt’ voor de erkenning van het werk van de onderzoeker. Op het gebied van machine learning in het algemeen worden bijvoorbeeld de International Conference on Machine Learning (ICML) en de Conference on Neural Information Processing Systems (NeurIPS, voorheen NIPS) onderscheiden. Er zijn veel conferenties over specifieke gebieden van ML, zoals computer vision, het ophalen van informatie, spraaktechnologie, automatische vertaling, enz.

Waarom uw ideeën publiceren?

Mensen die ver verwijderd zijn van de informatica kunnen de misvatting hebben dat het beter is om de meest waardevolle ideeën geheim te houden en ernaar te streven te profiteren van hun uniekheid. De werkelijke situatie in ons vakgebied is echter precies het tegenovergestelde. De autoriteit van een wetenschapper wordt beoordeeld op basis van de betekenis van zijn werken, op basis van hoe vaak zijn artikelen door andere wetenschappers worden geciteerd (citatie-index). Dit is een belangrijk kenmerk van zijn carrière. Een onderzoeker kan alleen hoger op de professionele ladder komen en meer gerespecteerd worden in zijn gemeenschap als hij consequent sterk werk produceert dat wordt gepubliceerd, beroemd wordt en de basis vormt voor het werk van andere wetenschappers.

Veel topartikelen (misschien wel de meeste) zijn het resultaat van samenwerking tussen onderzoekers van verschillende universiteiten en bedrijven over de hele wereld. Een belangrijk en zeer waardevol moment in de carrière van een onderzoeker is wanneer hij de kans krijgt om zelf ideeën te vinden en uit te zoeken op basis van zijn ervaring - maar zelfs daarna blijven zijn collega's hem van onschatbare hulp voorzien. Wetenschappers helpen elkaar ideeën te ontwikkelen, samen artikelen te schrijven - en hoe groter de bijdrage van de wetenschapper aan de wetenschap, hoe gemakkelijker het voor hem is om gelijkgestemde mensen te vinden.

Ten slotte is de dichtheid en beschikbaarheid van informatie nu zo groot dat verschillende onderzoekers tegelijkertijd met zeer vergelijkbare (en werkelijk waardevolle) wetenschappelijke ideeën komen. Als u uw idee niet publiceert, zal iemand anders het vrijwel zeker voor u publiceren. De ‘winnaar’ is vaak niet degene die de innovatie iets eerder heeft bedacht, maar degene die deze iets eerder heeft gepubliceerd. Of - degene die erin slaagde het idee zo volledig, duidelijk en overtuigend mogelijk te onthullen.

Prijs vernoemd naar Ilya Segalovich. Een verhaal over informatica en lanceringspublicaties

Artikelen en datasets

Een wetenschappelijk artikel is dus opgebouwd rond het hoofdidee dat de onderzoeker voorstelt. Dit idee is zijn bijdrage aan de informatica. Het artikel begint met een beschrijving van het idee, geformuleerd in een paar zinnen. Dit wordt gevolgd door een inleiding waarin de reeks problemen wordt beschreven die met behulp van de voorgestelde innovatie kunnen worden opgelost. De beschrijving en inleiding zijn doorgaans geschreven in eenvoudige taal die voor een breed publiek begrijpelijk is. Na de introductie is het noodzakelijk om de problemen die in wiskundige taal worden gepresenteerd te formaliseren en een strikte notatie te introduceren. Vervolgens moet u met behulp van de geïntroduceerde notaties een duidelijke en alomvattende verklaring opstellen van de essentie van de voorgestelde innovatie en de verschillen met eerdere, vergelijkbare methoden identificeren. Alle theoretische uitspraken moeten worden ondersteund door verwijzingen naar eerder verzameld bewijsmateriaal, of onafhankelijk worden bewezen. Dit kan gedaan worden met enkele aannames. Je kunt bijvoorbeeld een bewijs geven voor het geval dat er oneindig veel trainingsgegevens zijn (een kennelijk onhaalbare situatie) of dat deze volledig onafhankelijk van elkaar zijn. Tegen het einde van het artikel vertelt de wetenschapper over de experimentele resultaten die hij heeft kunnen verkrijgen.

Prijs vernoemd naar Ilya Segalovich. Een verhaal over informatica en lanceringspublicaties

Om ervoor te zorgen dat de door de organisatoren van de conferentie gerekruteerde reviewers een artikel eerder zullen goedkeuren, moet het een of meer kenmerken hebben. Een sleutelfactor die de kans op goedkeuring vergroot, is de wetenschappelijke nieuwheid van het voorgestelde idee. Vaak wordt nieuwheid beoordeeld in relatie tot reeds bestaande ideeën - en het beoordelingswerk wordt niet uitgevoerd door de recensent, maar door de auteur van het artikel zelf. Idealiter zou de auteur in het artikel gedetailleerd over bestaande methoden moeten vertellen en deze, indien mogelijk, presenteren als speciale gevallen van zijn methode. Zo laat de wetenschapper zien dat de geaccepteerde benaderingen niet altijd werken, dat hij ze generaliseerde en een bredere, flexibelere en daardoor effectievere theoretische formulering voorstelde. Als de nieuwigheid onmiskenbaar is, beoordelen recensenten het artikel anders niet zo kieskeurig - ze kunnen bijvoorbeeld een oogje dichtknijpen voor slecht Engels.

Om de nieuwigheid te versterken is het nuttig om een ​​vergelijking met bestaande methoden op één of meer datasets op te nemen. Elk van hen moet open en geaccepteerd zijn in de academische omgeving. Er zijn bijvoorbeeld de ImageNet-beeldopslagplaats en databases van instituten als het Modified National Institute of Standards and Technology (MNIST) en CIFAR (Canadian Institute For Advanced Research). De moeilijkheid is dat zo’n ‘academische’ dataset vaak qua inhoudsstructuur verschilt van de echte data waarmee de industrie te maken heeft. Verschillende gegevens betekenen verschillende resultaten van de voorgestelde methode. Wetenschappers die gedeeltelijk voor de industrie werken, proberen hier rekening mee te houden en plaatsen soms disclaimers als “op onze data is het resultaat zus en zo, maar op de publieke dataset – zus en zo.”

Het komt voor dat de voorgestelde methode volledig ‘op maat’ is voor een open database en niet werkt op echte data. Je kunt dit veelvoorkomende probleem bestrijden door nieuwe, meer representatieve datasets te openen, maar vaak hebben we het over privé-inhoud die bedrijven simpelweg niet mogen openen. In sommige gevallen voeren ze (soms complexe en nauwgezette) anonimisering van gegevens uit: ze verwijderen alle fragmenten die naar een specifieke persoon verwijzen. Zo worden gezichten en cijfers op foto’s gewist of onleesbaar gemaakt. Om ervoor te zorgen dat de dataset niet alleen voor iedereen beschikbaar is, maar ook een standaard wordt onder wetenschappers waarop het handig is om ideeën te vergelijken, is het bovendien noodzakelijk om deze niet alleen te publiceren, maar ook om er een apart geciteerd artikel over te schrijven. het en de voordelen ervan.

Het is nog erger als er geen open datasets zijn in het onderwerp dat wordt bestudeerd. Dan kan de recensent de door de auteur gepresenteerde resultaten alleen op basis van geloof aanvaarden. Theoretisch zou de auteur ze zelfs kunnen overschatten en onopgemerkt blijven, maar in een academische omgeving is dit onwaarschijnlijk, omdat dit indruist tegen de wens van de overgrote meerderheid van wetenschappers om de wetenschap te ontwikkelen.

Op een aantal gebieden van ML, waaronder computer vision, is het ook gebruikelijk om links naar code (meestal naar GitHub) bij artikelen toe te voegen. De artikelen zelf bevatten zeer weinig code of zijn pseudocode. En hier ontstaan ​​opnieuw moeilijkheden als het artikel is geschreven door een onderzoeker van een bedrijf, en niet van een universiteit. Code die in een bedrijf of startup is geschreven, krijgt standaard het label NDA. Onderzoekers en hun collega's moeten hard werken om de code die verband houdt met het beschreven idee te scheiden van interne en zeker gesloten opslagplaatsen.

De kans op publicatie is mede afhankelijk van de relevantie van het gekozen onderwerp. De relevantie wordt grotendeels bepaald door producten en diensten: als een bedrijf of startup geïnteresseerd is in het bouwen van een nieuwe dienst of het verbeteren van een bestaande op basis van een idee uit een artikel, is dat een pluspunt.

Prijs vernoemd naar Ilya Segalovich. Een verhaal over informatica en lanceringspublicaties

Zoals reeds vermeld, worden computerwetenschappelijke artikelen zelden alleen geschreven. Maar in de regel besteedt een van de auteurs veel meer tijd en moeite dan de anderen. Zijn bijdrage aan wetenschappelijke nieuwigheid is de grootste. In de lijst met auteurs wordt zo'n persoon als eerste aangegeven - en in de toekomst kunnen ze hem alleen vermelden als ze naar een artikel verwijzen (bijvoorbeeld "Ivanov et al" - "Ivanov en anderen" vertaald uit het Latijn). De bijdragen van anderen zijn echter ook buitengewoon waardevol - anders is het onmogelijk om op de auteurslijst te staan.

Review proces

Papers worden meestal enkele maanden vóór de conferentie niet meer geaccepteerd. Zodra een artikel is ingediend, hebben reviewers drie tot vijf weken de tijd om het te lezen, te evalueren en erop te reageren. Dit gebeurt volgens het enkelblinde systeem, waarbij de auteurs de namen van de reviewers niet zien, of volgens het dubbelblinde systeem, waarbij de reviewers zelf de namen van de auteurs niet zien. De tweede optie wordt als onpartijdiger beschouwd: verschillende wetenschappelijke artikelen hebben aangetoond dat de populariteit van de auteur de beslissing van de recensent beïnvloedt. Hij kan bijvoorbeeld van mening zijn dat een wetenschapper met een groot aantal reeds gepubliceerde artikelen a priori een hogere beoordeling verdient.

Bovendien zal de recensent, zelfs in het geval van dubbelblind, de auteur waarschijnlijk raden als deze op hetzelfde gebied werkzaam is. Bovendien is het artikel op het moment van beoordeling mogelijk al gepubliceerd in de arXiv-database, de grootste opslagplaats van wetenschappelijke artikelen. Conferentieorganisatoren verbieden dit niet, maar raden wel aan om in publicaties voor arXiv een andere titel en een ander abstract te gebruiken. Maar als het artikel daar is geplaatst, zal het nog steeds niet moeilijk zijn om het te vinden.

Er zijn altijd meerdere reviewers die een artikel beoordelen. Eén van hen krijgt de rol van meta-reviewer toegewezen, die alleen de uitspraken van zijn collega’s hoeft te beoordelen en de uiteindelijke beslissing moet nemen. Als de reviewers het niet eens zijn over het artikel, kan de meta-reviewer het ook voor de volledigheid lezen.

Soms heeft de auteur, na het bekijken van de beoordeling en het commentaar, de gelegenheid om in discussie te gaan met de recensent; er is zelfs een kans om hem ervan te overtuigen zijn beslissing te wijzigen (een dergelijk systeem werkt echter niet voor alle conferenties, en het is nog minder mogelijk om het oordeel serieus te beïnvloeden). In de discussie kun je niet verwijzen naar andere wetenschappelijke werken, met uitzondering van de werken waarnaar al in het artikel wordt verwezen. Je kunt de recensent alleen ‘helpen’ om de inhoud van het artikel beter te begrijpen.

Prijs vernoemd naar Ilya Segalovich. Een verhaal over informatica en lanceringspublicaties

Conferenties en tijdschriften

Computerwetenschappelijke artikelen worden vaker voorgelegd aan conferenties dan aan wetenschappelijke tijdschriften. Dit komt omdat tijdschriftpublicaties moeilijker te vervullen eisen stellen en het peer review-proces maanden of zelfs jaren kan duren. Computerwetenschappen is een zeer snel evoluerend vakgebied, dus auteurs zijn meestal niet bereid zo lang op publicatie te wachten. Een artikel dat al voor de conferentie is geaccepteerd, kan dan echter worden aangevuld (bijvoorbeeld door gedetailleerdere resultaten te presenteren) en gepubliceerd in een tijdschrift waar de ruimtebeperkingen niet zo streng zijn.

Evenementen op de conferentie

Het format voor de aanwezigheid van auteurs van goedgekeurde artikelen op de conferentie wordt bepaald door de reviewers. Als het artikel groen licht krijgt, krijgt u meestal een posterstandaard toegewezen. Een poster is een statische dia met een samenvatting van het artikel en illustraties. Sommige vergaderzalen zijn gevuld met lange rijen posters. De auteur brengt een aanzienlijk deel van zijn tijd door in de buurt van zijn poster en communiceert met wetenschappers die geïnteresseerd zijn in het artikel.

Prijs vernoemd naar Ilya Segalovich. Een verhaal over informatica en lanceringspublicaties

Prijs vernoemd naar Ilya Segalovich. Een verhaal over informatica en lanceringspublicaties

Een iets prestigieuzere deelnamemogelijkheid is een bliksempraatje. Als de reviewers het artikel een korte reportage waard vinden, krijgt de auteur ongeveer drie minuten de tijd om een ​​breed publiek toe te spreken. Aan de ene kant is een bliksemgesprek een goede gelegenheid om niet alleen over uw idee te vertellen aan degenen die op eigen initiatief geïnteresseerd raakten in de poster. Aan de andere kant zijn proactieve posterbezoekers beter voorbereid en meer ondergedompeld in jouw specifieke onderwerp dan de gemiddelde luisteraar in de zaal. Daarom heb je bij een snel rapport nog steeds tijd nodig om mensen op de hoogte te brengen.

Prijs vernoemd naar Ilya Segalovich. Een verhaal over informatica en lanceringspublicaties

Meestal noemen auteurs aan het einde van hun bliksempraatje het posternummer, zodat luisteraars het kunnen vinden en het artikel beter kunnen begrijpen.

Prijs vernoemd naar Ilya Segalovich. Een verhaal over informatica en lanceringspublicaties

De laatste, meest prestigieuze optie is een poster plus een volwaardige presentatie van het idee, wanneer je niet langer hoeft te haasten om het verhaal te vertellen.

Prijs vernoemd naar Ilya Segalovich. Een verhaal over informatica en lanceringspublicaties

Maar natuurlijk komen wetenschappers – inclusief de auteurs van goedgekeurde artikelen – niet alleen naar de volgende conferentie om te pronken. Ten eerste hebben ze de neiging om om voor de hand liggende redenen posters te vinden die verband houden met hun vakgebied. En ten tweede is het belangrijk dat ze hun contactenlijst uitbreiden met het oog op gezamenlijk academisch werk in de toekomst. Dit is geen jacht - of in ieder geval de allereerste fase, die op zijn minst wordt gevolgd door een wederzijds voordelige uitwisseling van ideeën, ontwikkelingen en gezamenlijk werken aan een of meer artikelen.

Tegelijkertijd is productief netwerken op een topconferentie lastig vanwege het totale gebrek aan vrije tijd. Als de wetenschapper na een hele dag presentaties en discussies op posters zijn krachten heeft behouden en de jetlag al heeft overwonnen, dan gaat hij naar een van de vele feesten. Ze worden georganiseerd door bedrijven, waardoor de feesten vaak een meer jagend karakter hebben. Tegelijkertijd gebruiken veel gasten ze helemaal niet om een ​​nieuwe baan te vinden, maar nogmaals om te netwerken. 'S Avonds zijn er geen rapporten en posters meer - het is gemakkelijker om de specialist waarin u geïnteresseerd bent te 'vangen'.

Prijs vernoemd naar Ilya Segalovich. Een verhaal over informatica en lanceringspublicaties

Van idee tot productie

Computerwetenschappen is een van de weinige sectoren waar de belangen van bedrijven en startups sterk verbonden zijn met de academische omgeving. NIPS, ICML en andere soortgelijke conferenties trekken veel mensen uit de industrie, niet alleen uit universiteiten. Dit is typisch voor het vakgebied van de informatica, maar omgekeerd voor de meeste andere wetenschappen.

Aan de andere kant zijn niet alle ideeën die in artikelen worden gepresenteerd onmiddellijk gericht op het creëren of verbeteren van diensten. Zelfs binnen één bedrijf kan een onderzoeker aan collega's van de dienst een idee voorstellen dat volgens wetenschappelijke normen een doorbraak is, en om een ​​aantal redenen een weigering krijgen om het uit te voeren. Eén daarvan is hier al genoemd: dit is het verschil tussen de “academische” dataset waarop het artikel is geschreven en de echte dataset. Bovendien kan de implementatie van een idee vertraging oplopen, een grote hoeveelheid middelen vergen of slechts één indicator verbeteren, wat ten koste gaat van de verslechtering van andere maatstaven.

Prijs vernoemd naar Ilya Segalovich. Een verhaal over informatica en lanceringspublicaties

De situatie wordt gered door het feit dat veel ontwikkelaars zelf een beetje onderzoekers zijn. Ze wonen conferenties bij, spreken dezelfde taal met academici, dragen ideeën aan, nemen soms deel aan het maken van artikelen (bijvoorbeeld door code te schrijven) of treden zelfs zelf op als auteurs. Als een ontwikkelaar wordt ondergedompeld in het academische proces, volgt wat er gebeurt op de onderzoeksafdeling, kortom: als hij een tegenbeweging richting wetenschappers laat zien, wordt de cyclus van het omzetten van wetenschappelijke ideeën in nieuwe dienstverleningsmogelijkheden verkort.

Wij wensen alle jonge onderzoekers veel succes en geweldige prestaties bij hun werk. Als dit bericht je niets nieuws heeft verteld, heb je misschien al op een topconferentie gepubliceerd. Registreren voor prijs jezelf en nomineer wetenschappelijke begeleiders.

Bron: www.habr.com

Voeg een reactie