Pris oppkalt etter Ilya Segalovich. En historie om informatikk og lanseringspublikasjoner

Pris oppkalt etter Ilya Segalovich. En historie om informatikk og lanseringspublikasjoner

I dag lanserer vi en vitenskapelig pris oppkalt etter Ilya Segalovich iseg. Det vil bli tildelt for prestasjoner innen datavitenskap. Bachelor- og hovedfagsstudenter kan sende inn sin egen søknad om prisen eller nominere vitenskapelige veiledere. Prisvinnerne vil bli valgt av representanter for det akademiske miljøet og Yandex. De viktigste utvalgskriteriene: publikasjoner og presentasjoner på konferanser, samt bidrag til utviklingen av samfunnet.

Den første prisutdelingen finner sted i april. Som en del av prisen vil unge forskere motta 350 tusen rubler, og i tillegg vil de kunne gå til en internasjonal konferanse, jobbe med en mentor og gjennomgå et internship i Yandex forskningsavdeling. Vitenskapelige veiledere vil motta 700 tusen rubler.

I anledning lanseringen av prisen bestemte vi oss for å snakke her på Habré om kriteriene for suksess i informatikkverdenen. Noen Habr-lesere er allerede kjent med disse kriteriene, mens andre kan ha et feilaktig inntrykk av dem. I dag skal vi bygge bro over dette gapet - vi vil berøre alle hovedemnene, inkludert artikler, konferanser, datasett og overføring av vitenskapelige ideer til tjenester.

For forskere innen datavitenskap er hovedkriteriet for suksess publisering av deres vitenskapelige arbeid på en av de beste internasjonale konferansene. Dette er det første "sjekkpunktet" for å gjenkjenne forskerens arbeid. For eksempel, innen maskinlæring generelt, skilles den internasjonale konferansen om maskinlæring (ICML) og konferansen om nevrale informasjonsbehandlingssystemer (NeurIPS, tidligere NIPS) ut. Det er mange konferanser om spesifikke områder av ML, for eksempel datasyn, informasjonsinnhenting, taleteknologi, maskinoversettelse, etc.

Hvorfor publisere ideene dine

Folk som er langt fra informatikk kan ha misforståelsen om at det er bedre å holde de mest verdifulle ideene hemmelige og strebe etter å tjene på deres unike egenskaper. Den virkelige situasjonen på vårt felt er imidlertid stikk motsatt. En vitenskapsmanns autoritet bedømmes etter betydningen av verkene hans, etter hvor ofte artiklene hans blir sitert av andre forskere (siteringsindeks). Dette er en viktig egenskap ved karrieren hans. En forsker beveger seg opp på den faglige rangstigen, og blir mer respektert i samfunnet sitt, bare hvis han konsekvent produserer sterkt arbeid som publiseres, blir berømt og danner grunnlaget for andre forskeres arbeid.

Mange toppartikler (kanskje de fleste) er et resultat av samarbeid mellom forskere ved ulike universiteter og selskaper rundt om i verden. Et viktig og svært verdifullt øyeblikk i en forskerkarriere er når han får muligheten til å finne og sile ut ideer på egenhånd basert på sin erfaring – men også etter dette fortsetter kollegene å gi ham uvurderlig hjelp. Forskere hjelper hverandre med å utvikle ideer, skrive artikler i samarbeid - og jo større vitenskapsmannens bidrag til vitenskapen, jo lettere er det for ham å finne likesinnede.

Endelig er tettheten og tilgjengeligheten av informasjon nå så stor at forskjellige forskere samtidig kommer opp med svært like (og virkelig verdifulle) vitenskapelige ideer. Hvis du ikke publiserer ideen din, vil noen andre ganske sikkert publisere den for deg. «Vinneren» er ofte ikke den som kom med innovasjonen litt tidligere, men den som publiserte den litt tidligere. Eller – den som klarte å avsløre ideen så fullstendig, tydelig og overbevisende som mulig.

Pris oppkalt etter Ilya Segalovich. En historie om informatikk og lanseringspublikasjoner

Artikler og datasett

Så en vitenskapelig artikkel er bygget rundt hovedideen som forskeren foreslår. Denne ideen er hans bidrag til informatikk. Artikkelen starter med en beskrivelse av ideen, formulert i noen få setninger. Dette etterfølges av en introduksjon som beskriver spekteret av problemer som er løst ved hjelp av den foreslåtte innovasjonen. Beskrivelsen og introduksjonen er vanligvis skrevet i et enkelt språk som er forståelig for et bredt publikum. Etter introduksjonen er det nødvendig å formalisere problemene som presenteres i matematisk språk og innføre streng notasjon. Deretter, ved å bruke de introduserte notasjonene, må du lage en klar og omfattende uttalelse om essensen av den foreslåtte innovasjonen, og identifisere forskjellene fra tidligere, lignende metoder. Alle teoretiske utsagn må enten støttes av referanser til tidligere sammenstilte bevis, eller bevises uavhengig. Dette kan gjøres med noen forutsetninger. Du kan for eksempel gi et bevis for saken når det er uendelig mengde treningsdata (en åpenbart uoppnåelig situasjon) eller de er helt uavhengige av hverandre. Mot slutten av artikkelen forteller forskeren om de eksperimentelle resultatene han var i stand til å oppnå.

Pris oppkalt etter Ilya Segalovich. En historie om informatikk og lanseringspublikasjoner

For at anmelderne som er rekruttert av konferansearrangørene skal ha større sannsynlighet for å godkjenne en artikkel, må den ha en eller flere attributter. En nøkkelfaktor som øker sjansene for godkjenning er den vitenskapelige nyheten til den foreslåtte ideen. Ofte vurderes nyhet i forhold til allerede eksisterende ideer – og arbeidet med å vurdere det utføres ikke av anmelderen, men av artikkelforfatteren selv. Ideelt sett bør forfatteren fortelle i detalj i artikkelen om eksisterende metoder og om mulig presentere dem som spesielle tilfeller av metoden hans. Dermed viser forskeren at de aksepterte tilnærmingene ikke alltid fungerer, at han generaliserte dem og foreslo en bredere, mer fleksibel og derfor mer effektiv teoretisk formulering. Hvis nyheten er ubestridelig, så vurderer ellers anmeldere artikkelen ikke så kresne - for eksempel kan de lukke øynene for dårlig engelsk.

For å forsterke nyheten er det nyttig å inkludere en sammenligning med eksisterende metoder på ett eller flere datasett. Hver av dem skal være åpen og akseptert i det akademiske miljøet. For eksempel er det ImageNet-bildelageret og databaser for slike institutter som Modified National Institute of Standards and Technology (MNIST) og CIFAR (Canadian Institute For Advanced Research). Vanskeligheten er at et slikt «akademisk» datasett ofte skiller seg i innholdsstruktur fra de reelle dataene som bransjen håndterer. Ulike data betyr ulike resultater av den foreslåtte metoden. Forskere som delvis jobber for industrien prøver å ta hensyn til dette og legger noen ganger inn ansvarsfraskrivelser som "på våre data er resultatet slik og slik, men på det offentlige datasettet - slik og slik."

Det hender at den foreslåtte metoden er fullstendig "skreddersydd" til en åpen database og ikke fungerer på ekte data. Du kan bekjempe dette vanlige problemet ved å åpne nye, mer representative datasett, men ofte snakker vi om privat innhold som bedrifter rett og slett ikke har rett til å åpne. I noen tilfeller utfører de (noen ganger kompleks og møysommelig) anonymisering av data - de fjerner eventuelle fragmenter som peker mot en bestemt person. For eksempel blir ansikter og tall på fotografier slettet eller gjort uleselige. I tillegg, for at datasettet ikke bare skal være tilgjengelig for alle, men for å bli en standard blant forskere som det er praktisk å sammenligne ideer på, er det nødvendig ikke bare å publisere det, men også å skrive en egen sitert artikkel om den og dens fordeler.

Det er verre når det ikke er noen åpne datasett i emnet som studeres. Da kan anmelderen bare godta resultatene presentert av forfatteren på tro. Teoretisk sett kan forfatteren til og med overvurdere dem og forbli uoppdaget, men i et akademisk miljø er dette usannsynlig, siden det strider mot ønsket til det store flertallet av vitenskapsmenn om å utvikle vitenskap.

På en rekke områder av ML, inkludert datasyn, er det også vanlig å legge ved lenker til kode (vanligvis til GitHub) med artikler. Artiklene i seg selv inneholder enten svært lite kode eller er pseudokode. Og her oppstår det igjen vanskeligheter hvis artikkelen er skrevet av en forsker fra et selskap, og ikke fra et universitet. Som standard er kode skrevet i et selskap eller oppstart merket NDA. Forskere og deres kolleger må jobbe hardt for å skille koden knyttet til ideen som beskrives fra interne og absolutt lukkede depoter.

Sjansen for publisering avhenger også av relevansen til det valgte emnet. Relevans er i stor grad diktert av produkter og tjenester: Hvis et selskap eller oppstart er interessert i å bygge en ny tjeneste eller forbedre en eksisterende basert på en idé fra en artikkel, er det et pluss.

Pris oppkalt etter Ilya Segalovich. En historie om informatikk og lanseringspublikasjoner

Som allerede nevnt, skrives informatikkoppgaver sjelden alene. Men som regel bruker en av forfatterne mye mer tid og krefter enn de andre. Hans bidrag til vitenskapelig nyhet er det største. I listen over forfattere er en slik person angitt først - og i fremtiden, når de refererer til en artikkel, kan de bare nevne ham (for eksempel "Ivanov et al" - "Ivanov og andre" oversatt fra latin). Andres bidrag er imidlertid også ekstremt verdifulle – ellers er det umulig å stå på forfatterlisten.

Gjennomgangsprosess

Papirer slutter vanligvis å bli akseptert flere måneder før konferansen. Når en artikkel er sendt inn, har anmelderne 3–5 uker på seg til å lese, vurdere og kommentere den. Dette skjer i henhold til single blind-systemet, når forfatterne ikke ser navnene på anmelderne, eller double blind, når anmelderne selv ikke ser navnene på forfatterne. Det andre alternativet anses som mer upartisk: flere vitenskapelige artikler har vist at forfatterens popularitet påvirker anmelderens avgjørelse. For eksempel kan han vurdere at en vitenskapsmann med et stort antall allerede publiserte artikler a priori er verdig en høyere vurdering.

Dessuten, selv i tilfelle av dobbel blind, vil anmelderen sannsynligvis gjette forfatteren om de jobber i samme felt. I tillegg, på tidspunktet for gjennomgangen, kan artikkelen allerede være publisert i arXiv-databasen, det største depotet for vitenskapelige artikler. Konferansearrangører forbyr ikke dette, men de anbefaler å bruke en annen tittel og et annet sammendrag i publikasjoner for arXiv. Men hvis artikkelen ble lagt ut der, vil det likevel ikke være vanskelig å finne den.

Det er alltid flere anmeldere som vurderer en artikkel. En av dem er tildelt rollen som meta-reviewer, som bare må gjennomgå dommene til kollegene og ta den endelige avgjørelsen. Hvis anmelderne er uenige i artikkelen, kan meta-anmelderen også lese den for fullstendighet.

Noen ganger, etter å ha gjennomgått vurderingen og kommentarer, har forfatteren mulighet til å gå inn i en diskusjon med anmelderen; det er til og med en sjanse til å overbevise ham om å endre avgjørelsen (et slikt system fungerer imidlertid ikke for alle konferanser, og det er enda mindre mulig å påvirke dommen alvorlig). I diskusjonen kan du ikke referere til andre vitenskapelige arbeider, med unntak av de som allerede er referert i artikkelen. Du kan bare "hjelpe" anmelderen til å forstå innholdet i artikkelen bedre.

Pris oppkalt etter Ilya Segalovich. En historie om informatikk og lanseringspublikasjoner

Konferanser og tidsskrifter

Datavitenskapelige artikler sendes oftere til konferanser enn til vitenskapelige tidsskrifter. Dette er fordi tidsskriftpublikasjoner har krav som er vanskeligere å oppfylle, og fagfellevurderingsprosessen kan ta måneder eller til og med år. Datavitenskap er et felt som beveger seg veldig raskt, så forfattere er vanligvis ikke villige til å vente så lenge på publisering. Men en artikkel som allerede er akseptert for konferansen kan da suppleres (for eksempel ved å presentere mer detaljerte resultater) og publiseres i et tidsskrift der plassbegrensningene ikke er så strenge.

Arrangementer på konferansen

Formatet for tilstedeværelsen av forfattere av godkjente artikler på konferansen bestemmes av anmelderne. Hvis artikkelen får grønt lys, får du som oftest tildelt et plakatstativ. En plakat er et statisk lysbilde med et sammendrag av artikkelen og illustrasjoner. Noen konferanserom er fylt med lange rader med plakatstativer. Forfatteren tilbringer en betydelig del av tiden sin i nærheten av plakaten sin, og kommuniserer med forskere som er interessert i artikkelen.

Pris oppkalt etter Ilya Segalovich. En historie om informatikk og lanseringspublikasjoner

Pris oppkalt etter Ilya Segalovich. En historie om informatikk og lanseringspublikasjoner

Et litt mer prestisjefylt alternativ for deltakelse er en lynprat. Hvis anmelderne anser artikkelen som verdig en rask rapport, får forfatteren omtrent tre minutter til å snakke til et bredt publikum. På den ene siden er en lynprat en god anledning til å fortelle om ideen din ikke bare til de som ble interessert i plakaten på eget initiativ. På den annen side er proaktive plakatbesøkende mer forberedt og mer oppslukt av ditt spesifikke emne enn den gjennomsnittlige lytteren i salen. Derfor, i en rask rapport, må du fortsatt ha tid til å holde folk oppdatert.

Pris oppkalt etter Ilya Segalovich. En historie om informatikk og lanseringspublikasjoner

Vanligvis, på slutten av lynpraten, navngir forfattere plakatnummeret slik at lytterne kan finne det og bedre forstå artikkelen.

Pris oppkalt etter Ilya Segalovich. En historie om informatikk og lanseringspublikasjoner

Det siste, mest prestisjefylte alternativet er en plakat pluss en fullverdig presentasjon av ideen, når det ikke lenger er nødvendig å skynde seg å fortelle historien.

Pris oppkalt etter Ilya Segalovich. En historie om informatikk og lanseringspublikasjoner

Men selvfølgelig kommer forskere – inkludert forfatterne av godkjente artikler – til neste konferanse ikke bare for å vise seg frem. For det første har de en tendens til å finne plakater relatert til feltet deres av åpenbare grunner. Og for det andre er det viktig for dem å utvide kontaktlisten med tanke på felles faglig arbeid i fremtiden. Dette er ikke jakt - eller i det minste dets aller første stadium, som i det minste følges av en gjensidig fordelaktig utveksling av ideer, utvikling og felles arbeid med en eller flere artikler.

Samtidig er produktivt nettverksbygging på en toppkonferanse vanskelig på grunn av total mangel på fritid. Hvis forskeren, etter en hel dag brukt på presentasjoner og diskusjoner på plakater, har beholdt sin styrke og allerede har overvunnet jetlag, så drar han til en av de mange festene. De er vertskap for selskaper - som et resultat av dette har partene ofte en mer jaktende karakter. Samtidig bruker mange gjester dem ikke i det hele tatt for å finne en ny jobb, men igjen til nettverksbygging. Om kvelden er det ikke flere rapporter og plakater - det er lettere å "fange" spesialisten du er interessert i.

Pris oppkalt etter Ilya Segalovich. En historie om informatikk og lanseringspublikasjoner

Fra idé til produksjon

Informatikk er en av få næringer hvor interessene til selskaper og startups er sterkt knyttet til det akademiske miljøet. NIPS, ICML og andre lignende konferanser tiltrekker seg mange mennesker fra industrien, ikke bare universiteter. Dette er typisk for feltet informatikk, men omvendt for de fleste andre vitenskaper.

På den annen side går ikke alle ideer som presenteres i artikler umiddelbart mot å skape eller forbedre tjenester. Selv innenfor ett selskap kan en forsker foreslå kollegaer fra tjenesten en idé som er banebrytende etter vitenskapelige standarder og få avslag på å implementere den av en rekke årsaker. En av dem er allerede nevnt her - dette er forskjellen mellom det "akademiske" datasettet som artikkelen ble skrevet på og det virkelige datasettet. I tillegg kan implementeringen av en idé bli forsinket, kreve en stor mengde ressurser eller forbedre bare én indikator på bekostning av forringelse av andre beregninger.

Pris oppkalt etter Ilya Segalovich. En historie om informatikk og lanseringspublikasjoner

Situasjonen reddes av at mange utviklere selv er litt forskere. De deltar på konferanser, snakker samme språk med akademikere, foreslår ideer, deltar noen ganger i å lage artikler (for eksempel å skrive kode), eller til og med fungerer som forfattere selv. Hvis en utvikler er fordypet i den akademiske prosessen, følger med på hva som skjer i forskningsavdelingen, med et ord - hvis han demonstrerer en motbevegelse mot forskere, forkortes syklusen med å gjøre vitenskapelige ideer til nye tjenesteevner.

Vi ønsker alle unge forskere lykke til og store prestasjoner i arbeidet. Hvis dette innlegget ikke fortalte deg noe nytt, kan det hende du allerede har publisert på en toppkonferanse. Registrer for premie deg selv og nominere vitenskapelige veiledere.

Kilde: www.habr.com

Legg til en kommentar