Pris opkaldt efter Ilya Segalovich. En historie om datalogi og lancering af publikationer

Pris opkaldt efter Ilya Segalovich. En historie om datalogi og lancering af publikationer

I dag lancerer vi en videnskabelig pris opkaldt efter Ilya Segalovich iseg. Det vil blive tildelt for resultater inden for datalogi. Bachelor- og postgraduate studerende kan indsende deres egen ansøgning om prisen eller udpege videnskabelige vejledere. Prismodtagerne vil blive valgt af repræsentanter for det akademiske samfund og Yandex. De vigtigste udvælgelseskriterier: publikationer og præsentationer på konferencer, samt bidrag til udviklingen af ​​samfundet.

Den første prisuddeling finder sted i april. Som en del af prisen vil unge videnskabsmænd modtage 350 tusind rubler, og derudover vil de være i stand til at gå til en international konference, arbejde med en mentor og gennemgå et praktikophold i Yandex forskningsafdeling. Videnskabelige vejledere vil modtage 700 tusind rubler.

I anledning af lanceringen af ​​prisen besluttede vi at tale her på Habré om kriterierne for succes i datalogiens verden. Nogle Habr-læsere er allerede bekendt med disse kriterier, mens andre måske har et forkert indtryk af dem. I dag vil vi bygge bro over dette hul - vi vil berøre alle hovedemnerne, herunder artikler, konferencer, datasæt og overførsel af videnskabelige ideer til tjenester.

For forskere inden for datalogi er hovedkriteriet for succes offentliggørelsen af ​​deres videnskabelige arbejde på en af ​​de bedste internationale konferencer. Dette er det første "checkpoint" til at anerkende forskerens arbejde. For eksempel inden for maskinlæring generelt skelnes den internationale konference om maskinlæring (ICML) og konferencen om neurale informationsbehandlingssystemer (NeurIPS, tidligere NIPS). Der er mange konferencer om specifikke områder af ML, såsom computersyn, informationssøgning, taleteknologi, maskinoversættelse osv.

Hvorfor offentliggøre dine ideer

Folk, der er langt fra datalogi, kan have den misforståelse, at det er bedre at holde de mest værdifulde ideer hemmelige og stræbe efter at drage fordel af deres unikke karakter. Den reelle situation på vores felt er dog stik modsat. En videnskabsmands autoritet bedømmes efter betydningen af ​​hans værker, efter hvor ofte hans artikler citeres af andre videnskabsmænd (citationsindeks). Dette er en vigtig egenskab ved hans karriere. En forsker bevæger sig op ad den faglige rangstige og bliver mere respekteret i sit samfund, kun hvis han konsekvent producerer stærkt arbejde, der udgives, bliver berømt og danner grundlag for andre videnskabsmænds arbejde.

Mange topartikler (måske de fleste) er resultatet af samarbejde mellem forskere på forskellige universiteter og virksomheder rundt om i verden. Et vigtigt og meget værdifuldt øjeblik i en forskerkarriere er, når han på egen hånd får mulighed for at finde og frasortere ideer baseret på sin erfaring – men selv herefter fortsætter hans kolleger med at yde ham uvurderlig hjælp. Forskere hjælper hinanden med at udvikle ideer, skrive artikler i samarbejde - og jo større videnskabsmandens bidrag til videnskaben, jo lettere er det for ham at finde ligesindede.

Endelig er tætheden og tilgængeligheden af ​​information nu så stor, at forskellige forskere samtidigt kommer med meget ens (og virkelig værdifulde) videnskabelige ideer. Hvis du ikke udgiver din idé, vil en anden med sikkerhed udgive den for dig. "Vinderen" er ofte ikke den, der kom med innovationen lidt tidligere, men den, der udgav den lidt tidligere. Eller - ham, der formåede at afsløre ideen så fuldt ud, klart og overbevisende som muligt.

Pris opkaldt efter Ilya Segalovich. En historie om datalogi og lancering af publikationer

Artikler og datasæt

Så en videnskabelig artikel er bygget op omkring den hovedidé, som forskeren foreslår. Denne idé er hans bidrag til datalogi. Artiklen indledes med en beskrivelse af ideen, formuleret i få sætninger. Dette efterfølges af en introduktion, der beskriver rækken af ​​problemer, der er løst ved hjælp af den foreslåede innovation. Beskrivelsen og introduktionen er normalt skrevet i et enkelt sprog, der er forståeligt for et bredt publikum. Efter introduktionen er det nødvendigt at formalisere de præsenterede problemer i matematisk sprog og indføre streng notation. Derefter skal du ved hjælp af de introducerede notationer oprette en klar og omfattende erklæring om essensen af ​​den foreslåede innovation og identificere forskellene fra tidligere, lignende metoder. Alle teoretiske udsagn skal enten understøttes af referencer til tidligere kompilerede beviser eller bevises uafhængigt. Dette kan gøres med nogle antagelser. For eksempel kan du give et bevis for sagen, når der er en uendelig mængde træningsdata (en åbenlyst uopnåelig situation), eller de er fuldstændig uafhængige af hinanden. Mod slutningen af ​​artiklen fortæller videnskabsmanden om de eksperimentelle resultater, som han var i stand til at opnå.

Pris opkaldt efter Ilya Segalovich. En historie om datalogi og lancering af publikationer

For at de anmeldere, der er rekrutteret af konferencearrangørerne, skal være mere tilbøjelige til at godkende et papir, skal det have en eller flere egenskaber. En nøglefaktor, der øger chancerne for godkendelse, er den videnskabelige nyhed i den foreslåede idé. Ofte vurderes nyhed i forhold til allerede eksisterende ideer – og arbejdet med at vurdere det udføres ikke af anmelderen, men af ​​artiklens forfatter selv. Ideelt set bør forfatteren fortælle detaljeret i artiklen om eksisterende metoder og om muligt præsentere dem som særlige tilfælde af hans metode. Forskeren viser således, at de accepterede tilgange ikke altid virker, at han generaliserede dem og foreslog en bredere, mere fleksibel og derfor mere effektiv teoretisk formulering. Hvis nyheden er ubestridelig, så vurderer anmelderne ellers artiklen ikke så kræsen - for eksempel kan de vende det blinde øje til dårligt engelsk.

For at styrke nyheden er det nyttigt at inkludere en sammenligning med eksisterende metoder på et eller flere datasæt. Hver af dem skal være åbne og accepterede i det akademiske miljø. For eksempel er der ImageNet-billedlageret og databaser fra sådanne institutter som Modified National Institute of Standards and Technology (MNIST) og CIFAR (Canadian Institute For Advanced Research). Vanskeligheden er, at et sådant "akademisk" datasæt ofte adskiller sig i indholdsstruktur fra de reelle data, som industrien beskæftiger sig med. Forskellige data betyder forskellige resultater af den foreslåede metode. Forskere, der delvist arbejder for industrien, forsøger at tage højde for dette og indsætter nogle gange ansvarsfraskrivelser som "på vores data er resultatet sådan og sådan, men på det offentlige datasæt - sådan og sådan."

Det sker, at den foreslåede metode er fuldstændig "skræddersyet" til en åben database og ikke fungerer på rigtige data. Du kan bekæmpe dette almindelige problem ved at åbne nye, mere repræsentative datasæt, men ofte taler vi om privat indhold, som virksomheder simpelthen ikke har ret til at åbne. I nogle tilfælde udfører de (nogle gange kompleks og omhyggelig) anonymisering af data - de fjerner eventuelle fragmenter, der peger på en bestemt person. For eksempel bliver ansigter og tal på fotografier slettet eller gjort ulæselige. For at datasættet ikke kun skal være tilgængeligt for alle, men for at blive en standard blandt forskere, hvor det er praktisk at sammenligne ideer, er det desuden nødvendigt ikke kun at udgive det, men også at skrive en separat citeret artikel om det og dets fordele.

Det er værre, når der ikke er åbne datasæt i det emne, der undersøges. Så kan anmelderen kun acceptere de resultater, forfatteren præsenterer om tro. Teoretisk set kunne forfatteren endda overvurdere dem og forblive uopdaget, men i et akademisk miljø er dette usandsynligt, da det går imod langt de fleste videnskabsmænds ønske om at udvikle videnskab.

På en række områder af ML, herunder computersyn, er det også almindeligt at vedhæfte links til kode (normalt til GitHub) med artikler. Selve artiklerne indeholder enten meget lidt kode eller er pseudokode. Og her opstår der igen vanskeligheder, hvis artiklen er skrevet af en forsker fra en virksomhed, og ikke fra et universitet. Som standard er kode skrevet i en virksomhed eller opstart mærket NDA. Forskere og deres kolleger skal arbejde hårdt for at adskille koden relateret til idéen, der beskrives, fra interne og helt sikkert lukkede depoter.

Chancen for offentliggørelse afhænger også af relevansen af ​​det valgte emne. Relevans er i høj grad dikteret af produkter og tjenester: Hvis en virksomhed eller startup er interesseret i at bygge en ny tjeneste eller forbedre en eksisterende baseret på en idé fra en artikel, er det et plus.

Pris opkaldt efter Ilya Segalovich. En historie om datalogi og lancering af publikationer

Som allerede nævnt skrives datalogiske artikler sjældent alene. Men som regel bruger en af ​​forfatterne meget mere tid og kræfter end de andre. Hans bidrag til videnskabelig nyhed er det største. På listen over forfattere er en sådan person angivet først - og i fremtiden, når de henviser til en artikel, kan de kun nævne ham (for eksempel "Ivanov et al" - "Ivanov og andre" oversat fra latin). Andres bidrag er dog også yderst værdifulde – ellers er det umuligt at komme på forfatterlisten.

Gennemgangsprocessen

Papirer stopper normalt med at blive accepteret flere måneder før konferencen. Efter at en artikel er indsendt, har anmelderne 3-5 uger til at læse, vurdere og kommentere den. Dette sker ifølge single blind-systemet, når forfatterne ikke kan se navnene på anmelderne, eller double blind, når anmelderne ikke selv kan se forfatternes navne. Den anden mulighed anses for at være mere upartisk: flere videnskabelige artikler har vist, at forfatterens popularitet påvirker anmelderens beslutning. For eksempel kan han mene, at en videnskabsmand med et stort antal allerede publicerede artikler a priori er værdig til en højere vurdering.

Desuden vil anmelderen, selv i tilfælde af dobbeltblind, formentlig gætte forfatteren, hvis de arbejder inden for samme felt. Derudover kan artiklen på tidspunktet for gennemgangen allerede være publiceret i arXiv-databasen, det største lager af videnskabelige artikler. Konferencearrangører forbyder ikke dette, men de anbefaler at bruge en anden titel og et andet abstrakt i publikationer til arXiv. Men hvis artiklen blev lagt der, vil det stadig ikke være svært at finde den.

Der er altid flere anmeldere, der vurderer en artikel. En af dem tildeles rollen som meta-reviewer, som kun skal gennemgå sine kollegers domme og træffe den endelige beslutning. Hvis anmelderne er uenige i artiklen, kan meta-anmelderen også læse den for fuldstændighedens skyld.

Nogle gange har forfatteren, efter at have gennemgået bedømmelsen og kommentarerne, mulighed for at indgå i en diskussion med anmelderen; der er endda en chance for at overbevise ham om at ændre sin beslutning (et sådant system fungerer dog ikke for alle konferencer, og det er endnu mindre muligt at påvirke dommen for alvor). I diskussionen kan du ikke henvise til andre videnskabelige værker, med undtagelse af dem, der allerede er refereret i artiklen. Du kan kun "hjælpe" anmelderen til bedre at forstå artiklens indhold.

Pris opkaldt efter Ilya Segalovich. En historie om datalogi og lancering af publikationer

Konferencer og tidsskrifter

Datalogiske artikler sendes oftere til konferencer end til videnskabelige tidsskrifter. Dette skyldes, at tidsskriftspublikationer har krav, der er sværere at opfylde, og peer review-processen kan tage måneder eller endda år. Datalogi er et meget hurtigt bevægende felt, så forfattere er normalt ikke villige til at vente så længe på udgivelse. Men en artikel, der allerede er accepteret til konferencen, kan så suppleres (for eksempel ved at præsentere mere detaljerede resultater) og publiceres i et tidsskrift, hvor pladsbegrænsningerne ikke er så strenge.

Arrangementer på konferencen

Formatet for tilstedeværelsen af ​​forfattere til godkendte artikler på konferencen bestemmes af anmelderne. Hvis artiklen får grønt lys, så får du oftest tildelt en plakatstand. En plakat er et statisk dias med et resumé af artiklen og illustrationer. Nogle konferencelokaler er fyldt med lange rækker af plakatstande. Forfatteren bruger en betydelig del af sin tid i nærheden af ​​sin plakat og kommunikerer med videnskabsmænd, der er interesserede i artiklen.

Pris opkaldt efter Ilya Segalovich. En historie om datalogi og lancering af publikationer

Pris opkaldt efter Ilya Segalovich. En historie om datalogi og lancering af publikationer

En lidt mere prestigefyldt mulighed for deltagelse er en lynsnak. Hvis anmelderne finder artiklen værdig til en hurtig rapport, får forfatteren omkring tre minutter til at tale til et bredt publikum. På den ene side er en lynsnak en god mulighed for at fortælle om din idé ikke kun til dem, der på eget initiativ interesserede sig for plakaten. På den anden side er proaktive plakatbesøgende mere forberedte og mere fordybet i dit specifikke emne end den gennemsnitlige lytter i salen. Derfor skal du i en hurtig rapport stadig have tid til at bringe folk ajour.

Pris opkaldt efter Ilya Segalovich. En historie om datalogi og lancering af publikationer

Normalt, i slutningen af ​​deres lynsnak, navngiver forfattere plakatens nummer, så lytterne kan finde det og bedre forstå artiklen.

Pris opkaldt efter Ilya Segalovich. En historie om datalogi og lancering af publikationer

Den sidste, mest prestigefyldte mulighed er en plakat plus en fuldgyldig præsentation af ideen, når der ikke længere er behov for at skynde sig at fortælle historien.

Pris opkaldt efter Ilya Segalovich. En historie om datalogi og lancering af publikationer

Men selvfølgelig kommer videnskabsmænd - inklusive forfatterne af godkendte artikler - til den næste konference ikke kun for at vise sig frem. For det første har de en tendens til at finde plakater relateret til deres felt af indlysende årsager. Og for det andet er det vigtigt for dem at udvide deres kontaktliste med henblik på fælles akademisk arbejde i fremtiden. Dette er ikke jagt - eller i hvert fald dens allerførste fase, som i det mindste følges af en gensidigt gavnlig udveksling af ideer, udviklinger og fælles arbejde med en eller flere artikler.

Samtidig er produktivt netværk på en topkonference svært på grund af den totale mangel på fritid. Hvis videnskabsmanden efter en hel dag brugt på præsentationer og i diskussioner ved plakater har bevaret sin styrke og allerede har overvundet jetlag, så tager han til en af ​​de mange fester. De er hostet af selskaber - som følge heraf har parterne ofte en mere jagtende karakter. Samtidig bruger mange gæster dem slet ikke til at finde et nyt job, men igen til netværk. Om aftenen er der ikke flere rapporter og plakater - det er nemmere at "fange" den specialist, du er interesseret i.

Pris opkaldt efter Ilya Segalovich. En historie om datalogi og lancering af publikationer

Fra idé til produktion

Datalogi er en af ​​de få brancher, hvor virksomheders og startups interesser er stærkt knyttet til det akademiske miljø. NIPS, ICML og andre lignende konferencer tiltrækker mange mennesker fra industrien, ikke kun universiteter. Dette er typisk for området datalogi, men omvendt for de fleste andre videnskaber.

På den anden side er det ikke alle idéer, der præsenteres i artikler, der umiddelbart går til at skabe eller forbedre tjenester. Selv inden for en virksomhed kan en forsker foreslå kollegaer fra tjenesten en idé, der er banebrydende efter videnskabelige standarder, og få et afslag på at implementere den af ​​en række årsager. En af dem er allerede blevet nævnt her - dette er forskellen mellem det "akademiske" datasæt, som artiklen blev skrevet på, og det rigtige datasæt. Derudover kan implementeringen af ​​en idé blive forsinket, kræve en stor mængde ressourcer eller kun forbedre én indikator på bekostning af forringelse af andre målinger.

Pris opkaldt efter Ilya Segalovich. En historie om datalogi og lancering af publikationer

Situationen reddes af, at mange udviklere selv er lidt forskere. De deltager i konferencer, taler samme sprog med akademikere, foreslår ideer, deltager nogle gange i skabelsen af ​​artikler (for eksempel ved at skrive kode) eller fungerer endda selv som forfattere. Hvis en udvikler er fordybet i den akademiske proces, følger med i, hvad der sker i forskningsafdelingen, med et ord - hvis han demonstrerer en modbevægelse over for videnskabsmænd, så forkortes cyklussen med at omdanne videnskabelige ideer til nye servicekapaciteter.

Vi ønsker alle unge forskere held og lykke og store resultater i deres arbejde. Hvis dette indlæg ikke fortalte dig noget nyt, så har du måske allerede offentliggjort på en topkonference. Tilmeld dig præmie dig selv og udpege videnskabelige vejledere.

Kilde: www.habr.com

Tilføj en kommentar