I dag lancerer vi en videnskabelig pris opkaldt efter Ilya Segalovich
Den første prisuddeling finder sted i april. Som en del af prisen vil unge videnskabsmænd modtage 350 tusind rubler, og derudover vil de være i stand til at gå til en international konference, arbejde med en mentor og gennemgå et praktikophold i Yandex forskningsafdeling. Videnskabelige vejledere vil modtage 700 tusind rubler.
I anledning af lanceringen af prisen besluttede vi at tale her på Habré om kriterierne for succes i datalogiens verden. Nogle Habr-læsere er allerede bekendt med disse kriterier, mens andre måske har et forkert indtryk af dem. I dag vil vi bygge bro over dette hul - vi vil berøre alle hovedemnerne, herunder artikler, konferencer, datasæt og overførsel af videnskabelige ideer til tjenester.
Hvorfor offentliggøre dine ideer
Folk, der er langt fra datalogi, kan have den misforståelse, at det er bedre at holde de mest værdifulde ideer hemmelige og stræbe efter at drage fordel af deres unikke karakter. Den reelle situation på vores felt er dog stik modsat. En videnskabsmands autoritet bedømmes efter betydningen af hans værker, efter hvor ofte hans artikler citeres af andre videnskabsmænd (citationsindeks). Dette er en vigtig egenskab ved hans karriere. En forsker bevæger sig op ad den faglige rangstige og bliver mere respekteret i sit samfund, kun hvis han konsekvent producerer stærkt arbejde, der udgives, bliver berømt og danner grundlag for andre videnskabsmænds arbejde.
Mange topartikler (måske de fleste) er resultatet af samarbejde mellem forskere på forskellige universiteter og virksomheder rundt om i verden. Et vigtigt og meget værdifuldt øjeblik i en forskerkarriere er, når han på egen hånd får mulighed for at finde og frasortere ideer baseret på sin erfaring – men selv herefter fortsætter hans kolleger med at yde ham uvurderlig hjælp. Forskere hjælper hinanden med at udvikle ideer, skrive artikler i samarbejde - og jo større videnskabsmandens bidrag til videnskaben, jo lettere er det for ham at finde ligesindede.
Endelig er tætheden og tilgængeligheden af information nu så stor, at forskellige forskere samtidigt kommer med meget ens (og virkelig værdifulde) videnskabelige ideer. Hvis du ikke udgiver din idé, vil en anden med sikkerhed udgive den for dig. "Vinderen" er ofte ikke den, der kom med innovationen lidt tidligere, men den, der udgav den lidt tidligere. Eller - ham, der formåede at afsløre ideen så fuldt ud, klart og overbevisende som muligt.
Artikler og datasæt
Så en videnskabelig artikel er bygget op omkring den hovedidé, som forskeren foreslår. Denne idé er hans bidrag til datalogi. Artiklen indledes med en beskrivelse af ideen, formuleret i få sætninger. Dette efterfølges af en introduktion, der beskriver rækken af problemer, der er løst ved hjælp af den foreslåede innovation. Beskrivelsen og introduktionen er normalt skrevet i et enkelt sprog, der er forståeligt for et bredt publikum. Efter introduktionen er det nødvendigt at formalisere de præsenterede problemer i matematisk sprog og indføre streng notation. Derefter skal du ved hjælp af de introducerede notationer oprette en klar og omfattende erklæring om essensen af den foreslåede innovation og identificere forskellene fra tidligere, lignende metoder. Alle teoretiske udsagn skal enten understøttes af referencer til tidligere kompilerede beviser eller bevises uafhængigt. Dette kan gøres med nogle antagelser. For eksempel kan du give et bevis for sagen, når der er en uendelig mængde træningsdata (en åbenlyst uopnåelig situation), eller de er fuldstændig uafhængige af hinanden. Mod slutningen af artiklen fortæller videnskabsmanden om de eksperimentelle resultater, som han var i stand til at opnå.
For at de anmeldere, der er rekrutteret af konferencearrangørerne, skal være mere tilbøjelige til at godkende et papir, skal det have en eller flere egenskaber. En nøglefaktor, der øger chancerne for godkendelse, er den videnskabelige nyhed i den foreslåede idé. Ofte vurderes nyhed i forhold til allerede eksisterende ideer – og arbejdet med at vurdere det udføres ikke af anmelderen, men af artiklens forfatter selv. Ideelt set bør forfatteren fortælle detaljeret i artiklen om eksisterende metoder og om muligt præsentere dem som særlige tilfælde af hans metode. Forskeren viser således, at de accepterede tilgange ikke altid virker, at han generaliserede dem og foreslog en bredere, mere fleksibel og derfor mere effektiv teoretisk formulering. Hvis nyheden er ubestridelig, så vurderer anmelderne ellers artiklen ikke så kræsen - for eksempel kan de vende det blinde øje til dårligt engelsk.
For at styrke nyheden er det nyttigt at inkludere en sammenligning med eksisterende metoder på et eller flere datasæt. Hver af dem skal være åbne og accepterede i det akademiske miljø. For eksempel er der ImageNet-billedlageret og databaser fra sådanne institutter som Modified National Institute of Standards and Technology (MNIST) og CIFAR (Canadian Institute For Advanced Research). Vanskeligheden er, at et sådant "akademisk" datasæt ofte adskiller sig i indholdsstruktur fra de reelle data, som industrien beskæftiger sig med. Forskellige data betyder forskellige resultater af den foreslåede metode. Forskere, der delvist arbejder for industrien, forsøger at tage højde for dette og indsætter nogle gange ansvarsfraskrivelser som "på vores data er resultatet sådan og sådan, men på det offentlige datasæt - sådan og sådan."
Det sker, at den foreslåede metode er fuldstændig "skræddersyet" til en åben database og ikke fungerer på rigtige data. Du kan bekæmpe dette almindelige problem ved at åbne nye, mere repræsentative datasæt, men ofte taler vi om privat indhold, som virksomheder simpelthen ikke har ret til at åbne. I nogle tilfælde udfører de (nogle gange kompleks og omhyggelig) anonymisering af data - de fjerner eventuelle fragmenter, der peger på en bestemt person. For eksempel bliver ansigter og tal på fotografier slettet eller gjort ulæselige. For at datasættet ikke kun skal være tilgængeligt for alle, men for at blive en standard blandt forskere, hvor det er praktisk at sammenligne ideer, er det desuden nødvendigt ikke kun at udgive det, men også at skrive en separat citeret artikel om det og dets fordele.
Det er værre, når der ikke er åbne datasæt i det emne, der undersøges. Så kan anmelderen kun acceptere de resultater, forfatteren præsenterer om tro. Teoretisk set kunne forfatteren endda overvurdere dem og forblive uopdaget, men i et akademisk miljø er dette usandsynligt, da det går imod langt de fleste videnskabsmænds ønske om at udvikle videnskab.
På en række områder af ML, herunder computersyn, er det også almindeligt at vedhæfte links til kode (normalt til GitHub) med artikler. Selve artiklerne indeholder enten meget lidt kode eller er pseudokode. Og her opstår der igen vanskeligheder, hvis artiklen er skrevet af en forsker fra en virksomhed, og ikke fra et universitet. Som standard er kode skrevet i en virksomhed eller opstart mærket NDA. Forskere og deres kolleger skal arbejde hårdt for at adskille koden relateret til idéen, der beskrives, fra interne og helt sikkert lukkede depoter.
Chancen for offentliggørelse afhænger også af relevansen af det valgte emne. Relevans er i høj grad dikteret af produkter og tjenester: Hvis en virksomhed eller startup er interesseret i at bygge en ny tjeneste eller forbedre en eksisterende baseret på en idé fra en artikel, er det et plus.
Som allerede nævnt skrives datalogiske artikler sjældent alene. Men som regel bruger en af forfatterne meget mere tid og kræfter end de andre. Hans bidrag til videnskabelig nyhed er det største. På listen over forfattere er en sådan person angivet først - og i fremtiden, når de henviser til en artikel, kan de kun nævne ham (for eksempel "Ivanov et al" - "Ivanov og andre" oversat fra latin). Andres bidrag er dog også yderst værdifulde – ellers er det umuligt at komme på forfatterlisten.
Gennemgangsprocessen
Papirer stopper normalt med at blive accepteret flere måneder før konferencen. Efter at en artikel er indsendt, har anmelderne 3-5 uger til at læse, vurdere og kommentere den. Dette sker ifølge single blind-systemet, når forfatterne ikke kan se navnene på anmelderne, eller double blind, når anmelderne ikke selv kan se forfatternes navne. Den anden mulighed anses for at være mere upartisk: flere videnskabelige artikler har vist, at forfatterens popularitet påvirker anmelderens beslutning. For eksempel kan han mene, at en videnskabsmand med et stort antal allerede publicerede artikler a priori er værdig til en højere vurdering.
Desuden vil anmelderen, selv i tilfælde af dobbeltblind, formentlig gætte forfatteren, hvis de arbejder inden for samme felt. Derudover kan artiklen på tidspunktet for gennemgangen allerede være publiceret i arXiv-databasen, det største lager af videnskabelige artikler. Konferencearrangører forbyder ikke dette, men de anbefaler at bruge en anden titel og et andet abstrakt i publikationer til arXiv. Men hvis artiklen blev lagt der, vil det stadig ikke være svært at finde den.
Der er altid flere anmeldere, der vurderer en artikel. En af dem tildeles rollen som meta-reviewer, som kun skal gennemgå sine kollegers domme og træffe den endelige beslutning. Hvis anmelderne er uenige i artiklen, kan meta-anmelderen også læse den for fuldstændighedens skyld.
Nogle gange har forfatteren, efter at have gennemgået bedømmelsen og kommentarerne, mulighed for at indgå i en diskussion med anmelderen; der er endda en chance for at overbevise ham om at ændre sin beslutning (et sådant system fungerer dog ikke for alle konferencer, og det er endnu mindre muligt at påvirke dommen for alvor). I diskussionen kan du ikke henvise til andre videnskabelige værker, med undtagelse af dem, der allerede er refereret i artiklen. Du kan kun "hjælpe" anmelderen til bedre at forstå artiklens indhold.
Konferencer og tidsskrifter
Datalogiske artikler sendes oftere til konferencer end til videnskabelige tidsskrifter. Dette skyldes, at tidsskriftspublikationer har krav, der er sværere at opfylde, og peer review-processen kan tage måneder eller endda år. Datalogi er et meget hurtigt bevægende felt, så forfattere er normalt ikke villige til at vente så længe på udgivelse. Men en artikel, der allerede er accepteret til konferencen, kan så suppleres (for eksempel ved at præsentere mere detaljerede resultater) og publiceres i et tidsskrift, hvor pladsbegrænsningerne ikke er så strenge.
Arrangementer på konferencen
Formatet for tilstedeværelsen af forfattere til godkendte artikler på konferencen bestemmes af anmelderne. Hvis artiklen får grønt lys, så får du oftest tildelt en plakatstand. En plakat er et statisk dias med et resumé af artiklen og illustrationer. Nogle konferencelokaler er fyldt med lange rækker af plakatstande. Forfatteren bruger en betydelig del af sin tid i nærheden af sin plakat og kommunikerer med videnskabsmænd, der er interesserede i artiklen.
En lidt mere prestigefyldt mulighed for deltagelse er en lynsnak. Hvis anmelderne finder artiklen værdig til en hurtig rapport, får forfatteren omkring tre minutter til at tale til et bredt publikum. På den ene side er en lynsnak en god mulighed for at fortælle om din idé ikke kun til dem, der på eget initiativ interesserede sig for plakaten. På den anden side er proaktive plakatbesøgende mere forberedte og mere fordybet i dit specifikke emne end den gennemsnitlige lytter i salen. Derfor skal du i en hurtig rapport stadig have tid til at bringe folk ajour.
Normalt, i slutningen af deres lynsnak, navngiver forfattere plakatens nummer, så lytterne kan finde det og bedre forstå artiklen.
Den sidste, mest prestigefyldte mulighed er en plakat plus en fuldgyldig præsentation af ideen, når der ikke længere er behov for at skynde sig at fortælle historien.
Men selvfølgelig kommer videnskabsmænd - inklusive forfatterne af godkendte artikler - til den næste konference ikke kun for at vise sig frem. For det første har de en tendens til at finde plakater relateret til deres felt af indlysende årsager. Og for det andet er det vigtigt for dem at udvide deres kontaktliste med henblik på fælles akademisk arbejde i fremtiden. Dette er ikke jagt - eller i hvert fald dens allerførste fase, som i det mindste følges af en gensidigt gavnlig udveksling af ideer, udviklinger og fælles arbejde med en eller flere artikler.
Samtidig er produktivt netværk på en topkonference svært på grund af den totale mangel på fritid. Hvis videnskabsmanden efter en hel dag brugt på præsentationer og i diskussioner ved plakater har bevaret sin styrke og allerede har overvundet jetlag, så tager han til en af de mange fester. De er hostet af selskaber - som følge heraf har parterne ofte en mere jagtende karakter. Samtidig bruger mange gæster dem slet ikke til at finde et nyt job, men igen til netværk. Om aftenen er der ikke flere rapporter og plakater - det er nemmere at "fange" den specialist, du er interesseret i.
Fra idé til produktion
Datalogi er en af de få brancher, hvor virksomheders og startups interesser er stærkt knyttet til det akademiske miljø. NIPS, ICML og andre lignende konferencer tiltrækker mange mennesker fra industrien, ikke kun universiteter. Dette er typisk for området datalogi, men omvendt for de fleste andre videnskaber.
På den anden side er det ikke alle idéer, der præsenteres i artikler, der umiddelbart går til at skabe eller forbedre tjenester. Selv inden for en virksomhed kan en forsker foreslå kollegaer fra tjenesten en idé, der er banebrydende efter videnskabelige standarder, og få et afslag på at implementere den af en række årsager. En af dem er allerede blevet nævnt her - dette er forskellen mellem det "akademiske" datasæt, som artiklen blev skrevet på, og det rigtige datasæt. Derudover kan implementeringen af en idé blive forsinket, kræve en stor mængde ressourcer eller kun forbedre én indikator på bekostning af forringelse af andre målinger.
Situationen reddes af, at mange udviklere selv er lidt forskere. De deltager i konferencer, taler samme sprog med akademikere, foreslår ideer, deltager nogle gange i skabelsen af artikler (for eksempel ved at skrive kode) eller fungerer endda selv som forfattere. Hvis en udvikler er fordybet i den akademiske proces, følger med i, hvad der sker i forskningsafdelingen, med et ord - hvis han demonstrerer en modbevægelse over for videnskabsmænd, så forkortes cyklussen med at omdanne videnskabelige ideer til nye servicekapaciteter.
Vi ønsker alle unge forskere held og lykke og store resultater i deres arbejde. Hvis dette indlæg ikke fortalte dig noget nyt, så har du måske allerede offentliggjort på en topkonference. Tilmeld dig
Kilde: www.habr.com