Pris uppkallat efter Ilya Segalovich. En berättelse om datavetenskap och lanseringspublikationer

Pris uppkallat efter Ilya Segalovich. En berättelse om datavetenskap och lanseringspublikationer

Idag lanserar vi ett vetenskapligt pris uppkallat efter Ilya Segalovich iseg. Det kommer att delas ut för prestationer inom datavetenskap. Studenter på grund- och forskarnivå kan lämna in sin egen ansökan om priset eller nominera vetenskapliga handledare. Pristagarna kommer att väljas av representanter för det akademiska samhället och Yandex. De viktigaste urvalskriterierna: publikationer och presentationer vid konferenser, samt bidrag till samhällets utveckling.

Den första prisutdelningen äger rum i april. Som en del av priset kommer unga forskare att få 350 tusen rubel, och dessutom kommer de att kunna gå till en internationell konferens, arbeta med en mentor och genomgå en praktikplats i Yandex forskningsavdelning. Vetenskapliga handledare kommer att få 700 tusen rubel.

Med anledning av lanseringen av priset bestämde vi oss för att prata här på Habré om kriterierna för framgång inom datavetenskapens värld. Vissa Habr-läsare är redan bekanta med dessa kriterier, medan andra kan ha ett felaktigt intryck av dem. Idag kommer vi att överbrygga denna klyfta - vi kommer att beröra alla huvudämnen, inklusive artiklar, konferenser, datauppsättningar och överföring av vetenskapliga idéer till tjänster.

För forskare inom datavetenskap är huvudkriteriet för framgång publiceringen av deras vetenskapliga arbete på en av de främsta internationella konferenserna. Detta är den första "kontrollpunkten" för att känna igen forskarens arbete. Till exempel, inom området maskininlärning i allmänhet, utmärker man International Conference on Machine Learning (ICML) och Conference on Neural Information Processing Systems (NeurIPS, tidigare NIPS). Det finns många konferenser om specifika områden inom ML, såsom datorseende, informationssökning, talteknik, maskinöversättning, etc.

Varför publicera dina idéer

Människor som är långt ifrån datavetenskap kan ha missuppfattningen att det är bättre att hålla de mest värdefulla idéerna hemliga och sträva efter att dra nytta av deras unika. Den verkliga situationen inom vårt område är dock precis den motsatta. En vetenskapsmans auktoritet bedöms efter betydelsen av hans verk, efter hur ofta hans artiklar citeras av andra vetenskapsmän (citatindex). Detta är en viktig egenskap hos hans karriär. En forskare tar sig upp på den professionella stegen och blir mer respekterad i sitt samhälle, bara om han konsekvent producerar starkt arbete som publiceras, blir berömt och utgör grunden för andra forskares arbete.

Många toppartiklar (kanske de flesta) är resultatet av samarbete mellan forskare vid olika universitet och företag runt om i världen. Ett viktigt och mycket värdefullt ögonblick i en forskarkarriär är när han får möjlighet att hitta och sålla fram idéer på egen hand utifrån sin erfarenhet – men även efter detta fortsätter hans kollegor att ge honom ovärderlig hjälp. Forskare hjälper varandra att utveckla idéer, skriva artiklar i samarbete - och ju större forskarens bidrag till vetenskapen är, desto lättare är det för honom att hitta likasinnade.

Slutligen är tätheten och tillgängligheten av information nu så stor att olika forskare samtidigt kommer på mycket liknande (och verkligt värdefulla) vetenskapliga idéer. Om du inte publicerar din idé kommer någon annan nästan säkert att publicera den åt dig. ”Vinnaren” är ofta inte den som kom med innovationen lite tidigare, utan den som publicerade den lite tidigare. Eller – den som lyckades avslöja idén så fullständigt, tydligt och övertygande som möjligt.

Pris uppkallat efter Ilya Segalovich. En berättelse om datavetenskap och lanseringspublikationer

Artiklar och datauppsättningar

Så en vetenskaplig artikel är uppbyggd kring huvudidén som forskaren föreslår. Denna idé är hans bidrag till datavetenskap. Artikeln inleds med en beskrivning av idén, formulerad i några meningar. Detta följs av en introduktion som beskriver utbudet av problem som lösts med hjälp av den föreslagna innovationen. Beskrivningen och inledningen är vanligtvis skrivna på ett enkelt språk som är begripligt för en bred publik. Efter introduktionen är det nödvändigt att formalisera de problem som presenteras i matematiskt språk och införa strikt notation. Sedan, med hjälp av de introducerade notationerna, måste du skapa ett tydligt och heltäckande uttalande av kärnan i den föreslagna innovationen och identifiera skillnaderna från tidigare liknande metoder. Alla teoretiska påståenden måste antingen stödjas av referenser till tidigare sammanställda bevis, eller bevisas oberoende. Detta kan göras med vissa antaganden. Till exempel kan du ge ett bevis för fallet när det finns en oändlig mängd träningsdata (en uppenbart ouppnåelig situation) eller de är helt oberoende av varandra. Mot slutet av artikeln berättar forskaren om de experimentella resultat som han kunde få fram.

Pris uppkallat efter Ilya Segalovich. En berättelse om datavetenskap och lanseringspublikationer

För att de granskare som rekryterats av konferensarrangörerna ska vara mer benägna att godkänna en uppsats måste den ha en eller flera attribut. En nyckelfaktor som ökar chanserna för godkännande är den vetenskapliga nyheten i den föreslagna idén. Ofta bedöms nyhet i förhållande till redan existerande idéer – och arbetet med att bedöma det utförs inte av granskaren, utan av artikelförfattaren själv. Helst bör författaren berätta i detalj i artikeln om befintliga metoder och om möjligt presentera dem som specialfall av sin metod. Således visar forskaren att de accepterade tillvägagångssätten inte alltid fungerar, att han generaliserade dem och föreslog en bredare, mer flexibel och därför mer effektiv teoretisk formulering. Om nyheten är obestridlig, så utvärderar granskare annars artikeln inte så kräsen - till exempel kan de blunda för dålig engelska.

För att förstärka nyheten är det användbart att inkludera en jämförelse med befintliga metoder på en eller flera datamängder. Var och en av dem ska vara öppen och accepterad i den akademiska miljön. Till exempel finns ImageNet-bildarkivet och databaser för sådana institut som Modified National Institute of Standards and Technology (MNIST) och CIFAR (Canadian Institute For Advanced Research). Svårigheten är att en sådan "akademisk" datauppsättning ofta skiljer sig i innehållsstruktur från den verkliga data som branschen hanterar. Olika data betyder olika resultat av den föreslagna metoden. Forskare som delvis arbetar för industrin försöker ta hänsyn till detta och lägger ibland in ansvarsfriskrivningar som "på våra data är resultatet sådant och sådant, men på det offentliga datasetet - sådant och sådant."

Det händer att den föreslagna metoden är helt "skräddarsydd" till en öppen databas och inte fungerar på riktiga data. Du kan bekämpa detta vanliga problem genom att öppna nya mer representativa dataset, men ofta talar vi om privat innehåll som företag helt enkelt inte har rätt att öppna. I vissa fall utför de (ibland komplex och noggrann) anonymisering av data - de tar bort alla fragment som pekar på en specifik person. Till exempel raderas ansikten och siffror på fotografier eller görs oläsliga. Dessutom, för att datasetet inte bara ska vara tillgängligt för alla, utan för att bli en standard bland forskare där det är bekvämt att jämföra idéer, är det nödvändigt att inte bara publicera det, utan också att skriva en separat citerad artikel om det och dess fördelar.

Det är värre när det inte finns några öppna datauppsättningar i ämnet som studeras. Då kan granskaren bara acceptera de resultat som författaren presenterar om tro. Teoretiskt kan författaren till och med överskatta dem och förbli oupptäckta, men i en akademisk miljö är detta osannolikt, eftersom det går emot den stora majoriteten av forskares önskan att utveckla vetenskap.

Inom ett antal områden av ML, inklusive datorseende, är det också vanligt att bifoga länkar till kod (oftast till GitHub) med artiklar. Artiklarna i sig innehåller antingen väldigt lite kod eller är pseudokod. Och här uppstår återigen svårigheter om artikeln är skriven av en forskare från ett företag, och inte från ett universitet. Som standard är kod skriven i ett företag eller start märkt med NDA. Forskare och deras kollegor måste arbeta hårt för att separera koden relaterad till idén som beskrivs från interna och säkert slutna förråd.

Chansen till publicering beror också på relevansen av det valda ämnet. Relevans dikteras till stor del av produkter och tjänster: om ett företag eller en startup är intresserad av att bygga en ny tjänst eller förbättra en befintlig baserat på en idé från en artikel, är det ett plus.

Pris uppkallat efter Ilya Segalovich. En berättelse om datavetenskap och lanseringspublikationer

Som redan nämnts skrivs datavetenskapliga uppsatser sällan ensamma. Men som regel lägger en av författarna mycket mer tid och ansträngning än de andra. Hans bidrag till vetenskaplig nyhet är störst. I listan över författare anges en sådan person först - och i framtiden, när de hänvisar till en artikel, kan de bara nämna honom (till exempel "Ivanov et al" - "Ivanov och andra" översatt från latin). Men andras bidrag är också oerhört värdefulla – annars är det omöjligt att vara med på författarlistan.

Granskningsprocessen

Uppsatser slutar vanligtvis att accepteras flera månader före konferensen. Efter att en artikel har skickats in har granskarna 3–5 veckor på sig att läsa, utvärdera och kommentera den. Detta sker enligt systemet med enkelblind, när författarna inte ser namnen på granskarna, eller dubbelblinda, när granskarna själva inte ser namnen på författarna. Det andra alternativet anses vara mer opartiskt: flera vetenskapliga artiklar har visat att författarens popularitet påverkar granskarens beslut. Han kan till exempel anse att en forskare med ett stort antal redan publicerade artiklar a priori är värd ett högre betyg.

Dessutom, även i fallet med dubbelblind, kommer recensenten förmodligen gissa författaren om de arbetar inom samma område. Dessutom, vid tidpunkten för granskning, kan artikeln redan publiceras i arXiv-databasen, det största arkivet av vetenskapliga artiklar. Konferensarrangörer förbjuder inte detta, men de rekommenderar att man använder en annan titel och ett annat abstrakt i publikationer för arXiv. Men om artikeln lades upp där kommer det ändå inte att vara svårt att hitta den.

Det är alltid flera recensenter som utvärderar en artikel. En av dem tilldelas rollen som metarecensent, som bara måste granska sina kollegors utslag och fatta det slutgiltiga beslutet. Om recensenterna inte är överens om artikeln kan metarecensenten också läsa den för fullständighetens skull.

Ibland har författaren, efter att ha granskat betyg och kommentarer, möjlighet att gå in i en diskussion med recensenten; det finns till och med en chans att övertyga honom om att ändra sitt beslut (ett sådant system fungerar dock inte för alla konferenser, och det är ännu mindre möjligt att på allvar påverka domen). I diskussionen kan du inte referera till andra vetenskapliga arbeten, med undantag för de som redan refereras i artikeln. Du kan bara "hjälpa" granskaren att bättre förstå innehållet i artikeln.

Pris uppkallat efter Ilya Segalovich. En berättelse om datavetenskap och lanseringspublikationer

Konferenser och tidskrifter

Datavetenskapliga artiklar skickas oftare till konferenser än till vetenskapliga tidskrifter. Detta beror på att tidskriftspublikationer har krav som är svårare att uppfylla, och peer review-processen kan ta månader eller till och med år. Datavetenskap är ett område som rör sig väldigt snabbt, så författare är vanligtvis inte villiga att vänta så länge på publicering. Men en artikel som redan har godkänts för konferensen kan då kompletteras (till exempel genom att presentera mer detaljerade resultat) och publiceras i en tidskrift där utrymmesbegränsningarna inte är så strikta.

Evenemang på konferensen

Formatet för närvaron av författare till godkända artiklar vid konferensen bestäms av recensenterna. Om artikeln får grönt ljus tilldelas du oftast ett affischställ. En affisch är en statisk bild med en sammanfattning av artikeln och illustrationer. Vissa konferensrum är fyllda med långa rader av affischställ. Författaren tillbringar en betydande del av sin tid nära sin affisch och kommunicerar med forskare som är intresserade av artikeln.

Pris uppkallat efter Ilya Segalovich. En berättelse om datavetenskap och lanseringspublikationer

Pris uppkallat efter Ilya Segalovich. En berättelse om datavetenskap och lanseringspublikationer

Ett lite mer prestigefyllt alternativ för deltagande är ett blixtsnack. Om recensenterna anser att artikeln är värd en snabb rapport får författaren cirka tre minuter på sig att tala till en bred publik. Å ena sidan är ett blixtsamtal ett bra tillfälle att berätta om din idé inte bara för de som på eget initiativ blev intresserade av affischen. Å andra sidan är proaktiva affischbesökare mer förberedda och mer fördjupade i ditt specifika ämne än den genomsnittliga lyssnaren i salen. Därför behöver du i en snabbrapport ändå hinna med att uppdatera folk.

Pris uppkallat efter Ilya Segalovich. En berättelse om datavetenskap och lanseringspublikationer

Vanligtvis, i slutet av sitt blixtsamtal, namnger författare affischnumret så att lyssnarna kan hitta det och bättre förstå artikeln.

Pris uppkallat efter Ilya Segalovich. En berättelse om datavetenskap och lanseringspublikationer

Det sista, mest prestigefyllda alternativet är en affisch plus en fullfjädrad presentation av idén, när det inte längre finns något behov av att skynda sig att berätta historien.

Pris uppkallat efter Ilya Segalovich. En berättelse om datavetenskap och lanseringspublikationer

Men naturligtvis kommer forskare – inklusive författarna till godkända artiklar – till nästa konferens inte bara för att visa upp sig. För det första tenderar de att hitta affischer relaterade till deras område av uppenbara skäl. Och för det andra är det viktigt för dem att utöka sin kontaktlista för gemensamt akademiskt arbete i framtiden. Detta är inte jakt - eller åtminstone dess allra första etapp, som åtminstone följs av ett ömsesidigt fördelaktigt utbyte av idéer, utvecklingar och gemensamt arbete med en eller flera artiklar.

Samtidigt är produktivt nätverkande på en toppkonferens svårt på grund av den totala bristen på fritid. Om forskaren, efter en hel dag med presentationer och diskussioner vid affischer, har behållit sin styrka och redan har övervunnit jetlag, då går han till en av de många festerna. De är värdar av företag - som ett resultat av detta har parterna ofta en mer jaktlig karaktär. Samtidigt använder många gäster dem inte alls för att hitta ett nytt jobb, utan återigen för att nätverka. På kvällen finns det inga fler rapporter och affischer - det är lättare att "fånga" specialisten du är intresserad av.

Pris uppkallat efter Ilya Segalovich. En berättelse om datavetenskap och lanseringspublikationer

Från idé till produktion

Datavetenskap är en av få branscher där företags och startups intressen är starkt kopplade till den akademiska miljön. NIPS, ICML och andra liknande konferenser lockar många människor från industrin, inte bara universiteten. Detta är typiskt för området datavetenskap, men vice versa för de flesta andra vetenskaper.

Å andra sidan går inte alla idéer som presenteras i artiklar omedelbart till att skapa eller förbättra tjänster. Även inom ett företag kan en forskare föreslå kollegor från tjänsten en idé som är genombrott i vetenskapliga mått och få en vägran att genomföra den av flera skäl. En av dem har redan nämnts här - det här är skillnaden mellan den "akademiska" datamängden som artikeln skrevs på och den verkliga datamängden. Dessutom kan implementeringen av en idé bli försenad, kräva en stor mängd resurser eller bara förbättra en indikator till priset av att andra mätvärden försämras.

Pris uppkallat efter Ilya Segalovich. En berättelse om datavetenskap och lanseringspublikationer

Situationen räddas av att många utvecklare själva är lite forskare. De deltar i konferenser, talar samma språk med akademiker, föreslår idéer, deltar ibland i skapandet av artiklar (till exempel skriver kod) eller agerar till och med som författare själva. Om en utvecklare är fördjupad i den akademiska processen, följer vad som händer på forskningsavdelningen, med ett ord - om han visar en motrörelse mot vetenskapsmän, så förkortas cykeln att omvandla vetenskapliga idéer till nya tjänstemöjligheter.

Vi önskar alla unga forskare lycka till och stora framgångar i sitt arbete. Om det här inlägget inte berättade något nytt kan du kanske redan ha publicerat det på en toppkonferens. Registrera för premie själv och nominera vetenskapliga handledare.

Källa: will.com

Lägg en kommentar