Cena pojmenovaná po Iljovi Segalovičovi. Příběh o informatice a vydání publikací

Cena pojmenovaná po Iljovi Segalovičovi. Příběh o informatice a vydání publikací

Dnes zahajujeme vědecké ocenění pojmenované po Iljovi Segalovičovi iseg. Bude udělována za úspěchy v oblasti informatiky. Pregraduální a postgraduální studenti mohou podat vlastní žádost o ocenění nebo jmenovat vědecké supervizory. Laureáty vyberou zástupci akademické obce a společnosti Yandex. Hlavní kritéria výběru: publikace a prezentace na konferencích, stejně jako příspěvek k rozvoji komunity.

První slavnostní předání cen se uskuteční v dubnu. V rámci ocenění získají mladí vědci 350 tisíc rublů a navíc budou moci vyjet na mezinárodní konferenci, pracovat s mentorem a absolvovat stáž ve výzkumném oddělení Yandex. Vědečtí supervizoři obdrží 700 tisíc rublů.

U příležitosti zahájení ceny jsme se zde na Habré rozhodli hovořit o kritériích úspěchu ve světě informatiky. Někteří čtenáři Habra již tato kritéria znají, jiní o nich mohou mít mylný dojem. Dnes tuto propast překleneme – dotkneme se všech hlavních témat, včetně článků, konferencí, datasetů a přenosu vědeckých myšlenek do služeb.

Pro vědce v oboru informatiky je hlavním kritériem úspěchu publikace jejich vědecké práce na jedné z předních mezinárodních konferencí. Toto je první „kontrolní bod“ pro uznání práce výzkumníka. Například v oblasti strojového učení obecně se rozlišuje International Conference on Machine Learning (ICML) a Conference on Neural Information Processing Systems (NeurIPS, dříve NIPS). Existuje mnoho konferencí o specifických oblastech ML, jako je počítačové vidění, vyhledávání informací, technologie řeči, strojový překlad atd.

Proč zveřejňovat své nápady

Lidé, kteří mají do informatiky daleko, mohou mít mylnou představu, že je lepší ty nejcennější myšlenky utajit a snažit se těžit z jejich jedinečnosti. Skutečná situace v našem oboru je však přesně opačná. Autorita vědce se posuzuje podle významu jeho prací, podle toho, jak často jsou jeho články citovány jinými vědci (citační index). To je důležitá charakteristika jeho kariéry. Výzkumník postupuje na profesním žebříčku a stává se ve své komunitě respektovanějším, pouze pokud soustavně produkuje silné práce, které se publikují, proslaví a tvoří základ pro práci jiných vědců.

Mnoho špičkových článků (možná většina) je výsledkem spolupráce mezi výzkumníky z různých univerzit a společností po celém světě. Důležitým a velmi cenným momentem v kariéře výzkumníka je, když dostane příležitost sám nacházet a třídit nápady na základě svých zkušeností – ale i poté mu kolegové nadále poskytují neocenitelnou pomoc. Vědci si navzájem pomáhají rozvíjet nápady, psát články ve spolupráci – a čím větší je přínos vědce pro vědu, tím snazší je pro něj najít podobně smýšlející lidi.

A konečně, hustota a dostupnost informací je nyní tak velká, že různí badatelé současně přicházejí s velmi podobnými (a skutečně cennými) vědeckými nápady. Pokud svůj nápad nezveřejníte vy, téměř jistě ho za vás zveřejní někdo jiný. „Vítězem“ často není ten, kdo s inovací přišel o něco dříve, ale ten, kdo ji zveřejnil o něco dříve. Nebo - ten, kdo dokázal myšlenku odhalit co nejúplněji, nejjasněji a nejpřesvědčivěji.

Cena pojmenovaná po Iljovi Segalovičovi. Příběh o informatice a vydání publikací

Články a datové sady

Takže vědecký článek je postaven na hlavní myšlence, kterou výzkumník navrhuje. Tato myšlenka je jeho přínosem pro informatiku. Článek začíná popisem myšlenky, formulovaným v několika větách. Následuje úvod, který popisuje okruh problémů řešených pomocí navrhované inovace. Popis a úvod jsou obvykle psány jednoduchým jazykem, který je srozumitelný širokému publiku. Po úvodu je nutné formalizovat problémy prezentované v matematickém jazyce a zavést přísnou notaci. Poté pomocí zavedených notací musíte vytvořit jasné a komplexní prohlášení o podstatě navrhované inovace a identifikovat rozdíly od předchozích podobných metod. Všechna teoretická tvrzení musí být buď podpořena odkazy na dříve sestavené důkazy, nebo musí být prokázána nezávisle. To lze provést s určitými předpoklady. Můžete například podat důkaz pro případ, kdy je trénovacích dat nekonečné množství (samozřejmě nedosažitelná situace) nebo jsou na sobě zcela nezávislá. Ke konci článku vědec hovoří o experimentálních výsledcích, které se mu podařilo získat.

Cena pojmenovaná po Iljovi Segalovičovi. Příběh o informatice a vydání publikací

Aby recenzenti přijatí organizátory konference s větší pravděpodobností schválili příspěvek, musí mít jeden nebo více atributů. Klíčovým faktorem, který zvyšuje šance na schválení, je vědecká novost navrhované myšlenky. Často se novost posuzuje ve vztahu k již existujícím nápadům – a práci na jejím posouzení neprovádí recenzent, ale sám autor článku. V ideálním případě by měl autor v článku podrobně vyprávět o existujících metodách a pokud možno je prezentovat jako speciální případy své metody. Vědec tak ukazuje, že přijaté přístupy ne vždy fungují, že je zobecnil a navrhl širší, flexibilnější a tedy efektivnější teoretickou formulaci. Pokud je novinka nepopiratelná, pak v opačném případě recenzenti hodnotí článek ne tak vybíravě – například nad špatnou angličtinou mohou přimhouřit oči.

Pro posílení novosti je užitečné zahrnout srovnání se stávajícími metodami na jednom nebo více souborech dat. Každý z nich by měl být otevřený a akceptovaný v akademickém prostředí. Existuje například úložiště obrázků ImageNet a databáze takových institutů, jako je Modified National Institute of Standards and Technology (MNIST) a CIFAR (Kanadský institut pro pokročilý výzkum). Potíž je v tom, že taková „akademická“ datová sada se často liší strukturou obsahu od skutečných dat, kterými se průmysl zabývá. Různá data znamenají různé výsledky navržené metody. Vědci, kteří částečně pracují pro průmysl, se to snaží vzít v úvahu a někdy vkládají prohlášení jako „na našich datech je výsledek takový a takový, ale na veřejném datovém souboru – takový a takový“.

Stává se, že navrhovaná metoda je zcela „šitá na míru“ otevřené databázi a nefunguje na reálných datech. S tímto běžným problémem můžete bojovat otevřením nových reprezentativnějších datových sad, ale často mluvíme o soukromém obsahu, který společnosti prostě nemají právo otevřít. V některých případech provádějí (někdy složitou a pečlivou) anonymizaci dat – odstraňují veškeré fragmenty, které ukazují na konkrétní osobu. Například tváře a čísla na fotografiích jsou vymazány nebo jsou nečitelné. Navíc, aby byl dataset nejen dostupný všem, ale stal se mezi vědci standardem, na kterém je vhodné srovnávat nápady, je nutné jej nejen publikovat, ale také napsat samostatný citovaný článek o to a jeho výhody.

Horší je, když ve studovaném tématu nejsou žádné otevřené datové sady. Pak může recenzent přijmout pouze výsledky prezentované autorem na základě víry. Teoreticky by je mohl autor dokonce přecenit a zůstat neodhalen, ale v akademickém prostředí je to nepravděpodobné, protože to jde proti přání velké většiny vědců rozvíjet vědu.

V řadě oblastí ML, včetně počítačového vidění, je také běžné připojovat k článkům odkazy na kód (obvykle na GitHub). Samotné články buď obsahují velmi málo kódu, nebo se jedná o pseudokód. A zde opět nastávají potíže, pokud je článek napsán výzkumníkem z firmy, a ne z univerzity. Ve výchozím nastavení je kód napsaný v korporaci nebo startupu označen NDA. Výzkumníci a jejich kolegové musí tvrdě pracovat na oddělení kódu souvisejícího s popisovanou myšlenkou od interních a jistě uzavřených úložišť.

Šance na zveřejnění závisí také na relevanci zvoleného tématu. Relevance je do značné míry diktována produkty a službami: pokud má korporace nebo startup zájem vybudovat novou službu nebo zlepšit stávající na základě nápadu z článku, je to plus.

Cena pojmenovaná po Iljovi Segalovičovi. Příběh o informatice a vydání publikací

Jak již bylo zmíněno, práce z informatiky jsou zřídka psány samostatně. Ale zpravidla jeden z autorů věnuje mnohem více času a úsilí než ostatní. Jeho přínos k vědecké novosti je největší. V seznamu autorů je taková osoba uvedena jako první - a v budoucnu, když se odkazuje na článek, ji mohou pouze zmínit (například „Ivanov et al“ - „Ivanov a další“ přeloženo z latiny). Nesmírně cenné jsou však i příspěvky ostatních – jinak nelze být v seznamu autorů.

Proces kontroly

Příspěvky obvykle přestávají být přijímány několik měsíců před konferencí. Po odeslání článku mají recenzenti 3–5 týdnů na to, aby si jej přečetli, ohodnotili a okomentovali. K tomu dochází podle jednoduchého slepého systému, kdy autoři nevidí jména recenzentů, nebo dvojitého slepého, kdy sami recenzenti nevidí jména autorů. Druhá možnost je považována za nestrannější: několik vědeckých prací ukázalo, že popularita autora ovlivňuje rozhodnutí recenzenta. Může se například domnívat, že vědec s velkým počtem již publikovaných článků je a priori hodný vyššího hodnocení.

Navíc i v případě dvojité slepé recenzent pravděpodobně uhodne autora, pokud pracuje ve stejném oboru. Navíc v době recenzování může být článek již publikován v databázi arXiv, největším úložišti vědeckých prací. Organizátoři konference to nezakazují, doporučují však v publikacích pro arXiv používat jiný název a jiný abstrakt. Ale pokud tam ten článek byl zveřejněn, stejně nebude těžké ho najít.

Článek hodnotí vždy několik recenzentů. Jednomu z nich je přidělena role metarevizora, který musí pouze přezkoumat verdikty svých kolegů a učinit konečné rozhodnutí. Pokud se recenzenti na článku neshodnou, může si jej pro úplnost přečíst i metarecenzent.

Někdy má autor po prostudování hodnocení a komentářů možnost vstoupit do diskuze s recenzentem; je dokonce šance přesvědčit ho, aby své rozhodnutí změnil (takový systém však nefunguje u všech konferencí a ještě méně je možné vážně ovlivnit verdikt). V diskuzi nelze odkazovat na jiné vědecké práce, s výjimkou těch, na které již článek odkazuje. Recenzentovi můžete pouze „pomoci“ lépe porozumět obsahu článku.

Cena pojmenovaná po Iljovi Segalovičovi. Příběh o informatice a vydání publikací

Konference a časopisy

Články z informatiky jsou častěji zasílány na konference než do vědeckých časopisů. Je to proto, že časopisecké publikace mají požadavky, které je obtížnější splnit, a proces vzájemného hodnocení může trvat měsíce nebo dokonce roky. Informatika je velmi rychle se rozvíjející obor, takže autoři většinou nejsou ochotni čekat na vydání tak dlouho. Již přijatý článek na konferenci však lze následně doplnit (například uvedením podrobnějších výsledků) a publikovat v časopise, kde nejsou prostorová omezení tak přísná.

Události na konferenci

Formát přítomnosti autorů schválených článků na konferenci určují recenzenti. Pokud článek dostane zelenou, pak vám je nejčastěji přidělen stojan na plakáty. Plakát je statický snímek se shrnutím článku a ilustracemi. Některé konferenční místnosti jsou plné dlouhých řad stojanů na plakáty. Autor tráví podstatnou část svého času v blízkosti svého plakátu a komunikuje s vědci, kteří se o článek zajímají.

Cena pojmenovaná po Iljovi Segalovičovi. Příběh o informatice a vydání publikací

Cena pojmenovaná po Iljovi Segalovičovi. Příběh o informatice a vydání publikací

O něco prestižnější variantou účasti je bleskový rozhovor. Pokud recenzenti považují článek za hodný rychlé zprávy, má autor asi tři minuty na to, aby promluvil k širokému publiku. Bleskové povídání je na jednu stranu dobrou příležitostí říct o svém nápadu nejen těm, které plakát zaujal z vlastní iniciativy. Na druhou stranu proaktivní návštěvníci plakátů jsou připravenější a více ponořeni do vašeho konkrétního tématu než běžný posluchač v sále. Proto v rychlé zprávě musíte mít čas na to, abyste lidi informovali o aktuálním stavu.

Cena pojmenovaná po Iljovi Segalovičovi. Příběh o informatice a vydání publikací

Obvykle autoři na konci své bleskové řeči pojmenují číslo plakátu, aby jej posluchači mohli najít a článku lépe porozumět.

Cena pojmenovaná po Iljovi Segalovičovi. Příběh o informatice a vydání publikací

Poslední, nejprestižnější možností je plakát plus plnohodnotná prezentace nápadu, kdy už není potřeba spěchat s vyprávěním.

Cena pojmenovaná po Iljovi Segalovičovi. Příběh o informatice a vydání publikací

Ale samozřejmě se vědci – včetně autorů schválených článků – přijdou na příští konferenci nejen pochlubit. Za prvé, ze zřejmých důvodů mají tendenci nacházet plakáty související s jejich oborem. A za druhé je pro ně důležité rozšířit si seznam kontaktů za účelem společné akademické práce v budoucnu. Nejedná se o lov – nebo alespoň o jeho úplně první fázi, po které alespoň následuje oboustranně výhodná výměna nápadů, vývoj a společná práce na jednom či více článcích.

Produktivní networking na vrcholné konferenci je přitom obtížný kvůli totálnímu nedostatku volného času. Pokud si vědec po celém dni stráveném na prezentacích a diskusích u plakátů udržel síly a již překonal jet lag, pak jde na jeden z mnoha večírků. Hostují je korporace – večírky tak mají často spíše lovecký charakter. Mnoho hostů je přitom vůbec nevyužívá k hledání nové práce, ale opět k networkingu. Večer už nejsou žádné zprávy a plakáty - je snazší „chytit“ odborníka, který vás zajímá.

Cena pojmenovaná po Iljovi Segalovičovi. Příběh o informatice a vydání publikací

Od nápadu k výrobě

Informatika je jedním z mála odvětví, kde jsou zájmy korporací a startupů silně propojeny s akademickým prostředím. NIPS, ICML a další podobné konference přitahují spoustu lidí z průmyslu, nejen z univerzit. To je typické pro obor informatiky, ale naopak pro většinu ostatních věd.

Na druhou stranu ne všechny nápady prezentované v článcích okamžitě směřují k vytváření nebo zlepšování služeb. I v rámci jedné společnosti může výzkumník navrhnout kolegům ze služby myšlenku, která je podle vědeckých standardů průlomová, a z mnoha důvodů ji odmítne realizovat. Jeden z nich zde již byl zmíněn – jde o rozdíl mezi „akademickým“ souborem dat, na kterém byl článek napsán, a skutečným souborem dat. Implementace nápadu se navíc může zpozdit, vyžadovat velké množství zdrojů nebo zlepšit pouze jeden ukazatel za cenu zhoršení ostatních metrik.

Cena pojmenovaná po Iljovi Segalovičovi. Příběh o informatice a vydání publikací

Situaci zachraňuje fakt, že mnozí vývojáři sami jsou tak trochu výzkumníci. Účastní se konferencí, mluví stejným jazykem s akademiky, navrhují nápady, někdy se podílejí na tvorbě článků (například psaní kódu), nebo dokonce sami vystupují jako autoři. Pokud je vývojář ponořen do akademického procesu, sleduje, co se děje ve výzkumném oddělení, jedním slovem – pokud demonstruje protipohyb směrem k vědcům, pak se cyklus přeměny vědeckých nápadů na nové servisní schopnosti zkracuje.

Přejeme všem mladým badatelům hodně štěstí a úspěchů v jejich práci. Pokud vám tento příspěvek neřekl nic nového, možná jste již publikovali na vrcholné konferenci. Zaregistrujte se pro pojistné sebe a nominujte vědecké supervizory.

Zdroj: www.habr.com

Přidat komentář