Cena pomenovaná po Iljovi Segalovičovi. Príbeh o informatike a uvedení publikácií

Cena pomenovaná po Iljovi Segalovičovi. Príbeh o informatike a uvedení publikácií

Dnes spúšťame vedecké ocenenie pomenované po Iľjovi Segalovičovi iseg. Bude sa udeľovať za úspechy v oblasti informatiky. Študenti bakalárskeho a postgraduálneho štúdia môžu podať vlastnú žiadosť o ocenenie alebo nominovať vedeckých supervízorov. Laureátov vyberú zástupcovia akademickej obce a spoločnosti Yandex. Hlavné výberové kritériá: publikácie a prezentácie na konferenciách, ako aj príspevok k rozvoju komunity.

Prvé odovzdávanie cien sa uskutoční v apríli. V rámci ocenenia dostanú mladí vedci 350-tisíc rubľov a okrem toho budú môcť ísť na medzinárodnú konferenciu, spolupracovať s mentorom a absolvovať stáž vo výskumnom oddelení Yandex. Vedeckí dozorcovia dostanú 700 tisíc rubľov.

Pri príležitosti uvedenia ceny sme sa tu na Habré rozhodli porozprávať o kritériách úspechu vo svete informatiky. Niektorí čitatelia Habr už tieto kritériá poznajú, iní o nich môžu mať mylný dojem. Dnes túto medzeru prekleneme – dotkneme sa všetkých hlavných tém vrátane článkov, konferencií, datasetov a prenosu vedeckých myšlienok do služieb.

Pre vedcov v oblasti informatiky je hlavným kritériom úspechu publikovanie ich vedeckej práce na niektorej z popredných medzinárodných konferencií. Toto je prvý „kontrolný bod“ na rozpoznanie práce výskumníka. Napríklad v oblasti strojového učenia všeobecne sa rozlišuje Medzinárodná konferencia o strojovom učení (ICML) a Konferencia o systémoch spracovania neurálnych informácií (NeurIPS, predtým NIPS). Existuje mnoho konferencií o špecifických oblastiach ML, ako je počítačové videnie, vyhľadávanie informácií, rečová technológia, strojový preklad atď.

Prečo publikovať svoje nápady

Ľudia, ktorí majú k informatike ďaleko, môžu mať mylnú predstavu, že najcennejšie nápady je lepšie utajiť a snažiť sa profitovať z ich jedinečnosti. Skutočná situácia v našom odbore je však presne opačná. Autorita vedca sa posudzuje podľa významu jeho prác, podľa toho, ako často sú jeho články citované inými vedcami (citačný index). Toto je dôležitá charakteristika jeho kariéry. Výskumník postupuje na profesionálnom rebríčku a stáva sa viac rešpektovaným vo svojej komunite, iba ak dôsledne produkuje silné práce, ktoré sa publikujú, preslávia a tvoria základ pre prácu iných vedcov.

Mnohé špičkové články (možno väčšina) sú výsledkom spolupráce výskumníkov z rôznych univerzít a spoločností po celom svete. Dôležitým a veľmi cenným momentom v kariére výskumníka je, keď dostane príležitosť sám nachádzať a triediť nápady na základe svojich skúseností – no aj po tomto mu kolegovia naďalej poskytujú neoceniteľnú pomoc. Vedci si navzájom pomáhajú rozvíjať nápady, písať články v spolupráci – a čím väčší je prínos vedca pre vedu, tým ľahšie nájde podobne zmýšľajúcich ľudí.

Napokon, hustota a dostupnosť informácií je teraz taká veľká, že rôzni výskumníci súčasne prichádzajú s veľmi podobnými (a skutočne hodnotnými) vedeckými myšlienkami. Ak svoj nápad nezverejníte vy, takmer určite ho za vás zverejní niekto iný. „Víťazom“ často nie je ten, kto s inováciou prišiel o niečo skôr, ale ten, kto ju zverejnil o niečo skôr. Alebo - ten, komu sa podarilo odhaliť myšlienku čo najúplnejšie, najjasnejšie a najpresvedčivejšie.

Cena pomenovaná po Iljovi Segalovičovi. Príbeh o informatike a uvedení publikácií

Články a súbory údajov

Takže vedecký článok je postavený na hlavnej myšlienke, ktorú výskumník navrhuje. Táto myšlienka je jeho príspevkom k počítačovej vede. Článok začína popisom myšlienky, formulovanej v niekoľkých vetách. Nasleduje úvod, ktorý popisuje okruh problémov riešených pomocou navrhovanej inovácie. Opis a úvod sú zvyčajne napísané jednoduchým jazykom, ktorý je zrozumiteľný pre široké publikum. Po úvode je potrebné formalizovať problémy prezentované v matematickom jazyku a zaviesť striktnú notáciu. Potom pomocou zavedených notácií musíte vytvoriť jasné a komplexné vyhlásenie o podstate navrhovanej inovácie a identifikovať rozdiely od predchádzajúcich podobných metód. Všetky teoretické tvrdenia musia byť buď podložené odkazmi na predtým zostavené dôkazy, alebo musia byť preukázané nezávisle. To sa dá urobiť s určitými predpokladmi. Môžete napríklad poskytnúť dôkaz pre prípad, že tréningových dát je nekonečné množstvo (samozrejme nedosiahnuteľná situácia) alebo sú na sebe úplne nezávislé. Ku koncu článku vedec hovorí o experimentálnych výsledkoch, ktoré sa mu podarilo získať.

Cena pomenovaná po Iljovi Segalovičovi. Príbeh o informatike a uvedení publikácií

Aby recenzenti, ktorých naverbujú organizátori konferencie, s väčšou pravdepodobnosťou schvália príspevok, musí mať jeden alebo viac atribútov. Kľúčovým faktorom, ktorý zvyšuje šance na schválenie, je vedecká novinka navrhovanej myšlienky. Novosť sa často posudzuje vo vzťahu k už existujúcim nápadom - a prácu na jej hodnotení nevykonáva recenzent, ale samotný autor článku. V ideálnom prípade by mal autor v článku podrobne povedať o existujúcich metódach a ak je to možné, prezentovať ich ako špeciálne prípady svojej metódy. Vedec teda ukazuje, že akceptované prístupy nie vždy fungujú, že ich zovšeobecnil a navrhol širšiu, flexibilnejšiu a teda efektívnejšiu teoretickú formuláciu. Ak je novinka nepopierateľná, tak v opačnom prípade recenzenti hodnotia článok nie až tak vyberavo – môžu napríklad zatvárať oči nad slabou angličtinou.

Na posilnenie novosti je užitočné zahrnúť porovnanie s existujúcimi metódami na jednom alebo viacerých súboroch údajov. Každý z nich by mal byť otvorený a akceptovaný v akademickom prostredí. Existuje napríklad úložisko obrázkov ImageNet a databázy takých inštitútov, ako je Modified National Institute of Standards and Technology (MNIST) a CIFAR (Kanadský inštitút pre pokročilý výskum). Problém je v tom, že takýto „akademický“ súbor údajov sa často líši v štruktúre obsahu od skutočných údajov, s ktorými sa priemysel zaoberá. Rôzne údaje znamenajú rôzne výsledky navrhovanej metódy. Vedci, ktorí čiastočne pracujú pre toto odvetvie, sa to snažia vziať do úvahy a niekedy vkladajú odmietnutia zodpovednosti ako „na našich údajoch je výsledok taký a taký, ale na verejnom súbore údajov – taký a taký“.

Stáva sa, že navrhovaná metóda je úplne „šitá na mieru“ otvorenej databáze a nefunguje na skutočných údajoch. S týmto bežným problémom môžete bojovať otvorením nových, reprezentatívnejších datasetov, ale často hovoríme o súkromnom obsahu, ktorý spoločnosti jednoducho nemajú právo otvárať. V niektorých prípadoch vykonávajú (niekedy zložitú a starostlivú) anonymizáciu údajov - odstraňujú všetky fragmenty, ktoré poukazujú na konkrétnu osobu. Napríklad tváre a čísla na fotografiách sú vymazané alebo nečitateľné. Navyše, aby bol dataset nielen dostupný pre každého, ale aby sa stal medzi vedcami štandardom, na ktorom je vhodné porovnávať nápady, je potrebné ho nielen publikovať, ale aj napísať samostatný citovaný článok o to a jeho výhody.

Je to horšie, keď v skúmanej téme nie sú žiadne otvorené súbory údajov. Potom môže recenzent akceptovať len výsledky prezentované autorom s vierou. Teoreticky by ich autor mohol dokonca preceniť a zostať neodhalený, no v akademickom prostredí je to nepravdepodobné, keďže je to v rozpore s túžbou veľkej väčšiny vedcov rozvíjať vedu.

V mnohých oblastiach ML, vrátane počítačového videnia, je tiež bežné pridávať odkazy na kód (zvyčajne na GitHub) s článkami. Samotné články obsahujú buď veľmi málo kódu, alebo sú to pseudokódy. A tu opäť nastávajú ťažkosti, ak je článok napísaný výskumníkom zo spoločnosti, a nie z univerzity. Štandardne je kód napísaný v korporácii alebo startupe označený NDA. Výskumníci a ich kolegovia musia tvrdo pracovať, aby oddelili kód súvisiaci s popisovanou myšlienkou od interných a určite uzavretých úložísk.

Šanca na publikovanie závisí aj od relevantnosti zvolenej témy. Relevantnosť je do značnej miery diktovaná produktmi a službami: ak má spoločnosť alebo startup záujem vybudovať novú službu alebo zlepšiť existujúcu na základe nápadu z článku, je to plus.

Cena pomenovaná po Iljovi Segalovičovi. Príbeh o informatike a uvedení publikácií

Ako už bolo spomenuté, práce o informatike sa zriedka píšu samostatne. Ale spravidla jeden z autorov trávi oveľa viac času a úsilia ako ostatní. Jeho prínos k vedeckej novosti je najväčší. V zozname autorov je takáto osoba uvedená ako prvá - a v budúcnosti, keď sa odvoláva na článok, ju môžu len spomenúť (napríklad „Ivanov et al“ - „Ivanov a ďalší“ preložené z latinčiny). Mimoriadne cenné sú však aj príspevky iných – inak sa v zozname autorov nedá byť.

Proces preskúmania

Príspevky sa zvyčajne prestávajú prijímať niekoľko mesiacov pred konferenciou. Po odoslaní článku majú recenzenti 3–5 týždňov na to, aby si ho prečítali, zhodnotili a okomentovali. K tomu dochádza podľa jednoduchého slepého systému, keď autori nevidia mená recenzentov, alebo dvojitého slepého, keď samotní recenzenti nevidia mená autorov. Druhá možnosť sa považuje za nestrannejšiu: viaceré vedecké práce ukázali, že obľúbenosť autora ovplyvňuje rozhodnutie recenzenta. Môže sa napríklad domnievať, že vedec s veľkým počtom už publikovaných článkov je a priori hodný vyššieho hodnotenia.

Navyše, aj v prípade dvojitého zaslepenia recenzent pravdepodobne uhádne autora, či pracuje v rovnakej oblasti. Navyše, v čase recenzovania môže byť článok už publikovaný v databáze arXiv, najväčšom úložisku vedeckých prác. Organizátori konferencie to nezakazujú, ale odporúčajú používať v publikáciách pre arXiv iný názov a iný abstrakt. Ale ak tam bol článok uverejnený, stále nebude ťažké ho nájsť.

Vždy je viacero recenzentov, ktorí hodnotia článok. Jednému z nich je pridelená rola meta-recenzenta, ktorý musí len preskúmať verdikty svojich kolegov a urobiť konečné rozhodnutie. Ak sa recenzenti na článku nezhodnú, môže si ho pre úplnosť prečítať aj metarecenzent.

Niekedy po preštudovaní hodnotenia a komentárov má autor možnosť vstúpiť do diskusie s recenzentom; je dokonca šanca presvedčiť ho, aby zmenil svoje rozhodnutie (takýto systém však nefunguje na všetkých konferenciách a ešte menej je možné vážne ovplyvniť verdikt). V diskusii sa nemôžete odvolávať na iné vedecké práce, s výnimkou tých, na ktoré sa už v článku odkazuje. Recenzentovi môžete len „pomôcť“ lepšie pochopiť obsah článku.

Cena pomenovaná po Iljovi Segalovičovi. Príbeh o informatike a uvedení publikácií

Konferencie a časopisy

Články o informatike sa častejšie posielajú na konferencie ako do vedeckých časopisov. Je to preto, že publikácie v časopisoch majú požiadavky, ktoré je ťažšie splniť a proces vzájomného hodnotenia môže trvať mesiace alebo dokonca roky. Informatika je veľmi rýchlo sa rozvíjajúca oblasť, takže autori zvyčajne nie sú ochotní čakať tak dlho na vydanie. Článok, ktorý už bol na konferenciu prijatý, je však možné následne doplniť (napríklad prezentáciou podrobnejších výsledkov) a publikovať v časopise, kde nie sú priestorové obmedzenia také prísne.

Udalosti na konferencii

Formát prítomnosti autorov schválených článkov na konferencii určujú recenzenti. Ak má článok zelenú, najčastejšie vám je pridelený stojan na plagáty. Plagát je statická snímka so zhrnutím článku a ilustráciami. Niektoré konferenčné miestnosti sú plné dlhých radov stojanov na plagáty. Autor trávi značnú časť svojho času v blízkosti svojho plagátu a komunikuje s vedcami, ktorých článok zaujal.

Cena pomenovaná po Iljovi Segalovičovi. Príbeh o informatike a uvedení publikácií

Cena pomenovaná po Iljovi Segalovičovi. Príbeh o informatike a uvedení publikácií

O niečo prestížnejšou možnosťou účasti je bleskový rozhovor. Ak recenzenti považujú článok za hodný krátkej správy, autor má asi tri minúty na to, aby hovoril so širokým publikom. Bleskový rozhovor je na jednej strane dobrou príležitosťou povedať o svojom nápade nielen tým, ktorí sa o plagát začali zaujímať z vlastnej iniciatívy. Na druhej strane, proaktívni návštevníci plagátov sú pripravenejší a viac ponorení do vašej konkrétnej témy ako bežný poslucháč v sále. Preto v rýchlom prehľade musíte mať čas na to, aby ste ľudí informovali o aktuálnom stave.

Cena pomenovaná po Iljovi Segalovičovi. Príbeh o informatike a uvedení publikácií

Autori zvyčajne na konci svojej bleskovej reči pomenujú číslo plagátu, aby ho poslucháči našli a článku lepšie porozumeli.

Cena pomenovaná po Iljovi Segalovičovi. Príbeh o informatike a uvedení publikácií

Poslednou, najprestížnejšou možnosťou je plagát plus plnohodnotná prezentácia nápadu, kedy sa už netreba ponáhľať s rozprávaním.

Cena pomenovaná po Iljovi Segalovičovi. Príbeh o informatike a uvedení publikácií

Ale samozrejme, vedci – vrátane autorov schválených článkov – sa na najbližšiu konferenciu prídu nielen pochváliť. Po prvé, majú tendenciu nájsť plagáty súvisiace s ich odborom zo zrejmých dôvodov. A po druhé, je dôležité, aby si rozšírili zoznam kontaktov za účelom spoločnej akademickej práce v budúcnosti. Nejde o lov – alebo aspoň o jeho úplne prvú fázu, po ktorej prinajmenšom nasleduje obojstranne výhodná výmena nápadov, vývoj a spoločná práca na jednom alebo viacerých článkoch.

Zároveň je produktívny networking na špičkovej konferencii náročný kvôli totálnemu nedostatku voľného času. Ak si vedec po celom dni strávenom na prezentáciách a v diskusiách pri plagátoch zachoval sily a už prekonal pásmový posun, ide na jednu z mnohých párty. Hostia ich korporácie – v dôsledku toho majú párty často skôr lovecký charakter. Mnohí hostia ich zároveň vôbec nevyužívajú na hľadanie novej práce, ale opäť na networking. Vo večerných hodinách už nie sú žiadne správy a plagáty - je jednoduchšie „chytiť“ špecialistu, ktorý vás zaujíma.

Cena pomenovaná po Iljovi Segalovičovi. Príbeh o informatike a uvedení publikácií

Od nápadu až po výrobu

Informatika je jedným z mála odvetví, kde sú záujmy korporácií a startupov silne prepojené s akademickým prostredím. NIPS, ICML a ďalšie podobné konferencie priťahujú množstvo ľudí z priemyslu, nielen univerzít. To je typické pre oblasť informatiky, ale naopak pre väčšinu ostatných vied.

Na druhej strane, nie všetky nápady prezentované v článkoch okamžite smerujú k vytváraniu alebo zlepšovaniu služieb. Dokonca aj v rámci jednej spoločnosti môže výskumník navrhnúť kolegom zo služby nápad, ktorý je podľa vedeckých štandardov prelomový, a z viacerých dôvodov ho odmietne realizovať. Jeden z nich tu už bol spomenutý – ide o rozdiel medzi „akademickým“ súborom údajov, na ktorom bol článok napísaný, a skutočným súborom údajov. Implementácia nápadu sa navyše môže oneskoriť, vyžadovať veľké množstvo zdrojov alebo zlepšiť len jeden ukazovateľ za cenu zhoršenia ostatných metrík.

Cena pomenovaná po Iljovi Segalovičovi. Príbeh o informatike a uvedení publikácií

Situáciu zachraňuje fakt, že mnohí vývojári sú sami tak trochu výskumníci. Zúčastňujú sa konferencií, hovoria rovnakým jazykom s akademikmi, navrhujú nápady, niekedy sa podieľajú na tvorbe článkov (napríklad písaním kódu) alebo dokonca sami vystupujú ako autori. Ak je vývojár ponorený do akademického procesu, sleduje to, čo sa deje vo výskumnom oddelení, jedným slovom - ak demonštruje protipohyb smerom k vedcom, potom sa cyklus premeny vedeckých nápadov na nové služby skracuje.

Všetkým mladým výskumníkom prajeme veľa šťastia a úspechov v ich práci. Ak vám tento príspevok nepovedal nič nové, možno ste už publikovali na vrcholnej konferencii. Zaregistrujte sa pre prémie a nominujte vedeckých supervízorov.

Zdroj: hab.com

Pridať komentár