Iljos Segalovičiaus vardu pavadintas prizas. Pasakojimas apie informatiką ir publikacijų pradžia

Iljos Segalovičiaus vardu pavadintas prizas. Pasakojimas apie informatiką ir publikacijų pradžia

Šiandien pradedame teikti mokslinę premiją, pavadintą Iljos Segalovičiaus vardu iseg. Jis bus įteiktas už pasiekimus informatikos srityje. Bakalauro ir magistrantūros studentai gali pateikti savo paraišką apdovanojimui gauti arba paskirti mokslinius vadovus. Laureatus rinks akademinės bendruomenės ir „Yandex“ atstovai. Pagrindiniai atrankos kriterijai: publikacijos ir pranešimai konferencijose, taip pat indėlis į bendruomenės plėtrą.

Pirmoji apdovanojimų ceremonija vyks balandžio mėnesį. Kaip premijos dalį jaunieji mokslininkai gaus 350 tūkstančių rublių, be to, jie galės vykti į tarptautinę konferenciją, dirbti su mentoriumi ir stažuotis „Yandex“ tyrimų skyriuje. Moksliniai vadovai gaus 700 tūkstančių rublių.

Apdovanojimo įteikimo proga nusprendėme čia per Habré pakalbėti apie sėkmės kriterijus kompiuterių mokslo pasaulyje. Kai kurie Habr skaitytojai jau yra susipažinę su šiais kriterijais, o kiti gali susidaryti klaidingą įspūdį apie juos. Šiandien šią spragą užpildysime – paliesime visas pagrindines temas, įskaitant straipsnius, konferencijas, duomenų rinkinius ir mokslinių idėjų perkėlimą į paslaugas.

Informatikos srities mokslininkams pagrindinis sėkmės kriterijus yra mokslinio darbo publikavimas vienoje geriausių tarptautinių konferencijų. Tai pirmasis „kontrolinis taškas“, leidžiantis atpažinti tyrėjo darbą. Pavyzdžiui, mašininio mokymosi srityje apskritai išskiriama Tarptautinė mašininio mokymosi konferencija (ICML) ir Neurinių informacijos apdorojimo sistemų konferencija (NeurIPS, anksčiau NIPS). Vyksta daug konferencijų apie konkrečias ML sritis, tokias kaip kompiuterinis matymas, informacijos paieška, kalbos technologijos, mašininis vertimas ir kt.

Kam skelbti savo idėjas

Žmonės, kurie yra toli nuo informatikos, gali turėti klaidingą nuomonę, kad vertingiausias idėjas geriau laikyti paslaptyje ir stengtis pasipelnyti iš jų unikalumo. Tačiau reali situacija mūsų srityje yra visiškai priešinga. Apie mokslininko autoritetą sprendžiama pagal jo darbų reikšmingumą, pagal tai, kaip dažnai jo straipsnius cituoja kiti mokslininkai (citavimo indeksas). Tai svarbi jo karjeros savybė. Profesiniais laiptais tyrėjas kyla aukštyn, tampa labiau gerbiamas savo bendruomenėje tik tuo atveju, jei nuosekliai sukuria stiprų darbą, kuris publikuojamas, išgarsėja ir sudaro pagrindą kitų mokslininkų darbui.

Daugelis geriausių straipsnių (galbūt dauguma) yra įvairių pasaulio universitetų ir įmonių mokslininkų bendradarbiavimo rezultatas. Svarbus ir labai vertingas momentas tyrėjo karjeroje yra tada, kai jis gauna galimybę pačiam, remdamasis savo patirtimi, ieškoti ir išsijoti idėjų – tačiau net ir po to kolegos jam ir toliau teikia neįkainojamą pagalbą. Mokslininkai padeda vieni kitiems kurti idėjas, bendradarbiaudami rašo straipsnius – ir kuo didesnis mokslininko indėlis į mokslą, tuo lengviau jam susirasti bendraminčių.

Galiausiai, informacijos tankis ir prieinamumas dabar yra toks didelis, kad skirtingi tyrinėtojai vienu metu pateikia labai panašias (ir tikrai vertingas) mokslines idėjas. Jei nepaskelbsite savo idėjos, beveik neabejotinai ją už jus paskelbs kažkas kitas. „Laimėtojas“ dažnai būna ne tas, kuris naujovę sugalvojo kiek anksčiau, o tas, kuris ją paskelbė kiek anksčiau. Arba – tą, kuriam pavyko kuo išsamiau, aiškiau ir įtikinamiau atskleisti idėją.

Iljos Segalovičiaus vardu pavadintas prizas. Pasakojimas apie informatiką ir publikacijų pradžia

Straipsniai ir duomenų rinkiniai

Taigi, mokslinis straipsnis yra paremtas pagrindine tyrėjo pasiūlyta idėja. Ši idėja yra jo indėlis į kompiuterių mokslą. Straipsnis pradedamas keliais sakiniais suformuluotu idėjos aprašymu. Po to seka įvadas, kuriame aprašomas siūlomos naujovės pagalba išspręstų problemų spektras. Aprašymas ir įvadas dažniausiai parašyti paprasta, plačiajai auditorijai suprantama kalba. Po įvado reikia formalizuoti matematine kalba pateiktas problemas ir įvesti griežtą žymėjimą. Tada, naudojant įvestus žymėjimus, reikia sukurti aiškų ir išsamų siūlomos naujovės esmės išdėstymą ir nustatyti skirtumus nuo ankstesnių, panašių metodų. Visi teoriniai teiginiai turi būti pagrįsti nuorodomis į anksčiau surinktus įrodymus arba įrodyti atskirai. Tai galima padaryti laikantis tam tikrų prielaidų. Pavyzdžiui, galite pateikti įrodymą tuo atveju, kai treniruočių duomenų yra be galo daug (akivaizdžiai nepasiekiama situacija) arba jie yra visiškai nepriklausomi vienas nuo kito. Straipsnio pabaigoje mokslininkas pasakoja apie eksperimentinius rezultatus, kuriuos jam pavyko gauti.

Iljos Segalovičiaus vardu pavadintas prizas. Pasakojimas apie informatiką ir publikacijų pradžia

Kad konferencijos organizatorių įdarbinti recenzentai būtų labiau linkę patvirtinti pranešimą, jis turi turėti vieną ar daugiau atributų. Pagrindinis veiksnys, didinantis patvirtinimo tikimybę, yra siūlomos idėjos mokslinis naujumas. Dažnai naujumas vertinamas jau esamų idėjų atžvilgiu – o jo vertinimo darbą atlieka ne recenzentas, o pats straipsnio autorius. Idealiu atveju autorius straipsnyje išsamiai papasakotų apie esamus metodus ir, jei įmanoma, pateiktų juos kaip specialius savo metodo atvejus. Taigi mokslininkas parodo, kad priimti požiūriai ne visada pasiteisina, kad jis juos apibendrino ir pasiūlė platesnę, lankstesnę ir todėl efektyvesnę teorinę formuluotę. Jei naujovė nenuginčijama, tai kitu atveju apžvalgininkai straipsnį vertina ne taip išrankiai – pavyzdžiui, gali užmerkti akis į prastą anglų kalbą.

Siekiant sustiprinti naujumą, naudinga įtraukti palyginimą su esamais vieno ar kelių duomenų rinkinių metodais. Kiekvienas iš jų turėtų būti atviras ir priimtas akademinėje aplinkoje. Pavyzdžiui, yra „ImageNet“ vaizdų saugykla ir tokių institutų kaip Modifikuotas nacionalinis standartų ir technologijos institutas (MNIST) ir CIFAR (Kanados pažangiųjų tyrimų institutas) duomenų bazės. Sunkumas yra tas, kad toks „akademinis“ duomenų rinkinys turinio struktūra dažnai skiriasi nuo realių duomenų, su kuriais susiduria pramonė. Skirtingi duomenys reiškia skirtingus siūlomo metodo rezultatus. Mokslininkai, iš dalies dirbantys pramonėje, stengiasi į tai atsižvelgti ir kartais įterpia tokius atsisakymus, kaip „mūsų duomenimis rezultatas yra toks ir toks, o viešajame duomenų rinkinyje – toks ir toks“.

Taip atsitinka, kad siūlomas metodas yra visiškai „pritaikytas“ atvirai duomenų bazei ir neveikia su tikrais duomenimis. Su šia dažna problema galite kovoti atidarydami naujus, reprezentatyvesnius duomenų rinkinius, tačiau dažnai kalbame apie privatų turinį, kurio įmonės tiesiog neturi teisės atidaryti. Kai kuriais atvejais jie atlieka (kartais sudėtingą ir kruopštų) duomenų anonimiškumą – pašalina visus fragmentus, nurodančius konkretų asmenį. Pavyzdžiui, nuotraukose esantys veidai ir skaičiai ištrinami arba tampa neįskaitomi. Be to, norint, kad duomenų rinkinys ne tik būtų prieinamas visiems, bet taptų mokslininkų etalonu, kuriuo remiantis patogu lyginti idėjas, būtina jį ne tik publikuoti, bet ir parašyti atskirą cituojamą straipsnį apie tai ir jo privalumai.

Dar blogiau, kai tiriamoje temoje nėra atvirų duomenų rinkinių. Tada recenzentas gali priimti tik autoriaus pateiktus rezultatus tikėjimo klausimu. Teoriškai autorius galėtų juos net pervertinti ir likti nepastebėtas, tačiau akademinėje aplinkoje tai mažai tikėtina, nes tai prieštarauja didžiosios daugumos mokslininkų siekiui plėtoti mokslą.

Kai kuriose ML srityse, įskaitant kompiuterinį regėjimą, taip pat įprasta pridėti nuorodas į kodą (dažniausiai į GitHub) su straipsniais. Pačiuose straipsniuose yra labai mažai kodo arba jie yra pseudokodai. Ir čia vėl kyla sunkumų, jei straipsnį parašė įmonės, o ne universiteto mokslininkas. Pagal numatytuosius nustatymus korporacijoje arba paleidime parašytas kodas yra pažymėtas NDA. Tyrėjai ir jų kolegos turi sunkiai dirbti, kad atskirtų su aprašoma idėja susijusį kodą nuo vidinių ir tikrai uždarų saugyklų.

Publikavimo galimybė taip pat priklauso nuo pasirinktos temos aktualumo. Aktualumą daugiausia lemia produktai ir paslaugos: jei korporacija ar startuolis domisi naujos paslaugos kūrimu arba esamos patobulinimu pagal straipsnio idėją, tai yra pliusas.

Iljos Segalovičiaus vardu pavadintas prizas. Pasakojimas apie informatiką ir publikacijų pradžia

Kaip jau minėta, informatikos darbai retai rašomi vieni. Tačiau paprastai vienas iš autorių praleidžia daug daugiau laiko ir pastangų nei kiti. Jo indėlis į mokslo naujumą yra didžiausias. Autorių sąraše toks asmuo nurodomas pirmiausia - ir ateityje, remdamiesi straipsniu, jie galės tik jį paminėti (pavyzdžiui, „Ivanovas ir kt.“ - „Ivanovas ir kiti“ išvertus iš lotynų kalbos). Tačiau be galo vertingas ir kitų indėlis – kitaip neįmanoma patekti į autorių sąrašą.

Peržiūros procesas

Pranešimai paprastai nustoja būti priimami likus keliems mėnesiams iki konferencijos. Pateikę straipsnį, recenzentai turi 3–5 savaites jį perskaityti, įvertinti ir komentuoti. Tai vyksta pagal viengubo aklumo sistemą, kai autoriai nemato recenzentų pavardžių, arba dvigubai aklas, kai patys recenzentai nemato autorių pavardžių. Antrasis variantas laikomas nešališkesniu: keli moksliniai darbai parodė, kad autoriaus populiarumas turi įtakos recenzento sprendimui. Pavyzdžiui, jis gali manyti, kad mokslininkas, turintis daug jau paskelbtų straipsnių, a priori yra vertas aukštesnio įvertinimo.

Be to, net ir dvigubo aklo atveju recenzentas tikriausiai atspės autorių, jei jie dirba toje pačioje srityje. Be to, peržiūros metu straipsnis jau gali būti paskelbtas arXiv duomenų bazėje, didžiausioje mokslinių straipsnių saugykloje. Konferencijos organizatoriai to nedraudžia, tačiau rekomenduoja naudoti skirtingą pavadinimą ir kitokią santrauką leidiniuose, skirtuose arXiv. Bet jei straipsnis buvo ten patalpintas, jį rasti vis tiek nebus sunku.

Straipsnį visada vertina keli recenzentai. Vienam iš jų priskirtas metarecenzento vaidmuo, kuris turi tik peržiūrėti kolegų verdiktus ir priimti galutinį sprendimą. Jei recenzentai nesutaria dėl straipsnio, metarecenzentas taip pat gali jį perskaityti, kad jis būtų išsamus.

Kartais, peržiūrėjęs įvertinimą ir komentarus, autorius turi galimybę įsitraukti į diskusiją su recenzentu; netgi yra šansas įtikinti jį pakeisti savo sprendimą (tačiau tokia sistema veikia ne visose konferencijose, o dar mažiau įmanoma rimtai paveikti nuosprendį). Diskusijoje negalite remtis kitais moksliniais darbais, išskyrus tuos, kurie jau minimi straipsnyje. Jūs galite tik „padėti“ recenzentui geriau suprasti straipsnio turinį.

Iljos Segalovičiaus vardu pavadintas prizas. Pasakojimas apie informatiką ir publikacijų pradžia

Konferencijos ir žurnalai

Informatikos straipsniai dažniau pateikiami konferencijoms nei mokslo žurnalams. Taip yra todėl, kad žurnalų publikacijoms keliami reikalavimai, kuriuos sunkiau įvykdyti, o tarpusavio peržiūros procesas gali užtrukti mėnesius ar net metus. Informatika yra labai sparčiai besivystanti sritis, todėl autoriai dažniausiai nenori tiek laukti publikacijos. Tačiau jau priimtas į konferenciją straipsnis gali būti papildytas (pavyzdžiui, pateikiant išsamesnius rezultatus) ir paskelbtas žurnale, kuriame erdvės apribojimai nėra tokie griežti.

Renginiai konferencijoje

Patvirtintų straipsnių autorių dalyvavimo konferencijoje formatą nustato recenzentai. Jei straipsniui dega žalia šviesa, tada jums dažniausiai skiriamas plakatų stendas. Plakatas yra statinė skaidrė su straipsnio santrauka ir iliustracijomis. Kai kurios konferencijų salės užpildytos ilgomis plakatų stovų eilėmis. Nemažą laiko dalį autorius praleidžia prie savo plakato, bendraudamas su straipsniu besidominčiais mokslininkais.

Iljos Segalovičiaus vardu pavadintas prizas. Pasakojimas apie informatiką ir publikacijų pradžia

Iljos Segalovičiaus vardu pavadintas prizas. Pasakojimas apie informatiką ir publikacijų pradžia

Šiek tiek prestižiškesnis dalyvavimo variantas yra žaibiškas pokalbis. Jei recenzentai mano, kad straipsnis vertas greito pranešimo, autoriui skiriamos maždaug trys minutės pasikalbėti su plačia auditorija. Viena vertus, žaibiškas pokalbis – gera proga apie savo idėją papasakoti ne tik tiems, kurie plakatu susidomėjo savo iniciatyva. Kita vertus, iniciatyvūs plakato lankytojai yra labiau pasiruošę ir labiau įsigilinę į jūsų konkrečią temą nei eilinis klausytojas salėje. Todėl trumpoje ataskaitoje vis tiek turite turėti laiko informuoti žmones apie naujienas.

Iljos Segalovičiaus vardu pavadintas prizas. Pasakojimas apie informatiką ir publikacijų pradžia

Paprastai žaibiškos kalbos pabaigoje autoriai įvardija plakato numerį, kad klausytojai galėtų jį rasti ir geriau suprasti straipsnį.

Iljos Segalovičiaus vardu pavadintas prizas. Pasakojimas apie informatiką ir publikacijų pradžia

Paskutinis, prestižiškiausias variantas – plakatas plius pilnavertis idėjos pristatymas, kai nebereikia skubėti pasakoti istorijos.

Iljos Segalovičiaus vardu pavadintas prizas. Pasakojimas apie informatiką ir publikacijų pradžia

Bet žinoma, mokslininkai – tarp jų ir patvirtintų straipsnių autoriai – į kitą konferenciją ateina ne tik pasipuikuoti. Pirma, dėl akivaizdžių priežasčių jie linkę rasti plakatų, susijusių su jų sritimi. Antra, jiems svarbu plėsti savo kontaktų sąrašą bendro akademinio darbo tikslais ateityje. Tai ne medžioklė – ar bent jau pats pirmasis jos etapas, po kurio bent jau vyksta abipusiai naudingi pasikeitimai idėjomis, pokyčiais ir bendras darbas prie vieno ar kelių straipsnių.

Tuo pačiu metu produktyvus tinklų kūrimas aukščiausioje konferencijoje yra sudėtingas dėl visiško laisvo laiko trūkumo. Jei po visos dienos, praleistos prie pristatymų ir diskusijų prie plakatų, mokslininkas išsaugo savo jėgas ir jau įveikė reaktyvinį atsilikimą, tada jis eina į vieną iš daugelio vakarėlių. Juose šeimininkauja korporacijos – dėl to vakarėliai dažnai būna labiau medžiokliško pobūdžio. Tuo pačiu metu daugelis svečių jais naudojasi visai ne tam, kad susirastų naują darbą, o vėlgi – tinklų kūrimui. Vakare nebelieka pranešimų ir plakatų – lengviau „pagauti“ dominantį specialistą.

Iljos Segalovičiaus vardu pavadintas prizas. Pasakojimas apie informatiką ir publikacijų pradžia

Nuo idėjos iki gamybos

Informatika yra viena iš nedaugelio pramonės šakų, kur korporacijų ir startuolių interesai yra glaudžiai susiję su akademine aplinka. NIPS, ICML ir kitos panašios konferencijos pritraukia daug žmonių iš pramonės, ne tik universitetų. Tai būdinga informatikos sričiai, bet atvirkščiai – daugumai kitų mokslų.

Kita vertus, ne visos straipsniuose pateiktos idėjos iš karto nukreiptos paslaugų kūrimo ar tobulinimo link. Net ir vienoje įmonėje tyrėjas gali pasiūlyti kolegoms iš tarnybos idėją, kuri yra proveržio moksliniais standartais, ir sulaukti atsisakymo ją įgyvendinti dėl kelių priežasčių. Vienas iš jų čia jau buvo paminėtas - tai skirtumas tarp „akademinių“ duomenų rinkinio, ant kurio buvo parašytas straipsnis, ir tikrojo duomenų rinkinio. Be to, idėjos įgyvendinimas gali vėluoti, pareikalauti daug resursų arba pagerinti tik vieną rodiklį kitų rodiklių pablogėjimo kaina.

Iljos Segalovičiaus vardu pavadintas prizas. Pasakojimas apie informatiką ir publikacijų pradžia

Situaciją gelbsti tai, kad daugelis kūrėjų patys yra šiek tiek tyrinėtojai. Jie dalyvauja konferencijose, kalba ta pačia kalba su akademikais, siūlo idėjas, kartais dalyvauja kuriant straipsnius (pavyzdžiui, rašo kodą) ar net patys veikia kaip autoriai. Jei kūrėjas yra pasinėręs į akademinį procesą, seka tai, kas vyksta tyrimų skyriuje, žodžiu – jei demonstruoja kontrjudesį mokslininkų link, tai sutrumpėja mokslinių idėjų pavertimo naujomis paslaugų galimybėmis ciklas.

Visiems jauniesiems mokslininkams linkime sėkmės ir puikių pasiekimų darbe. Jei šis įrašas jums nepasakė nieko naujo, galbūt jau paskelbėte geriausioje konferencijoje. Registruokitės premija save ir paskirti mokslinius vadovus.

Šaltinis: www.habr.com

Добавить комментарий