Nagrada poimenovana po Ilyi Segaloviču. Zgodba o računalništvu in lansiranju publikacij

Nagrada poimenovana po Ilyi Segaloviču. Zgodba o računalništvu in lansiranju publikacij

Danes podeljujemo znanstveno nagrado, poimenovano po Ilji Segaloviču iseg. Podeljena bo za dosežke na področju računalništva. Dodiplomski in podiplomski študenti lahko sami oddajo vlogo za nagrado ali imenujejo znanstvene mentorje. Nagrajence bodo izbrali predstavniki akademske skupnosti in Yandex. Glavna merila za izbor: objave in predstavitve na konferencah ter prispevek k razvoju skupnosti.

Prva podelitev nagrad bo aprila. V okviru nagrade bodo mladi znanstveniki prejeli 350 tisoč rubljev, poleg tega pa bodo lahko šli na mednarodno konferenco, delali z mentorjem in opravljali pripravništvo v raziskovalnem oddelku Yandex. Znanstveni nadzorniki bodo prejeli 700 tisoč rubljev.

Ob uvedbi nagrade smo se na Habréju odločili spregovoriti o merilih za uspeh v svetu računalništva. Nekateri bralci Habra te kriterije že poznajo, drugi pa imajo o njih morda napačen vtis. Danes bomo premostili to vrzel – dotaknili se bomo vseh glavnih tem, vključno s članki, konferencami, nabori podatkov in prenosom znanstvenih idej v storitve.

Za znanstvenike s področja računalništva je glavno merilo uspeha objava njihovega znanstvenega dela na eni izmed vrhunskih mednarodnih konferenc. To je prva »kontrolna točka« za prepoznavanje dela raziskovalca. Na področju strojnega učenja na splošno se na primer razlikujeta Mednarodna konferenca o strojnem učenju (ICML) in Konferenca o sistemih za obdelavo nevronskih informacij (NeurIPS, prej NIPS). Obstaja veliko konferenc o specifičnih področjih ML, kot so računalniški vid, iskanje informacij, govorna tehnologija, strojno prevajanje itd.

Zakaj objavljati svoje ideje

Ljudje, ki so daleč od računalništva, imajo morda napačno prepričanje, da je bolje ohraniti najbolj dragocene ideje v skrivnosti in si prizadevati izkoristiti njihovo edinstvenost. Vendar je realno stanje na našem področju ravno obratno. Avtoriteto znanstvenika ocenjujemo po pomenu njegovih del, po tem, kako pogosto njegove članke citirajo drugi znanstveniki (indeks citiranja). To je pomembna značilnost njegove kariere. Raziskovalec napreduje po poklicni lestvici in postane bolj spoštovan v svoji skupnosti le, če dosledno ustvarja močno delo, ki se objavi, postane slaven in predstavlja osnovo za delo drugih znanstvenikov.

Veliko vrhunskih člankov (morda večina) je rezultat sodelovanja med raziskovalci na različnih univerzah in podjetjih po vsem svetu. Pomemben in zelo dragocen trenutek v karieri raziskovalca je, ko dobi priložnost, da na podlagi svojih izkušenj sam najde in preseje ideje – a tudi po tem so mu sodelavci še naprej neprecenljiva pomoč. Znanstveniki si pomagajo razvijati ideje, pišejo članke v sodelovanju - in večji kot je znanstvenikov prispevek k znanosti, lažje najde somišljenike.

Končno sta gostota in razpoložljivost informacij zdaj tako veliki, da različni raziskovalci hkrati pridejo na zelo podobne (in resnično dragocene) znanstvene zamisli. Če vi ne objavite svoje ideje, jo bo namesto vas skoraj zagotovo objavil nekdo drug. “Zmagovalec” pogosto ni tisti, ki se je inovacije domislil malo prej, temveč tisti, ki jo je malo prej objavil. Ali – tisti, ki mu je uspelo idejo razkriti čim bolj celovito, jasno in prepričljivo.

Nagrada poimenovana po Ilyi Segaloviču. Zgodba o računalništvu in lansiranju publikacij

Članki in nabori podatkov

Torej je znanstveni članek zgrajen okoli glavne ideje, ki jo predlaga raziskovalec. Ta ideja je njegov prispevek k računalništvu. Članek se začne z opisom ideje, oblikovano v nekaj stavkih. Sledi uvod, ki opisuje nabor problemov, ki jih rešuje predlagana inovacija. Opis in uvod sta običajno napisana v preprostem jeziku, ki je razumljiv širši publiki. Po uvodu je potrebno probleme, predstavljene v matematičnem jeziku, formalizirati in uvesti striktno notacijo. Nato morate z uvedenimi notacijami ustvariti jasno in celovito izjavo o bistvu predlagane inovacije in ugotoviti razlike od prejšnjih podobnih metod. Vse teoretične trditve morajo biti podprte s sklicevanjem na predhodno zbrane dokaze ali dokazane neodvisno. To je mogoče storiti z nekaterimi predpostavkami. Na primer, lahko navedete dokaz za primer, ko je podatkov o usposabljanju neskončno veliko (očitno nedosegljiva situacija) ali pa so popolnoma neodvisni drug od drugega. Proti koncu članka znanstvenik govori o eksperimentalnih rezultatih, ki mu jih je uspelo pridobiti.

Nagrada poimenovana po Ilyi Segaloviču. Zgodba o računalništvu in lansiranju publikacij

Da bi recenzenti, ki jih zaposlijo organizatorji konference, bolj verjetno odobrili prispevek, mora imeti enega ali več atributov. Ključni dejavnik, ki poveča možnosti za odobritev, je znanstvena novost predlagane ideje. Pogosto se novost ocenjuje glede na že obstoječe ideje - pri čemer delo njenega ocenjevanja ne opravi recenzent, temveč avtor članka sam. V idealnem primeru bi moral avtor v članku podrobno povedati o obstoječih metodah in jih, če je mogoče, predstaviti kot posebne primere svoje metode. S tem znanstvenik pokaže, da sprejeti pristopi ne delujejo vedno, da jih je posplošil in predlagal širšo, prožnejšo in zato učinkovitejšo teoretično formulacijo. Če je novost neizpodbitna, sicer recenzenti ne ocenjujejo članka tako izbirčno - na primer, lahko zamižijo na slabo angleščino.

Za okrepitev novosti je koristno vključiti primerjavo z obstoječimi metodami na enem ali več nizih podatkov. Vsak od njih bi moral biti odprt in sprejet v akademskem okolju. Obstajajo na primer repozitorij slik ImageNet in baze podatkov inštitutov, kot sta Modificirani nacionalni inštitut za standarde in tehnologijo (MNIST) in CIFAR (Kanadski inštitut za napredne raziskave). Težava je v tem, da se takšen »akademski« nabor podatkov po strukturi vsebine pogosto razlikuje od resničnih podatkov, s katerimi se ukvarja industrija. Različni podatki pomenijo različne rezultate predlagane metode. Znanstveniki, ki delno delajo za industrijo, poskušajo to upoštevati in včasih vstavijo izjave o zavrnitvi odgovornosti, kot je "pri naših podatkih je rezultat tak in tak, pri javnem naboru podatkov pa tak in tak."

Zgodi se, da je predlagana metoda popolnoma "prikrojena" odprti bazi podatkov in ne deluje na resničnih podatkih. S to pogosto težavo se lahko borite z odpiranjem novih, bolj reprezentativnih podatkovnih nizov, vendar pogosto govorimo o zasebnih vsebinah, ki jih podjetja preprosto nimajo pravice odpreti. V nekaterih primerih izvedejo (včasih zapleteno in mukotrpno) anonimizacijo podatkov – odstranijo vse delčke, ki kažejo na točno določeno osebo. Na primer, obrazi in številke na fotografijah so izbrisani ali pa so nečitljivi. Poleg tega, da bi bil nabor podatkov ne le na voljo vsem, temveč postal standard med znanstveniki, na katerem je priročno primerjati ideje, ga je treba ne le objaviti, ampak tudi napisati ločen citiran članek o to in njegove prednosti.

Huje je, če v temi, ki se preučuje, ni odprtih naborov podatkov. Potem lahko recenzent samo verno sprejme rezultate, ki jih je predstavil avtor. Teoretično bi jih lahko avtor celo precenil in ostal neodkrit, a v akademskem okolju je to malo verjetno, saj je v nasprotju z željo velike večine znanstvenikov po razvoju znanosti.

Na številnih področjih ML, vključno z računalniškim vidom, je člankom običajno pripeti tudi povezave do kode (običajno do GitHub). Sami članki vsebujejo zelo malo kode ali pa so psevdokoda. In tu spet nastanejo težave, če članek piše raziskovalec iz podjetja in ne z univerze. Koda, napisana v korporaciji ali zagonu, je privzeto označena kot NDA. Raziskovalci in njihovi sodelavci se morajo zelo potruditi, da ločijo kodo, povezano z opisovano idejo, od notranjih in zagotovo zaprtih skladišč.

Možnost objave je odvisna tudi od aktualnosti izbrane teme. Ustreznost v veliki meri narekujejo izdelki in storitve: če se korporacija ali startup zanima za izgradnjo nove storitve ali izboljšanje obstoječe na podlagi ideje iz članka, je to plus.

Nagrada poimenovana po Ilyi Segaloviču. Zgodba o računalništvu in lansiranju publikacij

Kot je bilo že omenjeno, se članki o računalništvu redko pišejo sami. Toda praviloma eden od avtorjev porabi veliko več časa in truda kot drugi. Njegov prispevek k znanstvenim novostim je največji. Na seznamu avtorjev je taka oseba navedena najprej - in v prihodnosti, ko se sklicuje na članek, jo lahko omeni le (na primer "Ivanov et al" - "Ivanov in drugi" v prevodu iz latinščine). Izjemno dragoceni pa so tudi prispevki drugih – drugače je nemogoče biti na seznamu avtorjev.

Postopek pregleda

Prispevke običajno prenehajo sprejemati več mesecev pred konferenco. Po oddaji članka imajo recenzenti 3–5 tednov časa, da ga preberejo, ocenijo in komentirajo. To se zgodi po sistemu single blind, ko avtorji ne vidijo imen recenzentov, ali dvojno slepem sistemu, ko recenzenti sami ne vidijo imen avtorjev. Druga možnost velja za bolj nepristransko: več znanstvenih člankov je pokazalo, da priljubljenost avtorja vpliva na odločitev recenzenta. Na primer, lahko meni, da je znanstvenik z velikim številom že objavljenih člankov a priori vreden višje ocene.

Še več, tudi v primeru dvojno slepega bo recenzent verjetno uganil avtorja, če delata na istem področju. Poleg tega je lahko v času recenzije članek že objavljen v bazi arXiv, največjem repozitoriju znanstvenih člankov. Organizatorji konference tega ne prepovedujejo, priporočajo pa uporabo drugačnega naslova in drugega povzetka v publikacijah za arXiv. Če pa je bil članek objavljen tam, ga še vedno ne bo težko najti.

Vedno je več recenzentov, ki ocenjujejo članek. Enemu izmed njih je dodeljena vloga metarecenzenta, ki mora samo pregledati sodbe svojih sodelavcev in sprejeti končno odločitev. Če se recenzenti ne strinjajo s člankom, ga lahko prebere tudi metarecenzent za popolnost.

Včasih ima avtor po pregledu ocene in komentarjev možnost vstopiti v razpravo z recenzentom; obstaja celo možnost, da ga prepričate, da spremeni svojo odločitev (vendar tak sistem ne deluje na vseh konferencah, še manj pa je mogoče resno vplivati ​​na razsodbo). V razpravi se ne morete sklicevati na druga znanstvena dela, razen tistih, ki so že navedena v članku. Recenzentu lahko le »pomagate« bolje razumeti vsebino članka.

Nagrada poimenovana po Ilyi Segaloviču. Zgodba o računalništvu in lansiranju publikacij

Konference in revije

Računalniški članki so pogosteje objavljeni na konferencah kot v znanstvenih revijah. To je zato, ker imajo publikacije v revijah zahteve, ki jih je težje izpolniti, postopek medsebojnega pregleda pa lahko traja mesece ali celo leta. Računalništvo je zelo hitro razvijajoče se področje, zato avtorji običajno niso pripravljeni čakati tako dolgo na objavo. Lahko pa članek, ki je že sprejet na konferenco, dopolnimo (npr. s predstavitvijo podrobnejših rezultatov) in objavimo v reviji, kjer prostorske omejitve niso tako stroge.

Dogajanje na konferenci

Obliko prisotnosti avtorjev odobrenih člankov na konferenci določijo recenzenti. Če članek dobi zeleno luč, vam največkrat dodelijo plakatno stojalo. Plakat je statična prosojnica s povzetkom članka in ilustracijami. Nekatere konferenčne sobe so polne dolgih vrst stojal za plakate. Avtor preživi velik del svojega časa ob svojem plakatu in komunicira z znanstveniki, ki jih članek zanima.

Nagrada poimenovana po Ilyi Segaloviču. Zgodba o računalništvu in lansiranju publikacij

Nagrada poimenovana po Ilyi Segaloviču. Zgodba o računalništvu in lansiranju publikacij

Nekoliko bolj prestižna možnost sodelovanja je bliskoviti pogovor. Če recenzenti menijo, da je članek vreden kratkega poročila, ima avtor približno tri minute časa, da spregovori širokemu občinstvu. Po eni strani je bliskovit pogovor dobra priložnost, da svojo idejo poveste ne le tistim, ki so se za plakat zanimali na lastno pobudo. Po drugi strani pa so proaktivni obiskovalci plakatov bolj pripravljeni in bolj potopljeni v vašo specifično temo kot povprečni poslušalci v dvorani. Zato morate pri hitrem poročilu še vedno imeti čas, da ljudi seznanite z novostmi.

Nagrada poimenovana po Ilyi Segaloviču. Zgodba o računalništvu in lansiranju publikacij

Običajno avtorji na koncu svojega bliskovitega govora poimenujejo številko plakata, da jo poslušalci lahko najdejo in bolje razumejo članek.

Nagrada poimenovana po Ilyi Segaloviču. Zgodba o računalništvu in lansiranju publikacij

Zadnja, najprestižnejša možnost je plakat in popolna predstavitev ideje, ko ni več treba hiteti s pripovedovanjem zgodbe.

Nagrada poimenovana po Ilyi Segaloviču. Zgodba o računalništvu in lansiranju publikacij

Seveda pa znanstveniki – vključno z avtorji odobrenih člankov – pridejo na naslednjo konferenco ne samo zato, da se pokažejo. Prvič, ponavadi najdejo plakate, povezane z njihovim področjem iz očitnih razlogov. In drugič, pomembno je, da razširita seznam kontaktov za namene skupnega študijskega dela v prihodnosti. To ni lov - ali vsaj njegova prva faza, ki ji vsaj sledi obojestransko koristna izmenjava idej, razvoj in skupno delo na enem ali več člankih.

Hkrati pa je produktivno mreženje na vrhunski konferenci oteženo zaradi popolnega pomanjkanja prostega časa. Če je znanstvenik po celem dnevu, preživetem na predstavitvah in v razpravah ob plakatih, ohranil moč in že premagal jet lag, potem gre na eno od številnih zabav. Gostijo jih korporacije – posledično imajo zabave pogosto bolj lovski značaj. Hkrati jih mnogi gostje sploh ne uporabljajo za iskanje nove službe, ampak spet za mreženje. Zvečer ni več poročil in plakatov - lažje je "ujeti" strokovnjaka, ki vas zanima.

Nagrada poimenovana po Ilyi Segaloviču. Zgodba o računalništvu in lansiranju publikacij

Od ideje do proizvodnje

Računalništvo je ena redkih panog, kjer so interesi korporacij in startupov močno povezani z akademskim okoljem. NIPS, ICML in druge podobne konference pritegnejo veliko ljudi iz industrije, ne samo z univerz. To je značilno za področje računalništva, za večino drugih ved pa ravno obratno.

Po drugi strani pa vse ideje, predstavljene v člankih, ne gredo takoj za ustvarjanje ali izboljšanje storitev. Tudi znotraj enega podjetja lahko raziskovalec kolegom iz službe predlaga znanstveno prelomno idejo in je zaradi več razlogov zavrnjen. Eden od njih je bil že omenjen tukaj - to je razlika med "akademskim" naborom podatkov, na podlagi katerega je bil članek napisan, in resničnim naborom podatkov. Poleg tega lahko uvedba ideje zamuja, zahteva veliko sredstev ali izboljša samo en indikator na račun poslabšanja drugih meritev.

Nagrada poimenovana po Ilyi Segaloviču. Zgodba o računalništvu in lansiranju publikacij

Situacijo rešuje dejstvo, da so mnogi razvijalci tudi sami nekoliko raziskovalci. Udeležujejo se konferenc, govorijo isti jezik z akademiki, predlagajo ideje, včasih sodelujejo pri ustvarjanju člankov (na primer pri pisanju kode) ali celo sami nastopajo kot avtorji. Če je razvijalec potopljen v akademski proces, spremlja dogajanje v raziskovalnem oddelku, z eno besedo - če izkazuje nasprotno gibanje do znanstvenikov, se cikel pretvarjanja znanstvenih idej v nove storitvene zmogljivosti skrajša.

Vsem mladim raziskovalcem želimo veliko sreče in dobrih dosežkov pri njihovem delu. Če vam ta objava ni povedala nič novega, potem ste morda že objavili na vrhunski konferenci. Registrirajte se za nagrada sami in imenujejo znanstvene mentorje.

Vir: www.habr.com

Dodaj komentar