Iļjas Segaloviča vārdā nosauktā balva. Stāsts par datorzinātnēm un publikācijām

Iļjas Segaloviča vārdā nosauktā balva. Stāsts par datorzinātnēm un publikācijām

Å odien mēs atklājam Iļjas Segaloviča vārdā nosaukto zinātnisko balvu iseg. To pieŔķirs par sasniegumiem datorzinātņu jomā. Bakalaura un maÄ£istrantÅ«ras studenti var iesniegt savu pieteikumu balvai vai iecelt zinātniskos vadÄ«tājus. Laureātus izvēlēsies akadēmiskās kopienas un Yandex pārstāvji. Galvenie atlases kritēriji: publikācijas un prezentācijas konferencēs, kā arÄ« ieguldÄ«jums kopienas attÄ«stÄ«bā.

Pirmā apbalvoÅ”anas ceremonija notiks aprÄ«lÄ«. Balvas ietvaros jaunie zinātnieki saņems 350 tÅ«kstoÅ”us rubļu, turklāt viņi varēs doties uz starptautisku konferenci, strādāt ar mentoru un iziet stažēŔanos Yandex pētniecÄ«bas nodaļā. Zinātniskie vadÄ«tāji saņems 700 tÅ«kstoÅ”us rubļu.

Par godu balvas atklāŔanai mēs nolēmām Å”eit, HabrĆ©, runāt par panākumu kritērijiem datorzinātņu pasaulē. Daži Habr lasÄ«tāji jau ir iepazinuÅ”ies ar Å”iem kritērijiem, savukārt citiem par tiem var rasties maldÄ«gs priekÅ”stats. Å odien mēs pārvarēsim Å”o plaisu ā€“ pieskarsimies visām galvenajām tēmām, tostarp rakstiem, konferencēm, datu kopām un zinātnisko ideju pārņemÅ”anai pakalpojumos.

Datorzinātņu jomas zinātniekiem galvenais veiksmes kritērijs ir viņu zinātniskā darba publicÄ“Å”ana kādā no vadoÅ”ajām starptautiskajām konferencēm. Å is ir pirmais ā€œkontrolpunktsā€ pētnieka darba atzÄ«Å”anai. Piemēram, maŔīnmācÄ«bas jomā kopumā tiek izdalÄ«ta Starptautiskā maŔīnmācÄ«Å”anās konference (ICML) un Neironu informācijas apstrādes sistēmu konference (NeurIPS, agrāk NIPS). Ir daudzas konferences par konkrētām ML jomām, piemēram, datorredzi, informācijas izguvi, runas tehnoloÄ£ijām, maŔīntulkoÅ”anu utt.

Kāpēc publicēt savas idejas

Cilvēkiem, kuri ir tālu no datorzinātnes, var rasties maldÄ«gs priekÅ”stats, ka vērtÄ«gākās idejas labāk paturēt noslēpumā un censties gÅ«t peļņu no to unikalitātes. Taču reālā situācija mÅ«su jomā ir tieÅ”i pretēja. Zinātnieka autoritāte tiek vērtēta pēc viņa darbu nozÄ«mÄ«guma, pēc tā, cik bieži viņa rakstus citē citi zinātnieki (citācijas rādÄ«tājs). Tā ir svarÄ«ga viņa karjeras iezÄ«me. Pētnieks virzās uz augÅ”u pa profesionālajām kāpnēm, kļūstot cienÄ«tākam savā sabiedrÄ«bā, tikai tad, ja viņŔ konsekventi izstrādā spēcÄ«gus darbus, kas tiek publicēti, kļūst slaveni un veido pamatu citu zinātnieku darbam.

Daudzi populārākie raksti (iespējams, lielākā daļa) ir dažādu universitāŔu un uzņēmumu pētnieku sadarbÄ«bas rezultāts visā pasaulē. SvarÄ«gs un ļoti vērtÄ«gs brÄ«dis pētnieka karjerā ir tas, kad viņam ir iespēja paÅ”am atrast un izsijāt idejas, balstoties uz savu pieredzi, taču arÄ« pēc tam kolēģi viņam turpina sniegt nenovērtējamu palÄ«dzÄ«bu. Zinātnieki palÄ«dz viens otram attÄ«stÄ«t idejas, sadarbojoties raksta rakstus - un jo lielāks zinātnieka ieguldÄ«jums zinātnē, jo vieglāk viņam atrast domubiedrus.

Visbeidzot, informācijas blÄ«vums un pieejamÄ«ba tagad ir tik liela, ka dažādi pētnieki vienlaikus nāk klajā ar ļoti lÄ«dzÄ«gām (un patiesi vērtÄ«gām) zinātniskām idejām. Ja nepublicēsit savu ideju, gandrÄ«z noteikti to jÅ«su vietā publicēs kāds cits. ā€œUzvarētājsā€ bieži vien ir nevis tas, kurÅ” nāca klajā ar jauninājumu nedaudz agrāk, bet gan tas, kurÅ” to publicēja nedaudz agrāk. Vai arÄ« ā€“ tas, kuram izdevās ideju atklāt pēc iespējas pilnÄ«gāk, skaidrāk un pārliecinoŔāk.

Iļjas Segaloviča vārdā nosauktā balva. Stāsts par datorzinātnēm un publikācijām

Raksti un datu kopas

Tātad zinātnisks raksts ir veidots, balstoties uz pētnieka piedāvāto galveno ideju. Å Ä« ideja ir viņa ieguldÄ«jums datorzinātnēs. Raksts sākas ar idejas aprakstu, kas formulēts dažos teikumos. Tam seko ievads, kurā aprakstÄ«ts ar piedāvātās inovācijas palÄ«dzÄ«bu atrisināto problēmu loks. Apraksts un ievads parasti ir rakstÄ«ti vienkārŔā valodā, kas ir saprotama plaÅ”ai auditorijai. Pēc ievada nepiecieÅ”ams formalizēt matemātiskā valodā izklāstÄ«tās problēmas un ieviest stingru notāciju. Pēc tam, izmantojot ieviestos apzÄ«mējumus, jums ir jāizveido skaidrs un visaptveroÅ”s izklāsts par piedāvātās inovācijas bÅ«tÄ«bu un jāidentificē atŔķirÄ«bas no iepriekŔējām, lÄ«dzÄ«gām metodēm. Visi teorētiskie apgalvojumi ir vai nu jāpamato ar atsaucēm uz iepriekÅ” apkopotiem pierādÄ«jumiem, vai arÄ« jāpierāda neatkarÄ«gi. To var izdarÄ«t ar dažiem pieņēmumiem. Piemēram, jÅ«s varat sniegt pierādÄ«jumu gadÄ«jumam, kad ir bezgalÄ«gi daudz apmācÄ«bas datu (acÄ«mredzami nesasniedzama situācija) vai tie ir pilnÄ«gi neatkarÄ«gi viens no otra. Raksta beigās zinātnieks stāsta par eksperimentālajiem rezultātiem, ko viņam izdevās iegÅ«t.

Iļjas Segaloviča vārdā nosauktā balva. Stāsts par datorzinātnēm un publikācijām

Lai konferences organizatoru piesaistÄ«tie recenzenti varētu biežāk apstiprināt darbu, tam ir jābÅ«t vienam vai vairākiem atribÅ«tiem. Galvenais faktors, kas palielina apstiprināŔanas iespējas, ir ierosinātās idejas zinātniskā novitāte. Bieži vien novitāte tiek vērtēta saistÄ«bā ar jau esoŔām idejām ā€“ un tā izvērtÄ“Å”anas darbu veic nevis recenzents, bet gan pats raksta autors. Ideālā gadÄ«jumā autoram rakstā vajadzētu detalizēti pastāstÄ«t par esoÅ”ajām metodēm un, ja iespējams, izklāstÄ«t tās kā savas metodes Ä«paÅ”os gadÄ«jumus. Tādējādi zinātnieks parāda, ka pieņemtās pieejas ne vienmēr darbojas, ka viņŔ tās vispārināja un piedāvāja plaŔāku, elastÄ«gāku un lÄ«dz ar to arÄ« efektÄ«vāku teorētisko formulējumu. Ja jaunums ir nenoliedzams, tad citādi recenzenti rakstu vērtē ne tik izvēlÄ«gi - piemēram, var pievērt acis uz vāju angļu valodu.

Lai pastiprinātu novitāti, ir lietderÄ«gi vienā vai vairākās datu kopās iekļaut salÄ«dzinājumu ar esoÅ”ajām metodēm. Katram no tiem jābÅ«t atvērtiem un pieņemtiem akadēmiskajā vidē. Piemēram, ir ImageNet attēlu repozitorijs un tādu institÅ«tu kā Modificētais Nacionālais standartu un tehnoloÄ£iju institÅ«ts (MNIST) un CIFAR (Kanādas progresÄ«vo pētÄ«jumu institÅ«ts) datu bāzes. GrÅ«tÄ«bas ir tādas, ka Ŕāda ā€œakadēmiskaā€ datu kopa satura struktÅ«rā bieži atŔķiras no reālajiem datiem, ar kuriem nodarbojas nozare. Dažādi dati nozÄ«mē dažādus piedāvātās metodes rezultātus. Zinātnieki, kas daļēji strādā nozarē, cenÅ”as to ņemt vērā un dažkārt ievieto atrunas, piemēram, ā€œuz mÅ«su datiem rezultāts ir tāds un tāds, bet publiskajā datu kopā ā€“ tāds un tādsā€.

Gadās, ka piedāvātā metode ir pilnÄ«bā ā€œpielāgotaā€ atvērtai datu bāzei un nedarbojas uz reāliem datiem. JÅ«s varat cÄ«nÄ«ties ar Å”o izplatÄ«to problēmu, atverot jaunas, reprezentatÄ«vākas datu kopas, taču bieži vien mēs runājam par privātu saturu, kuru uzņēmumiem vienkārÅ”i nav tiesÄ«bu atvērt. Dažos gadÄ«jumos viņi veic (dažreiz sarežģītu un rÅ«pÄ«gu) datu anonimizāciju - noņem visus fragmentus, kas norāda uz konkrētu personu. Piemēram, sejas un cipari fotogrāfijās tiek izdzēsti vai padarÄ«ti nesalasāmi. Turklāt, lai datu kopa ne tikai bÅ«tu pieejama ikvienam, bet kļūtu par standartu zinātnieku vidÅ«, par kuru ir ērti salÄ«dzināt idejas, ir nepiecieÅ”ams ne tikai to publicēt, bet arÄ« uzrakstÄ«t atseviŔķu citētu rakstu par tas un tā priekÅ”rocÄ«bas.

Sliktāk ir, ja pētāmajā tēmā nav atvērtu datu kopu. Tad recenzents var pieņemt tikai autora sniegtos rezultātus par ticību. Teorētiski autors tos varētu pat pārvērtēt un palikt nepamanīts, taču akadēmiskā vidē tas ir maz ticams, jo tas ir pretrunā lielākās daļas zinātnieku vēlmei attīstīt zinātni.

Vairākās ML jomās, tostarp datorredzē, ir izplatÄ«ta arÄ« saiÅ”u pievienoÅ”ana kodam (parasti GitHub) ar rakstiem. PaÅ”os rakstos vai nu ir ļoti maz koda, vai arÄ« tie ir pseidokods. Un te atkal rodas grÅ«tÄ«bas, ja rakstu raksta pētnieks no uzņēmuma, nevis augstskolas. Pēc noklusējuma korporācijā vai startÄ“Å”anas programmā rakstÄ«tais kods ir apzÄ«mēts ar NDA. Pētniekiem un viņu kolēģiem ir smagi jāstrādā, lai atdalÄ«tu kodu, kas saistÄ«ts ar aprakstÄ«to ideju, no iekŔējām un noteikti slēgtām krātuvēm.

PublicÄ“Å”anas iespēja ir atkarÄ«ga arÄ« no izvēlētās tēmas atbilstÄ«bas. AtbilstÄ«bu lielā mērā nosaka produkti un pakalpojumi: ja korporācija vai jaunuzņēmums ir ieinteresēts izveidot jaunu pakalpojumu vai uzlabot esoÅ”u, pamatojoties uz ideju no raksta, tas ir pluss.

Iļjas Segaloviča vārdā nosauktā balva. Stāsts par datorzinātnēm un publikācijām

Kā jau minēts, datorzinātņu darbi reti tiek rakstÄ«ti vienatnē. Bet parasti viens no autoriem pavada daudz vairāk laika un pūļu nekā citi. Viņa ieguldÄ«jums zinātniskajā novitātē ir vislielākais. Autoru sarakstā Ŕāda persona ir norādÄ«ta vispirms - un turpmāk, atsaucoties uz rakstu, viņi var tikai pieminēt viņu (piemēram, ā€œIvanov et alā€ - ā€œIvanovs un citiā€ tulkojumā no latīņu valodas). Taču ārkārtÄ«gi vērtÄ«gs ir arÄ« citu devums ā€“ citādi nav iespējams tikt autoru sarakstā.

PārskatīŔanas process

Rakstus parasti pārtrauc pieņemt vairākus mēneÅ”us pirms konferences. Pēc raksta iesniegÅ”anas recenzentiem ir 3ā€“5 nedēļas, lai to izlasÄ«tu, novērtētu un komentētu. Tas notiek pēc vienotās aklās sistēmas, kad autori neredz recenzentu vārdus, vai dubultaklā, kad paÅ”i recenzenti neredz autoru vārdus. Otrais variants tiek uzskatÄ«ts par objektÄ«vāku: vairāki zinātniskie darbi ir parādÄ«juÅ”i, ka autora popularitāte ietekmē recenzenta lēmumu. Piemēram, viņŔ var uzskatÄ«t, ka zinātnieks ar lielu skaitu jau publicētu rakstu a priori ir augstāka vērtējuma cienÄ«gs.

Turklāt pat dubultaklā gadÄ«jumā recenzents, iespējams, uzminēs autoru, ja viņi strādā tajā paŔā jomā. Turklāt pārskatÄ«Å”anas laikā raksts jau var bÅ«t publicēts arXiv datubāzē, kas ir lielākā zinātnisko rakstu krātuve. Konferences organizatori to neaizliedz, taču viņi iesaka izmantot citu nosaukumu un citu kopsavilkumu publikācijās par arXiv. Bet, ja raksts tika ievietots tur, to atrast joprojām nebÅ«s grÅ«ti.

Vienmēr ir vairāki recenzenti, kas novērtē rakstu. Vienam no viņiem ir pieŔķirta metarecenzenta loma, kuram tikai jāpārskata kolēģu spriedumi un jāpieņem galÄ«gais lēmums. Ja recenzentiem nav vienprātÄ«bas par rakstu, arÄ« metarecenzents var to izlasÄ«t, lai nodroÅ”inātu pilnÄ«gumu.

Dažkārt pēc vērtējuma un komentāru iepazÄ«Å”anas autoram ir iespēja iesaistÄ«ties diskusijā ar recenzentu; ir pat iespēja pārliecināt viņu mainÄ«t savu lēmumu (tomēr Ŕāda sistēma nedarbojas visās konferencēs, un vēl mazāk ir iespējams nopietni ietekmēt spriedumu). Diskusijā jÅ«s nevarat atsaukties uz citiem zinātniskiem darbiem, izņemot tos, kas jau ir minēti rakstā. JÅ«s varat tikai ā€œpalÄ«dzētā€ recenzentam labāk izprast raksta saturu.

Iļjas Segaloviča vārdā nosauktā balva. Stāsts par datorzinātnēm un publikācijām

Konferences un žurnāli

Datorzinātnes raksti biežāk tiek iesniegti konferencēs, nevis zinātniskos žurnālos. Tas ir tāpēc, ka žurnālu publikācijām ir prasÄ«bas, kuras ir grÅ«tāk izpildÄ«t, un salÄ«dzinoŔās pārskatÄ«Å”anas process var ilgt mēneÅ”us vai pat gadus. Datorzinātne ir ļoti strauji mainÄ«ga joma, tāpēc autori parasti nav gatavi tik ilgi gaidÄ«t publicÄ“Å”anu. Taču rakstu, kas jau ir pieņemts konferencei, pēc tam var papildināt (piemēram, prezentējot detalizētākus rezultātus) un publicēt žurnālā, kurā telpas ierobežojumi nav tik stingri.

Pasākumi konferencē

Apstiprināto rakstu autoru klātbÅ«tnes formātu konferencē nosaka recenzenti. Ja rakstam tiek dota zaļā gaisma, tad jums visbiežāk tiek pieŔķirts plakātu stends. Plakāts ir statisks slaids ar raksta kopsavilkumu un ilustrācijām. Dažas konferenču telpas ir piepildÄ«tas ar garām plakātu stendu rindām. Autors ievērojamu sava laika daļu pavada pie sava plakāta, sazinoties ar zinātniekiem, kurus interesē raksts.

Iļjas Segaloviča vārdā nosauktā balva. Stāsts par datorzinātnēm un publikācijām

Iļjas Segaloviča vārdā nosauktā balva. Stāsts par datorzinātnēm un publikācijām

Nedaudz prestižāks dalÄ«bas variants ir zibenÄ«ga saruna. Ja recenzenti uzskata rakstu par ātras atskaites cienÄ«gu, autoram tiek dotas apmēram trÄ«s minÅ«tes, lai runātu ar plaÅ”u auditoriju. No vienas puses, zibens saruna ir laba iespēja pastāstÄ«t par savu ideju ne tikai tiem, kas par plakātu ieinteresējuÅ”ies pēc savas iniciatÄ«vas. No otras puses, proaktÄ«vie plakātu apmeklētāji ir vairāk sagatavoti un vairāk iedziļinājuÅ”ies jÅ«su konkrētajā tēmā nekā vidusmēra klausÄ«tājs zālē. Tāpēc ātrajā pārskatā jums joprojām ir nepiecieÅ”ams laiks, lai informētu cilvēkus par jaunākajām aktualitātēm.

Iļjas Segaloviča vārdā nosauktā balva. Stāsts par datorzinātnēm un publikācijām

Parasti savas zibenīgās sarunas beigās autori nosauc plakāta numuru, lai klausītāji to varētu atrast un labāk izprast rakstu.

Iļjas Segaloviča vārdā nosauktā balva. Stāsts par datorzinātnēm un publikācijām

Pēdējais, prestižākais variants ir plakāts plus pilnvērtÄ«ga idejas prezentācija, kad vairs nav jāsteidzas ar stāsta stāstÄ«Å”anu.

Iļjas Segaloviča vārdā nosauktā balva. Stāsts par datorzinātnēm un publikācijām

Bet, protams, zinātnieki ā€“ arÄ« apstiprināto rakstu autori ā€“ nāk uz nākamo konferenci ne tikai dižoties. Pirmkārt, viņi mēdz atrast plakātus, kas saistÄ«ti ar viņu jomu acÄ«mredzamu iemeslu dēļ. Un, otrkārt, viņiem ir svarÄ«gi paplaÅ”ināt savu kontaktu sarakstu kopÄ«ga akadēmiskā darba nolÅ«kos nākotnē. Å Ä«s nav medÄ«bas ā€“ vai vismaz tās pirmais posms, kam vismaz seko abpusēji izdevÄ«ga domu apmaiņa, attÄ«stÄ«ba un kopÄ«gs darbs pie viena vai vairākiem rakstiem.

Tajā paŔā laikā produktÄ«va tÄ«kla veidoÅ”ana augstākā lÄ«meņa konferencē ir apgrÅ«tināta pilnÄ«ga brÄ«vā laika trÅ«kuma dēļ. Ja pēc veselas dienas, kas pavadÄ«ta prezentācijās un diskusijās pie plakātiem, zinātnieks ir saglabājis spēkus un jau pārvarējis jet lag, tad viņŔ dodas uz kādu no daudzajām ballÄ«tēm. Tos rÄ«ko korporācijas ā€“ lÄ«dz ar to ballÄ«tēm nereti ir medÄ«gāks raksturs. Tajā paŔā laikā daudzi viesi tos izmanto nevis, lai atrastu jaunu darbu, bet gan atkal tÄ«kla veidoÅ”anai. Vakarā vairs nav atskaiÅ”u un plakātu - interesējoŔā speciālista ā€œnoÄ·ertā€ ir vieglāk.

Iļjas Segaloviča vārdā nosauktā balva. Stāsts par datorzinātnēm un publikācijām

No idejas līdz ražoŔanai

Datorzinātne ir viena no retajām nozarēm, kur korporāciju un jaunuzņēmumu intereses ir cieÅ”i saistÄ«tas ar akadēmisko vidi. NIPS, ICML un citas lÄ«dzÄ«gas konferences piesaista daudz cilvēku no nozares, ne tikai no universitātēm. Tas ir raksturÄ«gi datorzinātņu jomai, bet otrādi vairumam citu zinātņu.

No otras puses, ne visas rakstos izklāstÄ«tās idejas uzreiz virzās uz pakalpojumu izveidi vai uzlaboÅ”anu. Pat viena uzņēmuma ietvaros pētnieks var piedāvāt kolēģiem no dienesta ideju, kas ir revolucionārs pēc zinātnes standartiem, un saņemt atteikumu to Ä«stenot vairāku iemeslu dēļ. Viens no tiem jau ir minēts Å”eit - tā ir atŔķirÄ«ba starp ā€œakadēmiskoā€ datu kopu, uz kuras tika rakstÄ«ts raksts, un reālo datu kopu. Turklāt idejas Ä«stenoÅ”ana var aizkavēties, prasÄ«t lielus resursus vai uzlabot tikai vienu rādÄ«tāju uz citu rādÄ«tāju pasliktināŔanās rēķina.

Iļjas Segaloviča vārdā nosauktā balva. Stāsts par datorzinātnēm un publikācijām

Situāciju glābj tas, ka daudzi izstrādātāji paÅ”i ir mazliet pētnieki. Viņi apmeklē konferences, runā vienā valodā ar akadēmiÄ·iem, piedāvā idejas, dažreiz piedalās rakstu veidoÅ”anā (piemēram, raksta kodu) vai pat paÅ”i darbojas kā autori. Ja izstrādātājs ir iegrimis akadēmiskajā procesā, seko lÄ«dzi pētniecÄ«bas daļā notiekoÅ”ajam, vārdu sakot - ja viņŔ demonstrē pretvirzienu pret zinātniekiem, tad saÄ«sinās cikls, kā zinātniskās idejas pārvērstas jaunās servisa spējās.

Novēlam visiem jaunajiem pētniekiem veiksmi un lieliskus sasniegumus darbā. Ja Ŕī ziņa jums nepateica neko jaunu, iespējams, jÅ«s jau esat publicējis labāko konferencē. ReÄ£istrēties par piemaksa sevi un izvirzÄ«t zinātniskos vadÄ«tājus.

Avots: www.habr.com

Pievieno komentāru