Hadiah dinamakan sempena Ilya Segalovich. Cerita tentang sains komputer dan pelancaran penerbitan

Hadiah dinamakan sempena Ilya Segalovich. Cerita tentang sains komputer dan pelancaran penerbitan

Hari ini kami melancarkan anugerah saintifik yang dinamakan sempena Ilya Segalovich iseg. Ia akan dianugerahkan untuk pencapaian dalam bidang sains komputer. Pelajar prasiswazah dan pasca siswazah boleh mengemukakan permohonan sendiri untuk anugerah tersebut atau mencalonkan penyelia saintifik. Pemenang akan dipilih oleh wakil komuniti akademik dan Yandex. Kriteria pemilihan utama: penerbitan dan pembentangan di persidangan, serta sumbangan kepada pembangunan masyarakat.

Majlis anugerah pertama akan berlangsung pada bulan April. Sebagai sebahagian daripada anugerah itu, saintis muda akan menerima 350 ribu rubel, dan sebagai tambahan, mereka akan dapat pergi ke persidangan antarabangsa, bekerja dengan mentor dan menjalani latihan di jabatan penyelidikan Yandex. Penyelia saintifik akan menerima 700 ribu rubel.

Pada majlis pelancaran anugerah itu, kami memutuskan untuk bercakap di sini di HabrΓ© mengenai kriteria kejayaan dalam dunia sains komputer. Sesetengah pembaca Habr sudah biasa dengan kriteria ini, sementara yang lain mungkin mempunyai tanggapan palsu tentang mereka. Hari ini kita akan merapatkan jurang ini - kita akan menyentuh semua topik utama, termasuk artikel, persidangan, set data dan pemindahan idea saintifik ke dalam perkhidmatan.

Bagi saintis dalam bidang sains komputer, kriteria utama kejayaan ialah penerbitan karya saintifik mereka di salah satu persidangan antarabangsa terkemuka. Ini adalah "checkpoint" pertama untuk mengiktiraf hasil kerja penyelidik. Sebagai contoh, dalam bidang pembelajaran mesin secara umum, Persidangan Antarabangsa mengenai Pembelajaran Mesin (ICML) dan Persidangan mengenai Sistem Pemprosesan Maklumat Neural (NeurIPS, dahulunya NIPS) dibezakan. Terdapat banyak persidangan mengenai bidang tertentu ML, seperti penglihatan komputer, pencarian maklumat, teknologi pertuturan, terjemahan mesin, dsb.

Mengapa menerbitkan idea anda

Orang yang jauh dari sains komputer mungkin mempunyai tanggapan yang salah bahawa adalah lebih baik untuk merahsiakan idea yang paling berharga dan berusaha untuk mendapatkan keuntungan daripada keunikan mereka. Namun, keadaan sebenar dalam bidang kita adalah sebaliknya. Kewibawaan seorang saintis dinilai berdasarkan kepentingan karyanya, dengan kekerapan artikelnya dipetik oleh saintis lain (indeks petikan). Ini adalah ciri penting dalam kerjayanya. Seorang penyelidik meningkatkan tangga profesional, menjadi lebih dihormati dalam komunitinya, hanya jika dia secara konsisten menghasilkan karya yang kuat yang diterbitkan, menjadi terkenal, dan membentuk asas untuk karya saintis lain.

Banyak artikel teratas (mungkin kebanyakannya) adalah hasil kerjasama antara penyelidik di universiti dan syarikat yang berbeza di seluruh dunia. Momen penting dan sangat berharga dalam kerjaya penyelidik ialah apabila dia mendapat peluang untuk mencari dan menyaring idea sendiri berdasarkan pengalamannya - tetapi walaupun selepas ini, rakan sekerjanya terus memberikan bantuan yang tidak ternilai kepadanya. Para saintis saling membantu mengembangkan idea, menulis artikel dengan kerjasama - dan lebih besar sumbangan saintis kepada sains, lebih mudah baginya untuk mencari orang yang berfikiran sama.

Akhirnya, ketumpatan dan ketersediaan maklumat kini begitu hebat sehingga penyelidik yang berbeza secara serentak menghasilkan idea saintifik yang sangat serupa (dan benar-benar berharga). Jika anda tidak menerbitkan idea anda, orang lain hampir pasti akan menerbitkannya untuk anda. "Pemenang" selalunya bukan orang yang menghasilkan inovasi sedikit lebih awal, tetapi orang yang menerbitkannya sedikit lebih awal. Atau - orang yang berjaya mendedahkan idea itu sepenuhnya, jelas dan meyakinkan yang mungkin.

Hadiah dinamakan sempena Ilya Segalovich. Cerita tentang sains komputer dan pelancaran penerbitan

Artikel dan set data

Jadi, artikel saintifik dibina berdasarkan idea utama yang dicadangkan oleh penyelidik. Idea ini adalah sumbangan beliau kepada sains komputer. Artikel dimulakan dengan penerangan idea, dirumuskan dalam beberapa ayat. Ini diikuti dengan pengenalan yang menerangkan pelbagai masalah yang diselesaikan dengan bantuan inovasi yang dicadangkan. Penerangan dan pengenalan biasanya ditulis dalam bahasa mudah yang boleh difahami oleh khalayak yang luas. Selepas pengenalan, adalah perlu untuk memformalkan masalah yang dibentangkan dalam bahasa matematik dan memperkenalkan tatatanda yang ketat. Kemudian, menggunakan tatatanda yang diperkenalkan, anda perlu membuat pernyataan yang jelas dan komprehensif tentang intipati inovasi yang dicadangkan, dan mengenal pasti perbezaan daripada kaedah sebelumnya yang serupa. Semua pernyataan teori mesti sama ada disokong oleh rujukan kepada bukti yang disusun sebelum ini, atau dibuktikan secara bebas. Ini mungkin dilakukan dengan beberapa andaian. Sebagai contoh, anda boleh memberikan bukti untuk kes itu apabila terdapat jumlah data latihan yang tidak terhingga (situasi yang jelas tidak boleh dicapai) atau mereka benar-benar bebas antara satu sama lain. Menjelang akhir artikel, saintis bercakap tentang keputusan eksperimen yang dia dapat perolehi.

Hadiah dinamakan sempena Ilya Segalovich. Cerita tentang sains komputer dan pelancaran penerbitan

Agar penyemak yang direkrut oleh penganjur persidangan lebih berkemungkinan untuk meluluskan kertas kerja, kertas itu mesti mempunyai satu atau lebih atribut. Faktor utama yang meningkatkan peluang kelulusan ialah kebaharuan saintifik idea yang dicadangkan. Selalunya, kebaharuan dinilai berkaitan dengan idea yang sudah sedia ada - dan kerja menilainya tidak dilakukan oleh penyemak, tetapi oleh pengarang artikel itu sendiri. Sebaik-baiknya, penulis harus memberitahu secara terperinci dalam artikel tentang kaedah sedia ada dan, jika boleh, membentangkannya sebagai kes khas kaedahnya. Oleh itu, saintis menunjukkan bahawa pendekatan yang diterima tidak selalu berfungsi, bahawa dia menggeneralisasikannya dan mencadangkan rumusan teori yang lebih luas, lebih fleksibel dan oleh itu lebih berkesan. Jika kebaharuan itu tidak dapat dinafikan, maka jika tidak, pengulas menilai artikel itu tidak terlalu memilih - contohnya, mereka mungkin menutup mata kepada bahasa Inggeris yang lemah.

Untuk mengukuhkan kebaharuan, adalah berguna untuk memasukkan perbandingan dengan kaedah sedia ada pada satu atau lebih set data. Setiap daripada mereka harus terbuka dan diterima dalam persekitaran akademik. Sebagai contoh, terdapat repositori imej ImageNet dan pangkalan data institut seperti Institut Piawaian dan Teknologi Kebangsaan yang Diubahsuai (MNIST) dan CIFAR (Institut Penyelidikan Lanjutan Kanada). Kesukarannya ialah set data "akademik" sedemikian sering berbeza dalam struktur kandungan daripada data sebenar yang ditangani oleh industri. Data yang berbeza bermakna keputusan kaedah yang dicadangkan berbeza. Para saintis yang sebahagiannya bekerja untuk industri cuba mengambil kira perkara ini dan kadangkala memasukkan klausa seperti "pada data kami hasilnya adalah begini dan begitu, tetapi pada dataset awam - begini dan begitu."

Ia berlaku bahawa kaedah yang dicadangkan sepenuhnya "disesuaikan" kepada pangkalan data terbuka dan tidak berfungsi pada data sebenar. Anda boleh memerangi masalah biasa ini dengan membuka set data baharu yang lebih mewakili, tetapi selalunya kita bercakap tentang kandungan peribadi yang syarikat tidak berhak membukanya. Dalam sesetengah kes, mereka menjalankan (kadang-kadang rumit dan teliti) anonimisasi data - mereka mengalih keluar sebarang serpihan yang menunjuk kepada orang tertentu. Contohnya, muka dan nombor dalam gambar dipadamkan atau tidak boleh dibaca. Di samping itu, agar set data bukan sahaja tersedia untuk semua orang, tetapi untuk menjadi standard di kalangan saintis yang memudahkan untuk membandingkan idea, adalah perlu bukan sahaja untuk menerbitkannya, tetapi juga untuk menulis artikel yang dipetik berasingan tentang itu dan kelebihannya.

Lebih teruk apabila tiada set data terbuka dalam topik yang sedang dikaji. Kemudian penyemak hanya boleh menerima keputusan yang dikemukakan oleh penulis tentang iman. Secara teorinya, penulis boleh melebihkan mereka dan kekal tidak dapat dikesan, tetapi dalam persekitaran akademik ini tidak mungkin, kerana ia bertentangan dengan keinginan sebahagian besar saintis untuk membangunkan sains.

Dalam beberapa bidang ML, termasuk penglihatan komputer, ia juga biasa untuk melampirkan pautan ke kod (biasanya ke GitHub) dengan artikel. Artikel itu sendiri sama ada mengandungi kod yang sangat sedikit atau merupakan pseudokod. Dan di sini, sekali lagi, kesukaran timbul jika artikel itu ditulis oleh penyelidik dari sebuah syarikat, dan bukan dari universiti. Secara lalai, kod yang ditulis dalam syarikat atau permulaan dilabelkan NDA. Penyelidik dan rakan sekerja mereka perlu bekerja keras untuk memisahkan kod yang berkaitan dengan idea yang diterangkan daripada repositori dalaman dan pastinya tertutup.

Peluang penerbitan juga bergantung pada kaitan topik yang dipilih. Perkaitan sebahagian besarnya ditentukan oleh produk dan perkhidmatan: jika syarikat atau syarikat permulaan berminat untuk membina perkhidmatan baharu atau menambah baik perkhidmatan sedia ada berdasarkan idea daripada artikel, itu adalah satu kelebihan.

Hadiah dinamakan sempena Ilya Segalovich. Cerita tentang sains komputer dan pelancaran penerbitan

Seperti yang telah disebutkan, kertas sains komputer jarang ditulis secara bersendirian. Tetapi sebagai peraturan, salah seorang pengarang menghabiskan lebih banyak masa dan usaha daripada yang lain. Sumbangannya kepada kebaharuan saintifik adalah yang terbesar. Dalam senarai pengarang, orang seperti itu ditunjukkan terlebih dahulu - dan pada masa akan datang, apabila merujuk kepada artikel, mereka hanya boleh menyebutnya (contohnya, "Ivanov et al" - "Ivanov dan lain-lain" diterjemahkan dari bahasa Latin). Walau bagaimanapun, sumbangan orang lain juga sangat berharga - jika tidak, adalah mustahil untuk berada dalam senarai pengarang.

Proses semakan

Kertas kerja biasanya berhenti diterima beberapa bulan sebelum persidangan. Setelah artikel diserahkan, pengulas mempunyai 3–5 minggu untuk membaca, menilai dan mengulas mengenainya. Ini berlaku mengikut sistem buta tunggal, apabila pengarang tidak melihat nama pengulas, atau buta berganda, apabila pengulas sendiri tidak melihat nama pengarang. Pilihan kedua dianggap lebih tidak berat sebelah: beberapa kertas saintifik telah menunjukkan bahawa populariti pengarang mempengaruhi keputusan pengulas. Sebagai contoh, dia mungkin menganggap bahawa seorang saintis dengan sejumlah besar artikel yang telah diterbitkan adalah priori yang layak mendapat penarafan yang lebih tinggi.

Lebih-lebih lagi, walaupun dalam kes buta dua, pengulas mungkin akan meneka penulis jika mereka bekerja dalam bidang yang sama. Di samping itu, pada masa semakan, artikel itu mungkin sudah diterbitkan dalam pangkalan data arXiv, repositori terbesar kertas saintifik. Penganjur persidangan tidak melarang ini, tetapi mereka mengesyorkan menggunakan tajuk yang berbeza dan abstrak yang berbeza dalam penerbitan untuk arXiv. Tetapi jika artikel itu disiarkan di sana, masih tidak sukar untuk mencarinya.

Selalu ada beberapa pengulas menilai artikel. Salah seorang daripada mereka diberikan peranan sebagai penyemak meta, yang hanya perlu menyemak keputusan rakan sekerjanya dan membuat keputusan muktamad. Jika penyemak tidak bersetuju dengan artikel itu, penyemak meta juga boleh membacanya untuk kesempurnaan.

Kadang-kadang, selepas menyemak penilaian dan ulasan, penulis mempunyai peluang untuk mengadakan perbincangan dengan pengulas; malah ada peluang untuk meyakinkannya untuk mengubah keputusannya (namun, sistem sedemikian tidak berfungsi untuk semua persidangan, dan lebih kurang mungkin untuk mempengaruhi keputusan secara serius). Dalam perbincangan, anda tidak boleh merujuk kepada karya saintifik lain, kecuali yang telah dirujuk dalam artikel. Anda hanya boleh "membantu" pengulas memahami kandungan artikel dengan lebih baik.

Hadiah dinamakan sempena Ilya Segalovich. Cerita tentang sains komputer dan pelancaran penerbitan

Persidangan dan jurnal

Artikel sains komputer lebih kerap dihantar ke persidangan berbanding jurnal saintifik. Ini kerana penerbitan jurnal mempunyai keperluan yang lebih sukar untuk dipenuhi, dan proses semakan rakan sebaya boleh mengambil masa berbulan-bulan atau bahkan bertahun-tahun. Sains komputer adalah bidang yang bergerak pantas, jadi pengarang biasanya tidak sanggup menunggu selama itu untuk penerbitan. Walau bagaimanapun, artikel yang telah diterima untuk persidangan itu kemudiannya boleh ditambah (contohnya, dengan membentangkan hasil yang lebih terperinci) dan diterbitkan dalam jurnal di mana sekatan ruang tidak begitu ketat.

Peristiwa di persidangan itu

Format kehadiran pengarang artikel yang diluluskan pada persidangan itu ditentukan oleh penyemak. Jika artikel itu diberi lampu hijau, maka anda paling kerap diperuntukkan pendirian poster. Poster ialah slaid statik dengan ringkasan artikel dan ilustrasi. Beberapa bilik persidangan dipenuhi dengan barisan poster yang panjang. Pengarang menghabiskan sebahagian besar masanya berhampiran posternya, berkomunikasi dengan saintis yang berminat dengan artikel itu.

Hadiah dinamakan sempena Ilya Segalovich. Cerita tentang sains komputer dan pelancaran penerbitan

Hadiah dinamakan sempena Ilya Segalovich. Cerita tentang sains komputer dan pelancaran penerbitan

Pilihan yang lebih berprestij untuk penyertaan ialah ceramah kilat. Jika penyemak menganggap artikel itu layak untuk laporan pantas, pengarang diberi masa kira-kira tiga minit untuk bercakap kepada khalayak yang luas. Di satu pihak, ceramah kilat adalah peluang yang baik untuk menceritakan idea anda bukan sahaja kepada mereka yang berminat dengan poster itu atas inisiatif mereka sendiri. Sebaliknya, pelawat poster proaktif lebih bersedia dan lebih mendalami topik khusus anda berbanding rata-rata pendengar di dalam dewan. Oleh itu, dalam laporan cepat, anda masih perlu mempunyai masa untuk membawa orang ramai mendapat maklumat terkini.

Hadiah dinamakan sempena Ilya Segalovich. Cerita tentang sains komputer dan pelancaran penerbitan

Kebiasaannya, di akhir ceramah kilat mereka, penulis menamakan nombor poster tersebut supaya pendengar dapat mencarinya dan lebih memahami artikel tersebut.

Hadiah dinamakan sempena Ilya Segalovich. Cerita tentang sains komputer dan pelancaran penerbitan

Pilihan terakhir yang paling berprestij ialah poster ditambah dengan pembentangan idea yang lengkap, apabila tidak lagi perlu tergesa-gesa untuk menceritakan kisah itu.

Hadiah dinamakan sempena Ilya Segalovich. Cerita tentang sains komputer dan pelancaran penerbitan

Tetapi sudah tentu, saintis - termasuk pengarang artikel yang diluluskan - datang ke persidangan seterusnya bukan sahaja untuk menunjuk-nunjuk. Pertama, mereka cenderung untuk mencari poster yang berkaitan dengan bidang mereka atas sebab yang jelas. Dan kedua, adalah penting bagi mereka untuk mengembangkan senarai kenalan mereka untuk tujuan kerja akademik bersama pada masa hadapan. Ini bukan memburu - atau, sekurang-kurangnya, peringkat pertamanya, yang sekurang-kurangnya diikuti dengan pertukaran idea, perkembangan dan kerja bersama yang saling menguntungkan pada satu atau lebih artikel.

Pada masa yang sama, rangkaian yang produktif pada persidangan teratas adalah sukar kerana kekurangan masa lapang. Jika, selepas seharian menghabiskan masa pada pembentangan dan perbincangan di poster, saintis itu telah mengekalkan kekuatannya dan telah mengatasi jet lag, maka dia pergi ke salah satu daripada banyak pihak. Mereka dihoskan oleh syarikat - akibatnya, parti-parti itu sering mempunyai watak yang lebih memburu. Pada masa yang sama, ramai tetamu menggunakannya sama sekali bukan untuk mencari pekerjaan baharu, tetapi, sekali lagi, untuk rangkaian. Pada waktu petang tidak ada lagi laporan dan poster - lebih mudah untuk "menangkap" pakar yang anda minati.

Hadiah dinamakan sempena Ilya Segalovich. Cerita tentang sains komputer dan pelancaran penerbitan

Dari idea kepada pengeluaran

Sains komputer adalah salah satu daripada segelintir industri di mana kepentingan syarikat dan syarikat baru berkait rapat dengan persekitaran akademik. NIPS, ICML dan persidangan lain yang serupa menarik ramai orang dari industri, bukan hanya universiti. Ini adalah tipikal untuk bidang sains komputer, tetapi sebaliknya untuk kebanyakan sains lain.

Sebaliknya, tidak semua idea yang dibentangkan dalam artikel segera menuju ke arah mencipta atau menambah baik perkhidmatan. Walaupun dalam satu syarikat, seorang penyelidik boleh mencadangkan kepada rakan sekerja dari perkhidmatan idea yang terobosan oleh piawaian saintifik dan menerima keengganan untuk melaksanakannya atas beberapa sebab. Salah satu daripadanya telah disebutkan di sini - ini adalah perbezaan antara set data "akademik" di mana artikel itu ditulis dan set data sebenar. Selain itu, pelaksanaan idea mungkin ditangguhkan, memerlukan sejumlah besar sumber atau menambah baik hanya satu penunjuk dengan kos merosot metrik lain.

Hadiah dinamakan sempena Ilya Segalovich. Cerita tentang sains komputer dan pelancaran penerbitan

Keadaan ini diselamatkan oleh fakta bahawa ramai pemaju sendiri adalah sedikit penyelidik. Mereka menghadiri persidangan, bercakap bahasa yang sama dengan ahli akademik, mencadangkan idea, kadangkala mengambil bahagian dalam penciptaan artikel (contohnya, menulis kod), atau bertindak sebagai pengarang sendiri. Jika pemaju tenggelam dalam proses akademik, mengikuti apa yang berlaku di jabatan penyelidikan, dalam satu perkataan - jika dia menunjukkan gerakan balas terhadap saintis, maka kitaran menukar idea saintifik kepada keupayaan perkhidmatan baharu dipendekkan.

Kami mengucapkan selamat maju jaya kepada semua penyelidik muda dan pencapaian yang hebat dalam kerja mereka. Jika siaran ini tidak memberitahu anda sesuatu yang baharu, maka anda mungkin telah pun menerbitkan di persidangan teratas. Daftar untuk premium diri sendiri dan mencalonkan penyelia saintifik.

Sumber: www.habr.com

Tambah komen