該獎項以伊利亞·謝加洛維奇的名字命名。 關於電腦科學和發佈出版物的故事

該獎項以伊利亞·謝加洛維奇的名字命名。 關於電腦科學和發佈出版物的故事

今天我們推出以伊利亞·謝加洛維奇 (Ilya Segalovich) 命名的科學獎項 伊塞格。 它將獎勵計算機科學領域的成就。 本科生和研究生 可以提交自己的獎項申請 或提名科學導師。 獲獎者將由學術界和 Yandex 的代表選出。 主要選擇標準:在會議上的出版和演講,以及對社區發展的貢獻。

首屆頒獎典禮將於四月舉行。 作為該獎項的一部分,年輕科學家將獲得 350 萬盧布,此外,他們將能夠參加國際會議、與導師一起工作並在 Yandex 研究部門實習。 科學主管將獲得700萬盧布。

值此獎項啟動之際,我們決定在 Habré 上討論電腦科學領域的成功標準。 一些哈布爾讀者已經熟悉這些標準,而其他人可能對它們有錯誤的印象。 今天我們將彌合這一差距 - 我們將涉及所有主要主題,包括文章、會議、數據集以及將科學思想轉化為服務。

對於計算機科學領域的科學家來說,成功的主要標準是在頂級國際會議之一上發表他們的科學工作。 這是認可研究人員工作的第一個「檢查點」。 例如,在機器學習領域,國際機器學習會議(ICML)和神經資訊處理系統會議(NeurIPS,以前的NIPS)是有區別的。 有很多關於 ML 特定領域的會議,例如電腦視覺、資訊檢索、語音技術、機器翻譯等。

為什麼要發表你的想法

遠離電腦科學的人可能會有這樣的誤解:最好將最有價值的想法保密並努力從其獨特性中獲利。 然而,我們領域的真實情況卻恰恰相反。 科學家的權威是透過他的作品的重要性以及他的文章被其他科學家引用的頻率(引文索引)來判斷的。 這是他職業生涯的重要特點。 一名研究人員只有不斷地產出出色的成果並發表、出名並為其他科學家的工作奠定基礎,才能在專業階梯上不斷提升,在社區中受到更多尊重。

許多頂級文章(也許是大多數)都是世界各地不同大學和公司的研究人員合作的結果。 研究人員職業生涯中一個重要且非常有價值的時刻是當他有機會根據自己的經驗自行尋找和篩選想法時 - 但即使在此之後,他的同事仍繼續為他提供寶貴的幫助。 科學家們互相幫助發展想法,合作撰寫文章——科學家對科學的貢獻越大,他就越容易找到志同道合的人。

最後,資訊的密度和可用性現在如此之大,以至於不同的研究人員同時提出了非常相似(且真正有價值)的科學想法。 如果您不發表您的想法,其他人幾乎肯定會為您發表。 「勝利者」往往不是早一點提出創新的人,而是早一點發布創新的人。 或者——能夠盡可能全面、清晰和令人信服地揭示這一想法的人。

該獎項以伊利亞·謝加洛維奇的名字命名。 關於電腦科學和發佈出版物的故事

文章和數據集

因此,一篇科學文章是圍繞著研究人員提出的主要想法而建構的。 這個想法是他對計算機科學的貢獻。 文章首先用幾句話描述了這個想法。 接下來是介紹,描述了在所提出的創新的幫助下解決的一系列問題。 描述和介紹通常以廣大受眾可以理解的簡單語言編寫。 介紹完畢後,需要將所提出的問題以數學語言形式化,並引入嚴格的符號。 然後,使用引入的符號,您需要對所提議的創新的本質進行清晰而全面的陳述,並找出與以前類似方法的差異。 所有理論陳述必須引用先前彙編的證據來支持,或獨立證明。 這可以透過一些假設來完成。 例如,您可以給出當訓練資料量無限時(顯然無法實現的情況)或它們彼此完全獨立的情況的證明。 在文章的最後,這位科學家談到了他所獲得的實驗結果。

該獎項以伊利亞·謝加洛維奇的名字命名。 關於電腦科學和發佈出版物的故事

為了讓會議組織者招募的審查者更有可能批准一篇論文,它必須具有一個或多個屬性。 增加批准機會的關鍵因素是所提出想法的科學新穎性。 通常,新穎性是根據已經存在的想法來評估的——評估新穎性的工作不是由審稿人進行的,而是由文章的作者本人進行的。 理想情況下,作者應該在文章中詳細講述現有的方法,如果可能的話,將它們作為其方法的特例來呈現。 因此,科學家表明,公認的方法並不總是有效,他對它們進行了概括,並提出了更廣泛、更靈活、因此更有效的理論表述。 如果新穎性是不可否認的,那麼審查者對文章的評價就不會那麼挑剔──例如,他們可能會對糟糕的英語視而不見。

為了增強新穎性,在一個或多個資料集上與現有方法進行比較是有用的。 他們每個人都應該在學術環境中開放和接受。 例如,有ImageNet影像儲存庫以及改良國家標準與技術研究所(MNIST)和CIFAR(加拿大高級研究所)等機構的資料庫。 困難在於,這樣的「學術」資料集在內容結構上通常與產業處理的真實資料不同。 不同的數據意味著所提出的方法的不同結果。 部分為該行業工作的科學家試圖考慮到這一點,有時會插入免責聲明,例如“在我們的數據上,結果是這樣的,但在公共數據集上是這樣的。”

碰巧的是,所提出的方法完全是針對開放資料庫「量身定制」的,不適用於真實資料。 您可以透過開啟新的、更具代表性的資料集來解決這個常見問題,但我們通常談論的是公司根本無權打開的私人內容。 在某些情況下,他們會對資料進行(有時是複雜且艱苦的)匿名化 - 他們刪除指向特定人員的任何片段。 例如,照片中的臉和數字被刪除或變得難以辨認。 此外,為了使該資料集不僅可供所有人使用,而且成為科學家之間方便比較想法的標準,不僅有必要將其發表,而且還需要撰寫一篇單獨的引用文章它及其優點。

當正在研究的主題沒有開放資料集時,情況會更糟。 那麼審稿人只能信仰地接受作者提出的結果。 理論上,作者甚至可以高估它們而未被發現,但在學術環境中這是不可能的,因為這違背了絕大多數科學家發展科學的願望。

在機器學習的許多領域(包括電腦視覺)中,在文章中附加程式碼連結(通常是 GitHub)也很常見。 這些文章本身要么包含很少的程式碼,要么是偽代碼。 如果這篇文章是由公司而不是大學的研究人員撰寫的,那麼這裡又會出現困難。 預設情況下,公司或新創公司編寫的程式碼被標記為 NDA。 研究人員和他們的同事必須努力將與所描述的想法相關的程式碼從內部且肯定是封閉的儲存庫中分離出來。

發表的機會也取決於所選主題的相關性。 相關性很大程度上取決於產品和服務:如果一家公司或新創公司有興趣根據文章中的想法建立新服務或改進現有服務,那就是一個優勢。

該獎項以伊利亞·謝加洛維奇的名字命名。 關於電腦科學和發佈出版物的故事

正如已經提到的,計算機科學論文很少是單獨撰寫的。 但一般來說,其中一位作者比其他人花費更多的時間和精力。 他對科學新穎性的貢獻是最大的。 在作者列表中,首先指出這樣的人 - 將來,當引用一篇文章時,他們只能提及他(例如,“Ivanov et al” - 從拉丁文翻譯的“Ivanov and other”)。 然而,其他人的貢獻也極為有價值——否則不可能出現在作者名單上。

審核流程

論文通常在會議前幾個月停止接受。 文章提交後,審查者有 3 至 5 週的時間對其進行閱讀、評估和評論。 這種情況根據單盲系統發生,當作者看不到審查者的姓名時,或根據雙盲系統,當審查者本身看不到作者的名字時。 第二個選項被認為更公正:幾篇科學論文表明,作者的受歡迎程度會影響審查者的決定。 例如,他可能認為擁有大量已發表文章的科學家是先驗值得更高評級的。

而且,即使在雙盲的情況下,審查者也可能會猜測作者是否在同一領域工作。 此外,在審查時,該文章可能已經發表在最大的科學論文儲存庫 arXiv 資料庫中。 會議組織者並不禁止這樣做,但他們建議在 arXiv 出版物中使用不同的標題和不同的摘要。 但如果這篇文章發佈在那裡,要找到它仍然不難。

一篇文章總是有多位審稿者進行評估。 其中一名被指派為元審查員的角色,他必須只審查同事的裁決並做出最終決定。 如果審稿人不同意這篇文章,元審稿人也可以閱讀文章的完整性。

有時,在審查評分和評論後,作者有機會與審稿人進行討論; 甚至有機會說服他改變決定(不過,這樣的系統並不適用於所有會議,更不可能嚴重影響判決)。 在討論中,您不能引用其他科學著作,但文章中已引用的著作除外。 你只能「幫助」審稿者更能理解文章的內容。

該獎項以伊利亞·謝加洛維奇的名字命名。 關於電腦科學和發佈出版物的故事

會議和期刊

計算機科學文章更多地提交給會議而不是科學期刊。 這是因為期刊出版物的要求更難以滿足,而且同儕審查過程可能需要數月甚至數年的時間。 計算機科學是一個發展非常快的領域,因此作者通常不願意等待那麼長時間才能發表。 然而,已經被會議接受的文章可以進行補充(例如,透過提出更詳細的結果)並發表在空間限制較不嚴格的期刊上。

會議活動

批准文章的作者出席會議的形式由審查者決定。 如果文章獲得批准,那麼您通常會被分配一個海報架。 海報是一張靜態幻燈片,其中包含文章摘要和插圖。 有些會議室擺滿了長排的海報架。 作者將大部分時間花在海報附近,與對本文有興趣的科學家進行交流。

該獎項以伊利亞·謝加洛維奇的名字命名。 關於電腦科學和發佈出版物的故事

該獎項以伊利亞·謝加洛維奇的名字命名。 關於電腦科學和發佈出版物的故事

一個稍微更有聲望的參與選擇是閃電演講。 如果審稿者認為這篇文章值得快速報道,作者將有大約三分鐘的時間向廣大觀眾發表演說。 一方面,閃電演講是一個很好的機會,可以向那些主動對海報感興趣的人講述你的想法。 另一方面,主動的海報訪客比大廳裡的普通聽眾準備得更充分,也更沉浸在你的特定主題中。 因此,在快速報告中,您仍然需要有時間向人們通報最新情況。

該獎項以伊利亞·謝加洛維奇的名字命名。 關於電腦科學和發佈出版物的故事

通常,在閃電演講結束時,作者會命名發文者編號,以便聽眾可以找到它並更好地理解文章。

該獎項以伊利亞·謝加洛維奇的名字命名。 關於電腦科學和發佈出版物的故事

最後,最負盛名的選擇是海報加上對想法的全面介紹,此時不再需要急於講述故事。

該獎項以伊利亞·謝加洛維奇的名字命名。 關於電腦科學和發佈出版物的故事

但當然,科學家——包括已批准文章的作者——來到下一次會議不僅僅是為了炫耀。 首先,出於顯而易見的原因,他們傾向於尋找與其領域相關的海報。 其次,為了未來的聯合學術工作,他們必須擴大聯繫範圍。 這不是狩獵——或至少是它的第一階段,之後至少是互惠互利的思想交流、發展以及針對一篇或多篇文章的聯合工作。

同時,由於完全缺乏空閒時間,在頂級會議上進行富有成效的交流是很困難的。 如果經過一整天的演講和海報討論後,這位科學家仍然保持著體力並且已經克服了時差,那麼他就會去參加眾多聚會之一。 它們是由公司主辦的——因此,派對往往更具狩獵性質。 同時,許多客人使用它們根本不是為了找新工作,而是為了建立人際網絡。 晚上沒有更多的報告和海報——更容易“抓住”您感興趣的專家。

該獎項以伊利亞·謝加洛維奇的名字命名。 關於電腦科學和發佈出版物的故事

從想法到生產

電腦科學是少數幾個企業和新創企業的利益與學術環境密切相關的行業之一。 NIPS、ICML 和其他類似的會議吸引了許多來自工業界的人士,而不僅僅是大學。 這對於計算機科學領域來說是典型的,但對於大多數其他科學領域也是如此。

另一方面,並非文章中提出的所有想法都會立即用於創建或改進服務。 即使在一家公司內,研究人員也可以向該部門的同事提出一個在科學標準上具有突破性的想法,但由於多種原因而遭到拒絕實施。 其中一個已經在這裡提到過——這是撰寫文章的“學術”數據集與真實數據集之間的差異。 此外,一個想法的實施可能會被延遲,需要大量資源,或以惡化其他指標為代價只改善一項指標。

該獎項以伊利亞·謝加洛維奇的名字命名。 關於電腦科學和發佈出版物的故事

許多開發人員本身就是研究人員,這一事實挽救了這種情況。 他們參加會議,與學者使用相同的語言,提出想法,有時參與文章的創作(例如,編寫程式碼),甚至自己擔任作者。 如果開發人員沉浸在學術過程中,專注於研究部門正在發生的事情,簡而言之,如果他表現出對科學家的反動,那麼將科學思想轉化為新服務能力的周期就會縮短。

我們祝福所有青年科研人員一切順利,工作取得豐碩成果。 如果這篇文章沒有告訴您任何新內容,那麼您可能已經在頂級會議上發表過文章。 為.....註冊 你自己並提名科學導師。

來源: www.habr.com

添加評論