该奖项以伊利亚·谢加洛维奇的名字命名。 关于计算机科学和发布出版物的故事

该奖项以伊利亚·谢加洛维奇的名字命名。 关于计算机科学和发布出版物的故事

今天我们推出以伊利亚·谢加洛维奇 (Ilya Segalovich) 命名的科学奖项 伊赛格。 它将奖励计算机科学领域的成就。 本科生和研究生 可以提交自己的奖项申请 或提名科学导师。 获奖者将由学术界和 Yandex 的代表选出。 主要选择标准:在会议上的出版物和演讲,以及对社区发展的贡献。

首届颁奖典礼将于四月举行。 作为该奖项的一部分,年轻科学家将获得 350 万卢布,此外,他们将能够参加国际会议、与导师一起工作并在 Yandex 研究部门实习。 科学主管将获得700万卢布。

值此奖项启动之际,我们决定在 Habré 上讨论计算机科学领域的成功标准。 一些哈布尔读者已经熟悉这些标准,而其他人可能对它们有错误的印象。 今天我们将弥合这一差距 - 我们将涉及所有主要主题,包括文章、会议、数据集以及将科学思想转化为服务。

对于计算机科学领域的科学家来说,成功的主要标准是在顶级国际会议之一上发表他们的科学工作。 这是认可研究人员工作的第一个“检查点”。 例如,在机器学习领域,国际机器学习会议(ICML)和神经信息处理系统会议(NeurIPS,以前的NIPS)是有区别的。 有很多关于 ML 特定领域的会议,例如计算机视觉、信息检索、语音技术、机器翻译等。

为什么要发表你的想法

远离计算机科学的人可能会有这样的误解:最好将最有价值的想法保密并努力从其独特性中获利。 然而,我们领域的真实情况却恰恰相反。 科学家的权威是通过他的作品的重要性以及他的文章被其他科学家引用的频率(引文索引)来判断的。 这是他职业生涯的一个重要特点。 一名研究人员只有不断地产出出色的成果并发表、出名并为其他科学家的工作奠定基础,才能在专业阶梯上不断提升,在社区中受到更多尊重。

许多顶级文章(也许是大多数)都是世界各地不同大学和公司的研究人员合作的结果。 研究人员职业生涯中一个重要且非常有价值的时刻是当他有机会根据自己的经验自行寻找和筛选想法时 - 但即使在此之后,他的同事仍继续为他提供宝贵的帮助。 科学家们互相帮助发展想法,合作撰写文章——科学家对科学的贡献越大,他就越容易找到志同道合的人。

最后,信息的密度和可用性现在如此之大,以至于不同的研究人员同时提出了非常相似(且真正有价值)的科学想法。 如果您不发表您的想法,其他人几乎肯定会为您发表。 “胜利者”往往不是早一点提出创新的人,而是早一点发布创新的人。 或者——能够尽可能全面、清晰和令人信服地揭示这一想法的人。

该奖项以伊利亚·谢加洛维奇的名字命名。 关于计算机科学和发布出版物的故事

文章和数据集

因此,一篇科学文章是围绕研究人员提出的主要思想构建的。 这个想法是他对计算机科学的贡献。 文章首先用几句话描述了这个想法。 接下来是介绍,描述了在所提出的创新的帮助下解决的一系列问题。 描述和介绍通常以广大受众可以理解的简单语言编写。 介绍完毕后,需要将所提出的问题用数学语言形式化,并引入严格的符号。 然后,使用引入的符号,您需要对所提议的创新的本质进行清晰而全面的陈述,并确定与以前类似方法的差异。 所有理论陈述必须引用先前汇编的证据来支持,或者独立证明。 这可以通过一些假设来完成。 例如,您可以给出当训练数据量无限时(显然无法实现的情况)或者它们彼此完全独立的情况的证明。 在文章的最后,这位科学家谈到了他获得的实验结果。

该奖项以伊利亚·谢加洛维奇的名字命名。 关于计算机科学和发布出版物的故事

为了让会议组织者招募的审稿人更有可能批准一篇论文,它必须具有一个或多个属性。 增加批准机会的关键因素是所提出想法的科学新颖性。 通常,新颖性是根据已经存在的想法来评估的——评估新颖性的工作不是由审稿人进行的,而是由文章的作者本人进行的。 理想情况下,作者应该在文章中详细讲述现有的方法,如果可能的话,将它们作为其方法的特例来呈现。 因此,科学家表明,公认的方法并不总是有效,他对它们进行了概括,并提出了更广泛、更灵活、因此更有效的理论表述。 如果新颖性是不可否认的,那么审稿人对这篇文章的评价就不会那么挑剔——例如,他们可能会对糟糕的英语视而不见。

为了增强新颖性,在一个或多个数据集上与现有方法进行比较是有用的。 他们每个人都应该在学术环境中开放和接受。 例如,有ImageNet图像存储库以及改良国家标准与技术研究所(MNIST)和CIFAR(加拿大高级研究所)等机构的数据库。 困难在于,这样的“学术”数据集在内容结构上通常与行业处理的真实数据不同。 不同的数据意味着所提出的方法的不同结果。 部分为该行业工作的科学家试图考虑到这一点,有时会插入免责声明,例如“在我们的数据上,结果是这样的,但在公共数据集上是这样的。”

碰巧的是,所提出的方法完全是针对开放数据库“量身定制”的,不适用于真实数据。 您可以通过打开新的、更具代表性的数据集来解决这个常见问题,但我们通常谈论的是公司根本无权打开的私人内容。 在某些情况下,他们会对数据进行(有时是复杂且艰苦的)匿名化 - 他们删除指向特定人员的任何片段。 例如,照片中的面孔和数字被删除或变得难以辨认。 此外,为了使该数据集不仅可供所有人使用,而且成为科学家之间方便比较想法的标准,不仅需要发布它,还需要单独写一篇引用的文章它及其优点。

当正在研究的主题没有开放数据集时,情况会更糟。 那么审稿人只能信仰地接受作者提出的结果。 理论上,作者甚至可以高估它们而未被发现,但在学术环境中这是不可能的,因为这违背了绝大多数科学家发展科学的愿望。

在机器学习的许多领域(包括计算机视觉)中,在文章中附加代码链接(通常是 GitHub)也很常见。 这些文章本身要么包含很少的代码,要么是伪代码。 如果这篇文章是由公司而不是大学的研究人员撰写的,那么这里又会出现困难。 默认情况下,公司或初创公司编写的代码被标记为 NDA。 研究人员和他们的同事必须努力将与所描述的想法相关的代码从内部且肯定是封闭的存储库中分离出来。

发表的机会还取决于所选主题的相关性。 相关性很大程度上取决于产品和服务:如果一家公司或初创公司有兴趣根据文章中的想法构建新服务或改进现有服务,那就是一个优势。

该奖项以伊利亚·谢加洛维奇的名字命名。 关于计算机科学和发布出版物的故事

正如已经提到的,计算机科学论文很少是单独撰写的。 但一般来说,其中一位作者比其他人花费更多的时间和精力。 他对科学新颖性的贡献是最大的。 在作者列表中,首先指出这样的人 - 将来,当引用一篇文章时,他们只能提及他(例如,“Ivanov et al” - 从拉丁文翻译的“Ivanov and other”)。 然而,其他人的贡献也极其有价值——否则不可能出现在作者名单上。

审核流程

论文通常在会议召开前几个月停止接受。 文章提交后,审稿人有 3 至 5 周的时间对其进行阅读、评估和评论。 这种情况根据单盲系统发生,当作者看不到审稿人的姓名时,或者根据双盲系统,当审稿人本身看不到作者的名字时。 第二种选择被认为更加公正:几篇科学论文表明,作者的受欢迎程度会影响审稿人的决定。 例如,他可能认为拥有大量已发表文章的科学家是先验​​值得更高评级的。

而且,即使在双盲的情况下,审稿人也可能会猜测作者是否在同一领域工作。 此外,在审稿时,该文章可能已经发表在最大的科学论文存储库 arXiv 数据库中。 会议组织者并不禁止这样做,但他们建议在 arXiv 出版物中使用不同的标题和不同的摘要。 但如果这篇文章发布在那里,找到它仍然不难。

一篇文章总是有多个审稿人进行评估。 其中一名被分配为元审查员的角色,他必须只审查同事的裁决并做出最终决定。 如果审稿人不同意这篇文章,元审稿人也可以阅读文章的完整性。

有时,在审阅评分和评论后,作者有机会与审稿人进行讨论; 甚至有机会说服他改变决定(不过,这样的系统并不适用于所有会议,更不可能严重影响判决)。 在讨论中,您不能引用其他科学著作,但文章中已引用的著作除外。 你只能“帮助”审稿人更好地理解文章的内容。

该奖项以伊利亚·谢加洛维奇的名字命名。 关于计算机科学和发布出版物的故事

会议和期刊

计算机科学文章更多地提交给会议而不是科学期刊。 这是因为期刊出版物的要求更难以满足,而且同行评审过程可能需要数月甚至数年的时间。 计算机科学是一个发展非常快的领域,因此作者通常不愿意等待那么长时间才能发表。 然而,已经被会议接受的文章可以进行补充(例如,通过提出更详细的结果)并发表在空间限制不那么严格的期刊上。

会议活动

批准文章的作者出席会议的形式由审稿人决定。 如果文章获得批准,那么您通常会被分配一个海报架。 海报是一张静态幻灯片,其中包含文章摘要和插图。 一些会议室摆满了长排的海报架。 作者将大部分时间花在海报附近,与对本文感兴趣的科学家进行交流。

该奖项以伊利亚·谢加洛维奇的名字命名。 关于计算机科学和发布出版物的故事

该奖项以伊利亚·谢加洛维奇的名字命名。 关于计算机科学和发布出版物的故事

一个稍微更有声望的参与选择是闪电演讲。 如果审稿人认为这篇文章值得快速报道,作者将有大约三分钟的时间向广大观众发表讲话。 一方面,闪电演讲是一个很好的机会,可以向那些主动对海报感兴趣的人讲述你的想法。 另一方面,主动的海报访客比大厅里的普通听众准备得更充分,也更沉浸在你的特定主题中。 因此,在快速报告中,您仍然需要有时间向人们通报最新情况。

该奖项以伊利亚·谢加洛维奇的名字命名。 关于计算机科学和发布出版物的故事

通常,在闪电演讲结束时,作者会命名发帖者编号,以便听众可以找到它并更好地理解文章。

该奖项以伊利亚·谢加洛维奇的名字命名。 关于计算机科学和发布出版物的故事

最后,最负盛名的选择是海报加上对想法的全面介绍,此时不再需要急于讲述故事。

该奖项以伊利亚·谢加洛维奇的名字命名。 关于计算机科学和发布出版物的故事

但当然,科学家——包括已批准文章的作者——来到下一次会议不仅仅是为了炫耀。 首先,出于显而易见的原因,他们倾向于寻找与其领域相关的海报。 其次,为了未来的联合学术工作,他们必须扩大联系范围。 这不是狩猎——或者至少是它的第一阶段,之后至少是互惠互利的思想交流、发展以及针对一篇或多篇文章的联合工作。

与此同时,由于完全缺乏空闲时间,在顶级会议上进行富有成效的交流是很困难的。 如果经过一整天的演讲和海报讨论后,这位科学家仍然保持着体力并且已经克服了时差,那么他就会去参加众多聚会之一。 它们是由公司主办的——因此,派对往往更具狩猎性质。 与此同时,许多客人使用它们根本不是为了找新工作,而是为了建立人际网络。 晚上没有更多的报告和海报——更容易“抓住”您感兴趣的专家。

该奖项以伊利亚·谢加洛维奇的名字命名。 关于计算机科学和发布出版物的故事

从想法到生产

计算机科学是少数几个企业和初创企业的利益与学术环境密切相关的行业之一。 NIPS、ICML 和其他类似的会议吸引了很多来自工业界的人士,而不仅仅是大学。 这对于计算机科学领域来说是典型的,但对于大多数其他科学领域也是如此。

另一方面,并​​非文章中提出的所有想法都会立即用于创建或改进服务。 即使在一家公司内,研究人员也可以向该部门的同事提出一个在科学标准上具有突破性的想法,但由于多种原因而遭到拒绝实施。 其中之一已经在这里提到过——这是撰写文章的“学术”数据集与真实数据集之间的差异。 此外,一个想法的实施可能会被延迟,需要大量资源,或者以恶化其他指标为代价只改进一项指标。

该奖项以伊利亚·谢加洛维奇的名字命名。 关于计算机科学和发布出版物的故事

许多开发人员本身就是研究人员,这一事实挽救了这种情况。 他们参加会议,与学者使用相同的语言,提出想法,有时参与文章的创作(例如,编写代码),甚至自己担任作者。 如果开发人员沉浸在学术过程中,关注研究部门正在发生的事情,简而言之,如果他表现出对科学家的反动,那么将科学思想转化为新服务能力的周期就会缩短。

我们祝愿所有青年科研人员一切顺利,工作取得丰硕成果。 如果这篇文章没有告诉您任何新内容,那么您可能已经在顶级会议上发表过文章。 为.....注册 奖项 你自己并提名科学导师。

来源: habr.com

添加评论