Pavel Klemenkov,NVIDIA:我们正在努力缩小数据科学家可以做的事情和他应该做的事情之间的差距

数据科学和商业智能 Ozon Masters 硕士课程的第二批学生已经开始 - 为了更容易决定放弃申请并参加在线测试,我们向课程老师询问了对学习和工作的期望与数据。

Pavel Klemenkov,NVIDIA:我们正在努力缩小数据科学家可以做的事情和他应该做的事情之间的差距 NVIDIA 首席数据科学家兼教师 大数据和数据工程课程 Pavel Klemenkov 谈到了为什么数学家需要编写代码并在 Ozon Masters 学习两年。

— 有很多公司使用数据科学算法吗?

- 其实很多。 很多拥有真正大数据的大公司要么开始有效地使用它,要么已经使用它很长时间了。 显然,一半的市场使用可以放入 Excel 电子表格或可以在大型服务器上计算的数据,但不能说只有少数企业可以使用数据。

— 告诉我们一些使用数据科学的项目。

— 例如,在 Rambler 工作时,我们正在制作一个基于 RTB(实时竞价)原理的广告系统 - 我们需要构建许多模型来优化广告购买,或者例如可以预测概率点击、转化等。 同时,广告拍卖会生成大量数据:对潜在广告买家的网站请求日志、广告印象日志、点击日志——每天产生数十 TB 的数据。

此外,对于这些任务,我们观察到一个有趣的现象:用于训练模型的数据越多,其质量就越高。 通常,在达到一定数量的数据后,预测的质量就会停止提高,为了进一步提高准确性,您需要使用根本不同的模型、不同的方法来准备数据、特征等。 在这里,我们上传了更多数据,质量也提高了。

这是一个典型的案例,分析师首先必须处理大型数据集,以便至少进行一项实验,而不可能使用适合舒适 MacBook 的小样本。 同时,我们需要分布式模型,因为否则它们无法被训练。 随着计算机视觉引入生产,这样的例子变得越来越常见,因为图片是大量数据,训练大型模型需要数百万张图片。

问题立即出现:如何存储所有这些信息,如何有效地处理它们,如何使用分布式学习算法——重点正在从纯数学转向工程。 即使您不在生产中编写代码,您也需要能够使用工程工具来进行实验。

— 近年来,数据科学职位空缺的处理方式发生了怎样的变化?

——大数据不再是炒作,而是成为现实。 硬盘非常便宜,这意味着可以收集所有数据,以便将来有足够的数据来检验任何假设。 结果,用于处理大数据的工具知识变得非常流行,因此,出现了越来越多的数据工程师职位空缺。

在我的理解中,数据科学家的工作成果不是实验,而是已经达到生产的产品。 正是从这一点来看,在大数据炒作出现之前,过程更为简单:工程师们从事机器学习来解决特定问题,将算法投入生产并不存在任何问题。

— 如何才能成为一名广受欢迎的专家?

——现在很多人进入数据科学领域,学过数学、机器学习理论,参加过数据分析比赛,这里提供了现成的基础设施:数据被清理,指标被定义,没有要求解决方案可重复且快速。

结果,人们开始工作时对业务的现实准备不足,并且新手和经验丰富的开发人员之间形成了差距。

随着允许您从现成的模块组装自己的模型的工具的开发 - 微软、谷歌和许多其他公司已经有了这样的解决方案 - 以及机器学习的自动化,这种差距将变得更加明显。 未来,该职业将需要提出新算法的认真研究人员,以及具有开发模型和自动化流程的工程技能的员工。 Ozon 数据工程硕士课程旨在培养工程技能以及在大数据上使用分布式机器学习算法的能力。 我们正在努力缩小数据科学家可以做的事情和他在实践中应该做的事情之间的差距。

— 一个有文凭的数学家为什么要去读商科?

— 俄罗斯数据科学界已经认识到,技能和经验很快就会转化为金钱,因此,一旦专家拥有实践经验,他的成本就开始快速增长,最熟练的人员非常昂贵 - 而这在目前的发展市场中确实如此。

数据科学家工作的一个重要部分是研究数据,了解其中的内容,咨询负责业务流程的人员并生成这些数据 - 然后才用它来构建模型。 要开始使用大数据,拥有工程技能非常重要 - 这使得更容易避免尖角,而数据科学中有很多这样的尖角。

一个典型的故事:您用 SQL 编写了一个查询,该查询使用在大数据上运行的 Hive 框架执行。 该请求将在十分钟内得到处理,最坏的情况是一两个小时,并且通常,当您收到此数据的下载时,您会意识到您忘记考虑某些因素或附加信息。 您必须重新发送请求并等待这几分钟和几小时。 如果你是一个效率天才,你就会承担另一项任务,但是,实践表明,我们的效率天才很少,人们只是在等待。 因此,在课程中,我们将投入大量时间来提高工作效率,以便最初编写的查询不是两个小时,而是几分钟。 这项技能可以提高生产力,从而提高专家的价值。

– Ozon Masters 与其他课程有何不同?

— Ozon Masters 由 Ozon 员工授课,任务基于公司解决的真实业务案例。 事实上,除了缺乏工程技能之外,在大学学习数据科学的人还有另一个问题:企业的任务是用商业语言制定的,其目标相当简单:赚更多的钱。 数学家深知如何优化数学指标,但找到与业务指标相关的指标却很困难。 您需要了解您正在解决业务问题,并与业务部门一起制定可以进行数学优化的指标。 这项技能是通过真实案例获​​得的,并且是由 Ozon 赋予的。
而且即使我们忽略案例,学校里教授的也是很多在真实企业中解决业务问题的从业者。 因此,教学方法本身仍然更加注重实践。 至少在我的课程中,我会尝试将重点转移到如何使用工具、存在哪些方法等等。 和学生一起,我们会明白每个任务都有自己的工具,每个工具都有它的适用范围。

——最著名的数据分析培训项目当然是ShAD——它到底有什么区别?

——显然,ShAD和Ozon Masters除了教育功能外,还解决了当地的人才培养问题。 顶尖的 SHAD 毕业生主要被招募到 Yandex,但问题是,Yandex 由于其特殊性——而且它规模很大,而且是在几乎没有处理大数据的好工具的情况下创建的——拥有自己的基础设施和处理数据的工具,这意味着,你必须掌握它们。 Ozon Masters 传达了不同的信息 - 如果您成功掌握了该计划,并且 Ozon 或 99% 的其他公司之一邀请您工作,那么您将更容易开始为企业带来好处;作为 Ozon Masters 的一部分获得的技能组合就足以开始工作了。

— 课程为期两年。 为什么你需要花这么多时间在这上面?

- 好问题。 需要很长的时间,因为从内容和老师的水平来看,这是一个完整的硕士项目,需要大量的时间来掌握,包括作业。

从我的课程角度来看,期望学生每周花 2-3 个小时做作业是很常见的。 首先,任务是在训练集群上执行的,任何共享集群都意味着多个人同时使用它。 也就是说,您必须等待任务开始执行;可能会选择一些资源并将其转移到更高优先级的队列。 另一方面,任何大数据工作都需要花费大量时间。

如果您对该计划、大数据工作或工程技能还有任何疑问,Ozon Masters 将于 25 月 12 日星期六 00:XNUMX 举办在线开放日。 我们与老师和学生见面 ZoomYouTube.

来源: habr.com

添加评论