Gartner MQ 2020 评论:机器学习和人工智能平台

无法解释我读这篇文章的原因。 我只是有时间并且对市场如何运作感兴趣。 根据 Gartner 自 2018 年以来的数据,这已经是一个成熟的市场。 从 2014 年到 2016 年,它被称为高级分析(源于 BI),2017 年被称为数据科学(我不知道如何将其翻译成俄语)。 对于那些对广场周围商贩的动向感兴趣的人,您可以 这里 看。 我将谈论 2020 年广场,尤其是自 2019 年以来的变化很小:SAP 搬出,Altair 收购了 Datawatch。

这不是系统分析或表格。 个人观点,也是从地球物理学家的角度来看。 但我总是很好奇阅读Gartner MQ,他们完美地阐述了一些观点。 以下是我在技术、市场和哲学方面关注的事情。

这不适合那些深入研究机器学习主题的人,而是适合对市场上普遍发生的事情感兴趣的人。

DSML 市场本身在逻辑上嵌套在 BI 和云 AI 开发者服务之间。

Gartner MQ 2020 评论:机器学习和人工智能平台

首先最喜欢的引言和术语:

  • “领导者可能不是最好的选择” — 市场领导者不一定是您所需要的。 很紧急! 由于缺乏功能性客户,他们总是在寻找“最佳”解决方案,而不是“合适”的解决方案。
  • 《模型运作化》 - 缩写为 MOP。 每个人都很难对付哈巴狗! –(酷哈巴狗主题使模型正常工作)。
  • 《笔记本环境》 是一个重要的概念,它将代码、注释、数据和结果结合在一起。 这非常清晰、有前途并且可以显着减少 UI 代码量。
  • “植根于开源” - 说得好 - 扎根于开源。
  • “公民数据科学家” - 这些简单的家伙,这样的拉莫斯,而不是专家,他们需要视觉环境和各种辅助东西。 他们不会编码。
  • “民主” - 通常用来表示“向更广泛的人提供”。 我们可以说“民主化数据”,而不是我们过去使用的危险的“释放数据”。 “民主化”始终是一条长尾,所有供应商都在追逐它。 损失知识强度 - 获得可访问性!
  • 《探索性数据分析-EDA》 ——考虑这些可用的手段。 一些统计数据。 一点可视化。 每个人都在某种程度上做的事情。 不知道这个有名字
  • “再现性” ——最大限度地保存所有环境参数、输入和输出,以便实验一旦进行就可以重复。 实验测试环境最重要的术语!

所以:

Alteryx

很酷的界面,就像一个玩具。 当然,可扩展性有点困难。 因此,公民社区的工程师们也同样用小玩意来玩。 分析功能尽在一瓶中。 让我想起了复杂的光谱相关数据分析 科斯卡德,这是在 90 年代编程的。

蟒蛇

围绕 Python 和 R 专家的社区。 相应地,开源也很大。 原来我的同事一直在用它。 但我不知道。

数据砖

由三个开源项目组成 - Spark 开发人员自 2013 年以来已经筹集了大量资金。我真的必须引用 wiki:

“2013 年 13.9 月,Databricks 宣布从 Andreessen Horowitz 筹集了 33 万美元。 该公司在2014年额外筹集了60万美元,2016年筹集了140万美元,2017年筹集了250亿美元,2019年(400月)筹集了2019亿美元,XNUMX年(XNUMX月)筹集了XNUMX亿美元”!!!

一些伟大的人削减了 Spark。 我不知道,抱歉!

这些项目是:

  • 三角洲湖 - Spark 上的 ACID 最近发布了(我们对 Elasticsearch 的梦想) - 将其变成数据库:严格的模式、ACID、审计、版本......
  • 机器学习流程 — 模型的跟踪、打包、管理和存储。
  • 考拉 - Spark 上的 Pandas DataFrame API - Pandas - 用于一般处理表和数据的 Python API。

不知道或者忘记的可以看一下Spark: 链接。 我观看了带有稍微无聊但详细的咨询啄木鸟示例的视频:DataBricks for Data Science(链接)和数据工程(链接).

简而言之,Databricks 退出了 Spark。 任何想要在云中正常使用 Spark 的人都会毫不犹豫地选择 DataBricks,正如预期的那样 🙂 Spark 是这里的主要区别。
我了解到 Spark Streaming 并不是真正的假实时或微批处理。 如果您需要真正的实时,Apache STORM 就是您的最佳选择。 大家也都说、写过 Spark 比 MapReduce 更好。 这就是口号。

数据泰库

很酷的端到端的事情。 有很多广告。 我不明白它与 Alteryx 有什么不同?

DataRobot

用于数据准备的 Paxata 是一家独立公司,于 2019 年 20 月被 Data Robots 收购。 我们筹集了 7 MUSD 并出售。 一切都在XNUMX年内。

在 Paxata 中而不是 Excel 中准备数据 - 请参阅此处: 链接.
两个数据集之间的连接有自动查找和建议。 一件伟大的事情 - 要理解数据,将更加强调文本信息(链接).
数据目录是无用的“实时”数据集的优秀目录。
Paxata 中目录的形成方式也很有趣(链接).

“根据分析公司的说法 卵子,该软件是通过进步而成为可能的 预测分析, 机器学习NoSQL的 数据缓存方法。[15] 软件使用 语义 用于理解数据表列含义的算法和用于查找数据集中潜在重复项的模式识别算法。[15][7] 它还使用索引、文本模式识别以及社交媒体和搜索软件中传统的其他技术。”

数据机器人的主要产品是 这里。 他们的口号是从模型到企业应用! 我找到了与危机有关的石油行业咨询服务,但它非常平庸且无趣: 链接。 我在 Mops 或 MLops 上观看了他们的视频(链接)。 这就是这样一个由6-7个收购的各种产品组装而成的弗兰肯斯坦。

当然,很明显,大型数据科学家团队必须拥有这样的环境来处理模型,否则他们将产生大量模型并且永远不会部署任何东西。 而在我们油气上游的现实中,如果我们能够创造一种成功的模式,那就是巨大的进步!

例如,这个过程本身非常让人想起地质地球物理学中的设计系统 海燕。 每个不太懒的人都会制作和修改模型。 将数据收集到模型中。 然后他们制作了一个参考模型并将其投入生产! 例如,在地质模型和机器学习模型之间,您可以找到很多共同点。

骨牌

强调开放平台和协作。 企业用户免费入场。 他们的数据实验室与 sharepoint 非常相似。 (这个名字带有强烈的 IBM 味道)。 所有实验都链接到原始数据集。 这是多么熟悉啊:)就像我们的实践一样——一些数据被拖入模型中,然后被清理并按顺序放入模型中,所有这些都已经存在于模型中,并且在源数据中找不到末端。

Domino 拥有很酷的基础设施虚拟化。 我在一秒钟内组装了机器所需数量的核心,然后开始数数。 目前还不清楚它是如何完成的。 Docker 无处不在。 很多自由! 可以连接任何最新版本的工作区。 并行启动实验。 跟踪和选择成功者。

与DataRobot相同——结果以应用程序的形式发布给业务用户。 对于特别有天赋的“利益相关者”。 并且模型的实际使用情况也受到监控。 一切为了哈巴狗!

我不完全理解复杂的模型最终如何投入生产。 提供某种 API 来向他们提供数据并获取结果。

H2O

Driveless AI 是一个非常紧凑且直观的监督机器学习系统。 一切都在一个盒子里。 目前尚不完全清楚后端的情况。

该模型会自动打包到 REST 服务器或 Java 应用程序中。 这是一个好主意。 在可解释性和可解释性方面已经做了很多工作。 对模型结果的解释和解释(本质上不应该解释什么,否则一个人可以计算出相同的结果?)。
首次针对非结构化数据进行案例研究 NLP。 高品质的建筑图片。 总的来说,我喜欢这些照片。

有一个大型开源 H2O 框架并不完全清晰(一组算法/库?)。 您自己的可视化笔记本电脑,无需像 Jupiter 那样编程(链接)。 我还阅读了有关用 Java 封装的 Pojo 和 Mojo - H2O 模型的信息。 第一个很简单,第二个是优化。 H20 是唯一 (!) Gartner 将文本分析和 NLP 以及他们在可解释性方面的努力列为其优势的公司。 这是非常重要的!

同一个地方:与硬件和云集成领域的高性能、优化和行业标准。

这个弱点是合乎逻辑的——与他们的开源相比,Driverles AI 是薄弱且狭窄的。 与 Paxata 相比,数据准备很蹩脚! 他们忽略了工业数据——流、图表、地理。 好吧,一切都不可能只是美好。

KNIME

我喜欢主页上的 6 个非常具体、非常有趣的业务案例。 强大的开源。

Gartner 将他们从领导者降级为有远见的人。 收入不佳对用户来说是一个好兆头,因为领导者并不总是最好的选择。

关键词是“增强”,就像 H2O 中的那样,这意味着帮助贫困的公民数据科学家。 这是第一次有人在点评中因表现受到批评! 有趣的? 也就是说,计算能力如此之大,性能根本不可能成为系统性问题? Gartner 关于“增强”这个词 单独的文章,无法到达。
而且 KNIME 似乎是评论中第一个非美国人! (我们的设计师真的很喜欢他们的登陆页面。奇怪的人。

MathWorks公司

MatLab是大家都认识的老荣誉战友了! 适用于生活各个领域和情况的工具箱。 一些非常不同的东西。 事实上,生活中的一切都需要大量的数学!

用于系统设计的 Simulink 附加产品。 我深入研究了数字孪生的工具箱 - 我对此一无所知,但是 这里 已经写了很多。 为了 石油工业。 总的来说,这是一个与数学和工程学的深度有着根本不同的产物。 选择特定的数学工具包。 根据 Gartner 的说法,他们的问题与聪明工程师的问题相同——没有协作——每个人都在自己的模型中翻找,没有民主,没有可解释性。

RapidMiner

我之前(以及 Matlab)在良好的开源环境中接触过并听到过很多东西。 我像往常一样深入研究了 TurboPrep。 我感兴趣的是如何从脏数据中获取干净的数据。

根据 2018 年的营销材料和功能演示中讲英语的人的糟糕程度,您再次可以看到人们都很好。

以及自 2001 年以来来自多特蒙德、具有深厚德国背景的人)

Gartner MQ 2020 评论:机器学习和人工智能平台
我仍然不明白该网站上到底有什么可用的开源 - 你需要更深入地挖掘。 有关部署和 AutoML 概念的精彩视频。

RapidMiner 服务器后端也没有什么特别的。 它可能会很紧凑,并且在高级版上开箱即用。 它被打包在 Docker 中。 仅在RapidMiner 服务器上共享环境。 然后是 Radoop,来自 Hadoop 的数据,在 Studio 工作流程中计算来自 Spark 的韵律。

不出所料,年轻的热门商贩“卖条纹棒的”把它们搬了下来。 然而,Gartner 预测他们未来将在企业领域取得成功。 你可以在那里筹集资金。 德国人知道如何做到这一点,天哪:)别提 SAP!

他们为公民做了很多事! 但从页面上你可以看到Gartner表示,他们正在努力进行销售创新,并不是为了覆盖范围的广度而战,而是为了盈利能力。

保持 SAS и 蒂博 对我来说典型的 BI 供应商......而且两者都处于最顶端,这证实了我的信心,即正常的数据科学正在逻辑上增长
来自 BI,而不是来自云和 Hadoop 基础设施。 也就是说,来自业务,而不是来自 IT。 以俄罗斯天然气工业股份公司为例: 链接,成熟的 DSML 环境源自强大的 BI 实践。 但也许它对 MDM 和其他事物有偏见和偏见,谁知道呢。

SAS

没什么好说的。 只有显而易见的事情。

TIBCO

该策略是在长达一页的 Wiki 页面上的购物清单中阅读的。 是的,说来话长,但是28! 查尔斯. 我在科技青年时期购买了 BI Spotfire (2007)。 还有来自 Jaspersoft (2014) 的报告,然后是多达三个预测分析供应商 Insightful (S-plus) (2008)、Statistica (2017) 和 Alpine Data (2017)、事件处理和流 Streambase System (2013)、MDM Orchestra Networks (2018) 和 Snappy Data (2019) 内存平台。

你好弗兰基!

Gartner MQ 2020 评论:机器学习和人工智能平台

来源: habr.com

添加评论