Gartner MQ 2020 評論:機器學習與人工智慧平台

無法解釋我讀這篇文章的原因。 我只是有時間並且對市場如何運作感興趣。 根據 Gartner 自 2018 年以來的數據,這已經是一個成熟的市場。 從 2014 年到 2016 年,它被稱為高級分析(源自 BI),2017 年被稱為資料科學(我不知道如何將其翻譯成俄語)。 對於那些對廣場周圍商販的動向感興趣的人,您可以 這裡 看。 我將談論 2020 年廣場,尤其是自 2019 年以來的變化很小:SAP 搬出,Altair 收購了 Datawatch。

這不是系統分析或表格。 個人觀點,也是從地球物理學家的角度來看。 但我總是很好奇閱讀Gartner MQ,他們完美地闡述了一些觀點。 以下是我在技術、市場和哲學方面所關注的。

這不適合那些深入研究機器學習主題的人,而是適合對市場上普遍發生的事情感興趣的人。

DSML 市場本身在邏輯上嵌套在 BI 和雲端 AI 開發者服務之間。

Gartner MQ 2020 評論:機器學習與人工智慧平台

首先最喜歡的引言和術語:

  • “領導者可能不是最好的選擇” — 市場領導者不一定是您所需要的。 很緊急! 由於缺乏功能性客戶,他們總是在尋找「最佳」解決方案,而不是「合適」的解決方案。
  • 《模型運作化》 - 縮寫為 MOP。 每個人都很難對付哈巴狗! –(酷哈巴狗主題使模型正常工作)。
  • 《筆記本環境》 是一個重要的概念,它將程式碼、註解、資料和結果結合在一起。 這非常清晰、有前途並且可以顯著減少 UI 程式碼量。
  • “植根於開源” - 說得好 - 紮根於開源。
  • “公民數據科學家” - 這些簡單的傢伙,這樣的拉莫斯,而不是專家,他們需要視覺環境和各種輔助東西。 他們不會編碼。
  • “民主” - 通常用來表示「提供給更廣泛的人」。 我們可以說“數據民主化”,而不是我們過去使用的危險的“釋放數據”。 「民主化」始終是一條長尾,所有供應商都在追逐它。 損失知識強度 - 獲得可訪問性!
  • 《探索性資料分析-EDA》 ——考慮這些可用的手段。 一些統計數據。 一點可視化。 每個人都在某種程度上會做的事情。 不知道這個有名字
  • “再現性” ——最大限度地保存所有環境參數、輸入和輸出,以便實驗一旦進行就可以重複。 實驗測試環境最重要的術語!

所以:

Alteryx

很酷的介面,就像一個玩具。 當然,可擴展性有點困難。 因此,公民社區的工程師也同樣用小玩意來玩。 分析功能盡在一瓶。 讓我想起了複雜的光譜相關數據分析 科斯卡德,這是在 90 年代編程的。

蟒蛇

圍繞 Python 和 R 專家的社群。 相應地,開源也很大。 原來我的同事一直在使用它。 但我不知道。

數據磚

由三個開源專案組成 - Spark 開發人員自 2013 年以來已經籌集了大量資金。我真的必須引用 wiki:

「2013 年 13.9 月,Databricks 宣布從 Andreessen Horowitz 籌集了 33 萬美元。 該公司在2014 年額外籌集了60 萬美元,2016 年籌集了140 萬美元,2017 年籌集了250 億美元,2019 年(400 月)籌集了2019 億美元,XNUMX 年(XNUMX 月)籌集了XNUMX 億美元!

一些偉大的人削減了 Spark。 我不知道,抱歉!

這些項目是:

  • 三角洲湖 - Spark 上的 ACID 最近發布了(我們對 Elasticsearch 的夢想) - 將其變成資料庫:嚴格的模式、ACID、審計、版本...
  • 機器學習流程 — 模型的追蹤、打包、管理和儲存。
  • 考拉 - Spark 上的 Pandas DataFrame API - Pandas - 用於一般處理表和資料的 Python API。

不知道或忘記的可以看一下Spark: 鏈接。 我觀看了帶有稍微無聊但詳細的諮詢啄木鳥示例的影片:DataBricks for Data Science(鏈接)和數據工程(鏈接).

簡而言之,Databricks 退出了 Spark。 任何想要在雲端中正常使用 Spark 的人都會毫不猶豫地選擇 DataBricks,正如預期的那樣 🙂 Spark 是這裡的主要區別。
我了解到 Spark Streaming 並不是真正的假實時或微批處理。 如果您需要真正的實時,Apache STORM 就是您的最佳選擇。 大家也都說寫 Spark 比 MapReduce 好。 這就是口號。

數據泰庫

很酷的端到端的事情。 有很多廣告。 我不明白它與 Alteryx 有什麼不同?

數據機器人

用於資料準備的 Paxata 是一家獨立公司,於 2019 年 20 月被 Data Robots 收購。 我們籌集了 7 MUSD 並出售。 一切都在XNUMX年內。

在 Paxata 中而不是 Excel 中準備資料 - 請參閱此處: 鏈接.
兩個資料集之間的連接有自動查找和建議。 一件偉大的事情 - 要理解數據,將更加強調文字訊息(鏈接).
資料目錄是無用的「即時」資料集的優秀目錄。
Paxata 中目錄的形成方式也很有趣(鏈接).

“根據分析公司的說法 卵子,該軟體是透過進步而成為可能的 預測分析, 機器學習NoSQL 資料緩存方法。[15] 軟件使用 語義的 用於理解資料表列含義的演算法和用於查找資料集中潛在重複項的模式識別演算法。[15][7] 它還使用索引、文字模式識別以及社交媒體和搜尋軟體中傳統的其他技術。”

數據機器人的主要產品是 這裡。 他們的口號是從模型到企業應用! 我找到了與危機相關的石油業諮詢服務,但它非常平庸且無趣: 鏈接。 我在 Mops 或 MLops 上觀看了他們的影片(鏈接)。 這就是這樣一個由6-7個收購的各種產品組裝而成的科學怪人。

當然,很明顯,大型資料科學家團隊必須擁有這樣的環境來處理模型,否則他們將產生大量模型並且永遠不會部署任何東西。 而在我們油氣上游的現實中,如果我們能夠創造出成功的模式,那就是巨大的進步!

例如,這個過程本身就非常讓人聯想到地質地球物理學中的設計系統 海燕。 每個不太懶的人都會製作和修改模型。 將數據收集到模型中。 然後他們製作了一個參考模型並將其投入生產! 例如,在地質模型和機器學習模型之間,您可以找到許多共同點。

骨牌

強調開放平台和協作。 企業用戶免費入場。 他們的數據實驗室與 sharepoint 非常相似。 (這個名字帶有強烈的 IBM 味道)。 所有實驗都連結到原始資料集。 這是多麼熟悉啊:)就像我們的實踐一樣——一些數據被拖入模型中,然後被清理並按順序放入模型中,所有這些都已經存在於模型中,並且在源數據中找不到末端。

Domino 擁有酷炫的基礎架構虛擬化。 我在一秒鐘內組裝了機器所需數量的核心,然後開始數數。 目前還不清楚它是如何完成的。 Docker 無所不在。 很多自由! 可連接任何最新版本的工作區。 並行啟動實驗。 追蹤和選擇成功者。

與DataRobot相同-結果以應用程式的形式發布給業務用戶。 對於特別有天賦的「利害關係人」。 且模型的實際使用情況也受到監控。 一切為了哈巴狗!

我不完全理解複雜的模型最終如何投入生產。 提供某種 API 來向他們提供數據並獲取結果。

H2O

Driveless AI 是一個非常緊湊且直覺的監督式機器學習系統。 一切都在一個盒子裡。 目前尚不完全清楚後端的情況。

此模型會自動打包到 REST 伺服器或 Java 應用程式中。 這是一個好主意。 在可解釋性和可解釋性方面已經做了很多工作。 對模型結果的解釋和解釋(本質上不應該解釋什麼,否則一個人可以計算出相同的結果?)。
首次針對非結構化資料進行個案研究 NLP。 高品質的建築圖片。 總的來說,我喜歡這些照片。

有一個大型開源 H2O 框架並不完全清晰(一組演算法/函式庫?)。 您自己的視覺化筆記型電腦,無需像 Jupiter 那樣編程(鏈接)。 我還閱讀了有關用 Java 封裝的 Pojo 和 Mojo - H2O 模型的資訊。 第一個很簡單,第二個是優化。 H20 是唯一 (!) Gartner 將文字分析和 NLP 以及他們在可解釋性方面的努力列為其優勢的公司。 這是非常重要的!

同一個地方:與硬體和雲端整合領域的高效能、最佳化和行業標準。

這個弱點是合乎邏輯的——與他們的開源相比,Driverles AI 是薄弱且狹窄的。 與 Paxata 相比,數據準備很蹩腳! 他們忽略了工業數據——流、圖表、地理。 好吧,一切都不可能只是美好。

尼米

我喜歡主頁上的 6 個非常具體、非常有趣的業務案例。 強大的開源。

Gartner 將他們從領導者降級為有遠見的人。 收入不佳對用戶來說是一個好兆頭,因為領導者並不總是最好的選擇。

關鍵字是“增強”,就像 H2O 中的那樣,這意味著幫助貧困的公民數據科學家。 這是第一次有人在點評中因表現而受到批評! 有趣的? 也就是說,運算能力如此之大,效能根本不可能成為系統性問題? Gartner 關於「增強」這個詞 單獨的文章,無法到達。
而且 KNIME 似乎是評論中第一個非美國人! (我們的設計師真的很喜歡他們的登陸頁面。奇怪的人。

MathWorks公司

MatLab是大家都認識的老榮譽戰友了! 適用於生活各個領域和情況的工具箱。 一些非常不同的東西。 事實上,生活中的一切都需要大量的數學!

用於系統設計的 Simulink 附加產品。 我深入研究了數位孿生的工具箱 - 我對此一無所知,但是 這裡 已經寫了很多。 為了 石油工業。 總的來說,這是一個與數學和工程學的深度有著根本不同的產物。 選擇特定的數學工具包。 根據 Gartner 的說法,他們的問題與聰明工程師的問題相同——沒有協作——每個人都在自己的模型中翻找,沒有民主,沒有可解釋性。

快速礦工

我之前(以及 Matlab)在良好的開源環境中接觸過並聽到很多東西。 我像往常一樣深入研究了 TurboPrep。 我感興趣的是如何從髒數據中獲取乾淨的數據。

根據 2018 年的行銷材料和功能演示中講英語的人的糟糕程度,您再次可以看到人們都很好。

以及自 2001 年以來來自多特蒙德、具有深厚德國背景的人)

Gartner MQ 2020 評論:機器學習與人工智慧平台
我仍然不明白該網站上到底有什麼可用的開源 - 你需要更深入地挖掘。 部署和 AutoML 概念的精彩影片。

RapidMiner 伺服器後端也沒有什麼特別的。 它可能會很緊湊,並且在高級版上開箱即用。 它被打包在 Docker 中。 僅在RapidMiner 伺服器上共享環境。 然後是 Radoop,來自 Hadoop 的數據,在 Studio 工作流程中計算來自 Spark 的韻律。

不出所料,年輕的熱門商販「賣條紋棒的」把它們搬了下來。 然而,Gartner 預測他們未來將在企業領域取得成功。 你可以在那裡籌集資金。 德國人知道如何做到這一點,天哪:)別提 SAP!

他們為公民做了很多事! 但從頁面上你可以看到Gartner表示,他們正在努力進行銷售創新,並不是為了覆蓋範圍的廣度而戰,而是為了獲利能力。

剩下的 SAS и 蒂布科 對我來說典型的 BI 供應商......而且兩者都處於最頂端,這證實了我的信心,即正常的數據科學正在邏輯上增長
來自 BI,而不是來自雲端和 Hadoop 基礎架構。 也就是說,來自業務,而不是來自 IT。 以俄羅斯天然氣工業股份公司為例: 鏈接,成熟的 DSML 環境源自於強大的 BI 實踐。 但也許它對 MDM 和其他事物有偏見和偏見,誰知道呢。

SAS

沒什麼好說的。 只有顯而易見的事。

泰科

該策略是在長達一頁的 Wiki 頁面上的購物清單中閱讀的。 是的,說來話長,但28! 查爾斯. 我在科技青年時期購買了 BI Spotfire (2007)。 還有來自Jaspersoft (2014) 的報告,然後是多達三個預測分析供應商Insightful (S-plus) (2008)、Statistica (2017) 和Alpine Data (2017)、事件處理和流Streambase System (2013) 、MDM Orchestra Networks (2018) 與 Snappy Data (2019) 記憶體平台。

你好弗蘭基!

Gartner MQ 2020 評論:機器學習與人工智慧平台

來源: www.habr.com

添加評論