Gartner MQ 2020 レビュヌ: 機械孊習ず人工知胜プラットフォヌム

私がこれを読んだ理由を説明するこずは䞍可胜です。 ちょうど時間があったので、垂堎がどのように機胜するかに興味がありたした。 Gartner によれば、これは 2018 幎以来すでに本栌的な垂堎ずなっおいたす。 2014 幎から 2016 幎たではアドバンスト アナリティクス (BI にルヌツ) ず呌ばれおいたしたが、2017 幎にはデヌタ サむ゚ンス (これをロシア語にどう蚳したらよいかわかりたせん) ず呌ばれおいたした。 広堎呚蟺の出店者の動きに興味がある方は、 ここで 芋お。 そしお、特に 2020 幎以降の倉化が最小限であるため、2019 幎のスク゚アに぀いおお話したす。SAP は撀退し、Altair は Datawatch を買収したした。

これは䜓系的な分析や衚ではありたせん。 地球物理孊者の芳点からの個人的な芋解。 しかし、私は垞に Gartner MQ を読むこずに興味を持っおいたす。MQ はいく぀かの点を完璧に定匏化しおいたす。 そこで、技術的、垂堎的、そしお哲孊的な芳点から私が泚目した点を以䞋に瀺したす。

これは、ML のトピックに深く関わっおいる人向けではなく、垂堎で䞀般的に䜕が起こっおいるかに興味がある人向けです。

DSML 垂堎自䜓は、BI ずクラりド AI 開発者サヌビスの間に論理的に入れ子になっおいたす。

Gartner MQ 2020 レビュヌ: 機械孊習ず人工知胜プラットフォヌム

お気に入りの匕甚ず甚語を最初に挙げたす。

  • 「リヌダヌは最良の遞択ではないかもしれない」 — マヌケットリヌダヌが必ずしも必芁なわけではありたせん。 非垞に緊急 機胜的な顧客がいないため、顧客は垞に「適切な」゜リュヌションではなく「最適な」゜リュヌションを探しおいたす。
  • 「モデルの運甚化」 - MOP ず略されたす。 そしお、みんなパグには苊劎しおいたす – (クヌルなパグのテヌマがモデルを機胜させたす)。
  • 「ノヌトパ゜コン環境」 は、コヌド、コメント、デヌタ、結果が組み合わされる重芁な抂念です。 これは非垞に明確で有望であり、UI コヌドの量を倧幅に削枛できたす。
  • 「オヌプン゜ヌスに根ざした」 よく蚀われるこずですが、オヌプン゜ヌスに根付いおいたす。
  • 「シチズンデヌタサむ゚ンティスト」 - 芖芚環境やあらゆる皮類の補助的なものを必芁ずする、専門家ではなく、ずおも簡単な男、ずおも䞋手な人。 圌らはコヌドを曞きたせん。
  • 「民䞻䞻矩」 — 倚くの堎合、「より幅広い人々が利甚できるようにする」ずいう意味で䜿甚されたす。 以前䜿甚しおいた危険な「デヌタを自由にする」の代わりに、「デヌタを民䞻化する」ず蚀えるでしょう。 「民䞻化」は垞にロングテヌルであり、すべおのベンダヌがそれを远いかけたす。 知識の集䞭力は倱われたすが、アクセスしやすさは向䞊したす。
  • 「探玢的デヌタ分析 - EDA」 — これらの利甚可胜な手段の怜蚎。 いく぀かの統蚈。 ちょっずした芖芚化。 倚かれ少なかれ誰もがやっおいる事。 これに名前があるずは知りたせんでした
  • 「再珟性」 - 䞀床実斜した実隓を繰り返すこずができるように、すべおの環境パラメヌタ、入力および出力を最倧限に保存する。 実隓的なテスト環境を衚す最も重芁な甚語です。

だから

アレックス

たるでおもちゃのようなクヌルなむンタヌフェヌス。 もちろん、スケヌラビリティは少し難しいです。 したがっお、Citizen コミュニティの゚ンゞニアは、ちょっずした遊びをするのず同じです。 分析はすべお XNUMX ぀のボトルで行えたす。 スペクトル盞関デヌタ解析の耇雑さを思い出したした コスカド、90幎代にプログラムされたした。

アナコンダ

Python ず R の専門家に関するコミュニティ。 オヌプン゜ヌスはそれに応じお芏暡が倧きい。 私の同僚がい぀もそれを䜿っおいるこずがわかりたした。 でも、知りたせんでした。

デヌタブリック

これは 2013 ぀のオヌプン゜ヌス プロゞェクトで構成されおいたす。Spark 開発者は XNUMX 幎以来、莫倧な資金を集めおきたした。りィキを匕甚する必芁がありたす。

「2013 幎 13.9 月、Databricks は Andreessen Horowitz から 33 䞇ドルを調達したず発衚したした。 同瀟は2014幎に60䞇ドル、2016幎に140䞇ドル、2017幎に250億2019䞇ドル、400幎2019月にXNUMX億XNUMX䞇ドル、XNUMX幎XNUMX月にXNUMX億ドルをさらに調達したした。」

スパヌクをカットした偉人もいたす。 わかりたせん、ごめんなさい

そしおプロゞェクトは次のずおりです。

  • デルタ湖 - Spark 䞊の ACID が最近リリヌスされたした (Elasticsearch で私たちが倢芋おいたものです) - それをデヌタベヌスに倉えたす: 厳栌なスキヌマ、ACID、監査、バヌゞョン...
  • ML フロヌ — モデルの远跡、パッケヌゞ化、管理および保管。
  • コアラ - Spark 䞊の Pandas DataFrame API - Pandas - テヌブルやデヌタ党般を操䜜するための Python API。

Spark を知らない人、たたは忘れおしたった人のために、以䞋を参照しおください。 リンク。 少し退屈だが詳现なコンサルティング キツツキの䟋を玹介するビデオを芋たした: DataBricks for Data Science (リンク) およびデヌタ゚ンゞニアリング甚 (リンク).

぀たり、Databricks は Spark を匕き出したす。 Spark をクラりドで通垞どおり䜿甚したい人は、意図したずおり、ためらうこずなく DataBricks を䜿甚したす 🙂 ここでの䞻な差別化芁因は Spark です。
Spark Streaming は本物の停のリアルタむムやマむクロバッチではないこずを孊びたした。 本物のリアルタむムが必芁な堎合は、Apache STORM を䜿甚したす。 たた、誰もが Spark が MapReduce よりも優れおいるず蚀い、曞いおいたす。 これがスロヌガンです。

ダタむク

゚ンドツヌ゚ンドのクヌルなもの。 広告がたくさんありたす。 Alteryx ずの違いがわかりたせん。

DataRobot

デヌタ準備を担圓する Paxata は、2019 幎 20 月に Data Robots に買収された別䌚瀟です。 7䞇ドルを調達し売华したした。 党郚XNUMX幎で。

Excel ではなく Paxata でのデヌタ準備 - ここを参照しおください: リンク.
XNUMX ぀のデヌタセット間の結合に぀いおは、自動怜玢ず提案が行われたす。 玠晎らしいこずです - デヌタを理解するには、テキスト情報がさらに重芖されるこずになりたす (リンク).
Data Catalog は、圹に立たない「ラむブ」デヌタセットの優れたカタログです。
Paxata でディレクトリがどのように圢成されるのかも興味深いです (リンク).

「アナリスト䌚瀟によるず、 卵子、゜フトりェアは技術の進歩によっお可胜になりたした。 予枬分析, 機械孊習 ず NoSQL デヌタ キャッシュ手法。【15] ゜フトりェアは セマンティック デヌタテヌブルの列の意味を理解するアルゎリズムず、デヌタセット内の朜圚的な重耇を芋぀けるパタヌン認識アルゎリズムです。【15]【7] たた、むンデックス䜜成、テキスト パタヌン認識、その他の゜ヌシャル メディアや怜玢゜フトりェアで䌝統的に䜿甚されおいるテクノロゞヌも䜿甚されおいたす。」

デヌタロボットの䞻力補品は、 ここで。 圌らのスロヌガンは、モデルから゚ンタヌプラむズ アプリケヌションぞ! 危機に関連しお石油業界のコンサルティングを芋぀けたしたが、それは非垞に平凡で面癜くありたせんでした。 リンク。 Mops たたは MLops で圌らのビデオを芋たした (リンク。 これは、さたざたな補品を6〜7個入手しお組み立おたようなフランケンシュタむンです。

もちろん、デヌタ サむ゚ンティストの倧芏暡なチヌムには、モデルを操䜜するためのたさにそのような環境が必芁であるこずは明らかです。そうでないず、倧量のモデルが䜜成され、䜕もデプロむされなくなりたす。 そしお、石油ずガスの䞊流の珟実においお、成功するモデルを XNUMX ぀䜜成できれば、それは倧きな進歩ずなるでしょう。

このプロセス自䜓は、たずえば、地質孊、地球物理孊における蚭蚈システムの研究を非垞に思い出させたす。 りミツバメ。 怠け者でない人は誰でもモデルを䜜成したり修正したりしたす。 デヌタをモデルに収集したす。 その埌、リファレンス モデルを䜜成し、本番環境に送りたした。 たずえば、地質モデルず ML モデルの間には、倚くの共通点が芋぀かりたす。

ドミノ

オヌプンプラットフォヌムずコラボレヌションを重芖したす。 ビゞネスナヌザヌは無料でご利甚いただけたす。 圌らの Data Lab は SharePoint に非垞に䌌おいたす。 (そしおその名前はIBMを匷く匂わせたす)。 すべおの実隓は元のデヌタセットにリンクしおいたす。 これはよくあるこずですね:) 私たちの実践ず同じように、いく぀かのデヌタがモデルにドラッグされ、その埌クリヌンアップされ、モデル内で敎理されたした。これらすべおはすでにモデル内に存圚しおおり、゜ヌスデヌタでは終わりが芋぀かりたせん。 。

Domino には優れたむンフラストラクチャ仮想化機胜がありたす。 私はすぐに必芁な数のコアをマシンに組み立お、数えに行きたした。 それがどのように行われたのかはすぐには明らかではありたせん。 Docker はどこにでも存圚したす。 自由床たっぷり 最新バヌゞョンのワヌクスペヌスであれば接続可胜です。 䞊行しお実隓を開始。 成功したものの远跡ず遞択。

DataRobot ず同じ - 結果はアプリケヌションの圢匏でビゞネス ナヌザヌ向けに公開されたす。 特に才胜のある「関係者」向け。 たた、モデルの実際の䜿甚状況も監芖されたす。 すべおはパグのために

耇雑なモデルがどのようにしお本番環境に導入されるのか、完党には理解できたせん。 デヌタをフィヌドしお結果を取埗するために、ある皮の API が提䟛されおいたす。

H2O

Driveless AI は、教垫あり ML 甚の非垞にコンパクトで盎感的なシステムです。 すべおが XNUMX ぀のボックスに収たりたす。 バック゚ンドに぀いおは、すぐには完党に明らかではありたせん。

モデルは、REST サヌバヌたたは Java アプリに自動的にパッケヌゞ化されたす。 これは玠晎らしいアむデアです。 解釈可胜性ず説明可胜性のために倚くのこずが行われおきたした。 モデルの結果の解釈ず説明 (本質的に説明できないものは䜕か、そうでなければ人間が同じこずを蚈算できるのか)。
初めお、非構造化デヌタず NLP。 高品質の建築写真。 そしお党䜓的に絵が奜きでした。

完党に明確ではない倧芏暡なオヌプン゜ヌス H2O フレヌムワヌクがありたす (アルゎリズム/ラむブラリのセット?)。 Jupiter のようなプログラミングを必芁ずしない独自のビゞュアル ラップトップ (リンク。 たた、Java でラップされた Pojo ず Mojo - H2O モデルに぀いおも読みたした。 20 ぀目は単玔なもので、XNUMX ぀目は最適化を䜿甚したす。 HXNUMX は、Gartner が自瀟の匷みずしおテキスト分析ず NLP、および説明可胜性に関する取り組みを挙げた唯䞀の䌁業 (!) です。 それは非垞に重芁です

同じ堎所で: ハヌドりェアずクラりドずの統合分野における高性胜、最適化、業界暙準。

そしお、その匱点は論理的です - Driverles AI は、オヌプン゜ヌスず比范しお匱く、範囲が狭いです。 Paxataに比べおデヌタ準備がダサい そしお、ストリヌム、グラフ、地理情報などの産業デヌタを無芖したす。 たあ、すべおが良いこずばかりではありたせん。

階士

メむンペヌゞにある 6 ぀の非垞に具䜓的で興味深いビゞネス ケヌスが気に入りたした。 匷力なオヌプン゜ヌス。

Gartner は圌らをリヌダヌからビゞョナリヌに降栌させたした。 リヌダヌが垞に最良の遞択であるずは限らないため、収益が䞍十分であるこずはナヌザヌにずっお良い兆候です。

キヌワヌドは、H2O ず同様に、拡匵です。これは、貧しい垂民のデヌタ サむ゚ンティストを支揎するこずを意味したす。 レビュヌでパフォヌマンスに぀いお批刀されたのはこれが初めおです。 面癜い ぀たり、非垞に倚くのコンピュヌティング胜力があるため、パフォヌマンスがシステム䞊の問題になる可胜性はたったくありたせん。 Gartner はこの「拡匵」ずいう蚀葉に぀いお次のように述べおいたす。 別の蚘事、到達できたせんでした。
そしお、KNIMEはレビュヌで最初の非アメリカ人のようです (そしお、私たちのデザむナヌはランディング ペヌゞをずおも気に入っおいたした。奇劙な人たちです。

MathWorks

MatLab は誰もが知っおいる叀い名誉同志です。 生掻のあらゆる分野や状況に察応するツヌルボックス。 䜕かずおも違う。 実際、人生のあらゆるものには、非垞に倚くの数孊が必芁です。

システム蚭蚈甚の Simulink アドオン補品。 デゞタルツむンのツヌルボックスを調べたした - それに぀いおは䜕も理解しおいたせんが、 ここで たくさん曞かれおいたす。 のために 石油産業。 䞀般に、これは数孊や工孊の深みずは根本的に異なる補品です。 特定の数孊ツヌルキットを遞択したす。 Gartner によれば、圌らの問題は賢い゚ンゞニアの問題ず同じです - コラボレヌションがなく、誰もが独自のモデルを調べ回っおいお、民䞻䞻矩も説明性もありたせん。

RapidMiner

私はこれたで、優れたオヌプン゜ヌスの文脈で (Matlab ずずもに) たくさんのこずに出䌚ったり聞いたりしおきたした。 い぀ものようにTurboPrepに぀いお少し調べおみたした。 ダヌティデヌタからクリヌンデヌタを取埗する方法に興味がありたす。

ここでも、2018 幎のマヌケティング資料ず、機胜デモで英語を話す人々がひどいこずから、人々が良いこずがわかりたす。

2001 幎以降ドルトムント出身で、匷いドむツの背景を持぀人々

Gartner MQ 2020 レビュヌ: 機械孊習ず人工知胜プラットフォヌム
このサむトを芋ただけでは、オヌプン゜ヌスで䜕が利甚できるのかただ理解できたせん。さらに詳しく調べる必芁がありたす。 導入ず AutoML の抂念に関する優れたビデオ。

RapidMiner Server バック゚ンドに぀いおも特別なこずは䜕もありたせん。 おそらくコンパクトで、箱から出しおすぐにプレミアムでうたく機胜するでしょう。 Docker にパッケヌゞ化されおいたす。 RapidMiner サヌバヌ䞊のみの共有環境。 そしお、Radoop、Hadoop からのデヌタ、Studio ワヌクフロヌの Spark から韻を数えたす。

予想通り、若い人気のベンダヌ「瞞棒の売り手」がそれらを䞋に移動させたした。 しかし、Gartner ぱンタヌプラむズ分野での将来の成功を予枬しおいたす。 そこでお金を集めるこずができたす。 ドむツ人はこれを行う方法を知っおいたす、なんずも :) SAP に぀いおは蚀及しないでください。

圌らは囜民のためにたくさんのこずをしおくれおいたす しかし、このペヌゞを芋るず、Gartner は販売革新に苊戊しおおり、カバヌ範囲の広さではなく収益性を求めお戊っおいるず述べおいるこずがわかりたす。

残った SAS О ティブコ 私にずっお兞型的な BI ベンダヌです...そしお䞡方ずも最䞊䜍にあり、これは通垞のデヌタサむ゚ンスが論理的に成長しおいるずいう私の自信を裏付けおいたす
クラりドや Hadoop むンフラストラクチャからではなく、BI から。 ぀たり、IT からではなく、ビゞネスからです。 たずえばガスプロムネフチのように リンク,成熟した DSML 環境は、匷力な BI 実践から生たれたす。 しかし、もしかしたらそれは、MDM やその他のものに察しおベタベタで偏っおいるかもしれたせん。

SAS

蚀うこずはあたりありたせん。 明らかなこずだけ。

TIBCO

この戊略は、28 ペヌゞにわたる Wiki ペヌゞの買い物リストに蚘茉されおいたす。 はい、話は長くなりたすが、2007 !!! チャヌルズ。 私はテクノ青春時代に BI Spotfire (2014) を賌入したした。 たた、Jaspersoft (2008)、その埌 2017 瀟もの予枬分析ベンダヌ Insightful (S-plus) (2017)、Statistica (2013)、Alpine Data (2018)、むベント凊理およびストリヌミング Streambase System (2019)、MDM Orchestra からもレポヌトが提䟛されおいたす。 Networks (XNUMX) ず Snappy Data (XNUMX) のむンメモリ プラットフォヌム。

こんにちは、フランキヌ

Gartner MQ 2020 レビュヌ: 機械孊習ず人工知胜プラットフォヌム

出所 habr.com

コメントを远加したす