Gartner MQ 2020 Review: Plattformen für maschinelles Lernen und künstliche Intelligenz

Es ist unmöglich zu erklären, warum ich das gelesen habe. Ich hatte einfach Zeit und interessierte mich dafür, wie der Markt funktioniert. Und dies ist laut Gartner bereits seit 2018 ein vollwertiger Markt. Von 2014 bis 2016 hieß es Advanced Analytics (Wurzeln in BI), 2017 Data Science (ich weiß nicht, wie ich das ins Russische übersetzen soll). Wer sich für die Bewegungen der Verkäufer auf dem Platz interessiert, kann dies tun hier sehen. Und ich werde über das Jahr 2020 sprechen, zumal die Veränderungen dort seit 2019 minimal sind: SAP ist ausgezogen und Altair hat Datawatch gekauft.

Dies ist keine systematische Analyse oder Tabelle. Eine individuelle Betrachtung, auch aus der Sicht eines Geophysikers. Aber ich bin immer neugierig, Gartner MQ zu lesen, sie formulieren einige Punkte perfekt. Hier sind also die Dinge, auf die ich sowohl technisch als auch marktmäßig und philosophisch geachtet habe.

Dies ist nicht für Leute gedacht, die sich intensiv mit dem Thema ML beschäftigen, sondern für Leute, die sich für das allgemeine Marktgeschehen interessieren.

Der DSML-Markt selbst ist logischerweise zwischen BI- und Cloud-AI-Entwicklerdiensten angesiedelt.

Gartner MQ 2020 Review: Plattformen für maschinelles Lernen und künstliche Intelligenz

Lieblingszitate und Begriffe zuerst:

  • „Ein Anführer ist möglicherweise nicht die beste Wahl“ — Ein Marktführer ist nicht unbedingt das, was Sie brauchen. Sehr dringend! Aufgrund des Fehlens eines funktionierenden Kunden suchen sie immer nach der „besten“ Lösung und nicht nach der „passenden“.
  • „Modelloperationalisierung“ - abgekürzt als MOPs. Und mit Möpsen hat es jeder schwer! – (cooles Mops-Thema lässt das Modell funktionieren).
  • „Notebook-Umgebung“ ist ein wichtiges Konzept, bei dem Code, Kommentare, Daten und Ergebnisse zusammenkommen. Das ist sehr übersichtlich, vielversprechend und kann die Menge an UI-Code deutlich reduzieren.
  • „Verwurzelt in OpenSource“ - gut gesagt - wurzelt in Open Source.
  • „Citizen Data Scientists“ – solche einfachen Kerle, solche Lamer, keine Experten, die eine visuelle Umgebung und allerlei Hilfsmittel brauchen. Sie werden nicht programmieren.
  • "Demokratie" – bedeutet oft „einem breiteren Personenkreis zugänglich machen“. Wir können sagen: „Demokratisiert die Daten“ statt des gefährlichen „Freigabe der Daten“, das wir früher verwendet haben. „Demokratisieren“ ist immer ein langer Weg und alle Anbieter rennen ihm hinterher. Wissensintensität verlieren – Zugänglichkeit gewinnen!
  • „Explorative Datenanalyse – EDA“ — Berücksichtigung dieser verfügbaren Mittel. Einige Statistiken. Eine kleine Visualisierung. Etwas, das jeder bis zu dem einen oder anderen Grad tut. Ich wusste nicht, dass es dafür einen Namen gibt
  • "Reproduzierbarkeit" — maximale Erhaltung aller Umgebungsparameter, Ein- und Ausgänge, damit das Experiment nach der Durchführung wiederholt werden kann. Der wichtigste Begriff für eine experimentelle Testumgebung!

Also:

Alteryx

Cooles Interface, genau wie ein Spielzeug. Die Skalierbarkeit ist natürlich etwas schwierig. Dementsprechend ist die Citizen-Ingenieurgemeinschaft rundum mit Tchotchkes beschäftigt. Analytics gehört Ihnen in einer Flasche. Erinnerte mich an einen Komplex der Spektralkorrelationsdatenanalyse Coscad, das in den 90er Jahren programmiert wurde.

Anaconda

Community rund um Python- und R-Experten. Entsprechend groß ist Open Source. Es stellte sich heraus, dass meine Kollegen es ständig nutzen. Aber ich wusste es nicht.

DataBricks

Besteht aus drei OpenSource-Projekten – die Spark-Entwickler haben seit 2013 verdammt viel Geld eingesammelt. Da muss ich unbedingt das Wiki zitieren:

„Im September 2013 gab Databricks bekannt, dass es 13.9 Millionen US-Dollar von Andreessen Horowitz eingesammelt hat. Das Unternehmen sammelte weitere 33 Millionen US-Dollar im Jahr 2014, 60 Millionen US-Dollar im Jahr 2016, 140 Millionen US-Dollar im Jahr 2017, 250 Millionen US-Dollar im Jahr 2019 (Februar) und 400 Millionen US-Dollar im Jahr 2019 (Oktober)“!!!

Einige großartige Leute haben Spark geschnitten. Ich weiß es nicht, tut mir leid!

Und die Projekte sind:

  • Delta Lake - ACID on Spark wurde kürzlich veröffentlicht (wovon wir mit Elasticsearch geträumt haben) - verwandelt es in eine Datenbank: starres Schema, ACID, Auditing, Versionen ...
  • ML-Fluss — Verfolgung, Verpackung, Verwaltung und Lagerung von Modellen.
  • Koala – Pandas DataFrame API auf Spark – Pandas – Python API für die Arbeit mit Tabellen und Daten im Allgemeinen.

Für diejenigen, die es nicht wissen oder vergessen haben, können Sie sich Spark ansehen: Link. Ich habe mir Videos mit Beispielen von etwas langweiligen, aber detaillierten Beratungsspechten angesehen: DataBricks for Data Science (Link) und für Data Engineering (Link).

Kurz gesagt, Databricks zieht Spark zurück. Wer Spark ganz normal in der Cloud nutzen möchte, greift bedenkenlos zu DataBricks, wie vorgesehen 🙂 Spark ist hier das Hauptunterscheidungsmerkmal.
Ich habe gelernt, dass Spark Streaming keine echte Fake-Echtzeit oder Microbatching ist. Und wenn Sie echte Echtzeit benötigen, finden Sie diese in Apache STORM. Jeder sagt und schreibt auch, dass Spark besser ist als MapReduce. Das ist das Motto.

DATAIKU

Coole End-to-End-Sache. Es gibt jede Menge Werbung. Ich verstehe den Unterschied zu Alteryx nicht.

DataRobot

Paxata für die Datenaufbereitung ist ein eigenständiges Unternehmen, das im Dezember 2019 von Data Robots gekauft wurde. Wir haben 20 Mio. USD gesammelt und verkauft. Alles in 7 Jahren.

Datenaufbereitung in Paxata, nicht in Excel – siehe hier: Link.
Es gibt automatische Suchvorgänge und Vorschläge für Verknüpfungen zwischen zwei Datensätzen. Eine tolle Sache – um die Daten zu verstehen, würde man noch mehr Wert auf Textinformationen legen (Link).
Data Catalog ist ein hervorragender Katalog nutzloser „Live“-Datensätze.
Interessant ist auch, wie Verzeichnisse in Paxata gebildet werden (Link).

„Laut Analystenunternehmen Ovum, die Software wird durch Fortschritte in ermöglicht Predictive analytics, Maschinelles Lernen und für NoSQL Daten-Caching-Methodik.[15] Die Software verwendet semantisch Algorithmen, um die Bedeutung der Spalten einer Datentabelle zu verstehen, und Mustererkennungsalgorithmen, um potenzielle Duplikate in einem Datensatz zu finden.[15][7] Es nutzt außerdem Indexierung, Textmustererkennung und andere Technologien, die traditionell in sozialen Medien und Suchsoftware zu finden sind.“

Das Hauptprodukt von Data Robot ist hier. Ihr Motto lautet: Vom Modell zur Unternehmensanwendung! Ich fand Beratung für die Ölindustrie im Zusammenhang mit der Krise, aber sie war sehr banal und uninteressant: Link. Ich habe mir ihre Videos auf Mops oder MLops angesehen (Link). Dies ist so ein Frankenstein, zusammengestellt aus 6-7 Anschaffungen verschiedener Produkte.

Es wird natürlich klar, dass ein großes Team von Datenwissenschaftlern über eine solche Umgebung für die Arbeit mit Modellen verfügen muss, sonst werden sie viele davon erstellen und nie etwas bereitstellen. Und wenn wir in unserer Öl- und Gas-Upstream-Realität nur ein erfolgreiches Modell schaffen könnten, wäre das ein großer Fortschritt!

Der Prozess selbst erinnerte stark an die Arbeit mit Entwurfssystemen beispielsweise in der Geologie-Geophysik Petrel. Jeder, der nicht zu faul ist, erstellt und modifiziert Modelle. Sammeln Sie Daten im Modell. Dann erstellten sie ein Referenzmodell und schickten es zur Produktion! Beispielsweise zwischen einem geologischen Modell und einem ML-Modell gibt es viele Gemeinsamkeiten.

Domino

Der Schwerpunkt liegt auf offener Plattform und Zusammenarbeit. Für Geschäftskunden ist der Eintritt kostenfrei. Ihr Data Lab ist Sharepoint sehr ähnlich. (Und der Name erinnert stark an IBM). Alle Experimente verweisen auf den Originaldatensatz. Wie vertraut das ist :) Wie in unserer Praxis wurden einige Daten in das Modell gezogen, dann bereinigt und im Modell geordnet, und all dies lebt bereits dort im Modell und die Enden sind in den Quelldaten nicht zu finden .

Domino verfügt über eine coole Infrastrukturvirtualisierung. Ich baute die Maschine in einer Sekunde so viele Kerne zusammen, wie nötig waren, und begann zu zählen. Wie es gemacht wurde, ist nicht sofort klar. Docker ist überall. Viel Freiheit! Es können beliebige Arbeitsbereiche der neuesten Versionen angeschlossen werden. Paralleler Start von Experimenten. Verfolgung und Auswahl erfolgreicher.

Dasselbe wie bei DataRobot – die Ergebnisse werden für Geschäftsanwender in Form von Anwendungen veröffentlicht. Für besonders begabte „Stakeholder“. Und auch die tatsächliche Nutzung der Modelle wird überwacht. Alles für Möpse!

Ich verstehe nicht ganz, wie komplexe Modelle in die Produktion gelangen. Es wird eine Art API bereitgestellt, um ihnen Daten zuzuführen und Ergebnisse zu erhalten.

H2O

Driveless AI ist ein sehr kompaktes und intuitives System für Supervised ML. Alles in einer Box. Über das Backend ist es nicht auf Anhieb ganz klar.

Das Modell wird automatisch in einen REST-Server oder eine Java-App gepackt. Das ist eine tolle Idee. Es wurde viel für die Interpretierbarkeit und Erklärbarkeit getan. Interpretation und Erläuterung der Ergebnisse des Modells (Was sollte grundsätzlich nicht erklärbar sein, sonst kann ein Mensch dasselbe berechnen?).
Zum ersten Mal eine Fallstudie über unstrukturierte Daten und NLP. Hochwertiges Architekturbild. Und generell gefielen mir die Bilder.

Es gibt ein großes Open-Source-H2O-Framework, das nicht ganz klar ist (eine Reihe von Algorithmen/Bibliotheken?). Ihr eigener visueller Laptop ohne Programmierung wie Jupiter (Link). Ich habe auch über Pojo- und Mojo-H2O-Modelle gelesen, die in Java verpackt sind. Das erste ist unkompliziert, das zweite mit Optimierung. H20 sind die einzigen(!), denen Gartner Textanalyse und NLP als ihre Stärken nennt, ebenso wie ihre Bemühungen hinsichtlich Erklärbarkeit. Es ist sehr wichtig!

Am selben Ort: hohe Leistung, Optimierung und Industriestandard im Bereich der Integration mit Hardware und Clouds.

Und die Schwäche ist logisch – Driverles AI ist im Vergleich zu Open Source schwach und eng. Die Datenaufbereitung ist im Vergleich zu Paxata lahm! Und sie ignorieren Industriedaten – Stream, Diagramm, Geo. Nun, es kann nicht einfach alles gut sein.

KNIME

Mir gefielen die 6 sehr konkreten, sehr interessanten Geschäftsfälle auf der Hauptseite. Starkes OpenSource.

Gartner degradierte sie von Führungskräften zu Visionären. Schlechtes Geldverdienen ist ein gutes Zeichen für Benutzer, da der Leader nicht immer die beste Wahl ist.

Das Schlüsselwort ist, wie in H2O, erweitert, was bedeutet, armen Datenwissenschaftlern zu helfen. Dies ist das erste Mal, dass jemand in einer Rezension für seine Leistung kritisiert wird! Interessant? Das heißt, es gibt so viel Rechenleistung, dass Leistung überhaupt kein systemisches Problem sein kann? Gartner hat etwa dieses Wort „Augmented“ Ein separater Artikel, die nicht erreicht werden konnte.
Und KNIME scheint der erste Nicht-Amerikaner in der Rezension zu sein! (Und unsere Designer mochten ihre Landingpage wirklich. Seltsame Leute.

MathWorks

MatLab ist ein alter Ehrenkamerad, den jeder kennt! Toolboxen für alle Lebensbereiche und Situationen. Etwas ganz anderes. Tatsächlich gibt es jede Menge Mathematik für alles im Leben!

Ein Simulink-Zusatzprodukt für den Systementwurf. Ich habe in Toolboxen für digitale Zwillinge gestöbert – ich verstehe nichts davon, aber hier es wurde viel geschrieben. Für Öl Industrie. Im Allgemeinen handelt es sich hierbei um ein grundlegend anderes Produkt aus den Tiefen der Mathematik und Ingenieurwissenschaften. Zur Auswahl spezifischer Mathematik-Toolkits. Laut Gartner sind ihre Probleme die gleichen wie die intelligenter Ingenieure – keine Zusammenarbeit – jeder wühlt in seinem eigenen Modell herum, keine Demokratie, keine Erklärbarkeit.

RapidMiner

Ich habe (zusammen mit Matlab) schon viel im Zusammenhang mit gutem Open Source gesehen und gehört. Ich habe mich wie üblich ein wenig mit TurboPrep beschäftigt. Mich interessiert, wie man aus schmutzigen Daten saubere Daten erhält.

Auch hier kann man anhand der Marketingmaterialien von 2018 und der schrecklichen Englisch sprechenden Leute bei der Feature-Demo sehen, dass die Leute gut sind.

Und Dortmunder seit 2001 mit starkem deutschen Hintergrund)

Gartner MQ 2020 Review: Plattformen für maschinelles Lernen und künstliche Intelligenz
Ich verstehe auf der Website immer noch nicht, was genau in Open Source verfügbar ist – Sie müssen tiefer graben. Gute Videos über Bereitstellung und AutoML-Konzepte.

Auch am RapidMiner Server-Backend gibt es nichts Besonderes. Es wird wahrscheinlich kompakt sein und ab dem Auspacken gut mit Premium-Geräten funktionieren. Es ist in Docker verpackt. Gemeinsame Umgebung nur auf dem RapidMiner-Server. Und dann sind da noch Radoop, Daten von Hadoop und Zählreime vom Spark-in-Studio-Workflow.

Wie erwartet haben junge, heiße Verkäufer „Verkäufer gestreifter Stöcke“ sie nach unten verschoben. Gartner prognostiziert jedoch ihren zukünftigen Erfolg im Unternehmensbereich. Dort kann man Geld sammeln. Die Deutschen wissen, wie man das macht, heilig :) Erwähnen Sie nicht SAP!!!

Sie tun viel für die Bürger! Auf der Seite können Sie jedoch sehen, dass Gartner sagt, dass sie mit Vertriebsinnovationen zu kämpfen haben und nicht um die Breite der Abdeckung, sondern um die Rentabilität kämpfen.

Blieb SAS и Tibco typische BI-Anbieter für mich... Und beide stehen ganz oben, was meine Zuversicht bestätigt, dass normales DataScience logischerweise wächst
von BI und nicht von Clouds und Hadoop-Infrastrukturen. Aus dem Business also und nicht aus der IT. Wie zum Beispiel bei Gazpromneft: Link,Eine ausgereifte DSML-Umgebung entsteht aus starken BI-Praktiken. Aber vielleicht ist es geschmacklos und voreingenommen gegenüber MDM und anderen Dingen, wer weiß.

SAS

Es gibt nicht viel zu sagen. Nur die offensichtlichen Dinge.

TIBCO

Die Strategie wird in einer Einkaufsliste auf einer seitenlangen Wiki-Seite nachgelesen. Ja, lange Geschichte, aber 28!!! Charles. Ich habe BI Spotfire (2007) in meiner Techno-Jugend gekauft. Und auch Berichte von Jaspersoft (2014), dann bis zu drei Predictive-Analytics-Anbietern Insightful (S-plus) (2008), Statistica (2017) und Alpine Data (2017), Event Processing und Streaming Streambase System (2013), MDM Orchestra Networks (2018) und Snappy Data (2019) In-Memory-Plattform.

Hallo Frankie!

Gartner MQ 2020 Review: Plattformen für maschinelles Lernen und künstliche Intelligenz

Source: habr.com

Kommentar hinzufügen