Revisió de Gartner MQ 2020: plataformes d'aprenentatge automàtic i intel·ligència artificial

És impossible explicar el motiu pel qual he llegit això. Només tenia temps i m'interessava com funciona el mercat. I aquest ja és un mercat de ple dret segons Gartner des del 2018. Del 2014 al 2016 es va anomenar analítica avançada (arrels en BI), el 2017 - Data Science (no sé com traduir això al rus). Per als interessats en els moviments de venedors per la plaça, podeu aquí mira. I parlaré del quadrat del 2020, sobretot perquè els canvis que hi ha des del 2019 són mínims: SAP es va mudar i Altair va comprar Datawatch.

Aquesta no és una anàlisi sistemàtica ni una taula. Una visió individual, també des del punt de vista d'un geofísic. Però sempre tinc curiositat per llegir Gartner MQ, formulen alguns punts perfectament. Així doncs, aquí hi ha les coses a les quals vaig prestar atenció tant tècnicament com pel que fa al mercat i filosòficament.

Això no és per a persones que estan profundament en el tema de l'ML, sinó per a persones interessades en el que passa generalment al mercat.

El propi mercat DSML niu lògicament entre els serveis de desenvolupament de BI i Cloud AI.

Revisió de Gartner MQ 2020: plataformes d'aprenentatge automàtic i intel·ligència artificial

Cites i termes preferits primer:

  • "Un líder potser no és la millor opció" — Un líder del mercat no és necessàriament el que necessites. Molt urgent! Com a conseqüència de la manca d'un client funcional, sempre busquen la "millor" solució, més que la "adequada".
  • "Operació del model" - abreujat com a MOP. I tothom ho passa amb els carlins! – (el tema del pug genial fa que el model funcioni).
  • "Entorn de portàtils" és un concepte important on s'uneixen codi, comentaris, dades i resultats. Això és molt clar, prometedor i pot reduir significativament la quantitat de codi d'IU.
  • "Arrelat a OpenSource" -ben dit- arrela en codi obert.
  • "Citizen Data Scientists" - Amics tan fàcils, tan lamers, no experts, que necessiten un entorn visual i tota mena de coses auxiliars. No codificaran.
  • "Democràcia" - sovint s'utilitza per significar "posar a disposició d'una gamma més àmplia de persones". Podem dir "democratitzar les dades" en lloc del perillós "alliberar les dades" que solíem utilitzar. "Democratitzar" sempre és una llarga cua i tots els venedors corren darrere. Pèrdua d'intensitat de coneixement - guany d'accessibilitat!
  • "Anàlisi exploratòria de dades - EDA" — Consideració d'aquests mitjans disponibles. Algunes estadístiques. Una mica de visualització. Una cosa que tothom fa en un grau o un altre. No sabia que hi havia un nom per a això
  • "Reproducibilitat" — la màxima preservació de tots els paràmetres ambientals, entrades i sortides per tal que l'experiment es pugui repetir un cop realitzat. El terme més important per a un entorn de prova experimental!

Per tant:

Alteryx

Interfície genial, com una joguina. L'escalabilitat, per descomptat, és una mica difícil. En conseqüència, la comunitat d'enginyers Citizen al voltant del mateix amb tchotchkes per jugar. Analytics és tot teu en una ampolla. Em va recordar un complex d'anàlisi de dades de correlació espectral Coscad, que es va programar als anys 90.

anaconda

Comunitat al voltant d'experts en Python i R. El codi obert és gran en conseqüència. Va resultar que els meus companys l'utilitzen tot el temps. Però no ho sabia.

DataBricks

Consisteix en tres projectes de codi obert: els desenvolupadors de Spark han recaptat molts diners des del 2013. Realment he de citar el wiki:

"El setembre de 2013, Databricks va anunciar que havia recaptat 13.9 milions de dòlars d'Andreessen Horowitz. La companyia va recaptar 33 milions de dòlars addicionals el 2014, 60 milions de dòlars el 2016, 140 milions de dòlars el 2017, 250 milions de dòlars el 2019 (febrer) i 400 milions de dòlars el 2019 (octubre) "!!!

Algunes persones fantàstiques van tallar Spark. No ho sé, ho sento!

I els projectes són:

  • Llac Delta - ACID on Spark es va llançar recentment (el que somiàvem amb Elasticsearch) - el converteix en una base de dades: esquema rígid, ACID, auditoria, versions...
  • Flux ML — seguiment, embalatge, gestió i emmagatzematge de models.
  • coales - API Pandas DataFrame a Spark - Pandas - API Python per treballar amb taules i dades en general.

Podeu mirar a Spark per a aquells que no ho saben o ho han oblidat: enllaç. Vaig mirar vídeos amb exemples de picots de consultoria una mica avorrits però detallats: DataBricks for Data Science (enllaç) i per a l'enginyeria de dades (enllaç).

En resum, Databricks treu Spark. Qualsevol persona que vulgui utilitzar Spark amb normalitat al núvol pren DataBricks sense dubtar-ho, tal com es pretenia 🙂 Spark és el principal diferenciador aquí.
Vaig aprendre que Spark Streaming no és un autèntic fals temps real ni microbaching. I si necessiteu temps real real, és a Apache STORM. Tothom també diu i escriu que Spark és millor que MapReduce. Aquest és l'eslògan.

DATAIKU

Una cosa genial de punta a punta. Hi ha molts anuncis. No entenc com es diferencia d'Alteryx?

DataRobot

Paxata per a la preparació de dades és una empresa independent que va ser comprada per Data Robots el desembre de 2019. Vam recaptar 20 MUSD i vam vendre. Tot en 7 anys.

Preparació de dades a Paxata, no a Excel - vegeu aquí: enllaç.
Hi ha cerques automàtiques i propostes d'unions entre dos conjunts de dades. Una cosa fantàstica: per entendre les dades, hi hauria encara més èmfasi en la informació textual (enllaç).
Data Catalog és un excel·lent catàleg de conjunts de dades "en directe" inútils.
També és interessant com es formen els directoris a Paxata (enllaç).

"Segons la firma d'analistes òvul, el programari és possible gràcies als avenços en analítica predictiva, màquina d'aprenentatge i la NoSQL metodologia de memòria cau de dades.[15] El programari utilitza semàntica algorismes per entendre el significat de les columnes d'una taula de dades i algorismes de reconeixement de patrons per trobar possibles duplicats en un conjunt de dades.[15][7] També utilitza la indexació, el reconeixement de patrons de text i altres tecnologies que es troben tradicionalment a les xarxes socials i al programari de cerca".

El producte principal de Data Robot és aquí. El seu eslògan és de model a aplicació empresarial! Vaig trobar consultoria per a la indústria petroliera en relació amb la crisi, però va ser molt banal i poc interessant: enllaç. Vaig veure els seus vídeos a Mops o MLops (enllaç). Aquest és un Frankenstein muntat a partir de 6-7 adquisicions de diversos productes.

Per descomptat, queda clar que un gran equip de científics de dades ha de tenir aquest entorn per treballar amb models, en cas contrari en produiran molts i mai no desplegaran res. I en la nostra realitat aigües amunt del petroli i el gas, si només poguéssim crear un model d'èxit, això seria un gran progrés!

El procés en si recordava molt el treball amb sistemes de disseny en geologia-geofísica, per exemple Petrel. Tothom que no sigui massa mandrós fa i modifica models. Recolliu dades al model. Després van fer un model de referència i el van enviar a producció! Entre, per exemple, un model geològic i un model ML, podeu trobar moltes coses en comú.

Dòmino

Èmfasi en la plataforma oberta i la col·laboració. Els usuaris empresarials són admesos de manera gratuïta. El seu laboratori de dades és molt similar a sharepoint. (I el nom fa una olor forta a IBM). Tots els experiments enllacen al conjunt de dades original. Què familiar és això :) Com a la nostra pràctica: algunes dades es van arrossegar al model, després es van netejar i es van posar en ordre al model, i tot això ja hi viu al model i els extrems no es poden trobar a les dades d'origen .

Domino té una virtualització d'infraestructura fantàstica. Vaig muntar la màquina tants nuclis com calgués en un segon i vaig anar a comptar. Com es va fer no està clar de seguida. Docker és a tot arreu. Molta llibertat! Es poden connectar qualsevol espai de treball de les últimes versions. Llançament paral·lel d'experiments. Seguiment i selecció d'èxits.

El mateix que DataRobot: els resultats es publiquen per als usuaris empresarials en forma d'aplicacions. Per a "stakeholders" especialment dotats. I també es controla l'ús real dels models. Tot per Pugs!

No entenc del tot com els models complexos acaben en producció. Es proporciona algun tipus d'API per alimentar-los amb dades i obtenir resultats.

H2O

Driveless AI és un sistema molt compacte i intuïtiu per a ML supervisat. Tot en una caixa. No està del tot clar de seguida sobre el backend.

El model s'empaqueta automàticament en un servidor REST o en una aplicació Java. Aquesta és una gran idea. S'ha fet molt per a la interpretabilitat i l'explicabilitat. Interpretació i explicació dels resultats del model (Què no hauria de ser explicable, en cas contrari, una persona pot calcular el mateix?).
Per primera vegada, un estudi de cas sobre dades no estructurades i PNL. Imatge arquitectònica d'alta qualitat. I en general m'han agradat les imatges.

Hi ha un gran marc d'H2O de codi obert que no està del tot clar (un conjunt d'algorismes/biblioteques?). El vostre propi ordinador portàtil visual sense programar com Júpiter (enllaç). També vaig llegir sobre models Pojo i Mojo - H2O embolicats en Java. El primer és senzill, el segon amb optimització. H20 són els únics (!) als quals Gartner va enumerar l'anàlisi de text i la PNL com els seus punts forts, així com els seus esforços pel que fa a l'explicabilitat. És molt important!

Al mateix lloc: alt rendiment, optimització i estàndard del sector en l'àmbit de la integració amb maquinari i núvols.

I la debilitat és lògica: la IA de Driverles és feble i estreta en comparació amb el seu codi obert. La preparació de dades és coixa en comparació amb Paxata! I ignoren les dades industrials: flux, gràfics, geo. Bé, tot no pot ser només bo.

KNIME

Em van agradar els 6 casos de negoci molt concrets i molt interessants de la pàgina principal. OpenSource fort.

Gartner els va degradar de líders a visionaris. Guanyar malament és un bon senyal per als usuaris, ja que el Leader no sempre és la millor opció.

La paraula clau, com a H2O, és augmentada, el que significa ajudar els científics de dades dels ciutadans pobres. Aquesta és la primera vegada que algú rep una crítica pel seu rendiment en una revisió! Interessant? És a dir, hi ha tanta potència de càlcul que el rendiment no pot ser en absolut un problema sistèmic? Gartner parla d'aquesta paraula "augmentat" article separat, a la qual no s'ha pogut arribar.
I KNIME sembla ser el primer no nord-americà de la ressenya! (I als nostres dissenyadors els va agradar molt la seva pàgina de destinació. Gent estranya.

MathWorks

MatLab és un vell camarada honorari conegut per tothom! Caixes d'eines per a tots els àmbits de la vida i situacions. Una cosa molt diferent. De fet, moltes i moltes i moltes matemàtiques per a tot a la vida!

Un producte addicional de Simulink per al disseny del sistema. Vaig cavar a les caixes d'eines per als bessons digitals; no entenc res, però aquí s'ha escrit molt. Per indústria petroliera. En general, aquest és un producte fonamentalment diferent de les profunditats de les matemàtiques i l'enginyeria. Per seleccionar conjunts d'eines matemàtiques específiques. Segons Gartner, els seus problemes són els mateixos que els dels enginyers intel·ligents -sense col·laboració-, cadascú rebusca en el seu propi model, sense democràcia, sense explicabilitat.

RapidMiner

He trobat i escoltat molt abans (juntament amb Matlab) en el context d'un bon codi obert. Vaig cavar una mica en TurboPrep com de costum. M'interessa com obtenir dades netes de dades brutes.

Una vegada més, podeu veure que la gent és bona segons els materials de màrqueting del 2018 i les terribles persones que parlen anglès a la demostració de funcions.

I gent de Dortmund des del 2001 amb una forta formació alemanya)

Revisió de Gartner MQ 2020: plataformes d'aprenentatge automàtic i intel·ligència artificial
Encara no entenc del lloc què hi ha exactament disponible en codi obert: cal aprofundir. Bons vídeos sobre el desplegament i els conceptes d'AutoML.

Tampoc no hi ha res especial al backend de RapidMiner Server. Probablement serà compacte i funcionarà bé amb premium fora de la caixa. Està empaquetat a Docker. Entorn compartit només al servidor RapidMiner. I després hi ha Radoop, dades de Hadoop, que compta amb rimes del flux de treball de Spark in Studio.

Com era d'esperar, els joves venedors "venedors de pals de ratlles" els van traslladar cap avall. Gartner, però, prediu el seu èxit futur a l'espai Enterprise. Allà pots recaptar diners. Els alemanys ho saben fer, sant-sant :) No parleu de SAP!!!

Fan molt pels ciutadans! Però des de la pàgina es pot veure que Gartner diu que estan lluitant amb la innovació de vendes i no lluiten per l'amplitud de la cobertura, sinó per la rendibilitat.

Quedat SAS и Tibco venedors típics de BI per a mi... I tots dos estan al capdavant, la qual cosa confirma la meva confiança que DataScience normal està creixent lògicament
des de BI, i no des de núvols i infraestructures Hadoop. De negocis, és a dir, i no de TI. Com a Gazpromneft, per exemple: enllaç,Un entorn DSML madur sorgeix de pràctiques sòlides de BI. Però potser és descarat i esbiaixat cap a MDM i altres coses, qui sap.

SAS

No hi ha molt a dir. Només les coses evidents.

TIBCO

L'estratègia es llegeix en una llista de la compra en una pàgina Wiki d'una pàgina. Sí, llarga història, però 28!!! Carles. Vaig comprar BI Spotfire (2007) en la meva joventut tecno. I també informes de Jaspersoft (2014), després de fins a tres proveïdors d'anàlisi predictiva Insightful (S-plus) (2008), Statistica (2017) i Alpine Data (2017), processament d'esdeveniments i streaming Streambase System (2013), MDM Orchestra Plataforma en memòria Networks (2018) i Snappy Data (2019).

Hola Frankie!

Revisió de Gartner MQ 2020: plataformes d'aprenentatge automàtic i intel·ligència artificial

Font: www.habr.com

Afegeix comentari