Revisión de Gartner MQ 2020: plataformas de aprendizaje automático e inteligencia artificial

Es imposible explicar el motivo por el que leí esto. Simplemente tenía tiempo y estaba interesado en cómo funciona el mercado. Y, según Gartner, este ya es un mercado en toda regla desde 2018. De 2014 a 2016 se llamó análisis avanzado (raíces en BI), en 2017, ciencia de datos (no sé cómo traducir esto al ruso). Para aquellos interesados ​​en los movimientos de los vendedores por la plaza, pueden aquí mirar. Y hablaré de la plaza 2020, sobre todo porque los cambios allí desde 2019 son mínimos: SAP se mudó y Altair compró Datawatch.

Este no es un análisis sistemático ni una tabla. Una visión individual, también desde el punto de vista de un geofísico. Pero siempre tengo curiosidad por leer Gartner MQ, formulan algunos puntos a la perfección. Así que aquí están las cosas a las que presté atención tanto desde el punto de vista técnico, como desde el punto de vista del mercado y desde el punto de vista filosófico.

Esto no es para personas que están profundamente involucradas en el tema del ML, sino para personas que están interesadas en lo que sucede en general en el mercado.

El mercado DSML en sí se ubica lógicamente entre los servicios de desarrollador de BI y AI en la nube.

Revisión de Gartner MQ 2020: plataformas de aprendizaje automático e inteligencia artificial

Citas y términos favoritos primero:

  • "Un líder puede no ser la mejor opción" — Un líder del mercado no es necesariamente lo que se necesita. ¡Muy urgente! Como consecuencia de la falta de un cliente funcional, siempre buscan la “mejor” solución, en lugar de la “adecuada”.
  • "Operamentalización del modelo" - abreviado como MOP. ¡Y todo el mundo lo pasa mal con los pugs! – (El tema genial del pug hace que el modelo funcione).
  • "Entorno de portátil" es un concepto importante donde se unen código, comentarios, datos y resultados. Esto es muy claro, prometedor y puede reducir significativamente la cantidad de código de interfaz de usuario.
  • "Arraigado en OpenSource" - bien dicho - se arraiga en el código abierto.
  • "Científicos de datos ciudadanos" - tipos tan fáciles, tan tontos, no expertos, que necesitan un entorno visual y todo tipo de cosas auxiliares. No codificarán.
  • "Democracia" - a menudo se usa para significar "poner a disposición de una gama más amplia de personas". Podemos decir “democratizar los datos” en lugar del peligroso “liberar los datos” que solíamos usar. La “democratización” es siempre una cola larga y todos los proveedores corren tras ella. ¡Pierde en intensidad de conocimiento y gana en accesibilidad!
  • "Análisis Exploratorio de Datos - EDA" — consideración de estos medios disponibles. Algunas estadísticas. Un poco de visualización. Algo que todo el mundo hace en un grado u otro. No sabia que habia un nombre para esto
  • "Reproducibilidad" — preservación máxima de todos los parámetros, entradas y salidas ambientales para que el experimento pueda repetirse una vez realizado. ¡El término más importante para un entorno de prueba experimental!

Por lo tanto:

Alteryx

Interfaz genial, como un juguete. La escalabilidad, por supuesto, es un poco difícil. En consecuencia, la comunidad de ingenieros de Citizen tiene alrededor de lo mismo con chucherías para jugar. Analytics es todo tuyo en una sola botella. Me recordó a un complejo de análisis de datos de correlación espectral. Coscad, que fue programado en los años 90.

Anaconda

Comunidad en torno a expertos en Python y R. En consecuencia, el código abierto es grande. Resultó que mis compañeros lo usan todo el tiempo. Pero yo no lo sabía.

ladrillos de datos

Consta de tres proyectos de código abierto: los desarrolladores de Spark han recaudado muchísimo dinero desde 2013. Realmente tengo que citar la wiki:

“En septiembre de 2013, Databricks anunció que había recaudado 13.9 millones de dólares de Andreessen Horowitz. ¡¡¡La compañía recaudó $33 millones adicionales en 2014, $60 millones en 2016, $140 millones en 2017, $250 millones en 2019 (febrero) y $400 millones en 2019 (octubre)”!!!

Algunas grandes personas cortan Spark. ¡No lo sé, lo siento!

Y los proyectos son:

  • Delta Lake - Recientemente se lanzó ACID on Spark (lo que soñábamos con Elasticsearch): lo convierte en una base de datos: esquema rígido, ACID, auditoría, versiones...
  • Flujo de aprendizaje automático — seguimiento, embalaje, gestión y almacenamiento de modelos.
  • koalas - Pandas DataFrame API en Spark - Pandas - API de Python para trabajar con tablas y datos en general.

Puedes consultar Spark para aquellos que no lo saben o lo han olvidado: enlace. Vi videos con ejemplos de pájaros carpinteros consultores un poco aburridos pero detallados: DataBricks for Data Science (enlace) y para Ingeniería de Datos (enlace).

En resumen, Databricks saca Spark. Cualquiera que quiera usar Spark normalmente en la nube toma DataBricks sin dudarlo, como estaba previsto 🙂 Spark es el principal diferenciador aquí.
Aprendí que Spark Streaming no es un microbatch ni un tiempo real falso. Y si necesita tiempo real, real, real, está en Apache STORM. Todo el mundo también dice y escribe que Spark es mejor que MapReduce. Este es el lema.

DATOS

Algo genial de principio a fin. Hay muchos anuncios. ¿No entiendo en qué se diferencia de Alteryx?

robot de datos

Paxata para la preparación de datos es una empresa independiente que fue comprada por Data Robots en diciembre de 2019. Recaudamos 20 MUSD y vendimos. Todo en 7 años.

Preparación de datos en Paxata, no en Excel; consulte aquí: enlace.
Hay búsquedas automáticas y propuestas de uniones entre dos conjuntos de datos. Lo mejor es que para comprender los datos se haría aún más hincapié en la información textual (enlace).
Data Catalog es un excelente catálogo de conjuntos de datos "en vivo" inútiles.
También es interesante cómo se forman los directorios en Paxata (enlace).

“Según la firma analista Óvulo, el software es posible gracias a los avances en análisis predictivo, máquina de aprendizaje y del NoSQL Metodología de almacenamiento en caché de datos.[ 15 ] El software usa semántico algoritmos para comprender el significado de las columnas de una tabla de datos y algoritmos de reconocimiento de patrones para encontrar posibles duplicados en un conjunto de datos.[ 15 ][ 7 ] También utiliza indexación, reconocimiento de patrones de texto y otras tecnologías que tradicionalmente se encuentran en las redes sociales y el software de búsqueda”.

El principal producto de Data Robot es aquí. ¡Su lema es del modelo a la aplicación empresarial! Encontré asesoramiento para la industria petrolera en relación con la crisis, pero fue muy banal y poco interesante: enlace. Vi sus videos en Mops o MLops (enlace). Este es un Frankenstein ensamblado a partir de 6-7 adquisiciones de varios productos.

Por supuesto, queda claro que un gran equipo de científicos de datos debe tener ese entorno para trabajar con modelos; de lo contrario, producirán muchos de ellos y nunca implementarán nada. Y en nuestra realidad upstream de petróleo y gas, si tan sólo pudiéramos crear un modelo exitoso, ¡sería un gran progreso!

El proceso en sí recuerda mucho al trabajo con sistemas de diseño en geología-geofísica, por ejemplo. Petrel. Todo el que no sea demasiado vago fabrica y modifica modelos. Recopile datos en el modelo. Luego hicieron un modelo de referencia y lo enviaron a producción. Entre, digamos, un modelo geológico y un modelo ML, se pueden encontrar muchas cosas en común.

Dominó

Énfasis en plataforma abierta y colaboración. Los usuarios empresariales tienen entrada gratuita. Su Data Lab es muy similar a Sharepoint. (Y el nombre huele mucho a IBM). Todos los experimentos se vinculan al conjunto de datos original. Qué familiar es esto :) Como en nuestra práctica: algunos datos se arrastraron al modelo, luego se limpiaron y ordenaron en el modelo, y todo esto ya vive allí en el modelo y los extremos no se pueden encontrar en los datos originales. .

Domino tiene una virtualización de infraestructura genial. Monté la máquina tantos núcleos como necesitaba en un segundo y me puse a contar. No está claro de inmediato cómo se hizo. Docker está en todas partes. ¡Mucha libertad! Se pueden conectar todos los espacios de trabajo de las últimas versiones. Lanzamiento paralelo de experimentos. Seguimiento y selección de exitosos.

Lo mismo que DataRobot: los resultados se publican para los usuarios empresariales en forma de aplicaciones. Para “partes interesadas” especialmente dotadas. Y también se controla el uso real de los modelos. ¡Todo para los Pugs!

No entiendo del todo cómo acaban en producción modelos complejos. Se proporciona algún tipo de API para proporcionarles datos y obtener resultados.

H2OH

Driveless AI es un sistema muy compacto e intuitivo para ML supervisado. Todo en una sola caja. No está del todo claro de inmediato el backend.

El modelo se empaqueta automáticamente en un servidor REST o una aplicación Java. Esta es una gran idea. Se ha hecho mucho por la interpretabilidad y la explicabilidad. Interpretación y explicación de los resultados del modelo (¿Qué es inherentemente no explicable, de lo contrario una persona puede calcular lo mismo?).
Por primera vez, un estudio de caso sobre datos no estructurados y PNL. Cuadro arquitectónico de alta calidad. Y en general me gustaron las fotos.

Existe un gran marco de trabajo H2O de código abierto que no está del todo claro (¿un conjunto de algoritmos/bibliotecas?). Tu propia computadora portátil visual sin programación como Júpiter (enlace). También leí sobre Pojo y Mojo: modelos H2O envueltos en Java. El primero es sencillo, el segundo con optimización. H20 son los únicos (!) para quienes Gartner mencionó el análisis de texto y la PNL como sus puntos fuertes, así como sus esfuerzos en materia de explicabilidad. ¡Es muy importante!

En el mismo lugar: alto rendimiento, optimización y estándar de la industria en el campo de la integración con hardware y nubes.

Y la debilidad es lógica: la IA de Driverles es débil y estrecha en comparación con su código abierto. ¡La preparación de datos es escasa en comparación con Paxata! Y ignoran los datos industriales: corrientes, gráficos, geografía. Bueno, no todo puede ser simplemente bueno.

KNIME

Me gustaron los 6 casos de negocios muy específicos y muy interesantes de la página principal. Fuerte código abierto.

Gartner los degradó de líderes a visionarios. Ganar mal dinero es una buena señal para los usuarios, dado que el Líder no siempre es la mejor opción.

La palabra clave, como en H2O, es aumentada, lo que significa ayudar a los científicos de datos ciudadanos pobres. ¡Esta es la primera vez que alguien es criticado por su desempeño en una reseña! ¿Interesante? Es decir, ¿hay tanta potencia informática que el rendimiento no puede ser un problema sistémico en absoluto? Gartner tiene sobre esta palabra "Aumentado" Un artículo separado, al que no se pudo llegar.
¡Y KNIME parece ser el primer no estadounidense en la revisión! (Y a nuestros diseñadores les gustó mucho su página de destino. Gente extraña.

MathWorks

¡MatLab es un viejo camarada honorario conocido por todos! Cajas de herramientas para todos los ámbitos de la vida y situaciones. Algo muy diferente. De hecho, ¡muchas, muchas, muchas matemáticas para todo en la vida!

Un producto complementario de Simulink para el diseño de sistemas. Busqué en las cajas de herramientas de Digital Twins; no entiendo nada al respecto, pero aquí Se ha escrito mucho. Para Industria del aceite. En general, este es un producto fundamentalmente diferente de las profundidades de las matemáticas y la ingeniería. Seleccionar kits de herramientas matemáticas específicas. Según Gartner, sus problemas son los mismos que los de los ingenieros inteligentes: no hay colaboración, cada uno hurga en su propio modelo, no hay democracia, no hay explicabilidad.

Minero rápido

Me encontré y escuché mucho antes (junto con Matlab) en el contexto del buen código abierto. Profundicé un poco en TurboPrep como de costumbre. Estoy interesado en cómo obtener datos limpios a partir de datos sucios.

Nuevamente, puede ver que la gente es buena según los materiales de marketing de 2018 y las terribles personas que hablan inglés en la demostración de funciones.

Y gente de Dortmund desde 2001 con fuertes raíces alemanas)

Revisión de Gartner MQ 2020: plataformas de aprendizaje automático e inteligencia artificial
Todavía no entiendo en el sitio qué está exactamente disponible en código abierto; es necesario profundizar más. Buenos vídeos sobre implementación y conceptos de AutoML.

Tampoco hay nada especial en el backend de RapidMiner Server. Probablemente será compacto y funcionará bien en versión premium desde el primer momento. Está empaquetado en Docker. Entorno compartido solo en el servidor RapidMiner. Y luego está Radoop, datos de Hadoop, contando rimas del flujo de trabajo de Spark in Studio.

Como era de esperar, los jóvenes vendedores calientes “vendedores de palitos rayados” los bajaron. Gartner, sin embargo, predice su éxito futuro en el espacio empresarial. Puedes recaudar dinero allí. Los alemanes saben cómo hacer esto, santo-santo :) ¡¡¡No menciones SAP!!!

¡Hacen mucho por los ciudadanos! Pero en la página se puede ver que Gartner dice que están luchando con la innovación en ventas y no por la amplitud de la cobertura, sino por la rentabilidad.

Se quedó SAS и tibco proveedores de BI típicos para mí... Y ambos están en lo más alto, lo que confirma mi confianza en que la ciencia de datos normal está creciendo lógicamente.
de BI, y no de nubes e infraestructuras de Hadoop. Es decir, de los negocios y no de TI. Como en Gazpromneft, por ejemplo: enlaceUn entorno DSML maduro surge de sólidas prácticas de BI. Pero tal vez sea grosero y parcial hacia MDM y otras cosas, quién sabe.

SAS

No hay mucho que decir. Sólo las cosas obvias.

TIBCO

La estrategia se lee en una lista de compras en una página Wiki de una página. Sí, larga historia, ¡¡¡pero 28!!! Charles. Compré BI Spotfire (2007) en mi juventud tecno. Y también informes de Jaspersoft (2014), luego hasta tres proveedores de análisis predictivo Insightful (S-plus) (2008), Statistica (2017) y Alpine Data (2017), procesamiento de eventos y transmisión Streambase System (2013), MDM Orchestra. Plataforma en memoria Networks (2018) y Snappy Data (2019).

¡Hola Frankie!

Revisión de Gartner MQ 2020: plataformas de aprendizaje automático e inteligencia artificial

Fuente: habr.com

Añadir un comentario