Gartner MQ 2020 Review: Machine Learning and Artificial Intelligence Platforms

Невозможно объяснить причину, зачем я это прочел. Просто было время и было интересно, как устроен рынок. А это уже полноценный рынок по Gartner с 2018го года. С 2014-2016 называлось продвинутой аналитикой (корни в BI), в 2017 – Data Science (не знаю, как перевести это на русский). Кому интересны передвижения вендоров по квадрату – можно aquí mirar. E falarei da praza de 2020, sobre todo porque os cambios alí desde 2019 son mínimos: SAP mudouse e Altair comprou Datawatch.

Non se trata dunha análise sistemática nin dunha táboa. Unha visión individual, tamén desde o punto de vista dun xeofísico. Pero sempre teño curiosidade por ler Gartner MQ, formulan algúns puntos á perfección. Entón, aquí están as cousas ás que prestei atención tanto técnicamente como no mercado e filosóficamente.

Isto non é para persoas que están profundamente no tema de ML, senón para persoas que están interesadas no que xeralmente está a suceder no mercado.

O propio mercado DSML aniña loxicamente entre os servizos de desenvolvemento de BI e Cloud AI.

Gartner MQ 2020 Review: Machine Learning and Artificial Intelligence Platforms

Сначала понравившееся цитаты и термины:

  • "Un líder pode non ser a mellor opción" — Un líder do mercado non é necesariamente o que necesitas. Moi urxente! Como consecuencia da falta dun cliente funcional, sempre buscan a "mellor" solución, antes que a "adecuada".
  • "Operación do modelo" - abreviado como MOPs. E todo o mundo o pasa cos pugs! – (o tema do pug xenial fai que o modelo funcione).
  • "Entorno de notebook" é un concepto importante onde conflúen código, comentarios, datos e resultados. Isto é moi claro, prometedor e pode reducir significativamente a cantidade de código de IU.
  • «Rooted in OpenSource» — хорошо сказано – укореняется в опенсорсе.
  • "Citizen Data Scientists" - Tipos tan fáciles, tan lamers, non expertos, que necesitan un ambiente visual e todo tipo de cousas auxiliares. Non codificarán.
  • "Democracia" - adoita usarse para significar "por a disposición dunha gama máis ampla de persoas". Podemos dicir "democratizar os datos" en lugar do perigoso "liberar os datos" que usabamos. "Democratizar" sempre é unha longa cola e todos os vendedores corren tras ela. Perda de intensidade de coñecemento - gaña en accesibilidade!
  • "Análise de datos exploratorios - EDA" — Consideración destes medios dispoñibles. Algunhas estatísticas. Unha pequena visualización. Algo que todo o mundo fai nun grao ou noutro. Non sabía que había un nome para isto
  • "Reproducibilidade" — preservación máxima de todos os parámetros ambientais, entradas e saídas para que o experimento poida repetirse unha vez realizado. O termo máis importante para un ambiente de proba experimental!

Así:

Alteryx

Прикольный интерфейс прямо игрушечный. С масштабируемостью, конечно, туговато. Соотвественно коммьюнити Citizen инженеров вокруг таких же с цацками поиграть. Аналитика своя все свое в одном флаконе. Напомнило мне комплекс спектрально-корреляционного анализа данных Coscad, que foi programada nos anos 90.

jibóia

Коммьюнити вокруг Python и R экспертов. Опенсорса большая соотвественно. Выяснилось, что мои коллеги постоянно используют. А я не знал.

DataBricks

Consiste en tres proxectos de código aberto: os desenvolvedores de Spark recolleron un montón de cartos desde 2013. Realmente teño que citar a wiki:

"En setembro de 2013, Databricks anunciou que recadou 13.9 millóns de dólares de Andreessen Horowitz. A compañía recadou 33 millóns de dólares adicionais en 2014, 60 millóns de dólares en 2016, 140 millóns de dólares en 2017, 250 millóns de dólares en 2019 (febreiro) e 400 millóns de dólares en 2019 (outubro).

Algunhas persoas xeniais cortaron Spark. Non sei, perdón!

А проекты такие:

  • Lago Delta - ACID on Spark foi lanzado recentemente (o que soñamos con Elasticsearch) - convérteo nunha base de datos: esquema ríxido, ACID, auditoría, versións...
  • Fluxo ML — seguimento, empaquetado, xestión e almacenamento de modelos.
  • Coalas - API Pandas DataFrame en Spark - Pandas - API Python para traballar con táboas e datos en xeral.

Podes buscar en Spark para aqueles que non o saiban ou se esqueceron: Ligazón. Vin vídeos con exemplos de paxaros de consulta un pouco aburridos pero detallados: DataBricks for Data Science (Ligazón) и для Data Engineering (Ligazón).

Короче Databricks вытаскивает Spark. Кто хочет Spark нормально поюзать в облаке берет DataBricks не задумываясь, как и задумывалось 🙂 Spark – здесь главный дифференциатор.
Aprendín que Spark Streaming non é real falso en tempo real nin microbaching. E se precisas tempo real real, está en Apache STORM. Todo o mundo tamén di e escribe que Spark é mellor que MapReduce. Este é o slogan.

DATOS

Cousa xenial de punta a punta. Hai moitos anuncios. Non entendo en que se diferencia de Alteryx?

DataRobot

Paxata para a preparación de datos é unha empresa separada que foi comprada por Data Robots en decembro de 2019. Recadamos 20 MUSD e vendemos. Todo en 7 anos.

Preparación de datos en Paxata, non en Excel - ver aquí: Ligazón.
Hai procuras automáticas e propostas de unións entre dous conxuntos de datos. Unha gran cousa: para comprender os datos, faríase aínda máis énfase na información textual (Ligazón).
Data Catalog é un excelente catálogo de conxuntos de datos "en directo" inútiles.
Tamén é interesante como se forman os directorios en Paxata (Ligazón).

"Segundo a firma de analistas Óvulo, o software é posible grazas aos avances en análise preditiva, aprendizaxe de máquina eo NoSQL metodoloxía de almacenamento en caché de datos.[15] O software usa semántica algoritmos para comprender o significado das columnas dunha táboa de datos e algoritmos de recoñecemento de patróns para atopar posibles duplicados nun conxunto de datos.[15][7] It also uses indexing, text pattern recognition and other technologies traditionally found in social media and search software.»

O produto principal de Data Robot é aquí. Их лозунг — от Модели к корпоративному приложению! Обнаружил консалтинг для нефтянки в связи с кризисом, но очень банальный и неинтересный: Ligazón. Vin os seus vídeos en Mops ou MLops (Ligazón). Este é un tal Frankenstein reunido a partir de 6-7 adquisicións de varios produtos.

Por suposto, queda claro que un gran equipo de científicos de datos debe ter ese ambiente para traballar con modelos, se non, producirán moitos deles e nunca despregarán nada. E na nosa realidade ascendente de petróleo e gas, se puidésemos crear un modelo exitoso, iso sería un gran progreso!

O proceso en si lembraba moito ao traballo con sistemas de deseño en xeoloxía-xeofísica, por exemplo Petrel. Все кому не лень делают и модифицируют модели. Собирают в модели данные. Потом сделали эталонную модель и передают в производство! Те между скажем геологической моделью и ML моделью можно найти много общего.

Dominó

Énfase na plataforma aberta e na colaboración. Os usuarios empresariais son admitidos de xeito gratuíto. O seu laboratorio de datos é moi semellante ao sharepoint. (E o nome cheira moito a IBM). Todos os experimentos enlazan co conxunto de datos orixinal. Que familiar é isto :) Como na nosa práctica: algúns datos foron arrastrados ao modelo, despois limpáronse e ordenáronse no modelo, e todo isto xa está alí no modelo e os extremos non se poden atopar nos datos de orixe. .

Domino ten unha virtualización de infraestrutura xenial. Muntei a máquina tantos núcleos como fose necesario nun segundo e fun a contar. Como se fixo non está claro de inmediato. Docker está en todas partes. Moita liberdade! Pódense conectar calquera espazo de traballo das últimas versións. Lanzamento paralelo de experimentos. Seguimento e selección dos exitosos.

O mesmo que DataRobot: os resultados publícanse para usuarios empresariais en forma de aplicacións. Para "stakeholders" especialmente dotados. E tamén se supervisa o uso real dos modelos. ¡Todo para Pugs!

Non entendo ben como acaban os modelos complexos na produción. Ofrécese algún tipo de API para alimentarlles datos e obter resultados.

H2O

Driveless AI é un sistema moi compacto e intuitivo para ML supervisado. Todo nunha caixa. Non está completamente claro de inmediato sobre o backend.

O modelo empaquetarase automaticamente nun servidor REST ou na aplicación Java. Esta é unha gran idea. Fíxose moito para a interpretabilidade e a explicabilidade. Interpretación e explicación dos resultados do modelo (Que inherentemente non debería ser explicable, se non, unha persoa pode calcular o mesmo?).
Por primeira vez, un estudo de caso sobre datos non estruturados e PNL. Качественная архитектурная картинка. И вообще картинки понравились.

Hai un gran marco H2O de código aberto que non está totalmente claro (un conxunto de algoritmos/bibliotecas?). O teu propio portátil visual sen programación como Xúpiter (Ligazón). Tamén lin sobre modelos Pojo e Mojo - H2O envoltos en Java. O primeiro é sinxelo, o segundo con optimización. H20 son os únicos (!) aos que Gartner enumerou a análise de textos e a PNL como os seus puntos fortes, así como os seus esforzos en materia de explicabilidade. É moi importante!

No mesmo lugar: alto rendemento, optimización e estándar da industria no ámbito da integración con hardware e nubes.

E a debilidade é lóxica: a IA de Driverles é débil e estreita en comparación co seu código aberto. A preparación de datos é coxa en comparación coa Paxata! E ignoran os datos industriais: fluxo, gráfico, xeo. Ben, todo non pode ser só bo.

KNIME

Gustáronme os 6 casos de negocio moi específicos e moi interesantes da páxina principal. OpenSource forte.

Gartner pasounos de líderes a visionarios. Gañar mal diñeiro é un bo sinal para os usuarios, dado que o Leader non sempre é a mellor opción.

Ключевое слово как и в H2O — augmented это значит помощь убогим citizen data scientists. Впервые кого-то в обзоре поругали за производительность! Интересно? То есть вычислительных мощностей столько, что производительность вообще не может быть системной проблемой? Про это слово “Augmented” у Gartner есть artigo separado, до которой добраться не удалось.
E KNIME parece ser o primeiro non estadounidense da crítica! (E aos nosos deseñadores gustoulles moito a súa páxina de destino. Xente estraña.

MathWorks

MatLаb – старый почетный товарищ известный всем! Тулбоксы для всех областей жизни и ситуаций. Что-то очень другое. Фактически много-много-много математики на все вообще случаи жизни!

Un produto complementario Simulink para o deseño do sistema. Busquei nas caixas de ferramentas para os xemelgos dixitais; non entendo nada diso, pero aquí escribiuse moito. Para industria petroleira. En xeral, este é un produto fundamentalmente diferente das profundidades das matemáticas e da enxeñaría. Para seleccionar ferramentas matemáticas específicas. Segundo Gartner, os seus problemas son os mesmos que os dos enxeñeiros intelixentes -sen colaboración- todo o mundo rebusca no seu propio modelo, sen democracia, sen explicabilidade.

RapidMiner

Atopei e escoitei moito antes (xunto con Matlab) no contexto dun bo código aberto. Busquei un pouco en TurboPrep como de costume. Estou interesado en como obter datos limpos de datos sucios.

Unha vez máis, podes ver que a xente é boa baseada nos materiais de mercadotecnia de 2018 e nas terribles persoas que falan inglés na demostración de funcións.

А люди из Дортмунда с 2001 c сильным немецким прошлым)

Gartner MQ 2020 Review: Machine Learning and Artificial Intelligence Platforms
Aínda non entendo desde o sitio o que está dispoñible exactamente en código aberto: cómpre afondar. Bos vídeos sobre o despregue e os conceptos de AutoML.

Tampouco hai nada especial no backend de RapidMiner Server. Probablemente sexa compacto e funcione ben en versión premium fóra da caixa. Está empaquetado en Docker. Contorno compartido só no servidor RapidMiner. E despois está Radoop, datos de Hadoop, contando rimas do fluxo de traballo de Spark in Studio.

Como era de esperar, os mozos vendedores "vendedores de paus con raias" movéronos cara abaixo. Gartner, con todo, prevé o seu futuro éxito no espazo Enterprise. Podes recadar cartos alí. Os alemáns saben facer isto, santo-santo :) Non menciones SAP!!!

Fan moito polos cidadáns! Pero desde a páxina pódese ver que Gartner di que están loitando coa innovación de vendas e non loitan pola amplitude da cobertura, senón pola rendibilidade.

Quedou SAS и Tibco типичные BI вендоры для меня… И оба в самом топе, что подтверждает мою уверенность в том, что нормальный DataScience логически растет
desde BI, e non desde nubes e infraestruturas Hadoop. Desde os negocios, é dicir, e non desde as informáticas. Como en Gazpromneft, por exemplo: Ligazón,Un ambiente DSML maduro nace de fortes prácticas de BI. Pero quizais sexa fedor e tendencioso cara ao MDM e outras cousas, quen sabe.

SAS

Non hai moito que dicir. Só as cousas obvias.

TIBCO

A estratexia lese nunha lista de compras nunha páxina Wiki dunha páxina. Si, longa historia, pero 28!!! Carlos. Merquei BI Spotfire (2007) na miña mocidade tecno. E tamén informes de Jaspersoft (2014), despois de tres provedores de análises preditivas Insightful (S-plus) (2008), Statistica (2017) e Alpine Data (2017), procesamento de eventos e streaming Streambase System (2013), MDM Orchestra Plataforma en memoria Networks (2018) e Snappy Data (2019).

Ola Frankie!

Gartner MQ 2020 Review: Machine Learning and Artificial Intelligence Platforms

Fonte: www.habr.com

Engadir un comentario