Revisão do Gartner MQ 2020: Plataformas de aprendizado de máquina e inteligência artificial

É impossível explicar o motivo pelo qual li isso. Só tive tempo e fiquei interessado em saber como funciona o mercado. E este já é um mercado completo de acordo com o Gartner desde 2018. De 2014 a 2016 foi chamado de análise avançada (raízes em BI), em 2017 - Ciência de Dados (não sei como traduzir isso para o russo). Para os interessados ​​na movimentação dos vendedores pela praça, você pode aqui olhar. E falarei sobre a praça 2020, principalmente porque as mudanças lá desde 2019 são mínimas: a SAP saiu e a Altair comprou a Datawatch.

Esta não é uma análise sistemática ou uma tabela. Uma visão individual, também do ponto de vista de um geofísico. Mas estou sempre curioso para ler o Gartner MQ, eles formulam alguns pontos perfeitamente. Então, aqui estão as coisas às quais prestei atenção tanto em termos técnicos, de mercado quanto filosóficos.

Isto não é para pessoas que estão aprofundadas no tema ML, mas para pessoas que estão interessadas no que geralmente está acontecendo no mercado.

O próprio mercado de DSML se aninha logicamente entre os serviços de desenvolvedor de BI e Cloud AI.

Revisão do Gartner MQ 2020: Plataformas de aprendizado de máquina e inteligência artificial

Citações e termos favoritos primeiro:

  • "Um líder pode não ser a melhor escolha" — Um líder de mercado não é necessariamente o que você precisa. Muito urgente! Como consequência da falta de um cliente funcional, procuram sempre a “melhor” solução, em vez da “adequada”.
  • “Operacionalização do modelo” - abreviado como MOPs. E todo mundo tem dificuldade com pugs! – (o tema legal do pug faz o modelo funcionar).
  • "Ambiente de notebook" é um conceito importante onde código, comentários, dados e resultados se juntam. Isso é muito claro, promissor e pode reduzir significativamente a quantidade de código da UI.
  • "Enraizado em OpenSource" - bem dito - cria raízes no código aberto.
  • "Cientistas de Dados Cidadãos" - caras tão fáceis, tão lamers, não especialistas, que precisam de um ambiente visual e todo tipo de coisas auxiliares. Eles não codificarão.
  • "Democracia" - muitas vezes usado para significar “disponibilizar para uma gama mais ampla de pessoas”. Podemos dizer “democratizar os dados” em vez do perigoso “libertar os dados” que costumávamos usar. “Democratizar” é sempre uma cauda longa e todos os fornecedores correm atrás dela. Perca em intensidade de conhecimento – ganhe em acessibilidade!
  • “Análise Exploratória de Dados - EDA” — consideração destes meios disponíveis. Algumas estatísticas. Uma pequena visualização. Algo que todo mundo faz de uma forma ou de outra. Não sabia que existia um nome para isso
  • "Reprodutibilidade" — preservação máxima de todos os parâmetros ambientais, entradas e saídas, para que a experiência possa ser repetida depois de realizada. O termo mais importante para um ambiente de teste experimental!

Assim:

Alteryx

Interface legal, como um brinquedo. A escalabilidade, é claro, é um pouco difícil. Conseqüentemente, a comunidade de engenheiros do Citizen está em torno da mesma coisa com bugigangas para brincar. Analytics é todo seu em uma garrafa. Me lembrou de um complexo de análise de dados de correlação espectral Coscad, que foi programado na década de 90.

Jibóia

Comunidade em torno de especialistas em Python e R. O código aberto é grande em conformidade. Acontece que meus colegas usam isso o tempo todo. Mas eu não sabia.

Blocos de dados

Consiste em três projetos de código aberto - os desenvolvedores do Spark arrecadaram muito dinheiro desde 2013. Eu realmente tenho que citar o wiki:

“Em setembro de 2013, a Databricks anunciou que havia arrecadado US$ 13.9 milhões da Andreessen Horowitz. A empresa arrecadou US$ 33 milhões adicionais em 2014, US$ 60 milhões em 2016, US$ 140 milhões em 2017, US$ 250 milhões em 2019 (fevereiro) e US$ 400 milhões em 2019 (outubro)”!!!

Algumas pessoas excelentes cortaram o Spark. Não sei, desculpe!

E os projetos são:

  • Lago Delta - Foi lançado recentemente o ACID on Spark (o que sonhamos com o Elasticsearch) - transforma-o em um banco de dados: esquema rígido, ACID, auditoria, versões...
  • Fluxo de ML — rastreamento, embalagem, gerenciamento e armazenamento de modelos.
  • Coalas - API Pandas DataFrame no Spark - Pandas - API Python para trabalhar com tabelas e dados em geral.

Você pode dar uma olhada no Spark para quem não conhece ou esqueceu: link. Assisti a vídeos com exemplos de pica-paus de consultoria um pouco chatos, mas detalhados: DataBricks for Data Science (link) e para Engenharia de Dados (link).

Resumindo, o Databricks extrai o Spark. Quem quiser usar o Spark normalmente na nuvem pega o DataBricks sem hesitar, como pretendido 🙂 O Spark é o principal diferencial aqui.
Aprendi que o Spark Streaming não é um verdadeiro falso em tempo real ou microlote. E se você precisar de tempo real, está no Apache STORM. Todo mundo também diz e escreve que Spark é melhor que MapReduce. Este é o lema.

DATAIKU

Coisa legal de ponta a ponta. Existem muitos anúncios. Não entendo como ele difere do Alteryx?

Robô de dados

Paxata para preparação de dados é uma empresa separada que foi comprada pela Data Robots em dezembro de 2019. Levantamos 20 MUSD e vendemos. Tudo em 7 anos.

Preparação de dados em Paxata, não em Excel - veja aqui: link.
Existem pesquisas e propostas automáticas de junções entre dois conjuntos de dados. Uma coisa ótima - para entender os dados, haveria ainda mais ênfase nas informações textuais (link).
Catálogo de Dados é um excelente catálogo de conjuntos de dados “ativos” inúteis.
Também é interessante como os diretórios são formados no Paxata (link).

“De acordo com a empresa de análise óvulo, o software é possível através de avanços em análise preditiva, aprendizado de máquina e os votos de NoSQL metodologia de cache de dados.[15] O software usa semântico algoritmos para entender o significado das colunas de uma tabela de dados e algoritmos de reconhecimento de padrões para encontrar possíveis duplicatas em um conjunto de dados.[15][7] Ele também usa indexação, reconhecimento de padrões de texto e outras tecnologias tradicionalmente encontradas em mídias sociais e softwares de busca.”

O principal produto do Data Robot é aqui. Seu slogan é do modelo ao aplicativo empresarial! Achei consultoria para a indústria petrolífera ligada à crise, mas era muito banal e desinteressante: link. Assisti aos vídeos deles no Mops ou MLops (link). Este é um Frankenstein montado a partir de 6 a 7 aquisições de vários produtos.

É claro que fica claro que uma grande equipe de cientistas de dados deve ter esse ambiente para trabalhar com modelos, caso contrário, eles produzirão muitos deles e nunca implantarão nada. E na nossa realidade upstream de petróleo e gás, se pudéssemos criar um modelo de sucesso, isso seria um grande progresso!

O processo em si lembrava muito o trabalho com sistemas de design em geologia-geofísica, por exemplo Petrel. Todo mundo que não tem preguiça faz e modifica modelos. Colete dados no modelo. Depois fizeram um modelo de referência e enviaram para produção! Entre, digamos, um modelo geológico e um modelo de ML, você pode encontrar muito em comum.

Dominó

Ênfase em plataforma aberta e colaboração. Os usuários empresariais são admitidos gratuitamente. O Data Lab deles é muito semelhante ao SharePoint. (E o nome cheira fortemente a IBM). Todos os experimentos estão vinculados ao conjunto de dados original. Como isso é familiar :) Como na nossa prática - alguns dados foram arrastados para o modelo, depois foram limpos e ordenados no modelo, e tudo isso já está lá no modelo e as extremidades não podem ser encontradas nos dados de origem .

O Domino possui uma excelente virtualização de infraestrutura. Montei a máquina quantos núcleos fossem necessários em um segundo e fui contar. Como isso foi feito não está imediatamente claro. Docker está em toda parte. Muita liberdade! Quaisquer espaços de trabalho das versões mais recentes podem ser conectados. Lançamento paralelo de experimentos. Acompanhamento e seleção dos bem-sucedidos.

O mesmo que DataRobot – os resultados são publicados para usuários empresariais na forma de aplicativos. Para “partes interessadas” especialmente dotadas. E o uso real dos modelos também é monitorado. Tudo para Pugs!

Não entendo completamente como modelos complexos acabam em produção. Algum tipo de API é fornecido para alimentá-los com dados e obter resultados.

H2O

Driveless AI é um sistema muito compacto e intuitivo para ML supervisionado. Tudo em uma caixa. Não está totalmente claro imediatamente sobre o back-end.

O modelo é automaticamente empacotado em um servidor REST ou aplicativo Java. Esta é uma ótima idéia. Muito tem sido feito em prol da interpretabilidade e da explicabilidade. Interpretação e explicação dos resultados do modelo (O que inerentemente não deveria ser explicável, caso contrário uma pessoa pode calcular o mesmo?).
Pela primeira vez, um estudo de caso sobre dados não estruturados e PNL. Imagem arquitetônica de alta qualidade. E no geral gostei das fotos.

Existe uma grande estrutura H2O de código aberto que não é totalmente clara (um conjunto de algoritmos/bibliotecas?). Seu próprio laptop visual sem programação como Júpiter (link). Também li sobre os modelos Pojo e Mojo - H2O embrulhados em Java. O primeiro é simples, o segundo com otimização. H20 são os únicos (!) para quem o Gartner listou a análise de texto e a PNL como seus pontos fortes, bem como seus esforços em relação à explicabilidade. É muito importante!

No mesmo lugar: alto desempenho, otimização e padrão da indústria na área de integração com hardware e nuvens.

E a fraqueza é lógica – a IA do Driverles é fraca e estreita em comparação com seu código aberto. A preparação de dados é fraca em comparação com Paxata! E ignoram os dados industriais – fluxo, gráfico, geo. Bem, nem tudo pode ser simplesmente bom.

KNIME

Gostei dos 6 casos de negócios muito específicos e interessantes na página principal. Código aberto forte.

O Gartner os rebaixou de líderes a visionários. Ganhar pouco dinheiro é um bom sinal para os usuários, visto que o Líder nem sempre é a melhor escolha.

A palavra-chave, como em H2O, é aumentada, o que significa ajudar cidadãos pobres cientistas de dados. Esta é a primeira vez que alguém é criticado pelo desempenho em uma revisão! Interessante? Ou seja, há tanto poder computacional que o desempenho não pode ser um problema sistêmico? O Gartner tem sobre esta palavra “Aumentar” artigo separado, que não pôde ser alcançado.
E KNIME parece ser o primeiro não americano na análise! (E nossos designers gostaram muito da landing page. Pessoas estranhas.

MathWorks

MatLab é um antigo camarada honorário conhecido por todos! Caixas de ferramentas para todas as áreas da vida e situações. Algo muito diferente. Na verdade, muita e muita matemática para tudo na vida!

Um produto complementar Simulink para projeto de sistema. Pesquisei nas caixas de ferramentas dos Gêmeos Digitais - não entendo nada sobre isso, mas aqui muito foi escrito. Para indústria petrolífera. Em geral, este é um produto fundamentalmente diferente das profundezas da matemática e da engenharia. Selecionar kits de ferramentas matemáticas específicos. De acordo com o Gartner, seus problemas são os mesmos dos engenheiros inteligentes - sem colaboração - cada um vasculha seu próprio modelo, sem democracia, sem explicabilidade.

RapidMiner

Já ouvi e ouvi muito antes (junto com o Matlab) no contexto de um bom código aberto. Pesquisei um pouco no TurboPrep, como sempre. Estou interessado em como obter dados limpos de dados sujos.

Mais uma vez, você pode ver que as pessoas são boas com base nos materiais de marketing de 2018 e nas péssimas pessoas que falam inglês na demonstração do recurso.

E pessoas de Dortmund desde 2001 com forte formação alemã)

Revisão do Gartner MQ 2020: Plataformas de aprendizado de máquina e inteligência artificial
Ainda não entendi no site o que exatamente está disponível em código aberto - você precisa se aprofundar. Bons vídeos sobre implantação e conceitos de AutoML.

Também não há nada de especial no backend do RapidMiner Server. Provavelmente será compacto e funcionará bem em versões premium prontas para uso. Ele é empacotado no Docker. Ambiente compartilhado apenas no servidor RapidMiner. E há também o Radoop, dados do Hadoop, contando rimas do fluxo de trabalho do Spark in Studio.

Como esperado, os jovens vendedores quentes “vendedores de palitos listrados” os rebaixaram. O Gartner, no entanto, prevê seu sucesso futuro no espaço empresarial. Você pode arrecadar dinheiro lá. Os alemães sabem fazer isso, meu Deus :) Não fale em SAP!!!

Eles fazem muito pelos cidadãos! Mas na página você pode ver que o Gartner diz que está lutando com a inovação em vendas e não pela amplitude de cobertura, mas pela lucratividade.

Ficou SAS и tibco fornecedores típicos de BI para mim... E ambos estão no topo, o que confirma minha confiança de que a DataScience normal está crescendo logicamente
de BI, e não de nuvens e infraestruturas Hadoop. Isto é, dos negócios, e não da TI. Como na Gazpromneft, por exemplo: link,Um ambiente DSML maduro surge de fortes práticas de BI. Mas talvez seja grosseiro e tendencioso em relação ao MDM e outras coisas, quem sabe.

SAS

Não há muito a dizer. Apenas as coisas óbvias.

TIBCO

A estratégia é lida em uma lista de compras em uma página Wiki de uma página inteira. Sim, longa história, mas 28!!! Carlos. Comprei o BI Spotfire (2007) na minha juventude tecnológica. E também relatórios da Jaspersoft (2014), depois de até três fornecedores de análise preditiva Insightful (S-plus) (2008), Statistica (2017) e Alpine Data (2017), processamento de eventos e streaming Streambase System (2013), MDM Orchestra Networks (2018) e Snappy Data (2019) plataforma em memória.

Olá Frankie!

Revisão do Gartner MQ 2020: Plataformas de aprendizado de máquina e inteligência artificial

Fonte: habr.com

Adicionar um comentário