Recenze Gartner MQ 2020: Platformy strojového učení a umělé inteligence

Není možné vysvětlit důvod, proč jsem to četl. Měl jsem jen čas a zajímalo mě, jak funguje trh. A to už je podle Gartner od roku 2018 plnohodnotný trh. V letech 2014–2016 se to nazývalo pokročilá analytika (kořeny v BI), v roce 2017 - Data Science (nevím, jak to přeložit do ruštiny). Pro zájemce o pohyb prodejců po náměstí můžete zde Koukni se. A budu mluvit o náměstí 2020, zejména proto, že změny od roku 2019 jsou minimální: SAP se odstěhoval a Altair koupil Datawatch.

Toto není systematická analýza nebo tabulka. Individuální pohled i z pohledu geofyzika. Ale vždy jsem zvědavý, když si přečtu Gartner MQ, některé body formulují perfektně. Takže tady jsou věci, kterým jsem věnoval pozornost jak technicky, tržně, tak filozoficky.

To není pro lidi, kteří jsou hluboko v tématu ML, ale pro lidi, kteří se zajímají o to, co se obecně děje na trhu.

Samotný trh DSML se logicky vnořuje mezi vývojářské služby BI a Cloud AI.

Recenze Gartner MQ 2020: Platformy strojového učení a umělé inteligence

Oblíbené citáty a termíny jako první:

  • "Vůdce nemusí být tou nejlepší volbou" — Lídr na trhu není nutně to, co potřebujete. Velmi naléhavé! V důsledku nedostatku funkčního zákazníka vždy hledají „nejlepší“ řešení spíše než „vhodné“.
  • "Opercionalizace modelu" - zkráceně MOPs. A všichni to mají s mopsy těžké! – (super téma mops umožňuje model fungovat).
  • "Prostředí notebooku" je důležitý koncept, kde se spojuje kód, komentáře, data a výsledky. To je velmi jasné, slibné a může to výrazně snížit množství kódu uživatelského rozhraní.
  • "Zakořeněn v OpenSource" - dobře řečeno - zakořenuje v open source.
  • "Občanští datoví vědci" - takoví lehcí frajeři, takoví lameři, ne experti, kteří potřebují vizuální prostředí a nejrůznější pomocné věci. Nebudou kódovat.
  • "Demokracie" — často používaný ve významu „zpřístupnit širšímu okruhu lidí“. Můžeme říci „demokratizujte data“ místo nebezpečného „osvoboďte data“, které jsme používali. „Demokratizace“ je vždy dlouhý ocas a všichni prodejci po něm běží. Ztrácejte na intenzitě znalostí – získejte dostupnost!
  • "Exploratory Data Analysis - EDA" — zvážení těchto dostupných prostředků. Nějaká statistika. Malá vizualizace. Něco, co v té či oné míře dělá každý. Nevěděl jsem, že pro to existuje nějaký název
  • "reprodukovatelnost" — maximální zachování všech parametrů prostředí, vstupů a výstupů tak, aby bylo možné experiment po provedení opakovat. Nejdůležitější termín pro experimentální testovací prostředí!

Takže:

Alteryx

Skvělé rozhraní, jako hračka. Škálovatelnost je samozřejmě trochu obtížná. V souladu s tím, komunita Citizen inženýrů kolem stejné s tchotchkes hrát. Analytics je vaše v jedné lahvičce. Připomnělo mi to komplex spektrální korelační analýzy dat Coscad, který byl naprogramován v 90. letech.

Anaconda

Komunita kolem Pythonu a odborníků na R. Open source je podle toho velký. Ukázalo se, že moji kolegové to používají neustále. Ale nevěděl jsem.

DataBricks

Skládá se ze tří opensource projektů – vývojáři Sparku vybrali od roku 2013 sakra hodně peněz. Opravdu musím citovat wiki:

„V září 2013 společnost Databricks oznámila, že získala 13.9 milionu dolarů od Andreessena Horowitze. Společnost získala dalších 33 milionů $ v roce 2014, 60 milionů $ v roce 2016, 140 milionů $ v roce 2017, 250 milionů $ v roce 2019 (únor) a 400 milionů $ v roce 2019 (říjen)”!!!

Někteří skvělí lidé přerušili Spark. Nevím, promiň!

A projekty jsou:

  • Delta jezero - ACID on Spark byl nedávno vydán (o čem jsme snili s Elasticsearch) - přemění to na databázi: rigidní schéma, ACID, auditování, verze...
  • ML Flow — sledování, balení, správa a skladování modelů.
  • Koaly - Pandas DataFrame API na Sparku - Pandas - Python API pro práci s tabulkami a daty obecně.

Pro ty, kteří nevědí nebo zapomněli, se můžete podívat na Spark: odkaz. Sledoval jsem videa s příklady od mírně nudných, ale podrobných konzultačních datlů: DataBricks for Data Science (odkaz) a pro datové inženýrství (odkaz).

Databricks zkrátka vytahuje Spark. Každý, kdo chce používat Spark normálně v cloudu, bere DataBricks bez váhání, jak bylo zamýšleno 🙂 Spark je zde hlavním rozdílem.
Dozvěděl jsem se, že Spark Streaming není skutečný falešný realtime nebo microbatching. A pokud potřebujete skutečný Real Real Time, je to v Apache STORM. Všichni také říkají a píší, že Spark je lepší než MapReduce. Toto je slogan.

DATAIKU

Skvělá věc od začátku do konce. Inzerátů je spousta. Nechápu, jak se liší od Alteryx?

DataRobot

Paxata pro přípravu dat je samostatná společnost, kterou v prosinci 2019 koupila společnost Data Robots. Vybrali jsme 20 MUSD a prodali. Vše za 7 let.

Příprava dat v Paxatě, nikoli v Excelu - viz zde: odkaz.
Existují automatické vyhledávání a návrhy spojení mezi dvěma datovými sadami. Skvělá věc - pro pochopení dat by byl kladen ještě větší důraz na textové informace (odkaz).
Data Catalog je vynikající katalog zbytečných „živých“ datových sad.
Je také zajímavé, jak se v Paxatě tvoří adresáře (odkaz).

"Podle analytické společnosti." Ovum, software je umožněn díky pokrokům v prediktivní analýzy, strojové učení a NoSQL metodologie ukládání dat do mezipaměti.[15] Software používá sémantický algoritmy k pochopení významu sloupců datové tabulky a algoritmy rozpoznávání vzorů k nalezení potenciálních duplikátů v datové sadě.[15][7] Využívá také indexování, rozpoznávání textových vzorů a další technologie, které se tradičně vyskytují v sociálních médiích a vyhledávacím softwaru.“

Hlavním produktem Data Robot je zde. Jejich slogan je od modelu k podnikové aplikaci! Našel jsem poradenství pro ropný průmysl v souvislosti s krizí, ale bylo to velmi banální a nezajímavé: odkaz. Sledoval jsem jejich videa na Mops nebo MLops (odkaz). To je takový Frankenstein poskládaný z 6-7 akvizic různých produktů.

Samozřejmě se ukazuje, že velký tým Data Scientists musí mít právě takové prostředí pro práci s modely, jinak jich vyrobí spoustu a nikdy nic nenasadí. A v naší realitě proti proudu ropy a plynu, kdybychom dokázali vytvořit jeden úspěšný model, byl by to velký pokrok!

Samotný proces velmi připomínal práci s návrhovými systémy například v geologii-geofyzice Petrel. Modely vyrábí a upravuje každý, kdo není líný. Sbírejte data do modelu. Pak vyrobili referenční model a poslali ho do výroby! Mezi, řekněme, geologickým modelem a ML modelem můžete najít mnoho společného.

Domino

Důraz na otevřenou platformu a spolupráci. Firemní uživatelé jsou přijímáni zdarma. Jejich Data Lab je velmi podobná sharepointu. (A jméno silně zavání IBM). Všechny experimenty odkazují na původní datovou sadu. Jak je to známé :) Jako v naší praxi - některá data se do modelu přetáhla, pak se vyčistila a dala do pořádku v modelu a to vše už tam v modelu žije a konce nelze ve zdrojových datech najít .

Domino má skvělou virtualizaci infrastruktury. Stroj jsem za vteřinu složil tolik jader, kolik bylo potřeba, a šel jsem počítat. Jak se to stalo, není hned jasné. Docker je všude. Hodně svobody! Lze připojit libovolné pracovní prostory nejnovějších verzí. Paralelní spuštění experimentů. Sledování a výběr úspěšných.

Stejně jako DataRobot – výsledky jsou publikovány pro firemní uživatele ve formě aplikací. Pro zvláště nadané „stakeholdery“. A sleduje se i skutečné využití modelů. Vše pro mopslíky!

Úplně nechápu, jak složité modely skončí ve výrobě. K dispozici je určitý druh rozhraní API, které jim dodává data a získává výsledky.

H2O

Driveless AI je velmi kompaktní a intuitivní systém pro Supervised ML. Vše v jedné krabici. O backendu není hned úplně jasné.

Model je automaticky zabalen do serveru REST nebo Java App. To je skvělý nápad. Pro interpretovatelnost a vysvětlitelnost se udělalo mnoho. Interpretace a vysvětlení výsledků modelu (Co by ve své podstatě nemělo být vysvětlitelné, jinak může člověk vypočítat totéž?).
Poprvé případová studie o nestrukturovaných datech a NLP. Vysoce kvalitní architektonický obraz. A celkově se mi obrázky líbily.

Existuje velký open source H2O framework, který není zcela jasný (soubor algoritmů/knihoven?). Váš vlastní vizuální notebook bez programování jako Jupiter (odkaz). Četl jsem i o modelech Pojo a Mojo - H2O zabalených v Javě. První je přímočarý, druhý s optimalizací. H20 jsou jediní(!), kterým Gartner zařadil mezi své silné stránky textovou analýzu a NLP, stejně jako jejich úsilí týkající se vysvětlitelnosti. Je to velmi důležité!

Na stejném místě: vysoký výkon, optimalizace a průmyslový standard v oblasti integrace s hardwarem a cloudy.

A slabina je logická – AI Driverles je ve srovnání s jejich open source slabá a úzká. Příprava dat ve srovnání s Paxatou pokulhává! A ignorují průmyslová data – stream, graf, geo. No, všechno nemůže být jen dobré.

KNIME

Líbilo se mi 6 velmi konkrétních, velmi zajímavých obchodních případů na hlavní stránce. Silný OpenSource.

Gartner je degradoval z lídrů na vizionáře. Špatné vydělávání peněz je pro uživatele dobrým znamením, protože Leader není vždy tou nejlepší volbou.

Klíčové slovo, stejně jako v H2O, je augmented, což znamená pomoc chudým vědcům zabývajícím se daty občanů. Je to poprvé, co byl někdo v recenzi kritizován za výkon! Zajímavý? To znamená, že výpočetního výkonu je tolik, že výkon nemůže být vůbec systémový problém? Gartner má o tomto slovu „Augmented“ samostatný článek, ke kterému se nedalo dostat.
A zdá se, že KNIME je první neameričan v recenzi! (A našim designérům se jejich vstupní stránka opravdu líbila. Divní lidé.

MathWorks

MatLab je starý čestný soudruh známý všem! Nástroje pro všechny oblasti života a situace. Něco velmi odlišného. Ve skutečnosti spousta, spousta a spousta matematiky pro všechno v životě!

Přídavný produkt Simulink pro návrh systému. Zahrabal jsem se do sad nástrojů pro Digitální dvojčata – ničemu z toho nerozumím, ale zde bylo napsáno hodně. Pro ropný průmysl. Obecně se jedná o zásadně odlišný produkt z hlubin matematiky a inženýrství. Chcete-li vybrat konkrétní sady matematických nástrojů. Podle Gartneru jsou jejich problémy stejné jako u chytrých inženýrů – žádná spolupráce – každý se hrabe ve svém modelu, žádná demokracie, žádná vysvětlitelnost.

RapidMiner

V souvislosti s dobrým open source jsem narazil a slyšel hodně předtím (spolu s Matlabem). Trochu jsem se jako obvykle pohrabal v TurboPrepu. Zajímá mě, jak získat čistá data ze špinavých dat.

Opět můžete vidět, že lidé jsou dobří na základě marketingových materiálů z roku 2018 a hrozných anglicky mluvících lidí v ukázce funkce.

A lidé z Dortmundu od roku 2001 se silným německým zázemím)

Recenze Gartner MQ 2020: Platformy strojového učení a umělé inteligence
Stále z webu nechápu, co přesně je k dispozici v open source - musíte se ponořit hlouběji. Dobrá videa o nasazení a konceptech AutoML.

Ani na backendu RapidMiner Serveru není nic zvláštního. Pravděpodobně bude kompaktní a po vybalení bude fungovat dobře na prémii. Je zabalen v Dockeru. Sdílené prostředí pouze na serveru RapidMiner. A pak je tu Radoop, data z Hadoop, počítání rýmů ze Sparku v workflow Studia.

Podle očekávání je mladí žhaví prodejci „prodejci pruhovaných tyčinek“ přesunuli dolů. Gartner však předpovídá jejich budoucí úspěch v prostoru Enterprise. Tam se dají sehnat peníze. Němci to umí, svatý-svatý :) SAP nezmiňujte!!!

Dělají pro občany hodně! Ale ze stránky je vidět, že Gartner říká, že se potýká s inovací v prodeji a nebojuje o šíři pokrytí, ale o ziskovost.

Zůstala SAS и Tibco pro mě typičtí prodejci BI... A oba jsou úplně nahoře, což potvrzuje mou důvěru, že normální DataScience logicky roste
z BI, a ne z cloudů a infrastruktur Hadoop. Tedy z byznysu a ne z IT. Jako například v Gazpromneftu: odkaz,Vyspělé prostředí DSML vyrůstá ze silných postupů BI. Ale možná je to šmrncovní a zaujaté vůči MDM a dalším věcem, kdo ví.

SAS

Není toho moc co říct. Pouze samozřejmé věci.

TIBCO

Strategie se čte v nákupním seznamu na stránce Wiki. Ano, dlouhý příběh, ale 28!!! Charlesi. BI Spotfire (2007) jsem si koupil ještě v době svého technomládí. A také reportování od Jaspersoftu (2014), dále od tří dodavatelů prediktivních analýz Insightful (S-plus) (2008), Statistica (2017) a Alpine Data (2017), zpracování událostí a streamování Streambase System (2013), MDM Orchestra In-memory platforma Networks (2018) a Snappy Data (2019).

Ahoj Frankie!

Recenze Gartner MQ 2020: Platformy strojového učení a umělé inteligence

Zdroj: www.habr.com

Přidat komentář