Recenzia Gartner MQ 2020: Platformy strojového učenia a umelej inteligencie

Nedá sa vysvetliť dôvod, prečo to čítam. Mal som len čas a zaujímalo ma, ako funguje trh. A to už je podľa Gartner od roku 2018 plnohodnotný trh. V rokoch 2014-2016 sa to nazývalo pokročilá analytika (korene v BI), v roku 2017 - Data Science (neviem, ako to preložiť do ruštiny). Pre záujemcov o pohyb predajcov po námestí môžete tu pozri. A budem hovoriť o námestí 2020, najmä preto, že zmeny od roku 2019 sú minimálne: SAP sa presťahoval a Altair kúpil Datawatch.

Toto nie je systematická analýza alebo tabuľka. Individuálny pohľad aj z pohľadu geofyzika. Ale vždy som zvedavý, keď si prečítam Gartner MQ, niektoré body formulujú dokonale. Takže tu sú veci, ktorým som venoval pozornosť technicky, trhovo aj filozoficky.

Toto nie je pre ľudí, ktorí sú hlboko v téme ML, ale pre ľudí, ktorí sa zaujímajú o to, čo sa všeobecne deje na trhu.

Samotný trh DSML sa logicky nachádza medzi vývojárskymi službami BI a Cloud AI.

Recenzia Gartner MQ 2020: Platformy strojového učenia a umelej inteligencie

Najprv obľúbené citáty a výrazy:

  • "Vedúci nemusí byť tou najlepšou voľbou" — Líder na trhu nie je nevyhnutne to, čo potrebujete. Veľmi naliehavé! V dôsledku nedostatku funkčného zákazníka vždy hľadajú „najlepšie“ riešenie, a nie to „vhodné“.
  • "Opercionalizácia modelu" - skrátene MOPs. A každý to má s mopslíkmi ťažké! – (cool motív mopslíka robí model funkčným).
  • "Prostredie notebooku" je dôležitý koncept, v ktorom sa spája kód, komentáre, údaje a výsledky. To je veľmi jasné, sľubné a môže výrazne znížiť množstvo kódu používateľského rozhrania.
  • "Zakorenené v OpenSource" - dobre povedané - zakorení sa v open source.
  • "Občiansky dátoví vedci" - takí jednoduchí frajeri, takí lameri, nie odborníci, ktorí potrebujú vizuálne prostredie a všelijaké pomocné veci. Nebudú kódovať.
  • "demokracia" — často používaný vo význame „sprístupniť širšiemu okruhu ľudí“. Môžeme povedať „demokratizujte údaje“ namiesto nebezpečného „uvoľnite údaje“, ktoré sme používali. „Demokratizácia“ je vždy dlhý chvost a všetci predajcovia po ňom bežia. Strata na intenzite vedomostí – získajte dostupnosť!
  • "Exploračná analýza údajov - EDA" — zváženie týchto dostupných prostriedkov. Nejaké štatistiky. Malá vizualizácia. Niečo, čo v tej či onej miere robí každý. Nevedel som, že to má nejaký názov
  • "Reprodukovateľnosť" — maximálne zachovanie všetkých environmentálnych parametrov, vstupov a výstupov, aby bolo možné experiment po vykonaní zopakovať. Najdôležitejší termín pre experimentálne testovacie prostredie!

Takže:

Alteryx

Skvelé rozhranie, ako hračka. Škálovateľnosť je, samozrejme, trochu náročná. V súlade s tým, občianska komunita inžinierov okolo rovnaké s tchotchkes hrať. Analytika je vaša v jednej fľaši. Pripomenulo mi to komplex spektrálnej korelačnej analýzy dát Coscad, ktorý bol naprogramovaný v 90. rokoch.

anakonda

Komunita okolo Pythonu a expertov na R. Open source je zodpovedajúcim spôsobom veľký. Ukázalo sa, že moji kolegovia ho používajú neustále. ale nevedel som.

DataBricks

Pozostáva z troch opensource projektov – vývojári Sparku vyzbierali od roku 2013 sakra veľa peňazí. Naozaj musím citovať wiki:

„V septembri 2013 spoločnosť Databricks oznámila, že získala 13.9 milióna dolárov od Andreessena Horowitza. Spoločnosť získala ďalších 33 miliónov $ v roku 2014, 60 miliónov $ v roku 2016, 140 miliónov $ v roku 2017, 250 miliónov $ v roku 2019 (február) a 400 miliónov $ v roku 2019 (október)”!!!

Niektorí skvelí ľudia prerušili Spark. Neviem, prepáč!

A projekty sú:

  • Delta jazero - ACID on Spark bol nedávno vydaný (o čom sme snívali s Elasticsearch) - premení to na databázu: rigidná schéma, ACID, auditing, verzie...
  • ML prietok — sledovanie, balenie, správa a skladovanie modelov.
  • koaly - Pandas DataFrame API na Spark - Pandas - Python API pre prácu s tabuľkami a údajmi všeobecne.

Môžete sa pozrieť na Spark pre tých, ktorí nevedia alebo zabudli: odkaz. Pozrel som si videá s príkladmi od mierne nudných, ale podrobných konzultačných ďatľov: DataBricks for Data Science (odkaz) a pre dátové inžinierstvo (odkaz).

Databricks skrátka vyťahuje Spark. Každý, kto chce používať Spark normálne v cloude, berie DataBricks bez váhania, ako bolo zamýšľané 🙂 Spark je tu hlavným rozdielom.
Dozvedel som sa, že Spark Streaming nie je skutočný falošný realtime alebo microbatching. A ak potrebujete skutočný skutočný čas, je to v Apache STORM. Všetci tiež hovoria a píšu, že Spark je lepší ako MapReduce. Toto je slogan.

DATAIKU

Skvelá vec od začiatku do konca. Inzerátov je veľa. Nerozumiem, ako sa líši od Alteryxu?

DataRobot

Paxata na prípravu dát je samostatná spoločnosť, ktorú v decembri 2019 kúpila Data Robots. Vyzbierali sme 20 MUSD a predali. Všetko za 7 rokov.

Príprava dát v Paxate, nie v Exceli - pozri tu: odkaz.
Existujú automatické vyhľadávania a návrhy na spojenie medzi dvoma množinami údajov. Výborná vec – na pochopenie údajov by sa kládol ešte väčší dôraz na textové informácie (odkaz).
Data Catalog je vynikajúci katalóg zbytočných „živých“ súborov údajov.
Je tiež zaujímavé, ako sa v Paxate vytvárajú adresáre (odkaz).

"Podľa analytickej spoločnosti." vajíčko, softvér je možný vďaka pokrokom v prediktívna analýza, strojové učenie a NoSQL metodika ukladania údajov do vyrovnávacej pamäte.[15] Softvér používa sémantický algoritmy na pochopenie významu stĺpcov tabuľky údajov a algoritmy rozpoznávania vzorov na nájdenie potenciálnych duplikátov v množine údajov.[15][7] Využíva tiež indexovanie, rozpoznávanie textových vzorov a ďalšie technológie, ktoré sa tradične vyskytujú v sociálnych médiách a vyhľadávacom softvéri.“

Hlavným produktom Data Robot je tu. Ich slogan je od modelu k podnikovej aplikácii! V súvislosti s krízou som našiel poradenstvo pre ropný priemysel, ale bolo to veľmi banálne a nezaujímavé: odkaz. Pozeral som ich videá na Mops alebo MLops (odkaz). Toto je taký Frankenstein zostavený zo 6-7 akvizícií rôznych produktov.

Samozrejme je jasné, že veľký tím Data Scientists musí mať práve takéto prostredie na prácu s modelmi, inak ich vyrobí veľa a nikdy nič nenasadí. A v našej realite v oblasti ropy a zemného plynu, ak by sme dokázali vytvoriť jeden úspešný model, bol by to veľký pokrok!

Samotný proces veľmi pripomínal prácu s návrhovými systémami napríklad v geológii-geofyzike buřňák. Modely vyrába a upravuje každý, kto nie je lenivý. Zbierajte údaje do modelu. Potom vyrobili referenčný model a poslali ho do výroby! Medzi, povedzme, geologickým modelom a ML modelom môžete nájsť veľa spoločného.

Kocka domina

Dôraz na otvorenú platformu a spoluprácu. Firemní používatelia majú vstup zdarma. Ich Data Lab je veľmi podobný sharepointu. (A názov silne zaváňa IBM). Všetky experimenty sú prepojené s pôvodným súborom údajov. Aké je to povedomé :) Ako v našej praxi - niektoré dáta sa pretiahli do modelu, potom sa to v modeli vyčistilo a dalo do poriadku a toto všetko tam už v modeli žije a konce sa nedajú nájsť v zdrojových dátach .

Domino má skvelú virtualizáciu infraštruktúry. Zostavil som stroj za sekundu toľko jadier, koľko bolo treba a šiel som počítať. Ako sa to stalo, nie je bezprostredne jasné. Docker je všade. Veľa slobody! Je možné pripojiť akékoľvek pracovné priestory najnovších verzií. Paralelné spustenie experimentov. Sledovanie a výber úspešných.

Rovnako ako DataRobot – výsledky sú zverejňované pre podnikových používateľov vo forme aplikácií. Pre obzvlášť nadaných „stakeholderov“. A sleduje sa aj skutočné používanie modelov. Všetko pre mopslíkov!

Úplne nerozumiem tomu, ako zložité modely končia vo výrobe. Poskytuje sa nejaký druh rozhrania API, ktoré im poskytuje údaje a získava výsledky.

H2O

Driveless AI je veľmi kompaktný a intuitívny systém pre Supervised ML. Všetko v jednej krabici. O backende nie je hneď úplne jasné.

Model sa automaticky zabalí do servera REST alebo aplikácie Java. To je skvelý nápad. Pre interpretovateľnosť a vysvetliteľnosť sa urobilo veľa. Interpretácia a vysvetlenie výsledkov modelu (Čo by vo svojej podstate nemalo byť vysvetliteľné, inak môže človek vypočítať to isté?).
Po prvý raz je k dispozícii prípadová štúdia o neštruktúrovaných údajoch a NLP. Vysoko kvalitný architektonický obraz. A celkovo sa mi obrázky páčili.

Existuje veľký open source rámec H2O, ktorý nie je úplne jasný (súbor algoritmov/knižníc?). Váš vlastný vizuálny notebook bez programovania ako Jupiter (odkaz). Čítal som aj o modeloch Pojo a Mojo - H2O zabalených v Jave. Prvý je jednoduchý, druhý s optimalizáciou. H20 sú jediní(!), ktorým Gartner zaradil medzi svoje silné stránky textovú analýzu a NLP, ako aj ich úsilie týkajúce sa vysvetliteľnosti. Je to veľmi dôležité!

Na rovnakom mieste: vysoký výkon, optimalizácia a priemyselný štandard v oblasti integrácie s hardvérom a cloudmi.

A slabina je logická – Driverles AI je v porovnaní s ich open source slabá a úzka. Príprava dát je v porovnaní s Paxatou chabá! A ignorujú priemyselné dáta – stream, graf, geo. Nuž, všetko nemôže byť len dobré.

nim

Páčilo sa mi 6 veľmi špecifických, veľmi zaujímavých obchodných prípadov na hlavnej stránke. Silný OpenSource.

Gartner ich degradoval z lídrov na vizionárov. Slabé zarábanie peňazí je pre používateľov dobrým znamením, keďže Leader nie je vždy tou najlepšou voľbou.

Kľúčové slovo, rovnako ako v prípade H2O, je rozšírené, čo znamená pomoc chudobným vedcom údajov o občanoch. Toto je prvýkrát, čo bol niekto v recenzii kritizovaný za výkon! zaujímavé? To znamená, že je toľko výpočtového výkonu, že výkon nemôže byť vôbec systémový problém? Gartner má o tomto slove „Augmented“ samostatný článok, ku ktorému sa nedalo dostať.
A zdá sa, že KNIME je prvým neameričanom v recenzii! (A našim dizajnérom sa ich vstupná stránka veľmi páčila. Divní ľudia.

MathWorks

MatLab je starý čestný súdruh, ktorého pozná každý! Nástroje pre všetky oblasti života a situácie. Niečo veľmi odlišné. V skutočnosti veľa, veľa a veľa matematiky pre všetko v živote!

Prídavný produkt Simulink pre návrh systému. Zahrabal som sa do balíkov nástrojov pre digitálne dvojičky – ničomu z toho nerozumiem, ale tu veľa sa toho napísalo. Pre ropný priemysel. Vo všeobecnosti ide o zásadne odlišný produkt z hlbín matematiky a inžinierstva. Na výber špecifických súprav matematických nástrojov. Podľa Gartneru sú ich problémy rovnaké ako u inteligentných inžinierov – žiadna spolupráca – každý sa prehrabáva vo svojom modeli, žiadna demokracia, žiadna vysvetliteľnosť.

RapidMiner

V súvislosti s dobrým open source som už veľa narazil a počul (spolu s Matlabom). Trochu som sa pohrabal v TurboPrep ako vždy. Zaujíma ma, ako získať čisté dáta zo špinavých dát.

Opäť môžete vidieť, že ľudia sú dobrí na základe marketingových materiálov z roku 2018 a hrozných anglicky hovoriacich ľudí v ukážke funkcie.

A ľudia z Dortmundu od roku 2001 so silným nemeckým zázemím)

Recenzia Gartner MQ 2020: Platformy strojového učenia a umelej inteligencie
Stále nerozumiem z webu, čo presne je k dispozícii v otvorenom zdroji - musíte ísť hlbšie. Dobré videá o nasadení a konceptoch AutoML.

Ani na backende RapidMiner Server nie je nič zvláštne. Pravdepodobne bude kompaktný a po vybalení bude fungovať dobre ako prémiový. Je zabalený v Dockeri. Zdieľané prostredie len na serveri RapidMiner. A potom je tu Radoop, údaje z Hadoopu, počítanie rýmov zo Spark v pracovnom postupe Studio.

Ako sa dalo očakávať, mladí horúci predajcovia „predajcovia pruhovaných tyčiniek“ ich presunuli nadol. Gartner im však predpovedá budúci úspech v priestore Enterprise. Môžete tam získať peniaze. Nemci to vedia robiť, svätý-svätý :) SAP nespomínaj!!!

Robia pre občanov veľa! Ale zo stránky môžete vidieť, že Gartner hovorí, že bojujú s inováciami predaja a nebojujú o šírku pokrytia, ale o ziskovosť.

Zostal SAS и Tibco pre mňa typickí predajcovia BI... A obaja sú na úplnom vrchole, čo potvrdzuje moju dôveru, že normálna DataScience logicky rastie
z BI, a nie z cloudov a infraštruktúr Hadoop. Teda z biznisu a nie z IT. Napríklad v Gazpromnefte: odkaz,Vyspelé prostredie DSML vyrastá zo silných praktík BI. Ale možno je to smiešne a zaujaté voči MDM a iným veciam, kto vie.

SAS

Nie je toho veľa čo povedať. Iba samozrejmé veci.

TIBCO

Stratégia sa číta v nákupnom zozname na stránke Wiki. Áno, dlhý príbeh, ale 28!!! Charles. BI Spotfire (2007) som si kúpil ešte v mojej techno mladosti. A tiež správy od Jaspersoftu (2014), potom až troch predajcov prediktívnej analýzy Insightful (S-plus) (2008), Statistica (2017) a Alpine Data (2017), spracovanie udalostí a streamovanie Streambase System (2013), MDM Orchestra In-memory platforma Networks (2018) a Snappy Data (2019).

Ahoj Frankie!

Recenzia Gartner MQ 2020: Platformy strojového učenia a umelej inteligencie

Zdroj: hab.com

Pridať komentár