Gartner MQ 2020 áttekintés: Gépi tanulási és mesterséges intelligencia platformok

Lehetetlen megmagyarázni, miért olvastam ezt. Csak volt időm, és érdekelt a piac működése. És ez már egy teljes értékű piac a Gartner szerint 2018 óta. 2014-2016 között fejlett elemzésnek (a BI-ben gyökerező), 2017-ben Data Science-nek hívták (nem tudom, hogyan kell ezt oroszra fordítani). Azok számára, akiket érdekelnek az árusok mozgása a téren, megteheti itt néz. És a 2020-as térről fogok beszélni, főleg, hogy ott 2019 óta minimálisak a változások: az SAP kiköltözött, az Altair pedig megvásárolta a Datawatchot.

Ez nem egy szisztematikus elemzés vagy egy táblázat. Egyéni nézet, geofizikus szemszögéből is. De mindig kíváncsian olvasom a Gartner MQ-t, remekül megfogalmaznak néhány pontot. Tehát itt vannak azok a dolgok, amelyekre technikailag, piacilag és filozófiailag is odafigyeltem.

Ez nem azoknak szól, akik mélyen belemerültek az ML témájába, hanem azoknak, akiket érdekel, mi történik általában a piacon.

Maga a DSML piac logikusan fészkelődik a BI és a Cloud AI fejlesztői szolgáltatások között.

Gartner MQ 2020 áttekintés: Gépi tanulási és mesterséges intelligencia platformok

Először a kedvenc idézetek és kifejezések:

  • "Lehet, hogy a vezető nem a legjobb választás" — A piacvezető nem feltétlenül az, amire szüksége van. Nagyon sürgős! A működőképes ügyfél hiánya miatt mindig a „legjobb” megoldást keresik, nem pedig a „megfelelőt”.
  • "Modell operacionalizálás" - rövidítve MOP. És mindenki nehezen viseli a mopszokat! – (a menő mopsz téma működőképessé teszi a modellt).
  • "Notebook környezet" egy fontos fogalom, ahol a kód, a megjegyzések, az adatok és az eredmények találkoznak. Ez nagyon világos, ígéretes, és jelentősen csökkentheti az UI kód ​​mennyiségét.
  • "OpenSource-ban gyökerezik" - jól mondta - gyökeret ereszt a nyílt forráskódban.
  • "Citizen Data Scientists" - ilyen könnyed csávók, ilyen lamerek, nem szakértők, akiknek vizuális környezet kell és mindenféle segédlet. Nem kódolnak.
  • "Demokrácia" – gyakran azt jelenti, hogy „az emberek szélesebb köre számára elérhetővé kell tenni”. Mondhatjuk, hogy „demokratizáld az adatokat” a korábban használt veszélyes „adatmentesítsd” helyett. A „demokratizálódás” mindig hosszú farok, és minden árus utána fut. Veszteskedj a tudásintenzitásban – gyarapítsd a hozzáférhetőséget!
  • „Feltáró adatelemzés – EDA” — ezeknek a rendelkezésre álló eszközöknek a mérlegelése. Néhány statisztika. Egy kis vizualizáció. Valami, amit ilyen vagy olyan mértékben mindenki csinál. Nem tudtam, hogy van ennek neve
  • "Reprodukálhatóság" — az összes környezeti paraméter, bemenet és kimenet maximális megőrzése annak érdekében, hogy a kísérlet végrehajtása után megismételhető legyen. A kísérleti tesztkörnyezet legfontosabb kifejezése!

Tehát:

Alteryx

Menő felület, akár egy játék. A méretezhetőség persze kicsit nehézkes. Ennek megfelelően a Citizen közösség a mérnökök ugyanazt a tchotchkes játszani. Az elemzés az Öné egy üvegben. A spektrális-korrelációs adatelemzés komplexumára emlékeztetett Coscad, amelyet a 90-es években programoztak.

Anakonda

Közösség Python és R szakértők körül. A nyílt forráskód ennek megfelelően nagy. Kiderült, hogy a kollégáim állandóan használják. De nem tudtam.

DataBricks

Három nyílt forráskódú projektből áll – a Spark fejlesztői pokolian sok pénzt gyűjtöttek össze 2013 óta. Igazából a wikit kell idéznem:

„2013 szeptemberében a Databricks bejelentette, hogy 13.9 millió dollárt gyűjtött össze Andreessen Horowitztól. A cég további 33 millió dollárt gyűjtött 2014-ben, 60 milliót 2016-ban, 140 milliót 2017-ben, 250 milliót 2019-ben (februárban) és 400 millió dollárt 2019-ben (októberben)”!!!

Néhány nagyszerű ember megvágta Sparkot. Nem tudom, bocsi!

A projektek pedig a következők:

  • Delta-tó - Nemrég megjelent az ACID on Spark (amiről az Elasticsearch-el álmodtunk) - adatbázissá alakítja: merev séma, ACID, auditálás, verziók...
  • ML Flow — a modellek nyomon követése, csomagolása, kezelése és tárolása.
  • koalák - Pandas DataFrame API a Sparkon - Pandas - Python API a táblákkal és általában az adatokkal való munkavégzéshez.

Megnézheti a Sparkot azok számára, akik nem tudják, vagy elfelejtették: link. Néztem videókat példákkal kicsit unalmas, de részletgazdag tanácsadó harkályoktól: DataBricks for Data Science (link) és az adatmérnöki (link).

Röviden: Databricks kihúzza a Sparkot. Aki normálisan szeretné használni a Sparkot a felhőben, habozás nélkül veszi a DataBricks-et, szándékának megfelelően 🙂 Itt a Spark a fő megkülönböztető.
Megtudtam, hogy a Spark Streaming nem valódi hamis valós idejű vagy mikrobatching. És ha valódi valós idejűre van szüksége, az Apache STORM-ban található. Mindenki azt mondja és írja is, hogy a Spark jobb, mint a MapReduce. Ez a szlogen.

DATAIKU

Menő végponttól-végig dolog. Rengeteg reklám van. Nem értem, miben különbözik az Alteryxtől?

DataRobot

Az adatelőkészítő Paxata egy különálló cég, amelyet 2019 decemberében vásárolt meg a Data Robots. Összegyűjtöttünk 20 MUSD-t és eladtuk. Mindezt 7 év alatt.

Adatok előkészítése Paxatában, nem Excelben - lásd itt: link.
Vannak automatikus keresések és javaslatok két adatkészlet közötti összekapcsolásra. Nagyszerű dolog - az adatok megértéséhez még nagyobb hangsúlyt kapna a szöveges információ (link).
A Data Catalog a haszontalan „élő” adatkészletek kiváló katalógusa.
Az is érdekes, hogy a könyvtárak hogyan alakulnak ki a Paxatában (link).

„Az elemzőcég szerint Petesejt, a szoftver a fejlesztések révén válik lehetővé prediktív elemzés, gépi tanulás és a NoSQL adatgyorsítótárazási módszertan.[15] A szoftver használ szemantikus algoritmusok az adattábla oszlopainak jelentésének megértéséhez és mintafelismerő algoritmusok az adathalmaz lehetséges ismétlődéseinek megtalálásához.[15][7] Ezenkívül indexelést, szövegminta-felismerést és más, a közösségi médiában és a keresőszoftverekben hagyományosan megtalálható technológiákat is használ.”

A Data Robot fő terméke az itt. Szlogenjük a modelltől a vállalati alkalmazásig! A válsággal kapcsolatban az olajiparnak szóló tanácsadást találtam, de ez nagyon banális és érdektelen volt: link. Megnéztem a videóikat Mopson vagy MLops-on (link). Ez egy ilyen Frankenstein, amely 6-7 különféle termék beszerzéséből áll össze.

Természetesen világossá válik, hogy a Data Scientist egy nagy csapatának pontosan ilyen környezettel kell rendelkeznie a modellekkel való munkavégzéshez, különben sokat fognak gyártani belőlük, és soha nem telepítenek semmit. És a mi olaj- és gáztermelési valóságunkban, ha csak egyetlen sikeres modellt tudnánk létrehozni, az nagy előrelépés lenne!

Maga a folyamat nagyon emlékeztetett például a geológiai-geofizikai tervezési rendszerekkel végzett munkára viharmadár. Mindenki, aki nem túl lusta, modelleket készít és módosít. Gyűjtsön adatokat a modellbe. Aztán készítettek egy referenciamodellt és elküldték a gyártásba! Mondjuk egy geológiai modell és egy ML modell között sok közös vonást lehet találni.

Dominó

A hangsúly a nyílt platformon és az együttműködésen van. Az üzleti felhasználók számára a belépés ingyenes. A Data Lab nagyon hasonlít a sharepoint-hoz. (És a név erősen az IBM-re pompázik). Minden kísérlet az eredeti adatkészlethez kapcsolódik. Ez mennyire ismerős :) Ahogy a gyakorlatunkban - néhány adatot behúztak a modellbe, majd kitisztították és rendbe tették a modellben, és mindez már ott él a modellben és a vége nem található meg a forrás adatokban .

A Domino nagyszerű infrastruktúra-virtualizációval rendelkezik. Egy másodperc alatt annyi magot állítottam össze a gépben, amennyi szükséges, és mentem számolni. Hogy ez hogyan történt, az nem derült ki azonnal. Docker mindenhol ott van. Sok szabadságot! A legújabb verziók bármelyik munkaterülete csatlakoztatható. Kísérletek párhuzamos indítása. A sikeresek nyomon követése és kiválasztása.

Ugyanaz, mint a DataRobot - az eredményeket az üzleti felhasználók számára alkalmazások formájában teszik közzé. Különösen tehetséges „stakeholderek” számára. És a modellek tényleges használatát is figyelemmel kísérik. Mindent a Pugsért!

Nem teljesen értem, hogy az összetett modellek hogyan kerülnek gyártásba. Valamilyen API-t biztosítanak az adatok betáplálásához és az eredmények eléréséhez.

H2O

A Driveless AI egy nagyon kompakt és intuitív rendszer a felügyelt ML-hez. Minden egy dobozban. Nem teljesen egyértelmű azonnal a háttérrel kapcsolatban.

A modell automatikusan REST szerverbe vagy Java alkalmazásba kerül. Ez egy nagyszerű ötlet. Sokat tettek az értelmezhetőség és a megmagyarázhatóság érdekében. A modell eredményeinek értelmezése és magyarázata (Mi az, ami eleve nem lehet megmagyarázható, különben az ember ugyanezt ki tudja számolni?).
Első alkalommal esettanulmány a strukturálatlan adatokról és NLP. Kiváló minőségű építészeti kép. És általában tetszettek a képek.

Van egy nagy nyílt forráskódú H2O keretrendszer, amely nem teljesen tiszta (algoritmusok/könyvtárak halmaza?). Saját vizuális laptop programozás nélkül, mint a Jupiter (link). Olvastam a Java-ba csomagolt Pojo és Mojo - H2O modellekről is. Az első egyszerű, a második optimalizálással. A Gartner a H20 az egyetlen(!), akinek a szövegelemzést és az NLP-t erősségeikként, valamint a megmagyarázhatóságra irányuló erőfeszítéseiket sorolta fel. Ez nagyon fontos!

Ugyanitt: nagy teljesítmény, optimalizálás és iparági szabvány a hardverrel és felhőkkel való integráció terén.

A gyengeség pedig logikus – a Driverles AI gyenge és szűk a nyílt forráskódukhoz képest. Az adatkészítés sántít a Paxatához képest! És figyelmen kívül hagyják az ipari adatokat – folyam, grafikon, földrajzi. Nos, minden nem lehet csak jó.

BÉKE

A főoldalon a 6 nagyon konkrét, nagyon érdekes üzleti eset tetszett. Erős OpenSource.

A Gartner vezetőkből látnokokká tette le őket. A rossz pénzkereset jó jel a felhasználók számára, tekintve, hogy a Leader nem mindig a legjobb választás.

A kulcsszó, akárcsak a H2O-ban, kibővült, ami a szegény állampolgári adatokkal foglalkozó tudósok megsegítését jelenti. Ez az első alkalom, hogy valakit kritizálnak teljesítménye miatt egy értékelésben! Érdekes? Vagyis akkora a számítási teljesítmény, hogy a teljesítmény egyáltalán nem lehet rendszerszintű probléma? A Gartner körülbelül ezt a szót „kibővített” külön cikk, amelyet nem lehetett elérni.
És úgy tűnik, hogy a KNIME az első nem amerikai a felülvizsgálatban! (És tervezőinknek nagyon tetszett a nyitóoldaluk. Furcsa emberek.

MathWorks

A MatLab egy régi tiszteletbeli elvtárs, akit mindenki ismer! Eszköztárak az élet minden területére és helyzetére. Valami nagyon más. Valójában az életben mindenhez sok-sok-sok matematika!

Simulink kiegészítő termék rendszertervezéshez. Beleástam a Digital Twins eszköztárába – semmit sem értek belőle, de itt sokat írtak. Mert olajipar. Általában véve ez egy alapvetően eltérő termék a matematika és a mérnöki tudományok mélységétől. Adott matematikai eszközkészletek kiválasztása. A Gartner szerint az ő problémáik ugyanazok, mint az okosmérnökeké - nincs együttműködés - mindenki a saját modelljében turkál, nincs demokrácia, nincs megmagyarázhatóság.

Gyorsbetűs

Sokat találkoztam és hallottam már (a Matlab mellett) a jó nyílt forráskóddal összefüggésben. Szokás szerint beleástam egy kicsit a TurboPrepbe. Érdekel, hogyan lehet tiszta adatokat nyerni a piszkos adatokból.

Ismét látható, hogy az emberek jók a 2018-as marketinganyagok és a rémisztő angolul beszélő emberek alapján a bemutatón.

És dortmundi emberek 2001 óta, erős német háttérrel)

Gartner MQ 2020 áttekintés: Gépi tanulási és mesterséges intelligencia platformok
Még mindig nem értem az oldalról, hogy pontosan mi érhető el nyílt forráskódban - mélyebbre kell ásni. Jó videók a telepítésről és az AutoML koncepciókról.

A RapidMiner Server háttérrendszerében sincs semmi különös. Valószínűleg kompakt lesz, és jól működik a prémium kategóriás változatban. Dockerben van csomagolva. Megosztott környezet csak a RapidMiner szerveren. Aztán ott van a Radoop, a Hadoop adatai, amelyek a Spark in Studio-munkafolyamatának rímeit számolják.

Ahogy az várható volt, a fiatal, dögös árusok, „csíkos pálcikák eladói” leszállították őket. A Gartner azonban megjósolja jövőbeli sikerüket az Enterprise térben. Ott lehet pénzt gyűjteni. A németek tudják ezt, szent-szent :) SAP-ot ne emlegessék!!!

Sokat tesznek a polgárokért! De az oldalról látható, hogy a Gartner szerint az értékesítési innovációval küszködnek, és nem a lefedettség szélességéért, hanem a jövedelmezőségért küzdenek.

Maradt SAS и Tibco tipikus BI-szállítók számomra... És mindkettő a legtetején van, ami megerősíti azt a meggyőződésemet, hogy a normál DataScience logikusan növekszik
a BI-ból, nem pedig a felhőkből és a Hadoop infrastruktúrákból. Az üzletből, vagyis és nem az informatikából. Például a Gazpromneftnél: link,Egy kiforrott DSML-környezet az erős BI-gyakorlatokból nő ki. De lehet, hogy pofátlan és elfogult az MDM és más dolgok iránt, ki tudja.

SAS

Nincs sok mondanivaló. Csak a nyilvánvaló dolgokat.

TIBCO

A stratégia egy oldalnyi Wiki oldalon található bevásárlólistában olvasható. Igen, hosszú történet, de 28!!! Károly. Még techno-fiatal koromban vettem a BI Spotfire-t (2007). És a Jaspersoft (2014), majd három prediktív analitikai szállító, az Insightful (S-plus) (2008), a Statistica (2017) és az Alpine Data (2017), az eseményfeldolgozó és streaming Streambase System (2013), az MDM Orchestra jelentése is. Networks (2018) és Snappy Data (2019) memórián belüli platform.

Szia Frankie!

Gartner MQ 2020 áttekintés: Gépi tanulási és mesterséges intelligencia platformok

Forrás: will.com

Hozzászólás