ProHoster > Blog > Adminisztráció > Gartner MQ 2020 áttekintés: Gépi tanulási és mesterséges intelligencia platformok
Gartner MQ 2020 áttekintés: Gépi tanulási és mesterséges intelligencia platformok
Lehetetlen megmagyarázni, miért olvastam ezt. Csak volt időm, és érdekelt a piac működése. És ez már egy teljes értékű piac a Gartner szerint 2018 óta. 2014-2016 között fejlett elemzésnek (a BI-ben gyökerező), 2017-ben Data Science-nek hívták (nem tudom, hogyan kell ezt oroszra fordítani). Azok számára, akiket érdekelnek az árusok mozgása a téren, megteheti itt néz. És a 2020-as térről fogok beszélni, főleg, hogy ott 2019 óta minimálisak a változások: az SAP kiköltözött, az Altair pedig megvásárolta a Datawatchot.
Ez nem egy szisztematikus elemzés vagy egy táblázat. Egyéni nézet, geofizikus szemszögéből is. De mindig kíváncsian olvasom a Gartner MQ-t, remekül megfogalmaznak néhány pontot. Tehát itt vannak azok a dolgok, amelyekre technikailag, piacilag és filozófiailag is odafigyeltem.
Ez nem azoknak szól, akik mélyen belemerültek az ML témájába, hanem azoknak, akiket érdekel, mi történik általában a piacon.
Maga a DSML piac logikusan fészkelődik a BI és a Cloud AI fejlesztői szolgáltatások között.
Először a kedvenc idézetek és kifejezések:
"Lehet, hogy a vezető nem a legjobb választás" — A piacvezető nem feltétlenül az, amire szüksége van. Nagyon sürgős! A működőképes ügyfél hiánya miatt mindig a „legjobb” megoldást keresik, nem pedig a „megfelelőt”.
"Modell operacionalizálás" - rövidítve MOP. És mindenki nehezen viseli a mopszokat! – (a menő mopsz téma működőképessé teszi a modellt).
"Notebook környezet" egy fontos fogalom, ahol a kód, a megjegyzések, az adatok és az eredmények találkoznak. Ez nagyon világos, ígéretes, és jelentősen csökkentheti az UI kód mennyiségét.
"OpenSource-ban gyökerezik" - jól mondta - gyökeret ereszt a nyílt forráskódban.
"Citizen Data Scientists" - ilyen könnyed csávók, ilyen lamerek, nem szakértők, akiknek vizuális környezet kell és mindenféle segédlet. Nem kódolnak.
"Demokrácia" – gyakran azt jelenti, hogy „az emberek szélesebb köre számára elérhetővé kell tenni”. Mondhatjuk, hogy „demokratizáld az adatokat” a korábban használt veszélyes „adatmentesítsd” helyett. A „demokratizálódás” mindig hosszú farok, és minden árus utána fut. Veszteskedj a tudásintenzitásban – gyarapítsd a hozzáférhetőséget!
„Feltáró adatelemzés – EDA” — ezeknek a rendelkezésre álló eszközöknek a mérlegelése. Néhány statisztika. Egy kis vizualizáció. Valami, amit ilyen vagy olyan mértékben mindenki csinál. Nem tudtam, hogy van ennek neve
"Reprodukálhatóság" — az összes környezeti paraméter, bemenet és kimenet maximális megőrzése annak érdekében, hogy a kísérlet végrehajtása után megismételhető legyen. A kísérleti tesztkörnyezet legfontosabb kifejezése!
Tehát:
Alteryx
Menő felület, akár egy játék. A méretezhetőség persze kicsit nehézkes. Ennek megfelelően a Citizen közösség a mérnökök ugyanazt a tchotchkes játszani. Az elemzés az Öné egy üvegben. A spektrális-korrelációs adatelemzés komplexumára emlékeztetett Coscad, amelyet a 90-es években programoztak.
Anakonda
Közösség Python és R szakértők körül. A nyílt forráskód ennek megfelelően nagy. Kiderült, hogy a kollégáim állandóan használják. De nem tudtam.
DataBricks
Három nyílt forráskódú projektből áll – a Spark fejlesztői pokolian sok pénzt gyűjtöttek össze 2013 óta. Igazából a wikit kell idéznem:
„2013 szeptemberében a Databricks bejelentette, hogy 13.9 millió dollárt gyűjtött össze Andreessen Horowitztól. A cég további 33 millió dollárt gyűjtött 2014-ben, 60 milliót 2016-ban, 140 milliót 2017-ben, 250 milliót 2019-ben (februárban) és 400 millió dollárt 2019-ben (októberben)”!!!
Néhány nagyszerű ember megvágta Sparkot. Nem tudom, bocsi!
A projektek pedig a következők:
Delta-tó - Nemrég megjelent az ACID on Spark (amiről az Elasticsearch-el álmodtunk) - adatbázissá alakítja: merev séma, ACID, auditálás, verziók...
ML Flow — a modellek nyomon követése, csomagolása, kezelése és tárolása.
koalák - Pandas DataFrame API a Sparkon - Pandas - Python API a táblákkal és általában az adatokkal való munkavégzéshez.
Megnézheti a Sparkot azok számára, akik nem tudják, vagy elfelejtették: link. Néztem videókat példákkal kicsit unalmas, de részletgazdag tanácsadó harkályoktól: DataBricks for Data Science (link) és az adatmérnöki (link).
Röviden: Databricks kihúzza a Sparkot. Aki normálisan szeretné használni a Sparkot a felhőben, habozás nélkül veszi a DataBricks-et, szándékának megfelelően 🙂 Itt a Spark a fő megkülönböztető.
Megtudtam, hogy a Spark Streaming nem valódi hamis valós idejű vagy mikrobatching. És ha valódi valós idejűre van szüksége, az Apache STORM-ban található. Mindenki azt mondja és írja is, hogy a Spark jobb, mint a MapReduce. Ez a szlogen.
DATAIKU
Menő végponttól-végig dolog. Rengeteg reklám van. Nem értem, miben különbözik az Alteryxtől?
DataRobot
Az adatelőkészítő Paxata egy különálló cég, amelyet 2019 decemberében vásárolt meg a Data Robots. Összegyűjtöttünk 20 MUSD-t és eladtuk. Mindezt 7 év alatt.
Adatok előkészítése Paxatában, nem Excelben - lásd itt: link.
Vannak automatikus keresések és javaslatok két adatkészlet közötti összekapcsolásra. Nagyszerű dolog - az adatok megértéséhez még nagyobb hangsúlyt kapna a szöveges információ (link).
A Data Catalog a haszontalan „élő” adatkészletek kiváló katalógusa.
Az is érdekes, hogy a könyvtárak hogyan alakulnak ki a Paxatában (link).
„Az elemzőcég szerint Petesejt, a szoftver a fejlesztések révén válik lehetővé prediktív elemzés, gépi tanulás és a NoSQL adatgyorsítótárazási módszertan.[15] A szoftver használ szemantikus algoritmusok az adattábla oszlopainak jelentésének megértéséhez és mintafelismerő algoritmusok az adathalmaz lehetséges ismétlődéseinek megtalálásához.[15][7] Ezenkívül indexelést, szövegminta-felismerést és más, a közösségi médiában és a keresőszoftverekben hagyományosan megtalálható technológiákat is használ.”
A Data Robot fő terméke az itt. Szlogenjük a modelltől a vállalati alkalmazásig! A válsággal kapcsolatban az olajiparnak szóló tanácsadást találtam, de ez nagyon banális és érdektelen volt: link. Megnéztem a videóikat Mopson vagy MLops-on (link). Ez egy ilyen Frankenstein, amely 6-7 különféle termék beszerzéséből áll össze.
Természetesen világossá válik, hogy a Data Scientist egy nagy csapatának pontosan ilyen környezettel kell rendelkeznie a modellekkel való munkavégzéshez, különben sokat fognak gyártani belőlük, és soha nem telepítenek semmit. És a mi olaj- és gáztermelési valóságunkban, ha csak egyetlen sikeres modellt tudnánk létrehozni, az nagy előrelépés lenne!
Maga a folyamat nagyon emlékeztetett például a geológiai-geofizikai tervezési rendszerekkel végzett munkára viharmadár. Mindenki, aki nem túl lusta, modelleket készít és módosít. Gyűjtsön adatokat a modellbe. Aztán készítettek egy referenciamodellt és elküldték a gyártásba! Mondjuk egy geológiai modell és egy ML modell között sok közös vonást lehet találni.
Dominó
A hangsúly a nyílt platformon és az együttműködésen van. Az üzleti felhasználók számára a belépés ingyenes. A Data Lab nagyon hasonlít a sharepoint-hoz. (És a név erősen az IBM-re pompázik). Minden kísérlet az eredeti adatkészlethez kapcsolódik. Ez mennyire ismerős :) Ahogy a gyakorlatunkban - néhány adatot behúztak a modellbe, majd kitisztították és rendbe tették a modellben, és mindez már ott él a modellben és a vége nem található meg a forrás adatokban .
A Domino nagyszerű infrastruktúra-virtualizációval rendelkezik. Egy másodperc alatt annyi magot állítottam össze a gépben, amennyi szükséges, és mentem számolni. Hogy ez hogyan történt, az nem derült ki azonnal. Docker mindenhol ott van. Sok szabadságot! A legújabb verziók bármelyik munkaterülete csatlakoztatható. Kísérletek párhuzamos indítása. A sikeresek nyomon követése és kiválasztása.
Ugyanaz, mint a DataRobot - az eredményeket az üzleti felhasználók számára alkalmazások formájában teszik közzé. Különösen tehetséges „stakeholderek” számára. És a modellek tényleges használatát is figyelemmel kísérik. Mindent a Pugsért!
Nem teljesen értem, hogy az összetett modellek hogyan kerülnek gyártásba. Valamilyen API-t biztosítanak az adatok betáplálásához és az eredmények eléréséhez.
H2O
A Driveless AI egy nagyon kompakt és intuitív rendszer a felügyelt ML-hez. Minden egy dobozban. Nem teljesen egyértelmű azonnal a háttérrel kapcsolatban.
A modell automatikusan REST szerverbe vagy Java alkalmazásba kerül. Ez egy nagyszerű ötlet. Sokat tettek az értelmezhetőség és a megmagyarázhatóság érdekében. A modell eredményeinek értelmezése és magyarázata (Mi az, ami eleve nem lehet megmagyarázható, különben az ember ugyanezt ki tudja számolni?).
Első alkalommal esettanulmány a strukturálatlan adatokról és NLP. Kiváló minőségű építészeti kép. És általában tetszettek a képek.
Van egy nagy nyílt forráskódú H2O keretrendszer, amely nem teljesen tiszta (algoritmusok/könyvtárak halmaza?). Saját vizuális laptop programozás nélkül, mint a Jupiter (link). Olvastam a Java-ba csomagolt Pojo és Mojo - H2O modellekről is. Az első egyszerű, a második optimalizálással. A Gartner a H20 az egyetlen(!), akinek a szövegelemzést és az NLP-t erősségeikként, valamint a megmagyarázhatóságra irányuló erőfeszítéseiket sorolta fel. Ez nagyon fontos!
Ugyanitt: nagy teljesítmény, optimalizálás és iparági szabvány a hardverrel és felhőkkel való integráció terén.
A gyengeség pedig logikus – a Driverles AI gyenge és szűk a nyílt forráskódukhoz képest. Az adatkészítés sántít a Paxatához képest! És figyelmen kívül hagyják az ipari adatokat – folyam, grafikon, földrajzi. Nos, minden nem lehet csak jó.
BÉKE
A főoldalon a 6 nagyon konkrét, nagyon érdekes üzleti eset tetszett. Erős OpenSource.
A Gartner vezetőkből látnokokká tette le őket. A rossz pénzkereset jó jel a felhasználók számára, tekintve, hogy a Leader nem mindig a legjobb választás.
A kulcsszó, akárcsak a H2O-ban, kibővült, ami a szegény állampolgári adatokkal foglalkozó tudósok megsegítését jelenti. Ez az első alkalom, hogy valakit kritizálnak teljesítménye miatt egy értékelésben! Érdekes? Vagyis akkora a számítási teljesítmény, hogy a teljesítmény egyáltalán nem lehet rendszerszintű probléma? A Gartner körülbelül ezt a szót „kibővített” külön cikk, amelyet nem lehetett elérni.
És úgy tűnik, hogy a KNIME az első nem amerikai a felülvizsgálatban! (És tervezőinknek nagyon tetszett a nyitóoldaluk. Furcsa emberek.
MathWorks
A MatLab egy régi tiszteletbeli elvtárs, akit mindenki ismer! Eszköztárak az élet minden területére és helyzetére. Valami nagyon más. Valójában az életben mindenhez sok-sok-sok matematika!
Simulink kiegészítő termék rendszertervezéshez. Beleástam a Digital Twins eszköztárába – semmit sem értek belőle, de itt sokat írtak. Mert olajipar. Általában véve ez egy alapvetően eltérő termék a matematika és a mérnöki tudományok mélységétől. Adott matematikai eszközkészletek kiválasztása. A Gartner szerint az ő problémáik ugyanazok, mint az okosmérnökeké - nincs együttműködés - mindenki a saját modelljében turkál, nincs demokrácia, nincs megmagyarázhatóság.
Gyorsbetűs
Sokat találkoztam és hallottam már (a Matlab mellett) a jó nyílt forráskóddal összefüggésben. Szokás szerint beleástam egy kicsit a TurboPrepbe. Érdekel, hogyan lehet tiszta adatokat nyerni a piszkos adatokból.
Ismét látható, hogy az emberek jók a 2018-as marketinganyagok és a rémisztő angolul beszélő emberek alapján a bemutatón.
És dortmundi emberek 2001 óta, erős német háttérrel)
Még mindig nem értem az oldalról, hogy pontosan mi érhető el nyílt forráskódban - mélyebbre kell ásni. Jó videók a telepítésről és az AutoML koncepciókról.
A RapidMiner Server háttérrendszerében sincs semmi különös. Valószínűleg kompakt lesz, és jól működik a prémium kategóriás változatban. Dockerben van csomagolva. Megosztott környezet csak a RapidMiner szerveren. Aztán ott van a Radoop, a Hadoop adatai, amelyek a Spark in Studio-munkafolyamatának rímeit számolják.
Ahogy az várható volt, a fiatal, dögös árusok, „csíkos pálcikák eladói” leszállították őket. A Gartner azonban megjósolja jövőbeli sikerüket az Enterprise térben. Ott lehet pénzt gyűjteni. A németek tudják ezt, szent-szent :) SAP-ot ne emlegessék!!!
Sokat tesznek a polgárokért! De az oldalról látható, hogy a Gartner szerint az értékesítési innovációval küszködnek, és nem a lefedettség szélességéért, hanem a jövedelmezőségért küzdenek.
Maradt SAS и Tibco tipikus BI-szállítók számomra... És mindkettő a legtetején van, ami megerősíti azt a meggyőződésemet, hogy a normál DataScience logikusan növekszik
a BI-ból, nem pedig a felhőkből és a Hadoop infrastruktúrákból. Az üzletből, vagyis és nem az informatikából. Például a Gazpromneftnél: link,Egy kiforrott DSML-környezet az erős BI-gyakorlatokból nő ki. De lehet, hogy pofátlan és elfogult az MDM és más dolgok iránt, ki tudja.
SAS
Nincs sok mondanivaló. Csak a nyilvánvaló dolgokat.
TIBCO
A stratégia egy oldalnyi Wiki oldalon található bevásárlólistában olvasható. Igen, hosszú történet, de 28!!! Károly. Még techno-fiatal koromban vettem a BI Spotfire-t (2007). És a Jaspersoft (2014), majd három prediktív analitikai szállító, az Insightful (S-plus) (2008), a Statistica (2017) és az Alpine Data (2017), az eseményfeldolgozó és streaming Streambase System (2013), az MDM Orchestra jelentése is. Networks (2018) és Snappy Data (2019) memórián belüli platform.