Pregled Gartner MQ 2020: platforme strojnega učenja in umetne inteligence

Nemogoče je pojasniti razlog, zakaj sem to prebral. Imel sem le čas in zanimalo me je, kako deluje trg. In to je že polnopravni trg po Gartnerju od leta 2018. Od leta 2014 do 2016 se je imenovala napredna analitika (korenine v BI), leta 2017 - Data Science (ne vem, kako to prevesti v ruščino). Za tiste, ki jih zanima gibanje prodajalcev po trgu, lahko tukaj poglej. In govoril bom o kvadratu 2020, še posebej, ker so tam spremembe od leta 2019 minimalne: SAP se je odselil in Altair je kupil Datawatch.

To ni sistematična analiza ali tabela. Individualni pogled, tudi z vidika geofizika. Vedno pa z zanimanjem berem Gartner MQ, saj odlično formulirajo nekatere točke. Tukaj so torej stvari, na katere sem bil pozoren tako tehnično, tržno kot filozofsko.

To ni za ljudi, ki so globoko v temo ML, ampak za ljudi, ki jih zanima, kaj se na splošno dogaja na trgu.

Sam trg DSML se logično ugnezdi med storitve za razvijalce BI in Cloud AI.

Pregled Gartner MQ 2020: platforme strojnega učenja in umetne inteligence

Najprej priljubljeni citati in izrazi:

  • "Vodja morda ni najboljša izbira" — Vodilni na trgu ni nujno tisto, kar potrebujete. Zelo nujno! Zaradi pomanjkanja funkcionalne stranke vedno iščejo »najboljšo« rešitev, ne pa »primerno«.
  • "Operacionalizacija modela" - skrajšano MOPs. In z mopsi je vsem težko! – (model deluje s temo kul mops).
  • "Okolje prenosnika" je pomemben koncept, kjer se združijo koda, komentarji, podatki in rezultati. To je zelo jasno, obetavno in lahko znatno zmanjša količino kode uporabniškega vmesnika.
  • "Ukoreninjeno v OpenSource" - dobro povedano - korenini se v odprti kodi.
  • "Citizen Data Scientists" - tako preprosti tipi, takšni lamerji, ne strokovnjaki, ki potrebujejo vizualno okolje in vse vrste pomožnih stvari. Ne bodo kodirali.
  • "demokracija" — pogosto uporabljeno v pomenu "dati na voljo širšemu krogu ljudi." Lahko rečemo "demokratizirati podatke" namesto nevarnega "osvoboditi podatke", ki smo ga uporabljali včasih. »Demokratizacija« je vedno dolg rep in vsi prodajalci tečejo za njim. Izgubite na intenzivnosti znanja - pridobite na dostopnosti!
  • "Raziskovalna analiza podatkov - EDA" — upoštevanje teh razpoložljivih sredstev. Nekaj ​​statistike. Malo vizualizacije. Nekaj, kar v eni ali drugi meri počnejo vsi. Nisem vedel, da obstaja ime za to
  • "Ponovljivost" — največje možno ohranjanje vseh okoljskih parametrov, vnosov in izhodov, tako da se poskus lahko ponovi, ko je izveden. Najpomembnejši izraz za eksperimentalno testno okolje!

Torej:

Alteryx

Kul vmesnik, kot igrača. Razširljivost je seveda nekoliko težavna. V skladu s tem je skupnost inženirjev Citizen približno enaka s tchotchkesom za igranje. Analytics je vse vaše v eni steklenici. Spomnil me je na kompleks spektralno-korelacijske analize podatkov Coscad, ki je bil programiran v 90. letih.

anaconda

Skupnost okoli strokovnjakov za Python in R. Odprta koda je temu primerno velika. Izkazalo se je, da ga moji kolegi uporabljajo ves čas. Ampak nisem vedel.

DataBricks

Sestavljen je iz treh odprtokodnih projektov - razvijalci Spark so od leta 2013 zbrali hudičevo veliko denarja. Res moram citirati wiki:

»Septembra 2013 je Databricks objavil, da je od Andreessen Horowitz zbral 13.9 milijona dolarjev. Podjetje je zbralo dodatnih 33 milijonov dolarjev leta 2014, 60 milijonov dolarjev leta 2016, 140 milijonov dolarjev leta 2017, 250 milijonov dolarjev leta 2019 (februar) in 400 milijonov dolarjev leta 2019 (oktober)”!!!

Nekateri veliki ljudje so prekinili Spark. Ne vem, oprosti!

In projekti so:

  • Delta jezero - ACID na Spark je bil pred kratkim izdan (o čemer smo sanjali z Elasticsearch) - spremeni ga v zbirko podatkov: toga shema, ACID, revizija, različice ...
  • ML Flow — sledenje, pakiranje, upravljanje in shranjevanje modelov.
  • Koale - Pandas DataFrame API na Spark - Pandas - Python API za delo s tabelami in podatki na splošno.

Lahko si ogledate Spark za tiste, ki ne veste ali ste pozabili: povezava. Gledal sem videe s primeri nekoliko dolgočasnih, a podrobnih svetovalnih žoln: DataBricks for Data Science (povezava) in za podatkovno inženirstvo (povezava).

Skratka, Databricks izvleče Spark. Vsakdo, ki želi normalno uporabljati Spark v oblaku, brez obotavljanja vzame DataBricks, kot je predvideno 🙂 Spark je tukaj glavna razlika.
Naučil sem se, da Spark Streaming ni pravi ponaredek v realnem času ali mikroserija. In če potrebujete pravi realni čas, je to v Apache STORM. Vsi tudi govorijo in pišejo, da je Spark boljši od MapReduce. To je slogan.

DATAIKU

Kul stvar od konca do konca. Veliko je oglasov. Ne razumem, v čem se razlikuje od Alteryxa?

DataRobot

Paxata za pripravo podatkov je ločeno podjetje, ki ga je decembra 2019 kupil Data Robots. Zbrali smo 20 MUSD in prodali. Vse v 7 letih.

Priprava podatkov v Paxati, ne v Excelu - glejte tukaj: povezava.
Obstajajo samodejna iskanja in predlogi za združitve med dvema nizoma podatkov. Super stvar - za razumevanje podatkov bi bilo še več poudarka na besedilnih informacijah (povezava).
Data Catalog je odličen katalog neuporabnih "živih" naborov podatkov.
Zanimivo je tudi, kako se v Paxati oblikujejo imeniki (povezava).

"Po podatkih analitične družbe Jajčeca, je programska oprema omogočena z napredkom v napovedna analitika, strojno učenje in NoSQL metodologija predpomnjenja podatkov.[15] Programska oprema uporablja pomensko algoritmi za razumevanje pomena stolpcev podatkovne tabele in algoritmi za prepoznavanje vzorcev za iskanje morebitnih dvojnikov v nizu podatkov.[15][7] Uporablja tudi indeksiranje, prepoznavanje besedilnih vzorcev in druge tehnologije, ki jih tradicionalno najdemo v družbenih medijih in programski opremi za iskanje.«

Glavni izdelek podjetja Data Robot je tukaj. Njihov slogan je od modela do poslovne aplikacije! Našel sem svetovanje za naftno industrijo v povezavi s krizo, vendar je bilo zelo banalno in nezanimivo: povezava. Gledal sem njihove videe na Mops ali MLops (povezava). To je tak Frankenstein, sestavljen iz 6-7 nakupov različnih izdelkov.

Seveda postane jasno, da mora velika ekipa podatkovnih znanstvenikov imeti ravno takšno okolje za delo z modeli, sicer jih bodo proizvedli veliko in nikoli ničesar ne bodo uvedli. In v naši realnosti pridobivanja nafte in plina, če bi le lahko ustvarili en uspešen model, bi bil to velik napredek!

Sam proces je zelo spominjal na delo z načrtovalnimi sistemi v geologiji-geofiziki npr. Petrel. Vsakdo, ki ni preveč len, izdeluje in spreminja modele. Zberite podatke v model. Nato so naredili referenčni model in ga poslali v proizvodnjo! Med, recimo, geološkim modelom in modelom ML lahko najdete veliko skupnega.

Domino

Poudarek na odprti platformi in sodelovanju. Poslovnim uporabnikom je vstop brezplačen. Njihov Data Lab je zelo podoben sharepointu. (In ime močno diši po IBM-u). Vsi poskusi so povezani z izvirnim naborom podatkov. Kako se to pozna :) Kot v naši praksi - nekaj podatkov so povlekli v model, potem so jih očistili in uredili v modelu, vse to pa že živi tam v modelu in konca ni mogoče najti v izvornih podatkih. .

Domino ima kul virtualizacijo infrastrukture. V sekundi sem sestavil stroj toliko jeder, kolikor jih je bilo treba, in šel šteti. Kako je bilo to storjeno, ni takoj jasno. Docker je povsod. Veliko svobode! Povezati je mogoče vse delovne prostore najnovejših različic. Vzporedni zagon poskusov. Sledenje in izbor uspešnih.

Enako kot DataRobot - rezultati so objavljeni za poslovne uporabnike v obliki aplikacij. Za posebej nadarjene »deležnike«. Prav tako se spremlja dejanska uporaba modelov. Vse za Mopse!

Ne razumem popolnoma, kako zapleteni modeli končajo v proizvodnji. Na voljo je nekakšen API, ki jim daje podatke in pridobiva rezultate.

H2O

Driveless AI je zelo kompakten in intuitiven sistem za Supervised ML. Vse v eni škatli. Glede zaledja ni takoj povsem jasno.

Model se samodejno zapakira v strežnik REST ali aplikacijo Java. To je odlična ideja. Za interpretabilnost in razložljivost je bilo narejenega veliko. Interpretacija in razlaga rezultatov modela (Kaj inherentno ne bi smelo biti razložljivo, sicer lahko oseba izračuna isto?).
Prvič študija primera o nestrukturiranih podatkih in NLP. Visokokakovostna arhitekturna slika. In na splošno so mi bile slike všeč.

Obstaja veliko odprtokodno ogrodje H2O, ki ni povsem jasno (niz algoritmov/knjižnic?). Vaš lasten vizualni prenosnik brez programiranja kot Jupiter (povezava). Prebral sem tudi o modelih Pojo in Mojo - H2O, zavitih v Javo. Prvi je preprost, drugi z optimizacijo. H20 so edini(!), ki jim je Gartner med prednosti navedel besedilno analitiko in NLP ter prizadevanja glede razložljivosti. Zelo pomembno je!

Na istem mestu: visoka zmogljivost, optimizacija in industrijski standard na področju integracije s strojno opremo in oblaki.

In slabost je logična - Driverles AI je šibak in ozek v primerjavi z njihovo odprtokodno kodo. Priprava podatkov šepa v primerjavi s Paxato! In ignorirajo industrijske podatke - tok, graf, geo. No, vse ne more biti samo dobro.

KNIME

Všeč mi je bilo 6 zelo specifičnih, zelo zanimivih poslovnih primerov na glavni strani. Močan OpenSource.

Gartner jih je iz vodij degradiral v vizionarje. Slabo služenje denarja je dober znak za uporabnike, glede na to, da Leader ni vedno najboljša izbira.

Ključna beseda, tako kot v H2O, je razširjena, kar pomeni pomoč revnim državljanskim podatkovnim znanstvenikom. To je prvič, da je bil nekdo kritiziran zaradi uspešnosti v pregledu! zanimivo? Se pravi, da je računalniške moči toliko, da zmogljivost sploh ne more biti sistemski problem? Gartner ima o tej besedi "razširjeno" ločen članek, ki ni bil dosegljiv.
In zdi se, da je KNIME prvi neameričan v pregledu! (In našim oblikovalcem je bila zelo všeč njihova ciljna stran. Čudni ljudje.

MathWorks

MatLab je stari častni tovariš, ki ga poznajo vsi! Orodja za vsa področja življenja in situacije. Nekaj ​​zelo drugačnega. Pravzaprav veliko in veliko in veliko matematike za vse priložnosti v življenju!

Dodatni izdelek Simulink za načrtovanje sistema. Zakopal sem se v orodjarne za Digital Twins - o tem ne razumem ničesar, ampak tukaj veliko je bilo napisanega. Za naftna industrija. Na splošno je to bistveno drugačen izdelek iz globin matematike in inženiringa. Za izbiro posebnih kompletov matematičnih orodij. Po Gartnerjevih besedah ​​so njihovi problemi enaki kot pri pametnih inženirjih - ni sodelovanja - vsak brska po svojem modelu, ni demokracije, ni razložljivosti.

RapidMiner

Naletel in slišal sem že veliko (skupaj z Matlabom) v kontekstu dobre odprte kode. Kot ponavadi sem se malo poglobil v TurboPrep. Zanima me, kako iz umazanih podatkov dobiti čiste podatke.

Spet lahko vidite, da so ljudje dobri na podlagi marketinškega gradiva iz leta 2018 in grozno angleško govorečih ljudi v predstavitvi funkcije.

In ljudje iz Dortmunda od leta 2001 z močnim nemškim ozadjem)

Pregled Gartner MQ 2020: platforme strojnega učenja in umetne inteligence
Na spletnem mestu še vedno ne razumem, kaj točno je na voljo v odprti kodi - kopati morate globlje. Dobri videoposnetki o uvajanju in konceptih AutoML.

Tudi pri zaledju strežnika RapidMiner Server ni nič posebnega. Verjetno bo kompakten in bo dobro deloval na premium. Zapakiran je v Docker. Skupno okolje samo na strežniku RapidMiner. In potem je tu še Radoop, podatki iz Hadoopa, štetje rim iz Spark v poteku dela Studio.

Po pričakovanjih so jih mlade zagrete prodajalke »prodajalci črtastih palic« premaknile navzdol. Gartner pa napoveduje njihov prihodnji uspeh v podjetniškem prostoru. Tam lahko zbirate denar. Nemci to znajo narediti, svet-svet :) Ne omenjaj SAP!!!

Za državljane naredijo veliko! Iz strani pa je razvidno, da Gartner pravi, da se borijo s prodajno inovativnostjo in se ne borijo za širino pokritosti, ampak za dobičkonosnost.

Ostalo SAS и Tibco zame tipični ponudniki BI ... In oba sta v samem vrhu, kar potrjuje moje prepričanje, da običajna DataScience logično raste
iz BI in ne iz oblakov in infrastruktur Hadoop. Iz posla torej in ne iz IT-ja. Kot na primer v Gazpromneftu: povezava,Zrelo okolje DSML raste iz močnih praks poslovne inteligence. Morda pa je zafrkantski in pristranski do MDM in drugih stvari, kdo ve.

SAS

Ni veliko za povedati. Samo očitne stvari.

TIBCO

Strategija se prebere na nakupovalnem seznamu na strani dolgi strani Wiki. Ja, dolga zgodba, ampak 28!!! Charles. BI Spotfire (2007) sem kupil že v svoji tehno-mladosti. In še poročanje Jaspersofta (2014), nato kar treh ponudnikov napovedne analitike Insightful (S-plus) (2008), Statistica (2017) in Alpine Data (2017), obdelava dogodkov in pretakanje Streambase System (2013), MDM Orchestra Platforma Networks (2018) in Snappy Data (2019) v pomnilniku.

Živjo Frankie!

Pregled Gartner MQ 2020: platforme strojnega učenja in umetne inteligence

Vir: www.habr.com

Dodaj komentar