Gartner MQ 2020 Review: Machine Learning and Artificial Intelligence Platforms

Hè impussibile di spiegà u mutivu perchè aghju lettu questu. Aghju avutu solu u tempu è era interessatu à cumu u mercatu travaglia. È questu hè digià un mercatu cumpletu secondu Gartner dapoi u 2018. Da 2014-2016 hè stata chjamata analitica avanzata (radici in BI), in 2017 - Data Science (ùn sò micca sapè cumu traduce questu in Russu). Per quelli chì anu interessatu in i movimenti di venditori intornu à a piazza, pudete ccà fighjate. È parleraghju di a piazza 2020, soprattuttu chì i cambiamenti quì da u 2019 sò minimi: SAP si trasferì è Altair hà compru Datawatch.

Questu ùn hè micca un analisi sistematicu o una tavola. Una vista individuale, ancu da u puntu di vista di un geofisicu. Ma sò sempre curioso di leghje Gartner MQ, formulanu alcuni punti perfettamente. Allora quì sò e cose chì aghju prestatu attenzione à a tecnica, à u mercatu è à a filosofia.

Questu ùn hè micca per e persone chì sò prufonde in u tema di ML, ma per e persone chì sò interessate in ciò chì generalmente succede in u mercatu.

U mercatu DSML stessu nidifica logicamente trà i servizii di sviluppatore BI è Cloud AI.

Gartner MQ 2020 Review: Machine Learning and Artificial Intelligence Platforms

Citazioni è termini preferiti prima:

  • "Un capu pò esse micca a megliu scelta" - Un capu di u mercatu ùn hè micca necessariamente ciò chì avete bisognu. Assai urgente ! In cunseguenza di a mancanza di un cliente funziunale, sò sempre à circà a suluzione "megliu", invece di quella "adatta".
  • "Uperazione di u mudellu" - abbreviatu cum'è MOPs. È ognunu hà un tempu duru cù i pugi ! - (u tema di pug cool face u mudellu di travaglià).
  • "Ambiente notebook" hè un cuncettu impurtante induve codice, cumenti, dati è risultati si riuniscenu. Questu hè assai chjaru, prumessu è pò riduce significativamente a quantità di codice UI.
  • "Radicata in OpenSource" - bè dettu - si radica in open source.
  • "Citizen Data Scientists" - tali dudes facili, tali lamers, micca esperti, chì necessitanu un ambiente visuale è ogni tipu di cose ausiliarii. Ùn codificanu micca.
  • "Demucrazia" - spessu usatu per significà "metta dispunibile à una gamma più larga di persone". Pudemu dì "demucratizà i dati" invece di u periculosu "liberà i dati" chì avemu usatu per aduprà. "Demucratizà" hè sempre una longa cuda è tutti i venditori correnu dopu. Perde in intensità di cunniscenza - guadagnà in accessibilità!
  • "Analisi di Dati Esplorativi - EDA" - considerazione di sti mezzi dispunibuli. Alcune statistiche. Un pocu di visualizazione. Qualcosa chì tutti facenu à un gradu o un altru. Ùn sapia micca chì ci era un nome per questu
  • "Riproducibilità" - massima preservazione di tutti i paràmetri ambientali, inputs è outputs in modu chì l'esperimentu pò esse ripetutu una volta realizatu. U terminu più impurtante per un ambiente di prova sperimentale!

So:

Alteryx

Interfaccia fresca, cum'è un ghjoculu. A scalabilità, sicuru, hè un pocu difficiule. In cunsiquenza, a cumunità Citizen di ingegneri intornu à u listessu cù tchotchkes à ghjucà. L'analisi hè tutta a vostra in una buttiglia. Mi hà ricurdatu di un cumplessu di analisi di dati di correlazione spettrale Coscad, chì hè stata programata in l'anni 90.

Anaconda

Cumunità attornu à l'esperti in Python è R. A fonte aperta hè grande per quessa. Hè risultatu chì i mo culleghi l'utilizanu tuttu u tempu. Ma ùn sapia micca.

DataBricks

Hè custituitu di trè prughjetti opensource - i sviluppatori di Spark anu rializatu un infernu di assai soldi dapoi u 2013. Aghju veramente da citarà a wiki:

"In settembre di u 2013, Databricks hà annunziatu chì avia raccoltu $ 13.9 milioni da Andreessen Horowitz. A cumpagnia hà riunitu $ 33 milioni in 2014, $ 60 milioni in 2016, $ 140 milioni in 2017, $ 250 milioni in 2019 (febbraio) è $ 400 milioni in 2019 (ottobre) "!!!

Alcune grandi persone taglianu Spark. Ùn sò micca, scusate !

È i prughjetti sò:

  • Delta Lake - ACID on Spark hè statu liberatu di pocu tempu (ciò chì avemu sunniatu cù Elasticsearch) - si trasforma in una basa di dati: schema rigidu, ACID, auditing, versioni...
  • Flussu ML - seguimentu, imballaggio, gestione è almacenamentu di mudelli.
  • koalas - Pandas DataFrame API in Spark - Pandas - Python API per travaglià cù e tabelle è dati in generale.

Pudete guardà Spark per quelli chì ùn sanu micca o anu scurdatu: ссылка. Aghju vistu video cù esempi di picchi di cunsulenza un pocu noiosi ma dettagliati: DataBricks for Data Science (ссылка) è per l'ingegneria di dati (ссылка).

In corta, Databricks tira fora Spark. Qualchidunu chì vulete usà Spark nurmalmente in u nuvulu piglia DataBricks senza esitazione, cum'è destinatu 🙂 Spark hè u principale differenziatore quì.
Aghju amparatu chì Spark Streaming ùn hè micca un veru falsu in tempu reale o microbatching. È s'è avete bisognu di tempu Reale Reale, hè in Apache STORM. Tutti dicenu ancu è scrive chì Spark hè megliu cà MapReduce. Questu hè u slogan.

DATAIKU

Una cosa fresca da a fine à a fine. Ci sò assai publicità. Ùn aghju micca capitu cumu si differe di Alteryx?

DataRobot

Paxata per a preparazione di dati hè una cumpagnia separata chì hè stata compru da Data Robots in dicembre 2019. Avemu risuscitatu 20 MUSD è vindutu. Tuttu in 7 anni.

Preparazione di dati in Paxata, micca Excel - vede quì: ссылка.
Ci sò ricerche automatiche è pruposte per unisce trà dui datasets. Una grande cosa - per capiscenu i dati, ci saria ancu più enfasi nantu à l'infurmazioni testuali (ссылка).
Data Catalog hè un eccellente catalogu di inutili datasets "live".
Hè ancu interessante cumu si formanu cartulari in Paxata (ссылка).

"Sicondu a ditta di l'analista Ovulu, u prugrammu hè pussibule à traversu avanzamenti in analisi predittiva, machine learning e lu NoSQL metodulugia di cache di dati.[15] U software usa semantica algoritmi per capisce u significatu di e colonne di una tabella di dati è algoritmi di ricunniscenza di mudelli per truvà duplicati potenziali in un set di dati.[15][7] Utilizeghja ancu l'indexazione, u ricunniscenza di mudelli di testu è altre tecnulugia tradiziunale truvate in e social media è in u software di ricerca ".

U pruduttu principale di Data Robot hè ccà. U so slogan hè da u mudellu à l'applicazione Enterprise ! Aghju trovu cunsultazione per l'industria petrolifera in cunnessione cù a crisa, ma era assai banale è pocu interessante: ссылка. Aghju vistu i so video nantu à Mops o MLops (ссылка). Questu hè un tali Frankenstein assemblatu da 6-7 acquisti di diversi prudutti.

Di sicuru, diventa chjaru chì un grande squadra di Data Scientists deve avè solu un tali ambiente per travaglià cù mudelli, altrimenti pruduceranu assai di elli è mai implementà nunda. È in a nostra realità upstream di petroliu è di gasu, se solu pudemu creà un mudellu di successu, questu seria un grande prugressu!

U prucessu stessu era assai reminiscente di u travagliu cù sistemi di designu in geologia-geofisica, per esempiu Seebär. Tutti quelli chì ùn sò micca troppu pigri facenu è mudificanu mudelli. Raccoglie dati in u mudellu. Allora anu fattu un mudellu di riferimentu è u mandò à a pruduzzione! Trà, dì, un mudellu geologicu è un mudellu ML, pudete truvà assai in cumunu.

Domino

Enfasi nantu à a piattaforma aperta è a cullaburazione. L'utilizatori di l'affari sò ammessi gratuitamente. U so Data Lab hè assai simili à sharepoint. (È u nome smacks fortemente di IBM). Tutti l'esperimenti liganu à u dataset originale. Cume hè familiarizatu questu 🙂 Cum'è in a nostra pratica - alcuni dati sò stati trascinati in u mudellu, dopu hè stata pulita è messa in ordine in u mudellu, è tuttu questu hè digià in u mudellu è l'estremità ùn si ponu truvà in i dati fonte.

Domino hà una virtualizazione d'infrastruttura fantastica. Aghju assemblatu a macchina quant'è nuclei quant'è necessariu in un secondu è andò à cuntà. Cumu hè stata fatta ùn hè micca chjaru immediatamente. Docker hè in ogni locu. Tanta libertà ! Ogni spaziu di travagliu di l'ultime versioni ponu esse cunnessi. Lanciamentu parallelu di esperimenti. Tracking è selezzione di quelli chì sò successu.

U listessu cum'è DataRobot - i risultati sò publicati per l'utilizatori di cummerciale in forma di applicazioni. Per i "stakeholders" particularmente dotati. È l'usu propiu di i mudelli hè ancu monitoratu. Tuttu per i Pugs!

Ùn aghju micca capitu cum'è mudelli cumplessi finiscinu in a produzzione. Un tipu di API hè furnitu per alimentalli dati è ottene risultati.

H2O

Driveless AI hè un sistema assai compactu è intuitivu per ML Supervisatu. Tuttu in una scatula. Ùn hè micca cumplettamente chjaru subitu nantu à u backend.

U mudellu hè imballatu automaticamente in un servitore REST o App Java. Questa hè una grande idea. Hè statu fattu assai per l'interpretabilità è l'esplicabilità. Interpretazione è spiegazione di i risultati di u mudellu (Ciò chì intrinsecamente ùn deve esse spiegabile, altrimenti una persona pò calculà u listessu?).
Per a prima volta, un studiu di casu nantu à dati micca strutturati è NLP. Stampa architettonica di alta qualità. È in generale mi piacevanu i ritratti.

Ci hè un grande framework H2O open source chì ùn hè micca sanu sanu chjaru (un settore di algoritmi / biblioteche?). U vostru propiu laptop visuale senza prugrammazione cum'è Jupiter (ссылка). Aghju ancu leghje nantu à i mudelli Pojo è Mojo - H2O impannillati in Java. U primu hè simplicemente, u sicondu cù ottimisazione. H20 sò l'unichi (!) à quale Gartner hà listatu l'analisi di testu è a NLP cum'è i so punti di forza, è ancu i so sforzi in quantu à l'Explanability. Hè assai impurtante!

In u stessu locu: altu rendiment, ottimisazione è standard industriale in u campu di integrazione cù hardware è nuvole.

È a debulezza hè logica - Driverles AI hè debule è strettu cumparatu cù a so fonte aperta. A preparazione di dati hè zoppa paragunata à Paxata! E ignoranu i dati industriali - stream, graph, geo. Ebbè, tuttu ùn pò esse solu bè.

KNIME

Mi sò piaciuti i 6 casi di cummerciale assai specifichi, assai interessanti nantu à a pagina principale. Forte OpenSource.

Gartner li ha ridotti da leader a visionari. Guadagnà pocu soldi hè un bonu signu per l'utilizatori, postu chì u Leader ùn hè micca sempre a megliu scelta.

A parolla chjave, cum'è in H2O, hè aumentata, chì significa aiutà i scienziati di dati di i citadini poveri. Questa hè a prima volta chì qualcunu hè statu criticatu per u rendiment in una rivista! Interessante? Vale à dì, ci hè tanta putenza di computing chì u rendiment ùn pò micca esse un prublema sistemicu in tuttu? Gartner hà circa sta parolla "Augmentatu" articulu separatu, chì ùn pudia esse ghjunghje.
E KNIME pare esse u primu non-americanu in a rivista! (È i nostri diseggiani piacevanu assai a so pagina di destinazione. Genti strani.

MathWorks

MatLab hè un vechju camaradu onorariu cunnisciutu da tutti ! Strumenti per tutti i campi di vita è situazioni. Qualcosa assai diversu. In fatti, assai è assai è assai matematica per tuttu in a vita !

Un pruduttu add-on Simulink per u disignu di u sistema. Aghju scavatu in cassette di strumenti per Digital Twins - ùn aghju micca capitu nunda, ma ccà assai hè statu scrittu. Per industria petrolifera. In generale, questu hè un pruduttu fundamentalmente sfarente da a prufundità di a matematica è l'ingenieria. Per selezziunà specifichi toolkits di matematica. Sicondu Gartner, i so prublemi sò listessi à quelli di l'ingegneri intelligenti - senza cullaburazione - ognunu rumma in u so propiu mudellu, nè demucrazia, nè spiegabilità.

RapidMiner

Aghju scontru è intesu assai prima (inseme cù Matlab) in u cuntestu di una bona fonte aperta. Aghju scavatu un pocu in TurboPrep cum'è di solitu. Sò interessatu à cumu uttene dati puliti da dati brutti.

In novu, pudete vede chì e persone sò bè ​​​​basatu nantu à i materiali di marketing 2018 è i terribili persone chì parlanu inglese à a demo di funziunalità.

E persone di Dortmund da u 2001 cù una forte sfondate tedesca)

Gartner MQ 2020 Review: Machine Learning and Artificial Intelligence Platforms
Ùn aghju micca capitu da u situ esattamente ciò chì hè dispunibule in open source - avete bisognu di scavà più profonda. Boni video nantu à l'implementazione è i cuncetti AutoML.

Ùn ci hè nunda di speciale nantu à u backend di RapidMiner Server. Serà prubabilmente compactu è travaglià bè nantu à premium fora di a scatula. Hè imballatu in Docker. Ambiente spartutu solu nantu à u servitore RapidMiner. È dopu ci hè Radoop, dati da Hadoop, cuntendu rime da Spark in u flussu di travagliu di Studio.

Cum'è s'aspittava, i ghjovani venditori caldi "venditori di bastoni strisciati" li trasfirìu. Gartner, però, predice u so successu futuru in u spaziu Enterprise. Pudete cullà soldi quì. I tedeschi sanu fà questu, santu-santu :) Ùn dite micca SAP !!!

Facenu assai per i citadini ! Ma da a pagina pudete vede chì Gartner dice ch'elli sò in lotta cù l'innuvazione di vendita è ùn si battenu micca per a larghezza di a cobertura, ma per a prufittuità.

Restava SAS и Tibco venditori tipici di BI per mè ... È i dui sò in cima, chì cunfirma a mo cunfidenza chì a DataScience normale hè logicamente crescente.
da BI, è micca da nuvole è infrastrutture Hadoop. Da l'affari, questu, è micca da l'IT. Cum'è in Gazpromneft per esempiu: ссылка,Un ambiente DSML maturu nasce da forti pratiche di BI. Ma forsi hè smacky è biased versu MDM è altre cose, chì sà.

SAS

Ùn ci hè assai da dì. Solu e cose evidenti.

TIBCO

A strategia hè letta in una lista di shopping nantu à una pagina Wiki longa. Iè, longa storia, ma 28 !!! Carlu. Aghju compru BI Spotfire (2007) in u mo techno-gioventu. È ancu rappurtazioni da Jaspersoft (2014), allora quant'è trè venditori di analisi predittiva Insightful (S-plus) (2008), Statistica (2017) è Alpine Data (2017), elaborazione di eventi è streaming Streambase System (2013), MDM Orchestra. Networks (2018) è Snappy Data (2019) piattaforma in memoria.

Salutami Frankie !

Gartner MQ 2020 Review: Machine Learning and Artificial Intelligence Platforms

Source: www.habr.com

Add a comment