Gartner MQ 2020 Revizio: Maŝinlernado kaj Artefarita Inteligenteco Platformoj

Ne eblas klarigi la kialon, kial mi legis ĉi tion. Mi ĵus havis tempon kaj interesiĝis pri kiel funkcias la merkato. Kaj ĉi tio jam estas plentaŭga merkato laŭ Gartner ekde 2018. De 2014-2016 ĝi nomiĝis altnivela analizo (radikoj en BI), en 2017 - Data Science (mi ne scias kiel traduki tion en la rusan). Por tiuj, kiuj interesiĝas pri la movoj de vendistoj ĉirkaŭ la placo, vi povas tie rigardu. Kaj mi parolos pri la 2020-kvadrato, precipe ĉar la ŝanĝoj tie ekde 2019 estas minimumaj: SAP translokiĝis kaj Altair aĉetis Datawatch.

Ĉi tio ne estas sistema analizo aŭ tabelo. Individua vidpunkto, ankaŭ el la vidpunkto de geofizikisto. Sed mi ĉiam scivolas legi Gartner MQ, ili formulas iujn punktojn perfekte. Do jen la aferoj, pri kiuj mi atentis kaj teknike, merkate kaj filozofie.

Ĉi tio ne estas por homoj, kiuj profunde en la temo de ML, sed por homoj, kiuj interesiĝas pri tio, kio ĝenerale okazas en la merkato.

La DSML-merkato mem logike nestas inter BI kaj Cloud AI programservoj.

Gartner MQ 2020 Revizio: Maŝinlernado kaj Artefarita Inteligenteco Platformoj

Plej ŝatataj citaĵoj kaj terminoj unue:

  • "Gvidanto eble ne estas la plej bona elekto" — Merkata gvidanto ne estas nepre tio, kion vi bezonas. Tre urĝa! Sekve de la manko de funkcia kliento, ili ĉiam serĉas la "plej bonan" solvon, prefere ol la "taŭgan".
  • "Modelfunkciigo" - mallongigita kiel MOPoj. Kaj ĉiuj malfacilas kun pugoj! – (malvarmeta mopolo-temo igas la modelon funkcii).
  • "Notlibro-medio" estas grava koncepto kie kodo, komentoj, datumoj kaj rezultoj kuniĝas. Ĉi tio estas tre klara, promesplena kaj povas signife redukti la kvanton de UI-kodo.
  • "Enradikigite en OpenSource" - bone dirite - enradikiĝas en malferma fonto.
  • "Civitanaj Datumsciencistoj" — tiaj facilaj uloj, tiaj lameroj, ne spertuloj, kiuj bezonas vidan medion kaj ĉiajn helpaĵojn. Ili ne kodos.
  • "Demokratio" - ofte uzata por signifi "disponigi al pli larĝa gamo da homoj." Ni povas diri "demokratigi la datumojn" anstataŭ la danĝera "liberigi la datumojn", kiun ni kutimis uzi. "Demokratigi" ĉiam estas longa vosto kaj ĉiuj vendistoj kuras post ĝi. Perdi en sciointenseco - gajno en alirebleco!
  • "Esplora Datuma Analizo - EDA" — konsidero de tiuj disponeblaj rimedoj. Kelkaj statistikoj. Iom da bildigo. Io, kion ĉiuj faras unugrade aŭ alian. Mi ne sciis, ke ekzistas nomo por ĉi tio
  • "Reproduktebleco" — maksimuma konservado de ĉiuj mediaj parametroj, enigaĵoj kaj eliroj, por ke la eksperimento povu ripetiĝi unufoje plenumita. La plej grava termino por eksperimenta testa medio!

Do:

Alteryx

Mirinda interfaco, same kiel ludilo. Skalebleco, kompreneble, estas iom malfacila. Sekve, la Civitano komunumo de inĝenieroj ĉirkaŭ la sama kun tchotchkes ludi. Analytics estas ĉio via en unu botelo. Rememorigis min pri komplekso de spektra korelacia analizo de datumoj Coscad, kiu estis programita en la 90-aj jaroj.

Anakondo

Komunumo ĉirkaŭ Python kaj R-fakuloj. Malferma fonto estas granda sekve. Montriĝis, ke miaj kolegoj uzas ĝin la tutan tempon. Sed mi ne sciis.

DataBricks

Ĝi konsistas el tri malfermfontaj projektoj - la programistoj de Spark kolektis tre multe da mono ekde 2013. Mi vere devas citi la vikion:

"En septembro 2013, Databricks sciigis ke ĝi akiris 13.9 milionojn USD de Andreessen Horowitz. La kompanio akiris pliajn 33 milionojn USD en 2014, 60 milionojn USD en 2016, 140 milionojn USD en 2017, 250 milionojn USD en 2019 (Feb) kaj 400 milionojn USD en 2019 (Okt)"!!!

Iuj bonegaj homoj tranĉis Spark. Mi ne scias, pardonu!

Kaj la projektoj estas:

  • Delta Lago - ACID sur Spark ĵus estis publikigita (pri kio ni sonĝis kun Elasticsearch) - igas ĝin datumbazo: rigida skemo, ACID, revizio, versioj...
  • ML Fluo — spurado, pakado, administrado kaj konservado de modeloj.
  • Koaloj - Pandas DataFrame API sur Spark - Pandas - Python API por labori kun tabeloj kaj datumoj ĝenerale.

Vi povas rigardi Spark por tiuj, kiuj ne konas aŭ forgesis: ligilo. Mi spektis filmetojn kun ekzemploj de iomete enuigaj sed detalaj konsultaj pegoj: DataBricks por Data Science (ligilo) kaj por Datenĝenieristiko (ligilo).

Mallonge, Databricks eltiras Spark. Ĉiu, kiu volas uzi Spark normale en la nubo, prenas DataBricks senhezite, kiel celite 🙂 Spark estas la ĉefa diferenciganto ĉi tie.
Mi lernis, ke Spark Streaming ne estas vera falsa realtempa aŭ mikrobatado. Kaj se vi bezonas realan Realan tempon, ĝi estas en Apache STORM. Ĉiuj ankaŭ diras kaj skribas, ke Spark estas pli bona ol MapReduce. Jen la slogano.

DATAIKU

Mirinda fino-al-fina afero. Estas multaj reklamoj. Mi ne komprenas kiel ĝi diferencas de Alteryx?

DataRobot

Paxata por datumpreparo estas aparta kompanio, kiu estis aĉetita de Data Robots en decembro 2019. Ni akiris 20 MUSD kaj vendis. Ĉio en 7 jaroj.

Preparado de datumoj en Paxata, ne Excel - vidu ĉi tie: ligilo.
Estas aŭtomataj serĉoj kaj proponoj por kuniĝoj inter du datumaroj. Bonega afero - por kompreni la datumojn, estus eĉ pli da emfazo de tekstaj informoj (ligilo).
Datuma Katalogo estas bonega katalogo de senutilaj "vivaj" datumaroj.
Estas ankaŭ interese kiel dosierujoj estas formitaj en Paxata (ligilo).

“Laŭ analiza firmao Ovolo, la programaro estas ebligita per progresoj en prognozaj analizoj, maŝinlernado kaj la NoSQL metodologio de konservado de datumoj.[15] La programaro uzas semantika algoritmoj por kompreni la signifon de la kolumnoj de datentabelo kaj padronrekono-algoritmoj por trovi eblajn duplikatojn en datumaro.[15][7] Ĝi ankaŭ uzas indekson, tekstpadronrekonon kaj aliajn teknologiojn tradicie trovitajn en sociaj amaskomunikiloj kaj serĉsoftvaro."

La ĉefa produkto de Data Robot estas tie. Ilia slogano estas de Modelo al Enterprise Apliko! Mi trovis konsiladon por la naftoindustrio lige kun la krizo, sed ĝi estis tre banala kaj neinteresa: ligilo. Mi spektis iliajn filmetojn ĉe Mops aŭ MLops (ligilo). Ĉi tio estas tia Frankenstein kunvenita de 6-7 akiroj de diversaj produktoj.

Kompreneble, evidentiĝas, ke granda teamo de Datumsciencistoj devas havi ĝuste tian medion por labori kun modeloj, alie ili produktos multajn el ili kaj neniam deplojos ion ajn. Kaj en nia oleo kaj gaso kontraŭflua realo, se nur ni povus krei unu sukcesan modelon, tio estus granda progreso!

La procezo mem estis tre rememoriga pri la laboro kun dezajnosistemoj en geologio-geofiziko, ekzemple petrelo. Ĉiuj, kiuj ne estas tro maldiligentaj, faras kaj modifas modelojn. Kolektu datumojn en la modelon. Tiam ili faris referencan modelon kaj sendis ĝin al produktado! Inter, ekzemple, geologia modelo kaj ML-modelo, vi povas trovi multon komunan.

domeno

Emfazo sur malferma platformo kaj kunlaboro. Komercaj uzantoj estas akceptitaj senpage. Ilia Datuma Laboratorio estas tre simila al sharepoint. (Kaj la nomo forte odoras je IBM). Ĉiuj eksperimentoj ligas al la origina datumaro. Kiel konata ĉi tio estas :) Kiel en nia praktiko - iuj datumoj estis trenitaj en la modelon, tiam ĝi estis purigita kaj ordigita en la modelo, kaj ĉio ĉi jam vivas tie en la modelo kaj la finoj ne troveblas en la fontodatumoj. .

Domino havas bonegan infrastrukturan virtualigon. Mi kunvenis la maŝinon tiom da kernoj kiom necesas en sekundo kaj iris kalkuli. Kiel ĝi estis farita ne estas tuj klara. Docker estas ĉie. Multe da libereco! Ĉiuj laborspacoj de la plej novaj versioj povas esti konektitaj. Paralela lanĉo de eksperimentoj. Spurado kaj elekto de sukcesaj.

Same kiel DataRobot - la rezultoj estas publikigitaj por komercaj uzantoj en formo de aplikoj. Por speciale talentaj "koncernatoj". Kaj la reala uzo de la modeloj ankaŭ estas monitorita. Ĉio por Pugs!

Mi ne plene komprenas kiel kompleksaj modeloj finiĝas en produktado. Ia API estas provizita por nutri ilin datumoj kaj akiri rezultojn.

H2O

Driveless AI estas tre kompakta kaj intuicia sistemo por Supervised ML. Ĉio en unu skatolo. Ne estas tute klara tuj pri la backend.

La modelo estas aŭtomate pakita en REST-servilon aŭ Java App. Ĉi tio estas bonega ideo. Multo estis farita por Interpreteblo kaj Klarigebleco. Interpreto kaj klarigo de la rezultoj de la modelo (Kio esence ne estu klarigebla, alie homo povas kalkuli la samon?).
Por la unua fojo, kazesploro pri nestrukturitaj datumoj kaj NLP. Altkvalita arkitektura bildo. Kaj ĝenerale mi ŝatis la bildojn.

Estas granda malfermfonta H2O-kadro, kiu ne estas tute klara (aro de algoritmoj/bibliotekoj?). Via propra vida tekkomputilo sen programado kiel Jupitero (ligilo). Mi ankaŭ legis pri Pojo kaj Mojo - H2O-modeloj envolvitaj en Java. La unua estas simpla, la dua kun optimumigo. H20 estas la solaj (!) al kiuj Gartner listigis tekstan analizon kaj NLP kiel siajn fortojn, same kiel siajn klopodojn pri Klarigebleco. Ĝi estas tre grava!

En la sama loko: alta rendimento, optimumigo kaj industria normo en la kampo de integriĝo kun aparataro kaj nuboj.

Kaj la malforto estas logika - Driverles AI estas malforta kaj malvasta kompare kun ilia malferma fonto. Datumpreparo estas lama kompare kun Paxata! Kaj ili ignoras industriajn datumojn - stream, graph, geo. Nu, ĉio ne povas esti nur bona.

KNIME

Mi ŝatis la 6 tre specifajn, tre interesajn komercajn kazojn sur la ĉefpaĝo. Forta OpenSource.

Gartner degradis ilin de gvidantoj ĝis viziuloj. Gajni monon malbone estas bona signo por uzantoj, ĉar la Ĉefo ne ĉiam estas la plej bona elekto.

La ŝlosilvorto, kiel en H2O, estas pliigita, kio signifas helpi malriĉajn civitanajn datumajn sciencistojn. Ĉi tio estas la unua fojo, ke iu estas kritikita pro agado en recenzo! Interesaj? Tio estas, ekzistas tiom da komputika potenco, ke agado tute ne povas esti sistema problemo? Gartner havas pri ĉi tiu vorto "Pliigita" aparta artikolo, kiun oni ne povis atingi.
Kaj KNIME ŝajnas esti la unua ne-usona en la recenzo! (Kaj niaj projektistoj tre ŝatis sian landpaĝon. Strangaj homoj.

MathWorks

MatLab estas maljuna honora kamarado konata de ĉiuj! Ilujoj por ĉiuj areoj de vivo kaj situacioj. Io tre malsama. Fakte, multe kaj multe da matematiko por ĉio en la vivo!

Simulink aldonaĵo por sistemdezajno. Mi fosis en ilujojn por Digital Twins - mi komprenas nenion pri tio, sed tie multo estas skribita. Por naftoindustrio. Ĝenerale, ĉi tio estas fundamente malsama produkto de la profundoj de matematiko kaj inĝenierado. Elekti specifajn matematikajn ilaron. Laŭ Gartner, iliaj problemoj estas la samaj kiel tiuj de inteligentaj inĝenieroj - sen kunlaboro - ĉiu remagas en sia propra modelo, sen demokratio, sen klarigebleco.

RapidMiner

Mi renkontis kaj aŭdis multon antaŭe (kune kun Matlab) en la kunteksto de bona malferma fonto. Mi iom fosis en TurboPrep kiel kutime. Mi interesiĝas pri kiel akiri purajn datumojn de malpuraj datumoj.

Denove vi povas vidi, ke la homoj estas bonaj surbaze de la merkataj materialoj de 2018 kaj la teruraj anglalingvaj homoj ĉe la trajtodemo.

Kaj homoj el Dortmund ekde 2001 kun forta germana fono)

Gartner MQ 2020 Revizio: Maŝinlernado kaj Artefarita Inteligenteco Platformoj
Mi ankoraŭ ne komprenas de la retejo, kio precize disponeblas en malferma fonto - vi devas fosi pli profunde. Bonaj filmetoj pri deplojo kaj AutoML-konceptoj.

Ankaŭ estas nenio speciala pri la RapidMiner Server-backend. Ĝi verŝajne estos kompakta kaj funkcios bone sur premium el la skatolo. Ĝi estas pakita en Docker. Komuna medio nur sur la RapidMiner-servilo. Kaj poste estas Radoop, datumoj de Hadoop, kalkulanta rimojn de Spark en Studio-laborfluo.

Kiel atendite, junaj varmaj vendistoj "vendistoj de striitaj bastonoj" movis ilin malsupren. Gartner, aliflanke, antaŭdiras ilian estontan sukceson en la Enterprise-spaco. Vi povas kolekti monon tie. La germanoj scias fari tion, sankta-sankta :) Ne menciu SAP!!!

Ili faras multon por civitanoj! Sed de la paĝo vi povas vidi, ke Gartner diras, ke ili luktas kun venda novigado kaj ne batalas por amplekso de kovrado, sed por profito.

Restis SAS и Tibco tipaj BI-vendistoj por mi... Kaj ambaŭ estas plej supre, kio konfirmas mian fidon, ke normala DataScience logike kreskas.
de BI, kaj ne de nuboj kaj Hadoop-infrastrukturoj. De komerco, tio estas, kaj ne de IT. Kiel en Gazpromneft ekzemple: ligilo,Matura DSML-medio kreskas el fortaj BI-praktikoj. Sed eble ĝi estas abomena kaj partia al MDM kaj aliaj aferoj, kiu scias.

SAS

Ne estas multo por diri. Nur la evidentaj aferoj.

TIBCO

La strategio estas legita en aĉetlisto sur paĝ-longa Vikio-paĝo. Jes, longa rakonto, sed 28!!! Karlo. Mi aĉetis BI Spotfire (2007) reen en mia tekno-juneco. Kaj ankaŭ raportado de Jaspersoft (2014), tiam eĉ tri vendistoj de prognozaj analizoj Insightful (S-plus) (2008), Statistica (2017) kaj Alpine Data (2017), eventa prilaborado kaj streaming Streambase System (2013), MDM Orchestra Retoj (2018) kaj Snappy Data (2019) en-memora platformo.

Saluton Frankie!

Gartner MQ 2020 Revizio: Maŝinlernado kaj Artefarita Inteligenteco Platformoj

fonto: www.habr.com

Aldoni komenton