Gartner MQ 2020 Iritzia: Makina Ikaskuntza eta Adimen Artifizialaren Plataformak

Ezinezkoa da hau irakurri dudan arrazoia azaltzea. Denbora besterik ez nuen eta merkatuaren funtzionamenduaz interesatzen zitzaidan. Eta hori dagoeneko erabateko merkatua da Gartnerrek 2018az geroztik. 2014-2016 bitartean analisi aurreratua deitzen zen (sustraiak BIn), 2017an - Data Science (ez dakit hau errusierara nola itzuli). Plaza inguruan saltzaileen joan-etorrietan interesa dutenentzat, dezakezu Hemen begiratu. Eta 2020ko plazari buruz hitz egingo dut, batez ere 2019tik hona izandako aldaketak gutxienekoak direlako: SAPek alde egin zuen eta Altairrek Datawatch erosi zuen.

Hau ez da analisi sistematiko bat edo taula bat. Ikuspegi indibiduala, geofisikari baten ikuspuntutik ere bai. Baina beti sentitzen naiz Gartner MQ irakurtzeko, puntu batzuk primeran formulatzen dituzte. Beraz, hona hemen bai teknikoki, bai merkatuari dagokionez, bai filosofikoki erreparatu nien gauzei.

Hau ez da ML gaian sakontzen duten pertsonentzat, merkatuan orokorrean gertatzen denarekin interesa duten pertsonentzat baizik.

DSML merkatua bera logikoki habiatzen da BI eta Cloud AI garatzaileen zerbitzuen artean.

Gartner MQ 2020 Iritzia: Makina Ikaskuntza eta Adimen Artifizialaren Plataformak

Aipamen eta termino gogokoenak lehenik:

  • "Lider bat agian ez da aukerarik onena" β€” Merkatuko liderra ez da zertan behar duzuna. Oso premiazko! Bezero funtzional baten gabeziaren ondorioz, beti dabiltza irtenbide β€œhobeena” bilatzen, β€œegokia” baino.
  • "Ereduaren operatibazioa" - MOP gisa laburtua. Eta denek pasatzen dute pugekin! – (pug gaiak eredua funtzionatzen du).
  • "Koadernoaren ingurunea" kontzeptu garrantzitsua da, non kodea, iruzkinak, datuak eta emaitzak elkartzen diren. Hau oso argia da, itxaropentsua eta nabarmen murriztu dezake UI kodearen kopurua.
  • "OpenSource-n errotua" - ondo esanda - kode irekian errotzen da.
  • "Herritarren Datu Zientzilariak" - Hain tipo errazak, halako lamerak, ez adituak, ingurune bisual bat eta era guztietako gauza osagarriak behar dituztenak. Ez dute kodetuko.
  • "Demokrazia" - Askotan "jende zabalago baten eskura jarri" esan nahi du. Erabili ohi genuen "datuak askatu" arriskutsuaren ordez "datuak demokratizatu" esan dezakegu. "Demokratizatzea" beti da buztan luzea eta saltzaile guztiak atzetik doaz. Ezagutzaren intentsitatea galdu - irisgarritasuna irabazi!
  • "Datu esploratzaileen analisia - EDA" β€” Eskura dauden bitarteko horiek kontuan hartzea. Estatistika batzuk. Ikuspegi pixka bat. Denek neurri batean edo bestean egiten duten zerbait. Ez nekien honen izenik zegoenik
  • "Erreproduzigarritasuna" β€” Ingurumen-parametro, sarrera eta irteera guztiak ahalik eta gehien zaintzea, behin esperimentua errepikatu ahal izateko. Test ingurune esperimental baterako terminorik garrantzitsuena!

Beraz:

Alteryx

Interfaze polita, jostailu bat bezala. Eskalagarritasuna, noski, pixka bat zaila da. Ondorioz, ingeniarien komunitatea bera inguruan txotchkes jolasteko. Analytics zurea da botila bakarrean. Espektro-korrelazio datuen analisi konplexu bat ekarri dit gogora Koskada, 90eko hamarkadan programatu zena.

anaconda

Python eta R adituen inguruko komunitatea. Kode irekia handia da horren arabera. Nire lankideek denbora guztian erabiltzen dutela konturatu zen. Baina ez nekien.

DataBricks

Kode irekiko hiru proiektuk osatzen dute: Spark-eko garatzaileek diru asko bildu dute 2013az geroztik. Benetan wikia aipatu behar dut:

β€œ2013ko irailean, Databricks-ek Andreessen Horowitzengandik 13.9 milioi dolar bildu zituela iragarri zuen. Konpainiak 33 milioi dolar gehiago bildu zituen 2014an, 60 milioi dolar 2016an, 140 milioi dolar 2017an, 250 milioi dolar 2019an (otsailean) eta 400 milioi dolar 2019an (urrian)"!!!

Jende bikain batzuek Spark moztu zuten. Ez dakit, barkatu!

Eta proiektuak hauek dira:

  • Delta aintzira - ACID on Spark berriki kaleratu da (Elasticsearch-ekin amesten genuena) - datu-base batean bihurtzen du: eskema zurruna, ACID, auditoria, bertsioak...
  • ML fluxua β€” ereduen jarraipena, ontziratzea, kudeaketa eta biltegiratzea.
  • koalas - Pandas DataFrame APIa Spark-en - Pandas - Python APIa taula eta datuekin orokorrean lan egiteko.

Spark-en begiratu dezakezu ezagutzen ez duten edo ahaztu dutenentzat: link. Apur bat aspergarriak baina zehatzak diren okilen aholkularien adibideekin bideoak ikusi nituen: DataBricks for Data Science (link) eta Datuen Ingeniaritzarako (link).

Laburbilduz, Databricks-ek Spark ateratzen du. Spark hodeian normalean erabili nahi duenak DataBricks dudarik gabe hartzen du, nahi bezala πŸ™‚ Spark da hemen bereizle nagusia.
Spark Streaming ez dela benetako denbora errealeko edo mikrobatching faltsuak ikasi nuen. Eta benetako denbora errealean behar baduzu, Apache STORM-en dago. Guztiek ere esan eta idazten dute Spark MapReduce baino hobea dela. Hau da leloa.

DATAIKU

Bukaerako gauza polita. Iragarki asko daude. Ez dut ulertzen nola desberdintzen den Alteryx-ekin?

DataRobot

Datuak prestatzeko Paxata 2019ko abenduan Data Robotsek erosi zuen enpresa bereizia da. 20 MUSD bildu eta saldu genituen. Guztia 7 urtean.

Datuen prestaketa Paxata-n, ez Excel - ikusi hemen: link.
Bi datu-multzoen arteko bilaketa eta elkartze-proposamen automatikoak daude. Gauza bikaina - datuak ulertzeko, are gehiago azpimarratuko litzateke testu-informazioan (link).
Datuen katalogoa alferrikako datu-multzoen katalogo bikaina da.
Interesgarria da, halaber, nola sortzen diren direktorioa Paxatan (link).

β€œAnalista enpresaren arabera ovum, softwarea aurrerapenen bidez posible da aurresateko analisiak, makina ikaskuntza eta NoSQL datuen cachearen metodologia.[15] Softwareak erabiltzen ditu semantikoa algoritmoak datu-taula baten zutabeen esanahia ulertzeko eta ereduak ezagutzeko algoritmoak datu-multzo batean bikoiztu potentzialak aurkitzeko.[15][7] Era berean, indexazioa, testu-ereduen ezagutza eta ohiko sare sozialetan eta bilaketa-softwareetan aurkitzen diren beste teknologia batzuk erabiltzen dituΒ».

Data Robot-en produktu nagusia da Hemen. Haien leloa eredutik enpresa aplikaziora da! Krisiarekin lotuta petrolioaren industriarako aholkularitza aurkitu nuen, baina oso hutsala eta interesgabea zen: link. Haien bideoak Mops edo MLops-en ikusi ditut (link). Hau da hainbat produkturen 6-7 erosketetatik bildutako Frankenstein bat.

Jakina, argi geratzen da Data Scientist talde handi batek ereduekin lan egiteko ingurune hori izan behar duela, bestela horietako asko ekoiztuko dituzte eta inoiz ez dute ezer zabalduko. Eta gure petrolioaren eta gasaren gorako errealitatean, eredu arrakastatsu bat sortuko bagenu, hori aurrerapen handia litzateke!

Prozesuak berak oso gogorarazten zuen geologia-geofisikako diseinu sistemekin egindako lana, adibidez Petrel. Alferra ez denak ereduak egiten eta aldatzen ditu. Bildu datuak ereduan. Ondoren, erreferentziazko eredu bat egin eta ekoizpenera bidali zuten! Eredu geologiko baten eta ML eredu baten artean, esate baterako, komun asko aurki ditzakezu.

Domino

Plataforma irekiari eta lankidetzari garrantzia ematea. Enpresa erabiltzaileak dohainik onartzen dira. Haien Data Lab sharepoint-en oso antzekoa da. (Eta izenak IBMren usain handia du). Esperimentu guztiek jatorrizko datu-multzoarekin estekatzen dute. Zein ezaguna den hau πŸ™‚ Gure praktikan bezala: datu batzuk eredura arrastatu ziren, ondoren garbitu eta ordenatu egin ziren ereduan, eta hori guztia dagoeneko hor bizi da ereduan eta muturrak ezin dira aurkitu iturriko datuetan.

Dominok azpiegitura birtualizazio bikaina du. Makina segundo batean behar adina nukleo muntatu eta zenbatzera joan nintzen. Nola egin zen ez dago berehala argi. Docker nonahi dago. Askatasun asko! Azken bertsioetako edozein lan-eremu konekta daiteke. Esperimentuak paraleloki martxan jartzea. Arrakastatsuen jarraipena eta aukeraketa.

DataRobot-en berdina - emaitzak enpresa-erabiltzaileentzako aplikazio moduan argitaratzen dira. Bereziki dohain diren "talde interesdunentzat". Eta ereduen benetako erabilera ere kontrolatzen da. Pugsentzat dena!

Ez dut guztiz ulertzen eredu konplexuak nola amaitzen diren ekoizpenean. API motaren bat eskaintzen zaie datuak elikatzeko eta emaitzak lortzeko.

H2O

Driveless AI sistema oso trinkoa eta intuitiboa da ML gainbegiraturako. Dena kutxa bakarrean. Ez dago guztiz argi backend-a berehala.

Eredua automatikoki paketatzen da REST zerbitzari batean edo Java aplikazioan. Ideia bikaina da hau. Asko egin da Interpretagarritasunaren eta Azalgarritasunaren alde. Ereduaren emaitzen interpretazioa eta azalpena (Zer ez litzateke berez azaldu behar, bestela pertsona batek berdin kalkula dezake?).
Lehen aldiz, egituratu gabeko datuei buruzko kasu-azterketa eta NLP. Kalitate handiko irudi arkitektonikoa. Eta orokorrean irudiak gustatu zaizkit.

Iturburu irekiko H2O esparru handi bat dago, guztiz argia ez dena (algoritmo/liburutegi multzo bat?). Zure ikusizko ordenagailu eramangarria Jupiter bezalako programaziorik gabe (link). Pojo eta Mojo - H2O ereduak Javan bilduta ere irakurri ditut. Lehenengoa zuzena da, bigarrena optimizazioarekin. H20 dira Gartner-ek testu-analisia eta NLP indargune gisa zerrendatu dituen bakarrak (!), baita Azalgarritasunari buruzko ahaleginak ere. Oso garrantzitsua da!

Leku berean: errendimendu altua, optimizazioa eta industria estandarra hardware eta hodeiekin integratzeko alorrean.

Eta ahultasuna logikoa da - Driverles AI ahula eta estua da beren kode irekiarekin alderatuta. Datuen prestaketa herrena da Paxatarekin alderatuta! Eta datu industrialak alde batera uzten dituzte: korrontea, grafikoa, geo. Beno, dena ezin da ona izan.

KNIME

Orri nagusiko 6 negozio kasu oso zehatzak eta oso interesgarriak gustatu zitzaizkidan. Iturburu ireki sendoa.

Gartnerrek liderretatik ikuskarietara jaitsi zituen. Dirua gaizki irabaztea seinale ona da erabiltzaileentzat, izan ere, Leader ez da beti aukerarik onena.

Gako-hitza, H2On bezala, areagotua da, hau da, herritar pobreen datu-zientzialariei laguntzea esan nahi du. Hau da erreseina batean norbait errendimenduagatik kritikatzen duten lehen aldia! Interesgarria? Hau da, konputazio-ahalmen handia dago, errendimendua ezin baita arazo sistemiko bat izan? Gartnerrek "Augmented" hitz honi buruz du artikulu bereizi, zeina ezin zen iritsi.
Eta badirudi KNIME berrikuspeneko lehen ez-amerikarra dela! (Eta gure diseinatzaileei asko gustatu zitzaien beren lurreratze orria. Jende arraroa.

MathWorks

MatLab denek ezagutzen duten ohorezko adiskide zaharra da! Bizitzako alor eta egoera guztietarako tresna-kutxak. Zerbait oso ezberdina. Izan ere, matematika asko eta asko bizitzan denerako!

Sistemaren diseinurako Simulink produktu gehigarria. Digital Twins-en tresna-kutxetan sartu nintzen - ez dut ezer ulertzen, baina Hemen asko idatzi da. Izan ere petrolio industria. Oro har, matematika eta ingeniaritzaren sakontasunetik oso bestelako produktua da. Matematika-tresna espezifikoak hautatzeko. Gartnerrek dioenez, haien arazoak ingeniari adimendunen berdinak dira -lankidetzarik ez-, bakoitzak bere ereduan arakatzen du, ez demokraziarik, ez esplikagarritasunik.

RapidMiner

Asko topatu eta entzun dut aurretik (Matlabekin batera) kode ireki onaren testuinguruan. TurboPrep-en apur bat zulatu nuen ohi bezala. Datu zikinetatik datu garbiak nola lortu interesatzen zait.

Berriro ere ikus dezakezu jendea ona dela 2018ko marketin-materialetan eta ingelesez hitz egiten duten jende ikaragarrietan oinarrituta funtzioen demoan.

Eta Dortmund-eko jendea 2001az geroztik Alemaniako jatorri sendoa dutenak)

Gartner MQ 2020 Iritzia: Makina Ikaskuntza eta Adimen Artifizialaren Plataformak
Oraindik ez dut ulertzen gunetik zer dagoen zehazki kode irekian eskuragarri - sakondu behar duzu. Inplementazioari eta AutoML kontzeptuei buruzko bideo onak.

Ez dago ezer berezirik RapidMiner Server backend-ek ere. Seguruenik trinkoa izango da eta ondo funtzionatuko du kutxatik kanpo premium-n. Docker-en paketatzen da. Ingurune partekatua RapidMiner zerbitzarian soilik. Eta gero Radoop dago, Hadoop-en datuak, Spark-en Studio lan-fluxuaren errimak zenbatzen.

Espero bezala, saltzaile bero gazteek "makil marradunen saltzaileak" behera eraman zituzten. Gartnerrek, ordea, Enterprise espazioan izango duten arrakasta aurreikusten du. Bertan dirua bildu dezakezu. Alemanek badakite hori, santu-santu :) Ez aipatu SAP!!!

Asko egiten dute herritarren alde! Baina orrialdetik ikus dezakezu Gartnerrek dioela salmenta-berrikuntzarekin borrokan ari direla eta ez direla estaldura zabalaren alde, errentagarritasunaren alde baizik.

Egon SAS ΠΈ Tibco Niretzat BI hornitzaile tipikoak... Eta biak oso goian daude, eta horrek ziurtatzen du DataScience normala logikoki hazten ari dela.
BItik, eta ez hodeietatik eta Hadoop azpiegituretatik. Negoziotik, alegia, eta ez ITtik. Gazpromneft-en adibidez: link, DSML ingurune heldua BI praktika sendoetatik hazten da. Baina agian MDM eta beste gauzekiko zikinkeria eta alborapena da, nork daki.

SAS

Ez dago gauza handirik esateko. Gauza agerikoak bakarrik.

TIBCO

Estrategia orrialde luzeko Wiki orri bateko erosketa zerrenda batean irakurtzen da. Bai, istorio luzea, baina 28!!! Karlos. BI Spotfire (2007) erosi nuen berriro tekno-gaztaroan. Eta Jaspersoft-en (2014) txostenak ere ematen ditu, gero analisi iragarleen hiru saltzaile: Insightful (S-plus) (2008), Statistica (2017) eta Alpine Data (2017), gertaeren prozesaketa eta streaming Streambase System (2013), MDM Orchestra. Networks (2018) eta Snappy Data (2019) memorian plataforma.

Kaixo Frankie!

Gartner MQ 2020 Iritzia: Makina Ikaskuntza eta Adimen Artifizialaren Plataformak

Iturria: www.habr.com

Gehitu iruzkin berria