Review ng Gartner MQ 2020: Machine Learning at Mga Platform ng Artipisyal na Intelligence

Imposibleng ipaliwanag ang dahilan kung bakit ko ito nabasa. Nagkaroon lang ako ng oras at interesado sa kung paano gumagana ang merkado. At ito ay isa nang ganap na merkado ayon kay Gartner mula noong 2018. Mula 2014-2016 tinawag itong advanced analytics (roots in BI), noong 2017 - Data Science (hindi ko alam kung paano ito isalin sa Russian). Para sa mga interesado sa mga galaw ng mga nagtitinda sa paligid ng plaza, maaari mo dito tingnan mo. At magsasalita ako tungkol sa 2020 square, lalo na't ang mga pagbabago doon mula noong 2019 ay minimal: SAP ay lumipat at binili ni Altair ang Datawatch.

Ito ay hindi isang sistematikong pagsusuri o isang talahanayan. Isang indibidwal na pananaw, mula rin sa pananaw ng isang geophysicist. Ngunit ako ay palaging mausisa na basahin ang Gartner MQ, sila ay bumalangkas ng ilang mga punto nang perpekto. Kaya narito ang mga bagay na binigyan ko ng pansin sa parehong teknikal, matalino sa merkado, at pilosopikal.

Ito ay hindi para sa mga taong malalim sa paksa ng ML, ngunit para sa mga taong interesado sa kung ano ang karaniwang nangyayari sa merkado.

Ang DSML market mismo ay lohikal na pugad sa pagitan ng mga serbisyo ng developer ng BI at Cloud AI.

Review ng Gartner MQ 2020: Machine Learning at Mga Platform ng Artipisyal na Intelligence

Mga paboritong quote at termino muna:

  • "Ang isang pinuno ay maaaring hindi ang pinakamahusay na pagpipilian" β€” Ang isang market leader ay hindi naman ang kailangan mo. Napaka-urgent! Bilang resulta ng kakulangan ng isang functional na customer, palagi silang naghahanap ng "pinakamahusay" na solusyon, sa halip na ang "angkop" na solusyon.
  • "Pagpapatakbo ng modelo" - dinaglat bilang mga MOP. At lahat ay nahihirapan sa pugs! - (Ang cool na tema ng pug ay ginagawang gumagana ang modelo).
  • "Kapaligiran ng notebook" ay isang mahalagang konsepto kung saan nagsasama-sama ang code, mga komento, data at mga resulta. Ito ay napakalinaw, promising at maaaring makabuluhang bawasan ang dami ng UI code.
  • "Nakaugat sa OpenSource" - mahusay na sinabi - nag-ugat sa open source.
  • Β«Citizen Data ScientistsΒ» - tulad madaling dudes, tulad lamer, hindi eksperto, na kailangan ng isang visual na kapaligiran at lahat ng uri ng mga auxiliary bagay. Hindi sila magko-code.
  • "Demokrasya" β€” kadalasang ginagamit upang nangangahulugang "ibigay sa mas malawak na hanay ng mga tao." Masasabi nating "i-democratize ang data" sa halip na ang mapanganib na "libre ang data" na ginamit namin noon. Ang "Democratise" ay palaging isang mahabang buntot at lahat ng mga vendor ay tumatakbo pagkatapos nito. Mawalan sa intensity ng kaalaman - makakuha ng accessibility!
  • "Exploratory Data Analysis - EDA" β€” pagsasaalang-alang sa mga magagamit na paraan na ito. Ilang istatistika. Isang maliit na visualization. Isang bagay na ginagawa ng lahat sa isang antas o iba pa. Hindi ko alam na may pangalan pala ito
  • "Reproducibility" β€” maximum na pangangalaga ng lahat ng mga parameter ng kapaligiran, mga input at output upang ang eksperimento ay maaaring ulitin sa sandaling maisagawa. Ang pinakamahalagang termino para sa isang kapaligirang pang-eksperimentong pagsubok!

Kaya:

Alteryx

Astig na interface, parang laruan lang. Ang scalability, siyempre, ay medyo mahirap. Alinsunod dito, ang komunidad ng Citizen ng mga inhinyero sa paligid ng parehong may tchotchkes upang i-play. Ang Analytics ay sa iyo lahat sa isang bote. Pinaalalahanan ako ng isang kumplikadong pagsusuri ng data ng spectral-correlation Coscad, na na-program noong 90s.

Anaconda

Komunidad sa paligid ng mga eksperto sa Python at R. Malaki ang open source ayon dito. Palaging ginagamit ito ng mga kasamahan ko. Pero hindi ko alam.

DataBricks

Binubuo ito ng tatlong opensource na proyekto - ang mga developer ng Spark ay nakalikom ng napakaraming pera mula noong 2013. Kailangan ko talagang i-quote ang wiki:

β€œNoong Setyembre 2013, inanunsyo ng Databricks na nakataas ito ng $13.9 milyon mula kay Andreessen Horowitz. Ang kumpanya ay nakalikom ng karagdagang $33 milyon noong 2014, $60 milyon noong 2016, $140 milyon noong 2017, $250 milyon noong 2019 (Peb) at $400 milyon noong 2019 (Okt)”!!!

Pinutol ng ilang magagaling na tao si Spark. Hindi ko alam, sorry!

At ang mga proyekto ay:

  • Delta Lake - Ang ACID sa Spark ay inilabas kamakailan (kung ano ang pinangarap namin sa Elasticsearch) - ginagawa itong isang database: matibay na schema, ACID, pag-audit, mga bersyon...
  • Daloy ng ML β€” pagsubaybay, packaging, pamamahala at pag-iimbak ng mga modelo.
  • Koala - Pandas DataFrame API sa Spark - Pandas - Python API para sa pagtatrabaho sa mga talahanayan at data sa pangkalahatan.

Maaari mong tingnan ang Spark para sa mga hindi nakakaalam o nakakalimutan: link. Nanood ako ng mga video na may mga halimbawa mula sa medyo boring ngunit detalyadong pagkonsulta sa mga woodpecker: DataBricks para sa Data Science (link) at para sa Data Engineering (link).

Sa madaling salita, hinugot ng Databricks ang Spark. Sinuman na gustong gumamit ng Spark nang normal sa cloud ay kumukuha ng DataBricks nang walang pag-aalinlangan, gaya ng nilayon πŸ™‚ Spark ang pangunahing pagkakaiba dito.
Nalaman ko na ang Spark Streaming ay hindi tunay na pekeng realtime o microbatching. At kung kailangan mo ng totoong Real Real time, nasa Apache STORM ito. Ang lahat ay nagsasabi at nagsusulat din na ang Spark ay mas mahusay kaysa sa MapReduce. Ito ang slogan.

DATAIKU

Cool na end-to-end na bagay. Maraming advertisement. Hindi ko maintindihan kung paano ito naiiba sa Alteryx?

DataRobot

Ang Paxata para sa paghahanda ng data ay isang hiwalay na kumpanya na binili ng Data Robots noong Disyembre 2019. Nagtaas kami ng 20 MUSD at nagbenta. Lahat sa loob ng 7 taon.

Paghahanda ng data sa Paxata, hindi Excel - tingnan dito: link.
May mga awtomatikong paghahanap at panukala para sa mga pagsasama sa pagitan ng dalawang dataset. Ang isang mahusay na bagay - upang maunawaan ang data, magkakaroon ng higit pang diin sa tekstong impormasyon (link).
Ang Data Catalog ay isang mahusay na catalog ng mga walang kwentang "live" na dataset.
Kawili-wili rin kung paano nabuo ang mga direktoryo sa Paxata (link).

β€œAyon sa analyst firm Ovum, ang software ay ginawang posible sa pamamagitan ng mga pagsulong sa mahuhulain analytics, machine learning at ang NoSQL pamamaraan ng pag-cache ng data.[15] Ginagamit ng software semantiko mga algorithm upang maunawaan ang kahulugan ng mga column ng talahanayan ng data at mga algorithm ng pagkilala ng pattern upang makahanap ng mga potensyal na duplicate sa isang set ng data.[15][7] Gumagamit din ito ng pag-index, pagkilala sa pattern ng teksto at iba pang mga teknolohiyang tradisyonal na matatagpuan sa social media at software sa paghahanap."

Ang pangunahing produkto ng Data Robot ay dito. Ang kanilang slogan ay mula Model to Enterprise Application! Natagpuan ko ang pagkonsulta para sa industriya ng langis na may kaugnayan sa krisis, ngunit ito ay napaka-banal at hindi kawili-wili: link. Napanood ko ang kanilang mga video sa Mops o MLops (link). Ito ay tulad ng isang Frankenstein na binuo mula sa 6-7 acquisitions ng iba't ibang mga produkto.

Siyempre, nagiging malinaw na ang isang malaking pangkat ng mga Data Scientist ay dapat magkaroon ng ganoong kapaligiran para sa pagtatrabaho sa mga modelo, kung hindi, gagawa sila ng marami sa mga ito at hindi kailanman mag-deploy ng anuman. At sa ating oil and gas upstream reality, kung maaari lamang tayong lumikha ng isang matagumpay na modelo, iyon ay magiging malaking pag-unlad!

Ang proseso mismo ay lubos na nakapagpapaalaala sa trabaho sa mga sistema ng disenyo sa geology-geophysics, halimbawa petrel. Ang lahat ng hindi masyadong tamad ay gumagawa at nagbabago ng mga modelo. Kolektahin ang data sa modelo. Pagkatapos ay gumawa sila ng isang reference na modelo at ipinadala ito sa produksyon! Sa pagitan, sabihin nating, isang geological na modelo at isang ML na modelo, marami kang makikitang pagkakatulad.

Domino

Pagbibigay-diin sa bukas na plataporma at pakikipagtulungan. Ang mga gumagamit ng negosyo ay tinatanggap nang walang bayad. Ang kanilang Data Lab ay halos kapareho sa sharepoint. (At ang pangalan ay malakas na smacks ng IBM). Naka-link ang lahat ng eksperimento sa orihinal na dataset. Gaano ito kapamilyar :) Tulad ng sa aming pagsasanay - ang ilang data ay na-drag sa modelo, pagkatapos ay nilinis ito at inilagay sa pagkakasunud-sunod sa modelo, at ang lahat ng ito ay nabubuhay na doon sa modelo at ang mga dulo ay hindi matatagpuan sa source data .

Ang Domino ay may cool na virtualization ng imprastraktura. Binuo ko ang makina ng maraming mga core hangga't kailangan sa isang segundo at nagbilang. Kung paano ito ginawa ay hindi agad malinaw. Ang Docker ay nasa lahat ng dako. Maraming kalayaan! Maaaring ikonekta ang anumang workspace ng mga pinakabagong bersyon. Parallel na paglulunsad ng mga eksperimento. Pagsubaybay at pagpili ng mga matagumpay.

Kapareho ng DataRobot - ang mga resulta ay nai-publish para sa mga gumagamit ng negosyo sa anyo ng mga application. Para sa mga espesyal na matalinong "stakeholders". At ang aktwal na paggamit ng mga modelo ay sinusubaybayan din. Lahat para sa Pugs!

Hindi ko lubos na nauunawaan kung paano napupunta ang mga kumplikadong modelo sa produksyon. Ang ilang uri ng API ay ibinigay upang pakainin sila ng data at makakuha ng mga resulta.

H2O

Ang Driveless AI ay isang napaka-compact at intuitive na system para sa Supervised ML. Lahat sa isang kahon. Hindi ito ganap na malinaw kaagad tungkol sa backend.

Ang modelo ay awtomatikong naka-package sa isang REST server o Java App. Ito ay isang magandang ideya. Marami nang nagawa para sa Interpretability at Explainability. Interpretasyon at paliwanag ng mga resulta ng modelo (Ano ang likas na hindi dapat ipaliwanag, kung hindi man ay maaaring kalkulahin ng isang tao ang pareho?).
Sa unang pagkakataon, isang case study tungkol sa unstructured data at NLP. Mataas na kalidad na larawan ng arkitektura. At sa pangkalahatan, nagustuhan ko ang mga larawan.

Mayroong isang malaking open source na H2O framework na hindi lubos na malinaw (isang set ng mga algorithm/library?). Ang iyong sariling visual na laptop na walang programming tulad ng Jupiter (link). Nabasa ko rin ang tungkol sa Pojo at Mojo - H2O na mga modelo na nakabalot sa Java. Ang una ay diretso, ang pangalawa ay may pag-optimize. Ang H20 lang ang(!) kung kanino inilista ni Gartner ang text analytics at NLP bilang kanilang mga lakas, pati na rin ang kanilang mga pagsisikap tungkol sa Explanability. Ito ay napakahalaga!

Sa parehong lugar: mataas na pagganap, pag-optimize at pamantayan ng industriya sa larangan ng pagsasama sa hardware at ulap.

At ang kahinaan ay lohikal - Ang Driverles AI ay mahina at makitid kumpara sa kanilang open source. Ang paghahanda ng data ay pilay kumpara sa Paxata! At binabalewala nila ang pang-industriyang data - stream, graph, geo. Buweno, hindi lahat ay maaaring maging mabuti.

KNIME

Nagustuhan ko ang 6 na napaka-espesipiko, napaka-kagiliw-giliw na mga kaso ng negosyo sa pangunahing pahina. Malakas na OpenSource.

Ibinaba sila ni Gartner mula sa mga pinuno hanggang sa mga visionaries. Ang hindi magandang kita ay isang magandang senyales para sa mga user, dahil hindi palaging ang Pinuno ang pinakamahusay na pagpipilian.

Ang pangunahing salita, tulad ng sa H2O, ay pinalaki, na nangangahulugang pagtulong sa mga mahihirap na siyentipiko ng data ng mamamayan. Ito ang unang pagkakataon na may binatikos dahil sa pagganap sa isang pagsusuri! Interesting? Iyon ay, may napakaraming kapangyarihan sa pag-compute na ang pagganap ay hindi maaaring maging isang sistematikong problema sa lahat? Si Gartner ay may tungkol sa salitang ito na "Augmented" hiwalay na artikulo, na hindi maabot.
At ang KNIME ay tila ang unang hindi Amerikano sa pagsusuri! (At talagang nagustuhan ng aming mga designer ang kanilang landing page. Mga kakaibang tao.

MathWorks

Ang MatLab ay isang matandang honorary comrade na kilala ng lahat! Mga toolbox para sa lahat ng lugar ng buhay at sitwasyon. Isang bagay na ibang-iba. Sa katunayan, maraming at maraming at maraming matematika para sa lahat ng bagay sa buhay!

Isang add-on na produkto ng Simulink para sa disenyo ng system. Naghukay ako sa mga toolbox para sa Digital Twins - Wala akong naiintindihan tungkol dito, ngunit dito marami na ang naisulat. Para sa industriya ng langis. Sa pangkalahatan, ito ay isang panimula na naiibang produkto mula sa kailaliman ng matematika at engineering. Upang pumili ng mga partikular na toolkit sa matematika. Ayon kay Gartner, ang kanilang mga problema ay kapareho ng sa mga matalinong inhinyero - walang pakikipagtulungan - lahat ay naghahalungkat sa kanilang sariling modelo, walang demokrasya, walang maipaliwanag.

RapidMiner

Marami na akong nakita at narinig dati (kasama ang Matlab) sa konteksto ng magandang open source. Naghukay ako ng kaunti sa TurboPrep gaya ng dati. Interesado ako sa kung paano makakuha ng malinis na data mula sa maruming data.

Muli mong makikita na ang mga tao ay magaling batay sa 2018 na mga materyales sa marketing at ang kakila-kilabot na mga taong nagsasalita ng Ingles sa tampok na demo.

At mga tao mula sa Dortmund mula noong 2001 na may malakas na background sa Aleman)

Review ng Gartner MQ 2020: Machine Learning at Mga Platform ng Artipisyal na Intelligence
Hindi ko pa rin maintindihan mula sa site kung ano ang eksaktong available sa open source - kailangan mong maghukay ng mas malalim. Magandang video tungkol sa deployment at mga konsepto ng AutoML.

Wala ring espesyal sa backend ng RapidMiner Server. Malamang na magiging compact ito at gagana nang maayos sa premium out of the box. Ito ay nakabalot sa Docker. Nakabahaging kapaligiran lamang sa RapidMiner server. At pagkatapos ay mayroong Radoop, data mula sa Hadoop, nagbibilang ng mga rhyme mula sa Spark in Studio workflow.

Gaya ng inaasahan, ibinaba sila ng mga batang maiinit na nagtitinda na "nagtitinda ng mga guhit na patpat". Gayunpaman, hinuhulaan ni Gartner ang kanilang tagumpay sa hinaharap sa espasyo ng Enterprise. Maaari kang makalikom ng pera doon. Marunong gawin ito ng mga Germans, holy-holy :) Wag mong banggitin si SAP!!!

Marami silang ginagawa para sa mga mamamayan! Ngunit mula sa pahina makikita mo na sinabi ni Gartner na nahihirapan sila sa pagbabago sa pagbebenta at hindi nila nilalabanan ang lawak ng saklaw, ngunit para sa kakayahang kumita.

Nanatili SAS ΠΈ Tibco tipikal na mga vendor ng BI para sa akin... At pareho silang nasa pinakatuktok, na nagpapatunay sa aking kumpiyansa na ang normal na DataScience ay lohikal na lumalaki
mula sa BI, at hindi mula sa mga ulap at mga imprastraktura ng Hadoop. Mula sa negosyo, iyon ay, at hindi mula sa IT. Tulad ng sa Gazpromneft halimbawa: link, Ang isang mature na kapaligiran ng DSML ay lumalago mula sa malalakas na kasanayan sa BI. Ngunit marahil ito ay smacky at bias sa MDM at iba pang mga bagay, sino ang nakakaalam.

SAS

Walang gaanong masasabi. Tanging ang mga bagay na malinaw.

TIBCO

Ang diskarte ay binabasa sa isang listahan ng pamimili sa isang pahina na mahabang pahina ng Wiki. Oo, mahabang kwento, ngunit 28!!! Charles. Binili ko ang BI Spotfire (2007) noong techno-kabataan ko. At nag-uulat din mula sa Jaspersoft (2014), pagkatapos ay kasing dami ng tatlong predictive analytics vendor Insightful (S-plus) (2008), Statistica (2017) at Alpine Data (2017), event processing at streaming Streambase System (2013), MDM Orchestra Networks (2018 ) at Snappy Data (2019) in-memory na platform.

Hello Frankie!

Review ng Gartner MQ 2020: Machine Learning at Mga Platform ng Artipisyal na Intelligence

Pinagmulan: www.habr.com

Magdagdag ng komento