Gartner MQ 2020 ülevaade: masinõppe ja tehisintellekti platvormid

Põhjust, miks ma seda lugesin, on võimatu seletada. Mul oli lihtsalt aega ja tundsin huvi turu toimimise vastu. Ja see on Gartneri sõnul juba täieõiguslik turg alates 2018. aastast. Aastatel 2014–2016 nimetati seda täiustatud analüütikaks (juured BI-s), 2017. aastal andmeteaduseks (ma ei tea, kuidas seda vene keelde tõlkida). Kes on huvitatud müüjate liikumisest väljakul, saate seda teha siin vaata. Ja ma räägin 2020. aasta väljakust, eriti kuna muudatused on seal alates 2019. aastast minimaalsed: SAP kolis välja ja Altair ostis Datawatchi.

See ei ole süstemaatiline analüüs ega tabel. Individuaalne vaade, ka geofüüsiku vaatenurgast. Kuid ma olen alati uudishimulik lugema Gartner MQ-d, nad sõnastavad mõned punktid suurepäraselt. Nii et siin on asjad, millele pöörasin tähelepanu nii tehniliselt, turupõhiselt kui ka filosoofiliselt.

See ei ole mõeldud inimestele, kes on ML-i teemasse süvenenud, vaid inimestele, kes on huvitatud turul üldiselt toimuvast.

DSML-i turg ise pesitseb loogiliselt BI ja Cloud AI arendajateenuste vahel.

Gartner MQ 2020 ülevaade: masinõppe ja tehisintellekti platvormid

Kõigepealt lemmiktsitaadid ja -terminid:

  • "Liider ei pruugi olla parim valik" — Turuliider pole tingimata see, mida vajate. Väga kiireloomuline! Funktsionaalse kliendi puudumise tõttu otsitakse alati pigem “parimat” kui “sobivat” lahendust.
  • "Mudelite kasutuselevõtt" - lühendatult MOPs. Ja mopsidega on kõigil raske! – (lahe mopsiteema paneb modelli tööle).
  • "Märkmiku keskkond" on oluline mõiste, kus kood, kommentaarid, andmed ja tulemused saavad kokku. See on väga selge, paljutõotav ja võib oluliselt vähendada kasutajaliidese koodi hulka.
  • "Juurdunud avatud lähtekoodiga" - hästi öeldud - juurdub avatud lähtekoodiga.
  • "Citizen Data Scientists" - sellised kerged kutid, sellised laamerid, mitte asjatundjad, kes vajavad visuaalset keskkonda ja igasuguseid abiasju. Nad ei kodeeri.
  • "Demokraatia" - kasutatakse sageli tähenduses "teha kättesaadavaks laiemale hulgale inimestele". Võime öelda "andmete demokratiseerimine" selle ohtliku "andmed vabastamise" asemel, mida kasutasime. “Demokratiseerimine” on alati pikk saba ja kõik müüjad jooksevad sellele järele. Kaotage teadmiste intensiivsus - suurendage juurdepääsetavust!
  • "Uurimuslik andmete analüüs – EDA" — nende olemasolevate vahendite kaalumine. Natuke statistikat. Väike visualiseerimine. Midagi, mida kõik ühel või teisel määral teevad. Ei teadnud, et sellel nimi on
  • "Reprodutseeritavus" — kõigi keskkonnaparameetrite, sisendite ja väljundite maksimaalne säilimine, et katset saaks korrata pärast läbiviimist. Kõige olulisem termin eksperimentaalse testikeskkonna jaoks!

Nii et:

Alteryx

Lahe liides, täpselt nagu mänguasi. Skaleeritavus on muidugi veidi keeruline. Sellest lähtuvalt kodanike kogukonna inseneride umbes sama tchotchkes mängida. Analüütika on teie päralt ühes pudelis. Tuletas mulle meelde spektraalkorrelatsiooniandmete analüüsi kompleksi Coscad, mis programmeeriti 90ndatel.

Anakonda

Kogukond Pythoni ja R-i ekspertide ümber. Avatud lähtekood on vastavalt suur. Selgus, et kolleegid kasutavad seda kogu aeg. Aga ma ei teadnud.

DataBricks

See koosneb kolmest avatud lähtekoodiga projektist – Sparki arendajad on kogunud kuradima palju raha alates 2013. aastast. Pean tõesti vikit tsiteerima:

„2013. aasta septembris teatas Databricks, et on kogunud Andreessen Horowitzilt 13.9 miljonit dollarit. Ettevõte kogus 33. aastal täiendavalt 2014 miljonit dollarit, 60. aastal 2016 miljonit dollarit, 140. aastal 2017 miljonit dollarit, 250. aastal (veebruar) 2019 miljonit dollarit ja 400. aastal (oktoober) 2019 miljonit dollarit”!!!

Mõned suurepärased inimesed lõikasid Sparki. Ma ei tea, vabandust!

Ja projektid on järgmised:

  • Delta järv - ACID on Spark ilmus hiljuti (millest me Elasticsearchiga unistasime) - muudab selle andmebaasiks: jäik skeem, ACID, auditeerimine, versioonid...
  • ML Flow — mudelite jälgimine, pakendamine, haldamine ja ladustamine.
  • Koalad - Pandas DataFrame API Sparkis - Pandas - Pythoni API tabelite ja andmetega töötamiseks üldiselt.

Need, kes ei tea või on unustanud, saavad Sparkist vaadata: link. Vaatasin videoid näidetega veidi igavatest, kuid detailselt nõu andvatest rähnidest: DataBricks for Data Science (link) ja andmetehnika jaoks (link).

Lühidalt öeldes tõmbab Databricks Sparki välja. Kes Sparki normaalselt pilves kasutada soovib, võtab DataBricksi kõhklemata, nagu ette nähtud 🙂 Spark on siin peamine eristaja.
Sain teada, et Spark Streaming ei ole tõeline võlts reaalajas ega mikropartiisid. Ja kui vajate reaalajas reaalajas, on see Apache STORMis. Kõik räägivad ja kirjutavad ka, et Spark on parem kui MapReduce. See on loosung.

DATAIKU

Lahe otsast lõpuni asi. Reklaame on palju. Ma ei saa aru, mille poolest see Alteryxist erineb?

DataRobot

Andmete ettevalmistamiseks mõeldud Paxata on eraldiseisev ettevõte, mille Data Robots ostis 2019. aasta detsembris. Kogusime 20 MUSD ja müüsime maha. Kõik 7 aastaga.

Andmete ettevalmistamine Paxata, mitte Excelis – vaata siit: link.
Kahe andmekogumi vahel on automaatsed otsingud ja liitumisettepanekud. Suurepärane asi – andmete mõistmiseks oleks veelgi rohkem rõhku tekstilisel teabel (link).
Andmekataloog on suurepärane kasutute "reaalajas" andmekogumite kataloog.
Huvitav on ka see, kuidas Paxata (link).

"Analüütikufirma sõnul Munarakk, on tarkvara tehtud edusammude kaudu ennustav analüüs, masinõpe ja NoSQL andmete vahemällu salvestamise metoodika.[15] Tarkvara kasutab semantiline algoritme andmetabeli veergude tähenduse mõistmiseks ja mustrituvastusalgoritme, et leida andmekogus potentsiaalseid duplikaate.[15][7] Samuti kasutab see indekseerimist, tekstimustrite tuvastamist ja muid tehnoloogiaid, mida traditsiooniliselt kasutatakse sotsiaalmeedias ja otsingutarkvaras.

Data Roboti põhitoode on siin. Nende loosung on mudelist ettevõtterakenduseni! Leidsin naftatööstuse nõustamise seoses kriisiga, kuid see oli väga banaalne ja ebahuvitav: link. Vaatasin nende videoid Mopsist või MLopsist (link). See on selline Frankenstein, mis on kokku pandud 6-7 erineva toote soetamisest.

Muidugi saab selgeks, et suurel andmeteadlaste meeskonnal peab olema just selline keskkond mudelitega töötamiseks, sest muidu toodavad nad neid palju ega juuruta kunagi midagi. Ja meie nafta ja gaasi ülesvoolu tegelikkuses oleks see suur edasiminek, kui suudaksime luua ühe eduka mudeli!

Protsess ise meenutas väga tööd projekteerimissüsteemidega näiteks geoloogia-geofüüsikas tormilind. Kõik, kes pole liiga laisad, teevad ja muudavad mudeleid. Koguge andmed mudelisse. Seejärel tegid nad võrdlusmudeli ja saatsid selle tootmisse! Näiteks geoloogilise mudeli ja ML-mudeli vahel võite leida palju ühist.

Doomino

Rõhk avatud platvormil ja koostööl. Ärikasutajatele on sissepääs tasuta. Nende Data Lab on väga sarnane sharepointiga. (Ja nimi haiseb tugevalt IBM-i järgi). Kõik katsed on seotud algse andmekogumiga. Kui tuttav see on :) Nagu meil praktikas ikka - mingid andmed tiriti mudelisse, siis puhastati ja tehti mudelis korda ja see kõik elab juba mudelis seal ja lõppu ei leia lähteandmetest .

Dominol on lahe infrastruktuuri virtualiseerimine. Panin masinale sekundiga kokku nii palju südamikke kui vaja ja läksin loendama. Kuidas seda tehti, pole kohe selge. Docker on kõikjal. Palju vabadust! Ühendada saab mis tahes uusimate versioonide tööruume. Katsete paralleelne käivitamine. Edukate jälgimine ja valimine.

Sama mis DataRobot – tulemused avaldatakse ärikasutajatele rakenduste kujul. Eriti andekatele "huvirühmadele". Ja jälgitakse ka mudelite tegelikku kasutamist. Kõik Mopside jaoks!

Ma ei saa täielikult aru, kuidas keerulised mudelid tootmisse jõuavad. Neile andmete edastamiseks ja tulemuste saamiseks on ette nähtud mingi API.

H2O

Driveless AI on väga kompaktne ja intuitiivne süsteem Supervised ML jaoks. Kõik ühes kastis. Taustaprogrammi kohta pole kohe päris selge.

Mudel pakitakse automaatselt REST-serverisse või Java rakendusse. See on suurepärane idee. Tõlgendatavuse ja seletatavuse nimel on palju ära tehtud. Mudeli tulemuste tõlgendamine ja selgitamine (Mis oma olemuselt ei tohiks olla seletatav, muidu saab inimene sama arvutada?).
Esimest korda juhtumiuuring struktureerimata andmete ja NLP. Kvaliteetne arhitektuurne pilt. Ja üldiselt mulle pildid meeldisid.

Seal on suur avatud lähtekoodiga H2O raamistik, mis pole täiesti selge (algoritmide/teekide komplekt?). Teie enda visuaalne sülearvuti ilma programmeerimiseta nagu Jupiter (link). Lugesin ka Javasse pakitud Pojo ja Mojo - H2O mudelite kohta. Esimene on lihtne, teine ​​optimeerimisega. H20 on ainsad(!), kelle jaoks Gartner nimetas oma tugevateks külgedeks tekstianalüütikat ja NLP-d, aga ka oma jõupingutusi seletatavusega. See on väga tähtis!

Samas kohas: kõrge jõudlus, optimeerimine ja tööstusstandard riistvara ja pilvedega integreerimise valdkonnas.

Ja nõrkus on loogiline – Driverles AI on nende avatud lähtekoodiga võrreldes nõrk ja kitsas. Andmete ettevalmistamine on Paxataga võrreldes labane! Ja nad ignoreerivad tööstusandmeid – voogu, graafikut, geograafilist asukohta. Noh, kõik ei saa olla ainult hea.

KÜLL

Mulle meeldisid avalehel 6 väga spetsiifilist, väga huvitavat ärijuhtumit. Tugev avatud lähtekoodiga.

Gartner alandas nad liidritest visionäärideks. Halb raha teenimine on kasutajatele hea märk, arvestades, et Leader pole alati parim valik.

Võtmesõna, nagu H2O puhul, on täiendatud, mis tähendab vaeste kodanike andmeteadlaste abistamist. See on esimene kord, kui kedagi arvustuses esinemise eest kritiseeritakse! Huvitav? See tähendab, et arvutusvõimsust on nii palju, et jõudlus ei saa olla üldse süsteemne probleem? Gartneril on umbes see sõna "täiendatud" eraldi artikkel, mida ei õnnestunud kätte saada.
Ja KNIME näib olevat esimene mitteameeriklane arvustuses! (Ja meie disaineritele meeldis nende sihtleht väga. Kummalised inimesed.

MathWorks

MatLab on kõigile tuntud vana auseltsimees! Tööriistakastid kõigi eluvaldkondade ja olukordade jaoks. Midagi väga erinevat. Tegelikult on elus kõige jaoks palju-palju-palju matemaatikat!

Simulinki lisatoode süsteemi kujundamiseks. Kaevusin Digital Twinsi tööriistakastidesse – ma ei saa sellest midagi aru, aga siin palju on kirjutatud. Sest naftatööstus. Üldiselt on see matemaatika ja inseneriteaduse sügavustest põhimõtteliselt erinev toode. Konkreetsete matemaatika tööriistakomplektide valimiseks. Gartneri sõnul on nende probleemid samad, mis nutikatel inseneridel – ei mingit koostööd – kõik tuhnivad ringi oma mudelis, ei mingit demokraatiat ega seletatavust.

RapidMiner

Olen hea avatud lähtekoodiga kontekstis varem palju kohanud ja kuulnud (koos Matlabiga). Kaevasin natuke TurboPrepi nagu ikka. Mind huvitab, kuidas saada määrdunud andmetest puhtaid andmeid.

Jällegi näete, et inimesed on head 2018. aasta turundusmaterjalide ja funktsioonidemo kohutavate inglise keelt kõnelevate inimeste põhjal.

Ja Dortmundi inimesed alates 2001. aastast, tugeva Saksa taustaga)

Gartner MQ 2020 ülevaade: masinõppe ja tehisintellekti platvormid
Ma ei saa endiselt saidilt aru, mis täpselt avatud lähtekoodiga saadaval on - peate süvenema. Head videod juurutamise ja AutoML-i kontseptsioonide kohta.

Ka RapidMiner Serveri taustaprogrammis pole midagi erilist. Tõenäoliselt on see kompaktne ja töötab esmaklassiliselt hästi. See on pakendatud Dockerisse. Jagatud keskkond ainult RapidMineri serveris. Ja siis on Radoop, Hadoopi andmed, mis loeb stuudio töövoo Sparkist riime.

Ootuspäraselt viisid noored kuumad müüjad "triibuliste pulkade müüjad" need alla. Gartner ennustab aga nende tulevast edu ettevõtlusruumis. Seal saab raha koguda. Sakslased oskavad seda teha, püha-püha :) SAP-i ära maini!!!

Nad teevad kodanike heaks palju! Kuid lehelt on näha, et Gartner ütleb, et nad on hädas müügiinnovatsiooniga ega võitle mitte katte laiuse, vaid kasumlikkuse pärast.

Jäi alles SAS и Tibco minu jaoks tüüpilised BI-müüjad... Ja mõlemad on kõige tipus, mis kinnitab minu kindlustunnet, et tavaline DataScience kasvab loogiliselt
BI-st, mitte pilvedest ja Hadoopi infrastruktuuridest. Ärilt, see tähendab, mitte IT-lt. Nagu näiteks Gazpromneftis: link,Tugevatest BI tavadest kasvab välja küps DSML-keskkond. Aga võib-olla on see udune ja MDM-i ja muude asjade suhtes kallutatud, kes teab.

SAS

Pole palju öelda. Ainult ilmselged asjad.

TIBCO

Strateegiat loetakse leheküljepikkusel Wiki lehel olevas ostunimekirjas. Jah, pikk jutt, aga 28!!! Charles. Ostsin BI Spotfire'i (2007) tehnonooruses. Ja ka aruandlused Jaspersoftilt (2014), seejärel tervelt kolmelt ennustava analüüsi müüjalt Insightful (S-plus) (2008), Statistica (2017) ja Alpine Data (2017), sündmuste töötlemise ja voogesituse Streambase System (2013), MDM Orchestra Võrgud (2018) ja Snappy Data (2019) mälusisene platvorm.

Tere Frankie!

Gartner MQ 2020 ülevaade: masinõppe ja tehisintellekti platvormid

Allikas: www.habr.com

Lisa kommentaar