Gartner MQ 2020-recension: Maskininlärning och plattformar för artificiell intelligens

Det är omöjligt att förklara anledningen till att jag läser detta. Jag hann precis och var intresserad av hur marknaden fungerar. Och detta är redan en fullfjädrad marknad enligt Gartner sedan 2018. Från 2014-2016 kallades det avancerad analys (rötter i BI), 2017 - Data Science (jag vet inte hur man översätter detta till ryska). För den som är intresserad av försäljares rörelser runt torget kan du här se. Och jag kommer att prata om 2020-torget, särskilt eftersom förändringarna där sedan 2019 är minimala: SAP flyttade ut och Altair köpte Datawatch.

Detta är inte en systematisk analys eller en tabell. En individuell syn, också från en geofysikers synvinkel. Men jag är alltid nyfiken på att läsa Gartner MQ, de formulerar vissa punkter perfekt. Så här är de saker som jag uppmärksammade både tekniskt, marknadsmässigt och filosofiskt.

Detta är inte för personer som är djupt insatta i ämnet ML, utan för personer som är intresserade av vad som generellt händer på marknaden.

Själva DSML-marknaden ligger logiskt mellan BI och Cloud AI-utvecklartjänster.

Gartner MQ 2020-recension: Maskininlärning och plattformar för artificiell intelligens

Favoritcitat och termer först:

  • "En ledare kanske inte är det bästa valet" — En marknadsledare är inte nödvändigtvis vad man behöver. Mycket bråskande! Som en konsekvens av bristen på en funktionell kund letar de alltid efter den "bästa" lösningen snarare än den "lämpliga".
  • "Modell operationalisering" - förkortas som MOPs. Och alla har svårt för mopsar! – (coolt mops-tema får modellen att fungera).
  • "Anteckningsbok miljö" är ett viktigt koncept där kod, kommentarer, data och resultat möts. Detta är mycket tydligt, lovande och kan avsevärt minska mängden UI-kod.
  • "Rootad i OpenSource" - väl sagt - slår rot i öppen källkod.
  • "Citizen Data Scientists" - så lätta snubbar, sådana lamare, inte experter, som behöver en visuell miljö och alla möjliga hjälpsaker. De kommer inte att koda.
  • "Demokrati" - används ofta för att betyda "gör tillgänglig för ett bredare spektrum av människor." Vi kan säga "demokratisera data" istället för det farliga "frigör data" som vi brukade använda. "Demokratisera" är alltid en lång svans och alla leverantörer springer efter det. Tappa i kunskapsintensitet – vinst i tillgänglighet!
  • "Exploratory Data Analysis - EDA" — Övervägande av dessa tillgängliga medel. Lite statistik. Lite visualisering. Något som alla gör i en eller annan grad. Visste inte att det fanns ett namn för detta
  • "Reproducerbarhet" — Maximalt bevarande av alla miljöparametrar, input och output så att experimentet kan upprepas när det väl har genomförts. Den viktigaste termen för en experimentell testmiljö!

Så:

Alteryx

Coolt gränssnitt, precis som en leksak. Skalbarhet är förstås lite svårt. Följaktligen Citizen community av ingenjörer runt samma med tchotchkes att spela. Analytics är allt ditt i en flaska. Påminde mig om ett komplex av spektralkorrelationsdataanalys Coscad, som programmerades på 90-talet.

Anakonda

Gemenskap kring Python- och R-experter. Öppen källkod är därför stor. Det visade sig att mina kollegor använder det hela tiden. Men jag visste inte.

DataBricks

Består av tre opensource-projekt – Spark-utvecklarna har samlat in en jäkla massa pengar sedan 2013. Jag måste verkligen citera wikin:

"I september 2013 meddelade Databricks att de hade samlat in 13.9 miljoner dollar från Andreessen Horowitz. Företaget samlade in ytterligare 33 miljoner dollar 2014, 60 miljoner dollar 2016, 140 miljoner dollar 2017, 250 miljoner dollar 2019 (feb) och 400 miljoner dollar 2019 (okt)”!!!

Några fantastiska människor klipper Spark. Jag vet inte, förlåt!

Och projekten är:

  • Delta Lake - ACID on Spark släpptes nyligen (det vi drömde om med Elasticsearch) - förvandlar den till en databas: rigid schema, ACID, revision, versioner...
  • ML Flöde — Spårning, förpackning, hantering och lagring av modeller.
  • koalas - Pandas DataFrame API på Spark - Pandas - Python API för att arbeta med tabeller och data i allmänhet.

Du kan titta på Spark för de som inte vet eller har glömt: länk. Jag tittade på videor med exempel från lite tråkiga men detaljerade rådgivande hackspettar: DataBricks for Data Science (länk) och för datateknik (länk).

Kort sagt, Databricks drar ut Spark. Den som vill använda Spark normalt i molnet tar DataBricks utan att tveka, som det är tänkt 🙂 Spark är den främsta skillnaden här.
Jag lärde mig att Spark Streaming inte är verklig falsk realtid eller mikrobatching. Och om du behöver riktig realtid så är det i Apache STORM. Alla säger och skriver också att Spark är bättre än MapReduce. Detta är sloganen.

DATAIKU

Cool från början till slut. Det finns många annonser. Jag förstår inte hur det skiljer sig från Alteryx?

DataRobot

Paxata för databeredning är ett separat företag som köptes av Data Robots i december 2019. Vi samlade in 20 MUSD och sålde. Allt på 7 år.

Dataförberedelse i Paxata, inte Excel - se här: länk.
Det finns automatiska uppslagningar och förslag på kopplingar mellan två datamängder. En fantastisk sak - för att förstå data skulle det läggas ännu mer tonvikt på textinformation (länk).
Data Catalog är en utmärkt katalog över värdelösa "live" datauppsättningar.
Det är också intressant hur kataloger bildas i Paxata (länk).

"Enligt analytikerföretaget Ovum, är programvaran möjlig genom framsteg inom prediktiv analys, maskininlärning och NoSQL metod för datacache.[15] Programvaran använder semantisk algoritmer för att förstå innebörden av en datatabells kolumner och mönsterigenkänningsalgoritmer för att hitta potentiella dubbletter i en datamängd.[15][7] Den använder också indexering, textmönsterigenkänning och andra tekniker som traditionellt finns i sociala medier och sökprogram."

Data Robots huvudprodukt är här. Deras slogan är från modell till företagsapplikation! Jag hittade konsulttjänster för oljeindustrin i samband med krisen, men det var väldigt banalt och ointressant: länk. Jag tittade på deras videor på Mops eller MLops (länk). Detta är en sådan Frankenstein sammansatt av 6-7 förvärv av olika produkter.

Naturligtvis blir det tydligt att ett stort team av Data Scientists måste ha just en sådan miljö för att arbeta med modeller, annars kommer de att producera många av dem och aldrig distribuera någonting. Och i vår olja och gas uppströms verklighet, om vi bara kunde skapa en framgångsrik modell, skulle det vara stora framsteg!

Själva processen påminde mycket om arbetet med designsystem inom till exempel geologi-geofysik petrel. Alla som inte är för lata gör och modifierar modeller. Samla in data i modellen. Sedan gjorde de en referensmodell och skickade den till produktion! Mellan säg en geologisk modell och en ML-modell kan man hitta mycket gemensamt.

Domino

Tonvikt på öppen plattform och samarbete. Företagsanvändare släpps in gratis. Deras datalab är väldigt likt sharepoint. (Och namnet luktar starkt av IBM). Alla experiment länkar till den ursprungliga datamängden. Hur bekant detta är :) Som i vår praxis - en del data drogs in i modellen, sedan rensades den och ställdes i ordning i modellen, och allt detta finns redan där i modellen och ändarna kan inte hittas i källdata .

Domino har cool infrastrukturvirtualisering. Jag monterade ihop maskinen så många kärnor som behövdes på en sekund och gick och räknade. Hur det gick till är inte direkt klart. Docker finns överallt. Massor av frihet! Alla arbetsytor av de senaste versionerna kan anslutas. Parallell lansering av experiment. Spårning och urval av framgångsrika.

Samma som DataRobot - resultaten publiceras för företagsanvändare i form av applikationer. För särskilt begåvade ”intressenter”. Och den faktiska användningen av modellerna övervakas också. Allt för mopsar!

Jag förstår inte helt hur komplexa modeller hamnar i produktion. Någon form av API tillhandahålls för att mata dem med data och få resultat.

H2O

Driveless AI är ett mycket kompakt och intuitivt system för Supervised ML. Allt i en låda. Det är inte helt klart direkt om backend.

Modellen paketeras automatiskt i en REST-server eller Java-app. Det här är en bra idé. Mycket har gjorts för att tolka och förklara. Tolkning och förklaring av modellens resultat (Vad ska i sig inte vara förklarligt, annars kan en person beräkna detsamma?).
För första gången en fallstudie om ostrukturerad data och NLP. Högkvalitativ arkitektonisk bild. Och i allmänhet gillade jag bilderna.

Det finns ett stort H2O-ramverk med öppen källkod som inte är helt klart (en uppsättning algoritmer/bibliotek?). Din egen visuella bärbara dator utan programmering som Jupiter (länk). Jag läste också om Pojo och Mojo - H2O-modeller inslagna i Java. Den första är enkel, den andra med optimering. H20 är de enda(!) för vilka Gartner listade textanalys och NLP som sina styrkor, såväl som sina ansträngningar när det gäller förklaring. Det är väldigt viktigt!

På samma plats: hög prestanda, optimering och branschstandard inom området integration med hårdvara och moln.

Och svagheten är logisk - Driverles AI är svag och smal jämfört med deras öppen källkod. Dataförberedelser är dåliga jämfört med Paxata! Och de ignorerar industriell data - ström, graf, geo. Tja, allt kan inte bara vara bra.

KNIME

Jag gillade de 6 mycket specifika, mycket intressanta affärsfallen på huvudsidan. Stark OpenSource.

Gartner degraderade dem från ledare till visionärer. Att tjäna pengar dåligt är ett gott tecken för användarna, med tanke på att ledaren inte alltid är det bästa valet.

Nyckelordet, som i H2O, är utökat, vilket betyder att hjälpa datavetare för fattiga medborgare. Det här är första gången någon har blivit kritiserad för prestation i en recension! Intressant? Det vill säga, det finns så mycket datorkraft att prestanda inte alls kan vara ett systemproblem? Gartner har om detta ord "Augmented" separat artikel, som inte kunde nås.
Och KNIME verkar vara den första icke-amerikanen i recensionen! (Och våra designers gillade verkligen deras målsida. Konstiga människor.

MathWorks

MatLab är en gammal hederskamrat känd för alla! Verktygslådor för alla områden i livet och situationer. Något väldigt annorlunda. Faktum är att massor och massor och massor av matematik för allt i livet!

En Simulink-tilläggsprodukt för systemdesign. Jag grävde i verktygslådor för Digital Twins - jag förstår ingenting om det, men här mycket har skrivits. För oljeindustri. I allmänhet är detta en fundamentalt annorlunda produkt från djupet av matematik och ingenjörskonst. För att välja specifika matematiska verktygssatser. Enligt Gartner är deras problem desamma som för smarta ingenjörer – inget samarbete – alla rotar runt i sin egen modell, ingen demokrati, ingen förklaring.

RapidMiner

Jag har stött på och hört mycket tidigare (tillsammans med Matlab) i samband med bra öppen källkod. Jag grävde lite i TurboPrep som vanligt. Jag är intresserad av hur man får rena data från smutsiga data.

Återigen kan du se att folket är bra baserat på 2018 års marknadsföringsmaterial och de fruktansvärda engelsktalande personerna på featuredemon.

Och människor från Dortmund sedan 2001 med en stark tysk bakgrund)

Gartner MQ 2020-recension: Maskininlärning och plattformar för artificiell intelligens
Jag förstår fortfarande inte från webbplatsen vad exakt som är tillgängligt i öppen källkod - du måste gräva djupare. Bra videor om implementering och AutoML-koncept.

Det finns inget speciellt med RapidMiner Server-backend heller. Den kommer förmodligen att vara kompakt och fungera bra på premium ur lådan. Den är förpackad i Docker. Delad miljö endast på RapidMiner-servern. Och så finns det Radoop, data från Hadoop, räknande ramsor från Spark in Studios arbetsflöde.

Som väntat flyttade unga heta försäljare "försäljare av randiga pinnar" ner dem. Gartner förutspår dock deras framtida framgång inom Enterprise-området. Där kan du samla in pengar. Tyskarna vet hur man gör detta, heliga-heliga :) Nämn inte SAP!!!

De gör mycket för medborgarna! Men från sidan kan man se att Gartner säger att de kämpar med säljinnovation och inte kämpar för bredd i täckningen, utan för lönsamhet.

Förblev SAS и Tibco typiska BI-leverantörer för mig... Och båda ligger i toppen, vilket bekräftar min tilltro till att normal DataScience logiskt växer
från BI, och inte från moln och Hadoop-infrastrukturer. Från företag, alltså, och inte från IT. Som i Gazpromneft till exempel: länk,En mogen DSML-miljö växer fram ur starka BI-praxis. Men det kanske är smäckigt och partiskt mot MDM och andra saker, vem vet.

SAS

Det finns inte mycket att säga. Bara de uppenbara sakerna.

TIBCO

Strategin läses i en inköpslista på en sidlång Wiki-sida. Ja, lång historia, men 28!!! Charles. Jag köpte BI Spotfire (2007) i min techno-ungdom. Och även rapportering från Jaspersoft (2014), då så många som tre leverantörer av prediktiv analys Insightful (S-plus) (2008), Statistica (2017) och Alpine Data (2017), händelsebearbetning och streaming Streambase System (2013), MDM Orchestra Networks (2018) och Snappy Data (2019) minnesplattform.

Hej Frankie!

Gartner MQ 2020-recension: Maskininlärning och plattformar för artificiell intelligens

Källa: will.com

Lägg en kommentar