Gartner MQ 2020-anmeldelse: Machine Learning og Artificial Intelligence Platforms

Det er umuligt at forklare grunden til, at jeg læser dette. Jeg havde bare tid og var interesseret i, hvordan markedet fungerer. Og dette er allerede et fuldt udbygget marked ifølge Gartner siden 2018. Fra 2014-2016 blev det kaldt avanceret analyse (rødder i BI), i 2017 - Data Science (jeg ved ikke hvordan man oversætter dette til russisk). For dem, der er interesseret i sælgernes bevægelser rundt på pladsen, kan du her se. Og jeg vil tale om 2020-pladsen, især da ændringerne der siden 2019 er minimale: SAP flyttede ud, og Altair købte Datawatch.

Dette er ikke en systematisk analyse eller en tabel. Et individuelt synspunkt, også fra en geofysikers synspunkt. Men jeg er altid nysgerrig efter at læse Gartner MQ, de formulerer nogle punkter perfekt. Så her er de ting, som jeg var opmærksom på både teknisk, markedsmæssigt og filosofisk.

Dette er ikke for folk, der er dybt inde i emnet ML, men for folk, der er interesseret i, hvad der generelt sker på markedet.

Selve DSML-markedet ligger logisk mellem BI- og Cloud AI-udviklertjenester.

Gartner MQ 2020-anmeldelse: Machine Learning og Artificial Intelligence Platforms

Yndlingscitater og -udtryk først:

  • "En leder er måske ikke det bedste valg" — En markedsleder er ikke nødvendigvis, hvad du har brug for. Meget presserende! Som en konsekvens af manglen på en funktionel kunde, leder de altid efter den "bedste" løsning frem for den "egnede".
  • "Model operationalisering" - forkortet til MOP'er. Og alle har det svært med mops! – (cool mops-tema får modellen til at fungere).
  • "Notebook-miljø" er et vigtigt koncept, hvor kode, kommentarer, data og resultater mødes. Dette er meget tydeligt, lovende og kan reducere mængden af ​​UI-kode betydeligt.
  • "Rooted in OpenSource" - godt sagt - slår rod i open source.
  • "Citizen Data Scientists" - Sådanne lette fyre, sådanne lamere, ikke eksperter, der har brug for et visuelt miljø og alle mulige hjælpeting. De vil ikke kode.
  • "Demokrati" - bruges ofte til at betyde "gør tilgængelig for en bredere vifte af mennesker." Vi kan sige "demokratiser dataene" i stedet for det farlige "frigør dataene", som vi plejede at bruge. "Demokratisere" er altid en lang hale, og alle leverandører løber efter det. Tab i vidensintensitet - vind i tilgængelighed!
  • "Exploratory Data Analysis - EDA" — overvejelse af disse tilgængelige midler. Nogle statistikker. Lidt visualisering. Noget som alle gør i en eller anden grad. Vidste ikke, at der var et navn til dette
  • "Reproducerbarhed" — maksimal bevarelse af alle miljøparametre, input og output, således at forsøget kan gentages, når først det er udført. Den vigtigste betegnelse for et eksperimentelt testmiljø!

So:

Alteryx

Cool grænseflade, ligesom et legetøj. Skalerbarhed er selvfølgelig lidt vanskelig. Derfor er borgersamfundet af ingeniører omkring det samme med tchotchkes at spille. Analytics er alt dit i én flaske. Mindede mig om et kompleks af spektral-korrelationsdataanalyse Coscad, som blev programmeret i 90'erne.

Anaconda

Fællesskab omkring Python- og R-eksperter. Open source er derfor stort. Det viste sig, at mine kolleger bruger det hele tiden. Men jeg vidste det ikke.

DataBricks

Består af tre opensource-projekter - Spark-udviklerne har rejst en helvedes masse penge siden 2013. Jeg er virkelig nødt til at citere wikien:

"I september 2013 annoncerede Databricks, at de havde rejst 13.9 millioner dollars fra Andreessen Horowitz. Virksomheden rejste yderligere $33 millioner i 2014, $60 millioner i 2016, $140 millioner i 2017, $250 millioner i 2019 (februar) og $400 millioner i 2019 (okt)”!!!

Nogle fantastiske mennesker skærer Spark. Jeg ved det ikke, undskyld!

Og projekterne er:

  • Delta søen - ACID on Spark blev for nylig udgivet (det vi drømte om med Elasticsearch) - gør det til en database: stift skema, ACID, revision, versioner...
  • ML Flow — sporing, emballering, styring og opbevaring af modeller.
  • Koalaer - Pandas DataFrame API på Spark - Pandas - Python API til at arbejde med tabeller og data generelt.

Du kan se på Spark for dem, der ikke ved eller har glemt: link. Jeg så videoer med eksempler fra lidt kedelige, men detaljerede rådgivende spætter: DataBricks for Data Science (link) og for Data Engineering (link).

Kort sagt trækker Databricks Spark ud. Enhver, der vil bruge Spark normalt i skyen, tager DataBricks uden tøven, som det var meningen 🙂 Spark er den vigtigste differentiator her.
Jeg lærte, at Spark Streaming ikke er ægte falsk realtid eller mikrobatching. Og hvis du har brug for ægte realtid, er det i Apache STORM. Alle siger og skriver også, at Spark er bedre end MapReduce. Dette er sloganet.

DATAIKU

Fed ende-til-ende ting. Der er mange annoncer. Jeg forstår ikke, hvordan det adskiller sig fra Alteryx?

DataRobot

Paxata til dataforberedelse er et separat firma, der blev købt af Data Robots i december 2019. Vi rejste 20 MUSD og solgte. Alt sammen på 7 år.

Dataforberedelse i Paxata, ikke Excel - se her: link.
Der er automatiske opslag og forslag til sammenføjninger mellem to datasæt. En stor ting - for at forstå dataene ville der være endnu mere vægt på tekstinformation (link).
Datakatalog er et fremragende katalog over ubrugelige "live" datasæt.
Det er også interessant, hvordan mapper dannes i Paxata (link).

"Ifølge analytikerfirmaet ovum, softwaren er gjort mulig gennem fremskridt inden for predictive analytics, machine learning og NoSQL data caching metode.[15] Softwaren bruger semantiske algoritmer til at forstå betydningen af ​​en datatabels kolonner og mønstergenkendelsesalgoritmer til at finde potentielle dubletter i et datasæt.[15][7] Den bruger også indeksering, tekstmønstergenkendelse og andre teknologier, der traditionelt findes i sociale medier og søgesoftware."

Data Robots hovedprodukt er her. Deres slogan er fra Model til Enterprise Application! Jeg fandt rådgivning til olieindustrien i forbindelse med krisen, men det var meget banalt og uinteressant: link. Jeg så deres videoer på Mops eller MLops (link). Dette er sådan en Frankenstein samlet fra 6-7 anskaffelser af forskellige produkter.

Selvfølgelig bliver det klart, at et stort team af Data Scientists skal have netop sådan et miljø til at arbejde med modeller, ellers vil de producere en masse af dem og aldrig implementere noget. Og i vores olie og gas opstrøms virkelighed, hvis bare vi kunne skabe én succesfuld model, ville det være et stort fremskridt!

Selve processen mindede meget om arbejdet med designsystemer i for eksempel geologi-geofysik Petrel. Alle, der ikke er for dovne, laver og ændrer modeller. Saml data ind i modellen. Så lavede de en referencemodel og sendte den i produktion! Mellem f.eks. en geologisk model og en ML-model kan man finde meget til fælles.

Domino

Vægt på åben platform og samarbejde. Erhvervsbrugere optages gratis. Deres Data Lab minder meget om sharepoint. (Og navnet lugter stærkt af IBM). Alle eksperimenter linker til det originale datasæt. Hvor er det velkendt :) Som i vores praksis - nogle data blev trukket ind i modellen, derefter blev det renset og sat i orden i modellen, og alt dette bor allerede der i modellen og enderne kan ikke findes i kildedataene .

Domino har cool infrastrukturvirtualisering. Jeg samlede maskinen så mange kerner som nødvendigt på et sekund og gik i gang med at tælle. Hvordan det blev gjort, er ikke umiddelbart klart. Docker er overalt. Masser af frihed! Alle arbejdsområder af de seneste versioner kan tilsluttes. Parallel lancering af eksperimenter. Sporing og udvælgelse af succesrige.

Det samme som DataRobot - resultaterne offentliggøres til erhvervsbrugere i form af applikationer. For særligt begavede "interessenter". Og selve brugen af ​​modellerne bliver også overvåget. Alt til Mops!

Jeg forstår ikke helt, hvordan komplekse modeller ender i produktionen. En slags API er tilvejebragt for at fodre dem med data og få resultater.

H2O

Driveless AI er et meget kompakt og intuitivt system til Supervised ML. Alt i én kasse. Det er ikke helt klart med det samme om backend.

Modellen pakkes automatisk ind i en REST-server eller Java-app. Det er en god idé. Der er gjort meget for fortolkning og forklarlighed. Fortolkning og forklaring af modellens resultater (Hvad i sagens natur bør ikke kunne forklares, ellers kan en person beregne det samme?).
For første gang et casestudie om ustrukturerede data og NLP. Arkitektonisk billede af høj kvalitet. Og generelt kunne jeg godt lide billederne.

Der er en stor open source H2O-ramme, der ikke er helt klar (et sæt algoritmer/biblioteker?). Din egen visuelle bærbare computer uden programmering som Jupiter (link). Jeg læste også om Pojo og Mojo - H2O-modeller pakket ind i Java. Den første er ligetil, den anden med optimering. H20 er de eneste(!), som Gartner har nævnt tekstanalyse og NLP som deres styrker, såvel som deres indsats med hensyn til Forklarlighed. Det er meget vigtigt!

Samme sted: høj ydeevne, optimering og industristandard inden for integration med hardware og skyer.

Og svagheden er logisk - Driverles AI er svag og smal sammenlignet med deres open source. Dataforberedelse er halt i forhold til Paxata! Og de ignorerer industrielle data - stream, graf, geo. Nå, alt kan ikke bare være godt.

KNIME

Jeg kunne godt lide de 6 meget specifikke, meget interessante business cases på hovedsiden. Stærk OpenSource.

Gartner degraderede dem fra ledere til visionære. At tjene penge dårligt er et godt tegn for brugerne, da lederen ikke altid er det bedste valg.

Nøgleordet, som i H2O, er augmented, hvilket betyder at hjælpe fattige borgere data scientists. Dette er første gang, nogen er blevet kritiseret for ydeevne i en anmeldelse! Interessant? Det vil sige, at der er så meget computerkraft, at ydeevne slet ikke kan være et systemisk problem? Gartner har om dette ord "Augmented" separat artikel, som ikke kunne nås.
Og KNIME ser ud til at være den første ikke-amerikaner i anmeldelsen! (Og vores designere kunne virkelig godt lide deres landingsside. Mærkelige mennesker.

MathWorks

MatLab er en gammel æreskammerat kendt af alle! Værktøjskasser til alle områder af livet og situationer. Noget meget anderledes. Faktisk masser og masser og masser af matematik for alt i livet!

Et Simulink-tillægsprodukt til systemdesign. Jeg gravede i værktøjskasser til Digital Twins - jeg forstår ikke noget af det, men her der er skrevet meget. Til olieindustrien. Generelt er dette et fundamentalt anderledes produkt fra dybden af ​​matematik og teknik. For at vælge specifikke matematiske værktøjssæt. Ifølge Gartner er deres problemer de samme som for smarte ingeniører – intet samarbejde – alle roder rundt i deres egen model, intet demokrati, ingen forklarlighed.

RapidMiner

Jeg er stødt på og hørt meget før (sammen med Matlab) i forbindelse med god open source. Jeg gravede lidt i TurboPrep som sædvanligt. Jeg er interesseret i, hvordan man får rene data fra beskidte data.

Igen kan du se, at folk er gode baseret på 2018-marketingmaterialerne og de frygtelige engelsktalende mennesker ved feature-demoen.

Og folk fra Dortmund siden 2001 med en stærk tysk baggrund)

Gartner MQ 2020-anmeldelse: Machine Learning og Artificial Intelligence Platforms
Jeg forstår stadig ikke fra webstedet, hvad der præcist er tilgængeligt i open source - du skal grave dybere. Gode ​​videoer om implementering og AutoML-koncepter.

Der er heller ikke noget særligt ved RapidMiner Server-backend. Det vil sandsynligvis være kompakt og fungere godt på premium ud af æsken. Det er pakket i Docker. Delt miljø kun på RapidMiner-serveren. Og så er der Radoop, data fra Hadoop, der tæller rim fra Spark in Studio workflow.

Som forventet flyttede unge hotte sælgere "sælgere af stribede pinde" dem ned. Gartner forudser dog deres fremtidige succes i Enterprise-området. Du kan rejse penge der. Tyskerne ved, hvordan man gør dette, hellig-hellig :) Nævn ikke SAP!!!

De gør meget for borgerne! Men fra siden kan man se, at Gartner fortæller, at de kæmper med salgsinnovation og ikke kæmper for bredde i dækningen, men for lønsomhed.

Tilbage SAS и Tibco typiske BI-leverandører for mig... Og begge er helt i top, hvilket bekræfter min tillid til, at normal DataScience logisk vokser
fra BI, og ikke fra skyer og Hadoop-infrastrukturer. Fra erhvervslivet, altså, og ikke fra IT. Som i Gazpromneft for eksempel: link,Et modent DSML-miljø vokser ud af stærke BI-praksis. Men måske er det smaskigt og forudindtaget over for MDM og andre ting, hvem ved.

SAS

Der er ikke meget at sige. Kun de åbenlyse ting.

TIBCO

Strategien læses i en indkøbsliste på en sidelang Wiki-side. Ja, lang historie, men 28!!! Charles. Jeg købte BI Spotfire (2007) tilbage i min techno-ungdom. Og også rapportering fra Jaspersoft (2014), dengang så mange som tre prædiktive analyseleverandører Insightful (S-plus) (2008), Statistica (2017) og Alpine Data (2017), begivenhedsbehandling og streaming Streambase System (2013), MDM Orchestra Networks (2018) og Snappy Data (2019) in-memory platform.

Hej Frankie!

Gartner MQ 2020-anmeldelse: Machine Learning og Artificial Intelligence Platforms

Kilde: www.habr.com

Tilføj en kommentar