Gartner MQ 2020-anmeldelse: Maskinlæring og plattformer for kunstig intelligens

Невозможно объяснить причину, зачем я это прочел. Просто было время и было интересно, как устроен рынок. А это уже полноценный рынок по Gartner с 2018го года. С 2014-2016 называлось продвинутой аналитикой (корни в BI), в 2017 – Data Science (не знаю, как перевести это на русский). Кому интересны передвижения вендоров по квадрату – можно her se. Og jeg vil snakke om 2020-torget, spesielt siden endringene der siden 2019 er minimale: SAP flyttet ut og Altair kjøpte Datawatch.

Dette er ikke en systematisk analyse eller en tabell. Et individuelt syn, også fra en geofysikers synspunkt. Men jeg er alltid nysgjerrig på å lese Gartner MQ, de formulerer noen punkter perfekt. Så her er de tingene jeg tok hensyn til både teknisk, markedsmessig og filosofisk.

Dette er ikke for folk som er dypt inne i temaet ML, men for folk som er interessert i hva som generelt skjer i markedet.

Selve DSML-markedet hekker logisk mellom BI- og Cloud AI-utviklertjenester.

Gartner MQ 2020-anmeldelse: Maskinlæring og plattformer for kunstig intelligens

Favoritt sitater og termer først:

  • "En leder er kanskje ikke det beste valget" — En markedsleder er ikke nødvendigvis det du trenger. Veldig presserende! Som en konsekvens av mangelen på en funksjonell kunde, leter de alltid etter den "beste" løsningen, i stedet for den "passende".
  • "Modell operasjonalisering" - forkortet som MOPs. Og alle har det vanskelig med mops! – (kult mops-tema får modellen til å fungere).
  • "Bærbart miljø" er et viktig konsept hvor kode, kommentarer, data og resultater kommer sammen. Dette er veldig tydelig, lovende og kan redusere mengden UI-kode betydelig.
  • "Røtter i OpenSource" - godt sagt - slår rot i åpen kildekode.
  • "Citizen Data Scientists" - så enkle karer, slike lammere, ikke eksperter, som trenger et visuelt miljø og alle mulige hjelpeting. De vil ikke kode.
  • "Demokrati" - ofte brukt til å bety "gjøre tilgjengelig for et bredere spekter av mennesker." Vi kan si "demokratiser dataene" i stedet for den farlige "frigjør dataene" som vi pleide å bruke. "Demokratisering" er alltid en lang hale, og alle leverandører løper etter det. Tap i kunnskapsintensitet - vinning i tilgjengelighet!
  • "Utforskende dataanalyse - EDA" — vurdering av disse tilgjengelige midlene. Litt statistikk. Litt visualisering. Noe som alle gjør i en eller annen grad. Visste ikke at det fantes et navn på dette
  • "Reproduserbarhet" — maksimal bevaring av alle miljøparametere, input og output slik at forsøket kan gjentas når det er utført. Den viktigste betegnelsen for et eksperimentelt testmiljø!

Så:

Alteryx

Kult grensesnitt, akkurat som et leketøy. Skalerbarhet er selvfølgelig litt vanskelig. Følgelig, Citizen fellesskap av ingeniører rundt det samme med tchotchkes å spille. Analytics er alt ditt i én flaske. Minnet meg om et kompleks av spektralkorrelasjonsdataanalyse Coscad, som ble programmert på 90-tallet.

Anaconda

Fellesskap rundt Python- og R-eksperter. Åpen kildekode er derfor stor. Det viste seg at kollegene mine bruker det hele tiden. Men jeg visste ikke.

DataBricks

Består av tre opensource-prosjekter – Spark-utviklerne har samlet inn en helvetes masse penger siden 2013. Jeg må virkelig sitere wikien:

"I september 2013 kunngjorde Databricks at de hadde samlet inn 13.9 millioner dollar fra Andreessen Horowitz. Selskapet samlet inn ytterligere 33 millioner dollar i 2014, 60 millioner dollar i 2016, 140 millioner dollar i 2017, 250 millioner dollar i 2019 (februar) og 400 millioner dollar i 2019 (okt)”!!!

Noen flotte mennesker kuttet Spark. Jeg vet ikke, beklager!

Og prosjektene er:

  • Deltasjøen - ACID on Spark ble nylig utgitt (det vi drømte om med Elasticsearch) - gjør den til en database: rigid schema, ACID, revisjon, versjoner...
  • ML Flow — sporing, pakking, styring og lagring av modeller.
  • Koalabjørner - Pandas DataFrame API på Spark - Pandas - Python API for arbeid med tabeller og data generelt.

Du kan se på Spark for de som ikke vet eller har glemt: link. Jeg så på videoer med eksempler fra litt kjedelige, men detaljerte rådgivende hakkespetter: DataBricks for Data Science (link) og for datateknikk (link).

Kort sagt, Databricks trekker ut Spark. Alle som vil bruke Spark normalt i skyen, tar DataBricks uten å nøle, slik det er tenkt 🙂 Spark er hoveddifferensiatoren her.
Jeg lærte at Spark Streaming ikke er ekte falsk sanntid eller mikrobatching. Og hvis du trenger ekte sanntid, er det i Apache STORM. Alle sier og skriver også at Spark er bedre enn MapReduce. Dette er slagordet.

DATAIKU

Kul ende-til-ende ting. Det er mange annonser. Jeg forstår ikke hvordan det skiller seg fra Alteryx?

DataRobot

Paxata for dataforberedelse er et eget selskap som ble kjøpt av Data Robots i desember 2019. Vi samlet inn 20 MUSD og solgte. Alt på 7 år.

Dataforberedelse i Paxata, ikke Excel - se her: link.
Det er automatiske oppslag og forslag til sammenføyninger mellom to datasett. En flott ting - for å forstå dataene, ville det vært enda mer vekt på tekstinformasjon (link).
Data Catalog er en utmerket katalog over ubrukelige "live" datasett.
Det er også interessant hvordan kataloger dannes i Paxata (link).

"Ifølge analytikerfirmaet ovum, er programvaren muliggjort gjennom fremskritt innen prediktiv analyse, maskinlæring og NoSQL databufringsmetodikk.[15] Programvaren bruker semantisk algoritmer for å forstå betydningen av en datatabells kolonner og mønstergjenkjenningsalgoritmer for å finne potensielle duplikater i et datasett.[15][7] Den bruker også indeksering, tekstmønstergjenkjenning og andre teknologier som tradisjonelt finnes i sosiale medier og søkeprogramvare."

Data Robots hovedprodukt er her. Slagordet deres er fra modell til bedriftsapplikasjon! Jeg fant rådgivning for oljeindustrien i forbindelse med krisen, men det var veldig banalt og uinteressant: link. Jeg så videoene deres på Mops eller MLops (link). Dette er en slik Frankenstein satt sammen av 6-7 oppkjøp av forskjellige produkter.

Selvfølgelig blir det klart at et stort team av dataforskere må ha akkurat et slikt miljø for å jobbe med modeller, ellers vil de produsere mange av dem og aldri distribuere noe. Og i vår olje- og gassoppstrøms virkelighet, hvis vi bare kunne lage én vellykket modell, ville det vært stor fremgang!

Selve prosessen minnet mye om arbeidet med designsystemer i for eksempel geologi-geofysikk Petrel. Alle som ikke er for late lager og modifiserer modeller. Samle data inn i modellen. Så laget de en referansemodell og sendte den til produksjon! Mellom for eksempel en geologisk modell og en ML-modell kan du finne mye til felles.

Domino

Vekt på åpen plattform og samarbeid. Bedriftsbrukere slipper inn gratis. Datalabben deres ligner veldig på sharepoint. (Og navnet smaker sterkt av IBM). Alle eksperimenter kobler til det originale datasettet. Hvor kjent er dette :) Som i vår praksis - noen data ble dratt inn i modellen, så ble den renset og satt i orden i modellen, og alt dette bor allerede der i modellen og endene kan ikke finnes i kildedataene .

Domino har kul infrastrukturvirtualisering. Jeg satte sammen maskinen så mange kjerner som trengs i løpet av et sekund og gikk for å telle. Hvordan det ble gjort er ikke umiddelbart klart. Docker er overalt. Masse frihet! Alle arbeidsområder i de nyeste versjonene kan kobles til. Parallell lansering av eksperimenter. Sporing og valg av vellykkede.

Det samme som DataRobot - resultatene publiseres for bedriftsbrukere i form av applikasjoner. For spesielt begavede «interessenter». Og selve bruken av modellene overvåkes også. Alt for Mops!

Jeg forstår ikke helt hvordan komplekse modeller ender opp i produksjon. En slags API er gitt for å mate dem med data og få resultater.

H2O

Driveless AI er et veldig kompakt og intuitivt system for Supervised ML. Alt i en boks. Det er ikke helt klart med en gang om backend.

Modellen pakkes automatisk inn i en REST-server eller Java-app. Dette er en god idé. Mye er gjort for tolkning og forklaring. Tolkning og forklaring av resultatene av modellen (Hva i seg selv skal ikke kunne forklares, ellers kan en person beregne det samme?).
For første gang en casestudie om ustrukturerte data og NLP. Arkitektonisk bilde av høy kvalitet. Og generelt likte jeg bildene.

Det er et stort åpen kildekode H2O-rammeverk som ikke er helt klart (et sett med algoritmer/biblioteker?). Din egen visuelle bærbare datamaskin uten programmering som Jupiter (link). Jeg leste også om Pojo og Mojo - H2O-modeller pakket inn i Java. Den første er grei, den andre med optimalisering. H20 er de eneste(!) som Gartner har oppført tekstanalyse og NLP som sine styrker, samt deres innsats angående Forklarbarhet. Det er veldig viktig!

På samme sted: høy ytelse, optimalisering og bransjestandard innen integrasjon med maskinvare og skyer.

Og svakheten er logisk - Driverles AI er svak og smal sammenlignet med deres åpen kildekode. Dataforberedelse er dårlig sammenlignet med Paxata! Og de ignorerer industrielle data – strøm, graf, geo. Vel, alt kan ikke bare være bra.

KNIDE

Jeg likte de 6 veldig spesifikke, veldig interessante forretningssakene på hovedsiden. Sterk åpen kildekode.

Gartner degraderte dem fra ledere til visjonære. Å tjene penger dårlig er et godt tegn for brukerne, gitt at lederen ikke alltid er det beste valget.

Nøkkelordet, som i H2O, er utvidet, som betyr å hjelpe dataforskere for fattige borgere. Dette er første gang noen har blitt kritisert for ytelse i en anmeldelse! Interessant? Det vil si at det er så mye datakraft at ytelse ikke kan være et systemisk problem i det hele tatt? Gartner har om dette ordet "Augmented" egen artikkel, som ikke kunne nås.
Og KNIME ser ut til å være den første ikke-amerikaneren i anmeldelsen! (Og designerne våre likte virkelig landingssiden deres. Rare folk.

MathWorks

MatLab er en gammel æreskamerat kjent for alle! Verktøykasser for alle livsområder og situasjoner. Noe veldig annerledes. Faktisk mye og mye matematikk for alt i livet!

Et Simulink tilleggsprodukt for systemdesign. Jeg gravde i verktøykasser for Digital Twins - jeg forstår ingenting om det, men her mye er skrevet. Til oljeindustrien. Generelt er dette et fundamentalt forskjellig produkt fra dybden av matematikk og ingeniørfag. For å velge spesifikke matematiske verktøysett. Ifølge Gartner er problemene deres de samme som for smarte ingeniører – ingen samarbeid – alle roter rundt i sin egen modell, ingen demokrati, ingen forklarlighet.

RapidMiner

Jeg har kommet over og hørt mye før (sammen med Matlab) i sammenheng med god åpen kildekode. Jeg gravde litt i TurboPrep som vanlig. Jeg er interessert i hvordan få rene data fra skitne data.

Igjen kan du se at folkene er gode basert på 2018-markedsføringsmateriellet og de forferdelige engelsktalende menneskene på funksjonsdemoen.

Og folk fra Dortmund siden 2001 med sterk tysk bakgrunn)

Gartner MQ 2020-anmeldelse: Maskinlæring og plattformer for kunstig intelligens
Jeg forstår fortsatt ikke fra nettstedet hva som er tilgjengelig i åpen kildekode - du må grave dypere. Gode ​​videoer om distribusjon og AutoML-konsepter.

Det er ikke noe spesielt med RapidMiner Server-backend heller. Den vil sannsynligvis være kompakt og fungere godt på premium ut av esken. Den er pakket i Docker. Delt miljø kun på RapidMiner-serveren. Og så er det Radoop, data fra Hadoop, tellende rim fra Spark in Studio arbeidsflyt.

Som forventet flyttet unge hotte selgere "selgere av stripete pinner" dem ned. Gartner spår imidlertid deres fremtidige suksess i Enterprise-området. Du kan samle inn penger der. Tyskerne vet hvordan man gjør dette, hellig-hellig :) Ikke nevne SAP!!!

De gjør mye for innbyggerne! Men fra siden kan man se at Gartner sier at de sliter med salgsinnovasjon og ikke kjemper for bredde i dekningen, men for lønnsomhet.

Oppholdt seg SAS и Tibco typiske BI-leverandører for meg... Og begge er helt på topp, noe som bekrefter min tillit til at normal DataScience logisk vokser
fra BI, og ikke fra skyer og Hadoop-infrastrukturer. Fra business, altså, og ikke fra IT. Som i Gazpromneft for eksempel: link,Et modent DSML-miljø vokser ut av sterk BI-praksis. Men kanskje det er smakfullt og partisk mot MDM og andre ting, hvem vet.

SAS

Det er ikke mye å si. Bare de åpenbare tingene.

TIBCO

Strategien leses i en handleliste på en sidelang Wiki-side. Ja, lang historie, men 28!!! Charles. Jeg kjøpte BI Spotfire (2007) i min tekno-ungdom. Og også rapportering fra Jaspersoft (2014), da så mange som tre leverandører av prediktiv analyse Insightful (S-plus) (2008), Statistica (2017) og Alpine Data (2017), hendelsesbehandling og streaming Streambase System (2013), MDM Orchestra Networks (2018) og Snappy Data (2019) minneplattform.

Hei Frankie!

Gartner MQ 2020-anmeldelse: Maskinlæring og plattformer for kunstig intelligens

Kilde: www.habr.com

Legg til en kommentar