Et ass onméiglech de Grond ze erklären firwat ech dëst liesen. Ech hat just Zäit a war interesséiert wéi de Maart funktionnéiert. An dëst ass schonn e vollwäertege Maart laut Gartner zënter 2018. Vun 2014-2016 gouf et fortgeschratt Analyse genannt (Wuerzelen am BI), an 2017 - Data Science (ech weess net wéi ech dat op Russesch iwwersetzen). Fir déi, déi un d'Beweegunge vun de Verkeefer um Quadrat interesséiert sinn, kënnt Dir kucken. An ech wäert iwwer den 2020 Quadrat schwätzen, besonnesch well d'Ännerungen do zënter 2019 minimal sinn: SAP ass geplënnert an Altair kaaft Datawatch.
Dëst ass keng systematesch Analyse oder eng Tabell. Eng individuell Vue, aus der Siicht vun engem Geophysiker. Mee ech sinn ëmmer virwëtzeg Gartner MQ ze liesen, si formuléieren e puer Punkten perfekt. Also hei sinn d'Saachen, op déi ech souwuel technesch, Maartweis a philosophesch opmierksam gemaach hunn.
Dëst ass net fir Leit déi déif an d'Thema ML sinn, mee fir Leit déi interesséiert sinn wat allgemeng um Maart geschitt.
Den DSML Maart selwer nascht logesch tëscht BI a Cloud AI Entwéckler Servicer.

Léifsten Zitater a Begrëffer éischt:
- "E Leader ass vläicht net déi bescht Wiel" - E Maart Leader ass net onbedéngt wat Dir braucht. Ganz dréngend! Als Konsequenz vum Mangel un engem funktionnelle Client, sichen se ëmmer no der "bescht" Léisung, anstatt déi "passend".
- "Modell operationalization" - Ofkierzung als MOPs. A jiddereen huet eng schwéier Zäit mat Pugs! - (cool Pug Thema mécht de Modell Aarbecht).
- "Notizblock Ëmfeld" ass e wichtegt Konzept wou Code, Kommentaren, Daten a Resultater zesummekommen. Dëst ass ganz kloer, villverspriechend a kann d'Quantitéit vum UI Code wesentlech reduzéieren.
- "Root an OpenSource" - gutt gesot - hëlt root an Open Source.
- "Bierger Data Wëssenschaftler" - sou einfach Dudes, esou Lammeren, net Experten, déi e visuellt Ëmfeld an all méiglech Hëllefssaachen brauchen. Si wäerten net codéieren.
- "Demokratie" - dacks benotzt fir "fir eng méi breet Palette vu Leit verfügbar ze maachen." Mir kënne soen "D'Daten demokratiséieren" amplaz vun de geféierleche "Daten fräi", déi mir benotzt hunn. "Demokratiséieren" ass ëmmer e laange Schwanz an all Ubidder lafen no him. Verléieren u Wëssensintensitéit - Gewënn an Accessibilitéit!
- "Exploratory Data Analysis - EDA" - Iwwerleeung vun dëse verfügbare Mëttelen. E puer Statistiken. E bësse Visualiséierung. Eppes wat jidderee mécht an engem oder anere Grad. Wousst net datt et en Numm fir dëst gëtt
- "Reproducibilitéit" - maximal Erhaalung vun all Ëmweltparameter, Inputen an Ausgänge sou datt d'Experiment eemol duerchgefouert ka ginn. De wichtegste Begrëff fir en experimentellen Testëmfeld!
Also:
Alteryx
Cool Interface, grad wéi e Spillsaach. Skalierbarkeet, natierlech, ass e bësse schwéier. Deementspriechend, de Bierger Communautéit vun Ingenieuren ëm déi selwecht mat tchotchkes ze spillen. Analytics ass alles Är an enger Fläsch. Erënnert mech un e Komplex vu Spektralkorrelatiounsdatenanalyse , déi an den 90er Jore programméiert gouf.
Anaconda
Gemeinschaft ronderëm Python an R Experten. Open Source ass deementspriechend grouss. Et huet sech erausgestallt datt meng Kollegen et ëmmer benotzen. Mee ech wousst net.
DataBricks
Besteet aus dräi Opensource-Projeten - d'Spark-Entwéckler hunn zënter 2013 vill Sue gesammelt. Ech muss wierklech d'Wiki zitéieren:
"Am September 2013 huet Databricks ugekënnegt datt et $ 13.9 Millioune vum Andreessen Horowitz gesammelt huet. D'Firma huet zousätzlech $33 Milliounen am Joer 2014 gesammelt, $60 Milliounen am Joer 2016, $140 Milliounen am Joer 2017, $250 Milliounen am Joer 2019 (Februar) an $400 Milliounen am Joer 2019 (Okt)"!!!
E puer super Leit schneiden Spark. Ech weess et net, sorry!
An d'Projete sinn:
- Delta Lake - ACID op Spark gouf viru kuerzem verëffentlecht (wat mir mat Elasticsearch gedreemt hunn) - mécht et an eng Datebank: steif Schema, ACID, Audit, Versiounen ...
- ML Flow - Tracking, Verpakung, Gestioun a Lagerung vu Modeller.
- koalaen - Pandas DataFrame API op Spark - Pandas - Python API fir mat Dëscher an Daten am Allgemengen ze schaffen.
Dir kënnt Spark kucken fir déi déi net wëssen oder vergiess hunn: . Ech hunn d'Videoe gekuckt mat Beispiller vu liicht langweilegen awer detailléierte Berodungsspecht: DataBricks for Data Science () a fir Data Engineering ().
Kuerz gesot, Databricks zitt Spark eraus. Jiddereen deen Spark normalerweis an der Wollek benotze wëll hëlt DataBricks ouni ze zécken, wéi virgesinn 🙂 Spark ass den Haaptdifferenzéierer hei.
Ech hunn geléiert datt Spark Streaming net richteg gefälscht Echtzäit oder Mikrobatching ass. A wann Dir richteg Echtzäit braucht, ass et am Apache STORM. Jiddereen seet a schreift och datt Spark besser ass wéi MapReduce. Dëst ass de Slogan.
DATAIKU
Cool Enn-zu-Enn Saach. Et gi vill Reklammen. Ech verstinn net wéi et vun Alteryx ënnerscheet?
DatenRobot
Paxata fir Datepräparatioun ass eng separat Firma déi vun Data Robots am Dezember 2019 kaaft gouf. Mir hunn 20 MUSD gesammelt a verkaf. Alles an 7 Joer.
Datepräparatioun an Paxata, net Excel - kuckt hei: .
Et ginn automatesch Lookups a Virschléi fir Joint tëscht zwee Datesätz. Eng super Saach - fir d'Donnéeën ze verstoen, wier et nach méi Wäert op textuell Informatioun ().
Data Katalog ass en exzellente Katalog vun nëtzlosen "Live" Datesätz.
Et ass och interessant wéi Verzeichnisser a Paxata geformt ginn ().
"No Analysten Firma , D'Software gëtt méiglech gemaach duerch Fortschrëtter an , an der Daten Caching Methodik. D'Software benotzt Algorithmen fir d'Bedeitung vun de Sailen vun enger Datetabelle a Mustererkennungsalgorithmen ze verstoen fir potenziell Duplikater an engem Dateset ze fannen. Et benotzt och Indexéierung, Textmustererkennung an aner Technologien, déi traditionell a soziale Medien a Sichsoftware fonnt goufen.
Den Haaptprodukt vum Data Robot ass . Hire Slogan ass vu Model bis Enterprise Applikatioun! Ech hunn Berodung fir d'Uelegindustrie am Zesummenhang mat der Kris fonnt, awer et war ganz banal an oninteressant: . Ech hunn hir Videoen op Mops oder MLops gekuckt (). Dëst ass sou e Frankenstein zesummegesat aus 6-7 Acquisitioune vu verschiddene Produkter.
Natierlech gëtt et kloer datt e grousst Team vun Data Scientists just esou en Ëmfeld muss hunn fir mat Modeller ze schaffen, soss wäerte se vill vun hinnen produzéieren an ni eppes ofsetzen. An an eiser Ueleg- a Gas-Upstream Realitéit, wa mir nëmmen een erfollegräiche Modell kéinte kreéieren, wier dat e grousse Fortschrëtt!
De Prozess selwer erënnert ganz un d'Aarbecht mat Designsystemer an der Geologie-Geophysik, zum Beispill . Jiddereen deen net ze faul ass mécht a verännert Modeller. Sammelt Daten an de Modell. Duerno hunn se e Referenzmodell gemaach an an d'Produktioun geschéckt! Tëscht, soen, engem geologesche Modell an engem ML Modell, kënnt Dir vill gemeinsam fannen.
Domino
Schwéierpunkt op oppe Plattform an Zesummenaarbecht. Business Benotzer gi gratis zouginn. Hiren Data Lab ass ganz ähnlech wéi Sharepoint. (An den Numm schmaacht staark op IBM). All Experimenter verlinkt op d'Original Dataset. Wéi vertraut ass dat 🙂 Wéi an eiser Praxis - e puer Daten goufen an de Modell geschleeft, duerno gouf se gebotzt an am Modell an Uerdnung gesat, an all dat lieft schonn do am Modell an d'Enn kënnen net an de Quelldaten fonnt ginn.
Domino huet cool Infrastrukturvirtualiséierung. Ech hunn d'Maschinn sou vill Käre wéi néideg an enger Sekonn zesummegesat an zielen gaang. Wéi et gemaach gouf ass net direkt kloer. Docker ass iwwerall. Vill Fräiheet! All Aarbechtsberäicher vun de leschte Versioune kënnen ugeschloss ginn. Parallel Start vun Experimenter. Tracking an Auswiel vun erfollegräich.
Selwecht wéi DataRobot - Resultater gi fir Geschäftsbenotzer a Form vun Uwendungen publizéiert. Fir besonnesch héichbegaabte "Akteuren". An déi aktuell Notzung vun de Modeller gëtt och iwwerwaacht. Alles fir Pugs!
Ech verstinn net ganz wéi komplex Modeller an der Produktioun ophalen. Eng Aart API gëtt zur Verfügung gestallt fir hinnen Daten ze fidderen an Resultater ze kréien.
H2O
Driveless AI ass e ganz kompakten an intuitive System fir Supervised ML. Alles an enger Këscht. Et ass net ganz kloer direkt iwwer de Backend.
De Modell gëtt automatesch an e REST Server oder Java App verpackt. Dëst ass eng super Iddi. Vill gouf gemaach fir Interpretabilitéit an Erklärbarkeet. D'Interpretatioun an d'Erklärung vun de Resultater vum Modell (Wat soll net erklärbar sinn, soss kann eng Persoun datselwecht berechnen?).
Fir d'éischte Kéier eng Fallstudie iwwer onstrukturéiert Donnéeën an . Héich Qualitéit architektonescht Bild. An am allgemengen hunn ech d'Biller gefall.
Et gëtt e groussen Open Source H2O Kader deen net ganz kloer ass (eng Rei vun Algorithmen / Bibliothéiken?). Ären eegene visuellen Laptop ouni Programméiere wéi Jupiter (). Ech liesen och iwwer Pojo a Mojo - H2O Modeller a Java gewéckelt. Déi éischt ass einfach, déi zweet mat Optimisatioun. H20 sinn déi eenzeg (!) zu deenen de Gartner Textanalytik an NLP als hir Stäerkten opgezielt huet, souwéi hir Efforten iwwer Erklärbarkeet. Dëst ass ganz wichteg!
Op der selwechter Plaz: Héichleistung, Optimiséierung an Industriestandard am Beräich vun der Integratioun mat Hardware a Wolleken.
An d'Schwäch ass logesch - Driverles AI ass schwaach a schmuel am Verglach mat hirer Open Source. Datepräparatioun ass lëschteg am Verglach mam Paxata! A si ignoréieren industriell Daten - Stream, Grafik, Geo. Gutt, alles kann net nëmme gutt sinn.
KNÄSS
Ech hu gär déi 6 ganz spezifesch, ganz interessant Geschäftsfäll op der Haaptsäit. Staark OpenSource.
De Gartner huet se vu Leader zu Visionären degradéiert. Sue schlecht verdéngen ass e gutt Zeechen fir Benotzer, well de Leader net ëmmer déi bescht Wiel ass.
D'Schlësselwuert, wéi am H2O, ass erweidert, dat heescht datt aarm Bierger Datenwëssenschaftler hëllefen. Dëst ass déi éischte Kéier datt iergendeen fir Leeschtung an enger Iwwerpréiwung kritiséiert gouf! Interessant? Dat ass, et gëtt sou vill Rechenkraaft datt d'Leeschtung guer net e systemesche Problem ka sinn? Gartner huet iwwer dëst Wuert "Augmented" , déi net erreecht konnt ginn.
A KNIME schéngt den éischten Net-Amerikaner an der Iwwerpréiwung ze sinn! (An eis Designer hunn hir Landung Säit wierklech gär. Komesch Leit.
MathWorks
MatLab ass en alen Éierekomerod, dee jidderee bekannt ass! Toolboxen fir all Beräicher vum Liewen a Situatiounen. Eppes ganz anescht. Tatsächlech vill an vill an vill Mathematik fir alles am Liewen!
E Simulink Add-on Produkt fir Systemdesign. Ech hunn an Toolboxen fir Digital Zwillinge gegruewen - ech verstinn näischt doriwwer, awer vill ass geschriwwen. Fir . Am Allgemengen ass dëst e grondsätzlech anescht Produkt aus den Déiften vun der Mathematik an der Ingenieur. Fir spezifesch Mathematik Toolkits auswielen. Dem Gartner no sinn hir Probleemer déiselwecht wéi déi vun intelligenten Ingenieuren - keng Zesummenaarbecht - jidderee mengt mat sengem eegene Modell, keng Demokratie, keng Erklärbarkeet.
RapidMiner
Ech hu scho vill begéint an héieren (zesumme mam Matlab) am Kontext vu gudder Open Source. Ech hunn e bëssen an TurboPrep gegruewen wéi gewinnt. Ech interesséiert mech wéi propper Donnéeën aus dreckeg Donnéeën ze kréien.
Erëm kënnt Dir gesinn datt d'Leit gutt sinn op Basis vun den 2018 Marketingmaterialien an déi schrecklech engleschsproocheg Leit op der Feature Demo.
A Leit aus Dortmund zënter 2001 mat engem staarken däitschen Hannergrond)

Ech verstinn nach ëmmer net vum Site wat genau an der Open Source verfügbar ass - Dir musst méi déif graven. Gutt Videoen iwwer Deployment an AutoML Konzepter.
Et gëtt och näischt Besonnesches iwwer de RapidMiner Server Backend. Et wäert wahrscheinlech kompakt sinn a funktionnéiert gutt op Premium aus der Këscht. Et ass am Docker verpackt. Gemeinsam Ëmfeld nëmmen op der RapidMiner Server. An da gëtt et Radoop, Daten vun Hadoop, zielt Reim vum Spark am Studio Workflow.
Wéi erwaart, jonk waarm Verkeefer "Verkeefer vu gesträifte Stécker" geplënnert hinnen erof. Gartner prognostizéiert awer hiren zukünftegen Erfolleg am Enterprise Raum. Do kënnt Dir Sue sammelen. D'Däitschen wëssen dat, helleg-helleg:) Net erwähnen SAP!!!
Si maachen vill fir Bierger! Awer vun der Säit kënnt Dir gesinn datt Gartner seet datt si mat Verkafsinnovatioun kämpfen an net fir d'Breet vun der Ofdeckung kämpfen, mee fir d'Rentabilitéit.
Bleift bliwwen SAS и Tibco typesch BI Ubidder fir mech ... A béid sinn ganz uewen, wat mäi Vertrauen bestätegt datt normal DataScience logesch wiisst
aus BI, an net aus Wolleken an Hadoop Infrastrukturen. Vum Geschäft, dat heescht, an net vum IT. Wéi am Gazpromneft zum Beispill: ,E reift DSML Ëmfeld wiisst aus staarken BI Praktiken. Awer vläicht ass et smacky a partizipativ géint MDM an aner Saachen, wien weess.
SAS
Et gëtt net vill ze soen. Nëmmen déi offensichtlech Saachen.
TIBCO
D'Strategie gëtt an enger Akafslëscht op enger Säit laang Wiki Säit gelies. Jo, laang Geschicht, awer 28!!! Charles. Ech kaaft BI Spotfire (2007) zréck a mengem Techno-Jugend. An och Bericht vu Jaspersoft (2014), dann esou vill wéi dräi predictive analytics Ubidder Insightful (S-plus) (2008), Statistica (2017) an Alpine Data (2017), Eventveraarbechtung a Streaming Streambase System (2013), MDM Orchestra Networks (2018) a Snappy Data (2019) In-Memory Plattform.
Moien Frankie!

Source: will.com
