Gartner MQ 2020 Review: platforms voor machinaal leren en kunstmatige intelligentie

Het is onmogelijk uit te leggen waarom ik dit lees. Ik had gewoon tijd en was geïnteresseerd in hoe de markt werkt. En volgens Gartner is dit sinds 2018 al een volwaardige markt. Van 2014-2016 heette het geavanceerde analytics (roots in BI), in 2017 - Data Science (ik weet niet hoe ik dit naar het Russisch moet vertalen). Voor degenen die geïnteresseerd zijn in de bewegingen van verkopers rond het plein: dat kan hier Look. En ik zal het hebben over het 2020-plein, vooral omdat de veranderingen daar sinds 2019 minimaal zijn: SAP verhuisde en Altair kocht Datawatch.

Dit is geen systematische analyse of tabel. Een individuele kijk, ook vanuit het standpunt van een geofysicus. Maar ik ben altijd benieuwd om Gartner MQ te lezen, ze formuleren een aantal punten perfect. Dus hier zijn de dingen waar ik zowel technisch, markttechnisch als filosofisch aandacht aan heb besteed.

Dit is niet voor mensen die zich diep in het onderwerp ML verdiepen, maar voor mensen die geïnteresseerd zijn in wat er over het algemeen op de markt gebeurt.

De DSML-markt zelf nestelt zich logischerwijs tussen BI- en Cloud AI-ontwikkelaarsdiensten.

Gartner MQ 2020 Review: platforms voor machinaal leren en kunstmatige intelligentie

Favoriete quotes en termen eerst:

  • ‘Een leider is misschien niet de beste keuze’ — Een marktleider is niet per se wat je nodig hebt. Zeer dringend! Als gevolg van het ontbreken van een functionele klant zijn ze altijd op zoek naar de “beste” oplossing, in plaats van naar de “geschikte”.
  • "Modeloperationalisatie" - afgekort als MOP's. En iedereen heeft het moeilijk met mopshonden! – (het coole mopshondthema doet het model werken).
  • "Notebookomgeving" is een belangrijk concept waar code, commentaar, data en resultaten samenkomen. Dit is heel duidelijk, veelbelovend en kan de hoeveelheid UI-code aanzienlijk verminderen.
  • "Geworteld in OpenSource" - goed gezegd - wortelt in open source.
  • "Citizendatawetenschappers" - zulke gemakkelijke kerels, zulke lamers, geen experts, die een visuele omgeving en allerlei ondersteunende dingen nodig hebben. Ze zullen niet coderen.
  • "Democratie" – vaak gebruikt in de betekenis van ‘beschikbaar maken voor een breder scala aan mensen’. We kunnen zeggen ‘democratiseer de data’ in plaats van het gevaarlijke ‘bevrijd de data’ dat we vroeger gebruikten. ‘Democratiseren’ is altijd een lange staart en alle verkopers rennen er achteraan. Verlies aan kennisintensiteit – winst aan toegankelijkheid!
  • "Verkennende gegevensanalyse - EDA" — overweging van deze beschikbare middelen. Enkele statistieken. Een kleine visualisatie. Iets dat iedereen in meer of mindere mate doet. Wist niet dat hier een naam voor was
  • "Reproduceerbaarheid" — maximaal behoud van alle omgevingsparameters, inputs en outputs, zodat het experiment na uitvoering kan worden herhaald. De belangrijkste term voor een experimentele testomgeving!

Dus:

Alteryx

Coole interface, net als speelgoed. Schaalbaarheid is natuurlijk een beetje moeilijk. Dienovereenkomstig heeft de Citizen-gemeenschap van ingenieurs ongeveer hetzelfde met tchotchkes om te spelen. Analytics is helemaal van jou in één fles. Deed me denken aan een complex van spectrale-correlatiegegevensanalyse Coscad, dat in de jaren 90 werd geprogrammeerd.

Anaconda

Community rond Python- en R-experts. Open source is dienovereenkomstig groot. Het bleek dat mijn collega's het de hele tijd gebruiken. Maar ik wist het niet.

GegevensBricks

Bestaat uit drie opensource-projecten - de Spark-ontwikkelaars hebben sinds 2013 ontzettend veel geld opgehaald. Ik moet echt de wiki citeren:

“In september 2013 maakte Databricks bekend dat het $13.9 miljoen had opgehaald van Andreessen Horowitz. Het bedrijf haalde nog eens $33 miljoen op in 2014, $60 miljoen in 2016, $140 miljoen in 2017, $250 miljoen in 2019 (februari) en $400 miljoen in 2019 (oktober)”!!!

Een aantal geweldige mensen hebben Spark geknipt. Ik weet het niet, het spijt me!

En de projecten zijn:

  • Delta meer - ACID on Spark is onlangs uitgebracht (waar we van droomden met Elasticsearch) - verandert het in een database: rigide schema, ACID, auditing, versies...
  • ML-stroom — volgen, verpakken, beheren en opslaan van modellen.
  • Koala's - Pandas DataFrame API op Spark - Pandas - Python API voor het werken met tabellen en gegevens in het algemeen.

Je kunt Spark bekijken voor degenen die het niet weten of vergeten zijn: link. Ik heb video's bekeken met voorbeelden van ietwat saaie maar gedetailleerde adviesspecht: DataBricks for Data Science (link) en voor data-engineering (link).

Kortom, Databricks haalt Spark eruit. Iedereen die Spark normaal in de cloud wil gebruiken, neemt zonder aarzelen DataBricks, zoals bedoeld 🙂 Spark is hier de belangrijkste onderscheidende factor.
Ik heb geleerd dat Spark Streaming geen echte nep-realtime of microbatching is. En als je echte Real Real-time nodig hebt, dan is dat in Apache STORM. Iedereen zegt en schrijft ook dat Spark beter is dan MapReduce. Dit is de slogan.

DATAIKU

Cool end-to-end ding. Er zijn veel advertenties. Ik begrijp niet hoe het verschilt van Alteryx?

GegevensRobot

Paxata voor datavoorbereiding is een apart bedrijf dat in december 2019 door Data Robots is gekocht. We hebben 20 miljoen USD opgehaald en verkocht. Alles in 7 jaar.

Gegevensvoorbereiding in Paxata, niet in Excel - zie hier: link.
Er zijn automatische zoekopdrachten en voorstellen voor joins tussen twee datasets. Het mooie is dat om de gegevens te begrijpen, er nog meer nadruk zou worden gelegd op tekstuele informatie (link).
Data Catalog is een uitstekende catalogus van nutteloze ‘live’ datasets.
Het is ook interessant hoe mappen worden gevormd in Paxata (link).

“Aldus analistenbureau Eicel, wordt de software mogelijk gemaakt door vooruitgang in predictive analytics, machine learning en NoSQL methodologie voor datacaching.[15] De software maakt gebruik van semantisch algoritmen om de betekenis van de kolommen van een datatabel te begrijpen en algoritmen voor patroonherkenning om potentiële duplicaten in een dataset te vinden.[15][7] Het maakt ook gebruik van indexering, tekstpatroonherkenning en andere technologieën die traditioneel te vinden zijn in sociale media en zoeksoftware.”

Het belangrijkste product van Data Robot is hier. Hun slogan is: Van Model naar Enterprise Applicatie! Ik vond advies voor de olie-industrie in verband met de crisis, maar het was heel banaal en oninteressant: link. Ik heb hun video's bekeken op Mops of MLops (link). Dit is zo'n Frankenstein samengesteld uit 6-7 acquisities van verschillende producten.

Natuurlijk wordt duidelijk dat een groot team van Data Scientists precies zo’n omgeving moet hebben om met modellen te werken, anders produceren ze er veel en zetten ze nooit iets in. En als we in onze upstream-realiteit op het gebied van olie en gas maar één succesvol model zouden kunnen creëren, zou dat een grote vooruitgang zijn!

Het proces zelf deed sterk denken aan het werken met ontwerpsystemen in bijvoorbeeld de geologie-geofysica Stormvogel. Iedereen die niet te lui is, maakt en wijzigt modellen. Verzamel gegevens in het model. Vervolgens hebben ze een referentiemodel gemaakt en naar productie gestuurd! Tussen bijvoorbeeld een geologisch model en een ML-model zijn er veel overeenkomsten.

Domino

Nadruk op open platform en samenwerking. Zakelijke gebruikers hebben gratis toegang. Hun Data Lab lijkt sterk op SharePoint. (En de naam doet sterk denken aan IBM). Alle experimenten linken naar de originele dataset. Hoe bekend is dit :) Net als in onze praktijk - sommige gegevens zijn naar het model gesleept, vervolgens opgeschoond en in het model geordend, en dit alles leeft al in het model en de uiteinden kunnen niet worden gevonden in de brongegevens .

Domino heeft coole infrastructuurvirtualisatie. Ik monteerde de machine in een seconde zoveel kernen als nodig was en ging tellen. Hoe dat gebeurde, is niet meteen duidelijk. Docker is overal. Veel vrijheid! Alle werkruimten van de nieuwste versies kunnen worden aangesloten. Parallelle lancering van experimenten. Het volgen en selecteren van succesvolle projecten.

Hetzelfde als DataRobot: de resultaten worden voor zakelijke gebruikers gepubliceerd in de vorm van applicaties. Voor bijzonder begaafde “stakeholders”. En ook het daadwerkelijke gebruik van de modellen wordt gemonitord. Alles voor mopshonden!

Ik begrijp niet helemaal hoe complexe modellen in productie komen. Er is een soort API beschikbaar om hen gegevens te verstrekken en resultaten te verkrijgen.

H2O

Driveless AI is een zeer compact en intuïtief systeem voor Supervised ML. Alles in één doos. Over de backend is niet meteen helemaal duidelijk.

Het model wordt automatisch verpakt in een REST-server of Java-app. Dit is een geweldig idee. Er is veel gedaan aan interpreteerbaarheid en uitlegbaarheid. Interpretatie en uitleg van de resultaten van het model (Wat zou inherent niet verklaarbaar moeten zijn, anders kan een mens hetzelfde berekenen?).
Voor het eerst is er een case study over ongestructureerde data en NLP. Hoogwaardig architectonisch beeld. En over het algemeen vond ik de foto's leuk.

Er bestaat een groot open source H2O-framework dat niet helemaal duidelijk is (een reeks algoritmen/bibliotheken?). Je eigen visuele laptop zonder programmeren zoals Jupiter (link). Ik las ook over Pojo en Mojo - H2O-modellen verpakt in Java. De eerste is eenvoudig, de tweede met optimalisatie. H20 zijn de enigen(!) aan wie Gartner tekstanalyse en NLP als hun sterke punten heeft genoemd, evenals hun inspanningen op het gebied van uitlegbaarheid. Het is erg belangrijk!

Op dezelfde plek: hoge performance, optimalisatie en industriestandaard op het gebied van integratie met hardware en clouds.

En de zwakte is logisch: de AI van Driverles is zwak en beperkt vergeleken met hun open source. Gegevensvoorbereiding is zwak vergeleken met Paxata! En ze negeren industriële gegevens – stroom, grafiek, geo. Nou ja, alles kan niet zomaar goed zijn.

MES

Ik vond de 6 zeer specifieke, zeer interessante business cases op de titelpagina leuk. Sterke OpenSource.

Gartner heeft hen gedegradeerd van leiders tot visionairs. Slecht geld verdienen is een goed teken voor gebruikers, aangezien de leider niet altijd de beste keuze is.

Het sleutelwoord is, net als in H2O, 'augmented', wat betekent dat je arme datawetenschappers van burgers moet helpen. Dit is de eerste keer dat iemand in een recensie wordt bekritiseerd vanwege zijn prestaties! Interessant? Dat wil zeggen: er is zoveel rekenkracht dat prestaties helemaal geen systemisch probleem kunnen zijn? Gartner heeft over dit woord ‘Augmented’ Een apart artikel, die niet te bereiken was.
En KNIME lijkt de eerste niet-Amerikaan in de recensie te zijn! (En onze ontwerpers vonden hun landingspagina erg leuk. Vreemde mensen.

MathWorks

MatLab is een oude erekameraad die iedereen kent! Gereedschapskisten voor alle gebieden van het leven en situaties. Iets heel anders. Sterker nog, heel veel wiskunde voor alles in het leven!

Een Simulink add-on-product voor systeemontwerp. Ik heb me verdiept in de toolboxen voor Digital Twins - ik begrijp er niets van, maar hier er is veel geschreven. Voor olie industrie. Over het algemeen is dit een fundamenteel ander product dan de diepten van de wiskunde en techniek. Om specifieke wiskundetoolkits te selecteren. Volgens Gartner zijn hun problemen dezelfde als die van slimme ingenieurs: geen samenwerking, iedereen rommelt in zijn eigen model, geen democratie, geen verklaarbaarheid.

RapidMiner

Ik ben (samen met Matlab) al veel tegengekomen en gehoord in de context van goede open source. Ik heb zoals gewoonlijk een beetje in TurboPrep gegraven. Ik ben geïnteresseerd in hoe je schone gegevens uit vuile gegevens kunt halen.

Opnieuw kun je zien dat de mensen goed zijn, gebaseerd op het marketingmateriaal van 2018 en de vreselijke Engelssprekende mensen bij de feature-demo.

En mensen uit Dortmund sinds 2001 met een sterke Duitse achtergrond)

Gartner MQ 2020 Review: platforms voor machinaal leren en kunstmatige intelligentie
Ik begrijp nog steeds niet van de site wat er precies beschikbaar is in open source - je moet dieper graven. Goede video's over implementatie en AutoML-concepten.

Er is ook niets bijzonders aan de RapidMiner Server-backend. Het zal waarschijnlijk compact zijn en out-of-the-box goed werken op premium. Het is verpakt in Docker. Gedeelde omgeving alleen op de RapidMiner-server. En dan is er Radoop, gegevens van Hadoop, rijmpjes tellen uit de Spark in Studio-workflow.

Zoals verwacht hebben jonge, populaire verkopers, ‘verkopers van gestreepte stokjes’, ze naar beneden gehaald. Gartner voorspelt echter hun toekomstige succes op het gebied van Enterprise. Daar kun je geld inzamelen. De Duitsers weten hoe ze dit moeten doen, heilige heilige :) Noem SAP niet!!!

Ze doen veel voor de burgers! Maar op de pagina kun je zien dat Gartner zegt dat ze worstelen met verkoopinnovatie en niet vechten voor breedte van dekking, maar voor winstgevendheid.

Bleef SAS и Tibco typische BI-leveranciers voor mij... En beide staan ​​helemaal bovenaan, wat mijn vertrouwen bevestigt dat de normale DataScience logischerwijs groeit
vanuit BI, en niet vanuit clouds en Hadoop-infrastructuren. Vanuit de business dus, en niet vanuit IT. Zoals bijvoorbeeld in Gazpromneft: link,Een volwassen DSML-omgeving komt voort uit sterke BI-praktijken. Maar misschien is het smakeloos en bevooroordeeld richting MDM en andere dingen, wie weet.

SAS

Er valt niet veel te zeggen. Alleen de voor de hand liggende dingen.

TIBCO

De strategie wordt gelezen in een boodschappenlijstje op een paginalange Wiki-pagina. Ja, lang verhaal, maar 28!!! Karel. Ik kocht BI Spotfire (2007) in mijn techno-jeugd. En ook rapportage van Jaspersoft (2014), daarna maar liefst drie leveranciers van voorspellende analyses Insightful (S-plus) (2008), Statistica (2017) en Alpine Data (2017), gebeurtenisverwerking en streaming Streambase System (2013), MDM Orchestra Networks (2018) en Snappy Data (2019) in-memory-platform.

Hallo Frankie!

Gartner MQ 2020 Review: platforms voor machinaal leren en kunstmatige intelligentie

Bron: www.habr.com

Voeg een reactie