Gartner MQ 2020 pregled: strojno učenje i platforme umjetne inteligencije

Nemoguće je objasniti razlog zašto sam ovo pročitao. Taman sam imao vremena i zanimalo me kako funkcionira tržište. A ovo je već punopravno tržište prema Gartneru od 2018. Od 2014. do 2016. zvala se napredna analitika (korijeni u BI), 2017. - Data Science (ne znam kako ovo prevesti na ruski). Za one koje zanima kretanje prodavača po trgu, možete здесь izgled. A ja ću govoriti o kvadratu 2020., pogotovo jer su tamo promjene od 2019. minimalne: SAP se iselio, a Altair je kupio Datawatch.

Ovo nije sustavna analiza niti tablica. Individualni pogled, također sa stajališta geofizičara. Ali uvijek sam znatiželjan čitati Gartner MQ, oni savršeno formuliraju neke točke. Evo stvari na koje sam obratio pozornost i tehnički, tržišno i filozofski.

Ovo nije za ljude koji su duboko u temi ML-a, već za ljude koje zanima što se općenito događa na tržištu.

DSML tržište se logično ugnijezdilo između BI i Cloud AI razvojnih usluga.

Gartner MQ 2020 pregled: strojno učenje i platforme umjetne inteligencije

Najprije omiljeni citati i pojmovi:

  • "Vođa možda nije najbolji izbor" — Lider na tržištu nije nužno ono što trebate. Vrlo hitno! Kao posljedica nedostatka funkcionalnog kupca, uvijek traže "najbolje" rješenje, a ne ono "prikladno".
  • "Operacionalizacija modela" - skraćeno MOPs. I svima je teško s mopsovima! – (cool tema mopsa čini model uspješnim).
  • "Okruženje bilježnice" je važan koncept gdje se kod, komentari, podaci i rezultati spajaju. Ovo je vrlo jasno, obećavajuće i može značajno smanjiti količinu UI koda.
  • "Ukorijenjen u OpenSource" - dobro rečeno - pušta korijenje u open source.
  • "Građanski znanstvenici podataka" - tako laki frajeri, takvi lameri, a ne stručnjaci, koji trebaju vizualno okruženje i kojekakve pomoćne stvari. Neće kodirati.
  • "Demokracija" — često se koristi u značenju "učiniti dostupnim širem krugu ljudi". Možemo reći "demokratizirati podatke" umjesto opasnog "oslobodite podatke" kojim smo se koristili. “Demokratizacija” je uvijek dugačak rep i svi prodavači trče za njom. Izgubite na intenzitetu znanja - dobit ćete na pristupačnosti!
  • "Istraživačka analiza podataka - EDA" — razmatranje ovih raspoloživih sredstava. Malo statistike. Malo vizualizacije. Nešto što svi rade u ovoj ili onoj mjeri. Nisam znao da postoji naziv za ovo
  • "ponovljivost" — maksimalno očuvanje svih parametara okoliša, ulaza i izlaza tako da se eksperiment može ponoviti nakon što se provede. Najvažniji izraz za eksperimentalno testno okruženje!

Dakle:

Alteryx

Cool sučelje, baš kao igračka. Skalabilnost je, naravno, malo teška. U skladu s tim, Citizen zajednica inženjera oko iste s tchotchkes igrati. Analytics je sve vaše u jednoj boci. Podsjetilo me na kompleks analize podataka spektralne korelacije Coscad, koji je programiran 90-ih godina.

anakonda

Zajednica oko stručnjaka za Python i R. Otvoreni kod je prema tome velik. Ispostavilo se da ga moji kolege stalno koriste. Ali nisam znao.

DataBricks

Sastoji se od tri opensource projekta - programeri Spark-a prikupili su vraški puno novca od 2013. Stvarno moram citirati wiki:

“U rujnu 2013. Databricks je objavio da je prikupio 13.9 milijuna dolara od Andreessen Horowitz. Kompanija je prikupila dodatnih 33 milijuna dolara 2014., 60 milijuna dolara 2016., 140 milijuna dolara 2017., 250 milijuna dolara 2019. (veljača) i 400 milijuna dolara 2019. (listopad)”!!!

Neki sjajni ljudi presjekli su Spark. Ne znam, oprosti!

A projekti su:

  • Delta jezero - Nedavno je objavljen ACID na Sparku (o čemu smo sanjali s Elasticsearchom) - pretvara ga u bazu podataka: kruta shema, ACID, revizija, verzije...
  • ML protok — praćenje, pakiranje, upravljanje i skladištenje modela.
  • koale - Pandas DataFrame API na Sparku - Pandas - Python API za rad s tablicama i podacima općenito.

Možete pogledati Spark za one koji ne znaju ili su zaboravili: link. Gledao sam videozapise s primjerima pomalo dosadnih, ali detaljnih konzultantskih djetlića: DataBricks for Data Science (link) i za podatkovni inženjering (link).

Ukratko, Databricks izvlači Spark. Svatko tko želi normalno koristiti Spark u oblaku uzima DataBricks bez oklijevanja, kako je i namijenjen 🙂 Spark je ovdje glavna razlika.
Naučio sam da Spark Streaming nije pravi lažni realtime ili microbatching. A ako vam treba pravo stvarno stvarno vrijeme, to je u Apache STORM-u. Također svi govore i pišu da je Spark bolji od MapReducea. Ovo je slogan.

DATAIKU

Cool stvar od kraja do kraja. Puno je reklama. Ne razumijem po čemu se razlikuje od Alteryxa?

DataRobot

Paxata za pripremu podataka je zasebna tvrtka koju je u prosincu 2019. kupio Data Robots. Skupili smo 20 MUSD i prodali. Sve u 7 godina.

Priprema podataka u Paxati, a ne u Excelu - pogledajte ovdje: link.
Postoje automatska traženja i prijedlozi za spojeve između dva skupa podataka. Odlična stvar - za razumijevanje podataka bio bi još veći naglasak na tekstualnim informacijama (link).
Data Catalog izvrstan je katalog beskorisnih "živih" skupova podataka.
Zanimljivo je i kako se formiraju imenici u Paxati (link).

“Prema analitičkoj tvrtki Jajašce, softver je omogućen zahvaljujući napretku u prediktivna analitika, stroj za učenje a NoSQL metodologija predmemoriranja podataka.[15] Softver koristi semantički algoritmi za razumijevanje značenja stupaca podatkovne tablice i algoritmi za prepoznavanje uzoraka za pronalaženje potencijalnih duplikata u skupu podataka.[15][7] Također koristi indeksiranje, prepoznavanje tekstualnih uzoraka i druge tehnologije koje se tradicionalno nalaze u društvenim medijima i softveru za pretraživanje.”

Glavni proizvod Data Robota je здесь. Njihov slogan je od modela do poslovne aplikacije! Pronašao sam savjetovanje za naftnu industriju vezano uz krizu, ali bilo je vrlo banalno i nezanimljivo: link. Gledao sam njihove videe na Mopsu ili MLopsu (link). Ovo je takav Frankenstein sastavljen od 6-7 akvizicija raznih proizvoda.

Naravno, postaje jasno da veliki tim Data Scientists mora imati upravo takvo okruženje za rad s modelima, inače će ih proizvesti puno i nikada ništa ne implementirati. A u našoj uzvodnoj stvarnosti nafte i plina, kad bismo samo mogli stvoriti jedan uspješan model, to bi bio veliki napredak!

Sam proces je dosta podsjećao na rad sa projektnim sustavima u geologiji-geofizici, npr. burnica. Svatko tko nije previše lijen izrađuje i modificira modele. Prikupite podatke u model. Zatim su napravili referentni model i poslali ga u proizvodnju! Između, recimo, geološkog modela i ML modela možete pronaći mnogo toga zajedničkog.

Domino

Naglasak na otvorenoj platformi i suradnji. Poslovnim korisnicima ulaz je besplatan. Njihov Data Lab vrlo je sličan sharepointu. (I ime jako miriše na IBM). Svi eksperimenti povezuju se s izvornim skupom podataka. Kako je ovo poznato :) Kao kod nas u praksi - neki podaci su uvučeni u model, zatim su očišćeni i posloženi u modelu, a sve to već živi tu u modelu i kraj se ne može naći u izvornim podacima. .

Domino ima super virtualizaciju infrastrukture. U sekundi sam sklopio stroj onoliko jezgri koliko je potrebno i otišao brojati. Kako je to učinjeno nije odmah jasno. Docker je posvuda. Puno slobode! Moguće je povezati sve radne prostore najnovijih verzija. Paralelno pokretanje eksperimenata. Praćenje i odabir uspješnih.

Isto kao i DataRobot - rezultati se objavljuju za poslovne korisnike u obliku aplikacije. Za posebno nadarene “dionike”. Također se prati stvarna upotreba modela. Sve za Mopsa!

Ne razumijem u potpunosti kako složeni modeli završavaju u proizvodnji. Omogućena je neka vrsta API-ja koji im daje podatke i dobiva rezultate.

H2O

Driveless AI vrlo je kompaktan i intuitivan sustav za nadzirani ML. Sve u jednoj kutiji. Nije odmah potpuno jasno o pozadini.

Model se automatski pakira u REST poslužitelj ili Java aplikaciju. Ovo je super ideja. Mnogo je učinjeno za interpretabilnost i objašnjivost. Tumačenje i objašnjenje rezultata modela (Što inherentno ne bi trebalo biti objasnivo, inače osoba može izračunati isto?).
Po prvi put, studija slučaja o nestrukturiranim podacima i NLP. Visokokvalitetna arhitektonska slika. I općenito su mi se svidjele slike.

Postoji veliki H2O okvir otvorenog koda koji nije sasvim jasan (skup algoritama/biblioteka?). Vaše vlastito vizualno prijenosno računalo bez programiranja poput Jupitera (link). Također sam čitao o Pojo i Mojo - H2O modelima umotanim u Javu. Prvi je jednostavan, drugi s optimizacijom. H20 su jedini(!) kojima je Gartner kao jaku stranu naveo tekstualnu analitiku i NLP, kao i njihov trud oko Explanability-a. Vrlo je važno!

Na istom mjestu: visoke performanse, optimizacija i industrijski standard u području integracije s hardverom i oblacima.

A slabost je logična – Driverles AI je slab i skučen u usporedbi s njihovim otvorenim kodom. Priprema podataka je jadna u usporedbi s Paxatom! I ignoriraju industrijske podatke - tok, grafikon, geo. Pa, ne može sve biti samo dobro.

KNIM

Svidjelo mi se 6 vrlo specifičnih, vrlo zanimljivih poslovnih slučajeva na glavnoj stranici. Snažan OpenSource.

Gartner ih je degradirao od vođa do vizionara. Slabo zarađivanje dobar je znak za korisnike, s obzirom na to da Lider nije uvijek najbolji izbor.

Ključna riječ, kao u H2O, je proširena, što znači pomaganje siromašnim znanstvenicima za podatke građana. Ovo je prvi put da je netko kritiziran zbog izvedbe u recenziji! Zanimljiv? Odnosno, računalna snaga je tolika da performanse uopće ne mogu biti sustavni problem? Gartner ima o ovoj riječi "Augmented" zaseban članak, do kojeg se nije moglo doći.
A čini se da je KNIME prvi neamerikanac u recenziji! (I našim se dizajnerima jako svidjela njihova odredišna stranica. Čudni ljudi.

MathWorks

MatLab je stari počasni drug svima poznat! Kutije s alatima za sva područja života i situacije. Nešto sasvim drugačije. Zapravo, puno, puno, puno matematike za sve u životu!

Dodatni proizvod Simulink za dizajn sustava. Kopao sam po kutijama s alatima za Digital Twins - ne razumijem ništa o tome, ali ovdje puno je napisano. Za naftna industrija. Općenito, ovo je bitno drugačiji proizvod iz dubina matematike i inženjerstva. Za odabir specifičnih matematičkih alata. Prema Gartneru, njihovi problemi su isti kao i kod pametnih inženjera - nema suradnje - svatko čeprka po svom modelu, nema demokracije, nema objašnjivosti.

RapidMiner

Naišao sam i čuo mnogo prije (zajedno s Matlabom) u kontekstu dobrog otvorenog koda. Malo sam kopao po TurboPrepu kao i obično. Zanima me kako od prljavih podataka dobiti čiste podatke.

Opet možete vidjeti da su ljudi dobri na temelju marketinških materijala iz 2018. i užasnih ljudi koji govore engleski na demonstraciji značajke.

I ljudi iz Dortmunda od 2001. s jakim njemačkim podrijetlom)

Gartner MQ 2020 pregled: strojno učenje i platforme umjetne inteligencije
Još uvijek ne razumijem sa stranice što je točno dostupno u otvorenom kodu - morate kopati dublje. Dobri videozapisi o implementaciji i AutoML konceptima.

Nema ništa posebno ni u pozadini RapidMiner Servera. Vjerojatno će biti kompaktan i dobro će raditi na premium modelima. Zapakiran je u Docker. Dijeljeno okruženje samo na RapidMiner poslužitelju. A tu je i Radoop, podaci iz Hadoopa, brojanje rima iz Spark-a u tijeku rada u Studiju.

Očekivano, mlade vruće prodavačice “prodavačice prugastih štapića” pomaknule su ih dolje. Gartner, međutim, predviđa njihov budući uspjeh u Enterprise prostoru. Tamo možete skupiti novac. Znaju Nijemci ovo raditi, svet-svet :) Ne spominji SAP!!!

Puno rade za građane! Ali sa stranice možete vidjeti da Gartner kaže da se bore s inovacijama u prodaji i da se ne bore za širinu pokrivenosti, već za profitabilnost.

Preostala SAS и Tibco tipični BI dobavljači za mene... I oba su na samom vrhu, što potvrđuje moje uvjerenje da normalna DataScience logično raste
iz BI-a, a ne iz oblaka i Hadoop infrastrukture. Iz biznisa, dakle, a ne iz IT-a. Kao na primjer u Gazpromnjeftu: link,Zrelo DSML okruženje izrasta iz jakih BI praksi. Ali možda je šmekerski i pristran prema MDM-u i drugim stvarima, tko zna.

SAS

Nema se puno za reći. Samo očite stvari.

TIBCO

Strategija se čita na popisu za kupnju na Wiki stranici dugoj stranici. Da, duga priča, ali 28!!! Charles. Kupio sam BI Spotfire (2007.) još u svojoj tehno mladosti. I također izvještavanje Jaspersofta (2014.), zatim čak tri dobavljača prediktivne analitike Insightful (S-plus) (2008.), Statistica (2017.) i Alpine Data (2017.), obrada događaja i streaming Streambase System (2013.), MDM Orchestra Networks (2018) i Snappy Data (2019) platforma u memoriji.

Pozdrav Frankie!

Gartner MQ 2020 pregled: strojno učenje i platforme umjetne inteligencije

Izvor: www.habr.com

Dodajte komentar