Gartner MQ 2020. Pregled: Strojno učenje i platforme umjetne inteligencije

Nemoguće je objasniti razlog zašto sam ovo pročitao. Samo sam imao vremena i zanimalo me kako funkcionira tržište. A ovo je već punopravno tržište prema Gartneru od 2018. Od 2014-2016 zvala se napredna analitika (korijeni u BI), 2017 - Data Science (ne znam kako to prevesti na ruski). Za one koji su zainteresovani za kretanje prodavaca po trgu, možete ovdje pogledajte. A ja ću govoriti o kvadratu 2020, pogotovo jer su promjene od 2019. minimalne: SAP se iselio, a Altair je kupio Datawatch.

Ovo nije sistematska analiza ili tabela. Individualni pogled, takođe iz ugla geofizičara. Ali uvijek sam radoznao da pročitam Gartner MQ, oni savršeno formulišu neke tačke. Dakle, evo stvari na koje sam obratio pažnju i tehnički, tržišno i filozofski.

Ovo nije za ljude koji su duboko u pitanju ML-a, već za ljude koje zanima šta se generalno dešava na tržištu.

Samo DSML tržište logično se ugnijezdi između BI i Cloud AI razvojnih usluga.

Gartner MQ 2020. Pregled: Strojno učenje i platforme umjetne inteligencije

Prvo omiljeni citati i pojmovi:

  • "Vođa možda nije najbolji izbor" — Lider na tržištu nije nužno ono što vam treba. Vrlo hitno! Kao posljedica nedostatka funkcionalnog kupca, uvijek traže „najbolje“ rješenje, a ne „prikladno“.
  • "Operacionalizacija modela" - skraćeno MOPs. I svima je teško sa mopsima! – (cool mops tema čini da model radi).
  • "Okruženje notebook računara" je važan koncept gdje se kod, komentari, podaci i rezultati spajaju. Ovo je vrlo jasno, obećavajuće i može značajno smanjiti količinu UI koda.
  • "Ukorijenjeno u OpenSource" - dobro rečeno - ukorijenjuje se u otvorenom kodu.
  • "Scientizen Data Scientists" - tako laki frajeri, takvi lameri, a ne stručnjaci, kojima treba vizuelno okruženje i svakakve pomoćne stvari. Neće kodirati.
  • "demokratija" — često se koristi u značenju „učiniti dostupnim širem krugu ljudi“. Možemo reći “demokratizirati podatke” umjesto opasnog “osloboditi podatke” koje smo koristili. “Demokratizacija” je uvijek dugačak rep i svi prodavci trče za njim. Izgubite u intenzitetu znanja - dobijete u pristupačnosti!
  • "Istraživačka analiza podataka - EDA" — razmatranje ovih raspoloživih sredstava. Neke statistike. Malo vizualizacije. Nešto što svi rade u ovom ili onom stepenu. Nisam znao da postoji ime za ovo
  • "Reproducibilnost" — maksimalno očuvanje svih parametara okoline, ulaza i izlaza tako da se eksperiment može ponoviti kada se izvede. Najvažniji termin za eksperimentalno testno okruženje!

Dakle:

Alteryx

Cool interfejs, baš kao igračka. Skalabilnost je, naravno, malo teška. U skladu s tim, Citizen zajednica inženjera otprilike isto s tchotchkesom za igru. Analitika je sva vaša u jednoj boci. Podsjetilo me na kompleks spektralno-korelacijske analize podataka Coscad, koji je programiran 90-ih godina.

anakonda

Zajednica stručnjaka za Python i R. Shodno tome, otvoreni izvor je velik. Ispostavilo se da ga moje kolege stalno koriste. Ali nisam znao.

DataBricks

Sastoji se od tri projekta otvorenog koda - Spark programeri su prikupili vraški puno novca od 2013. Zaista moram citirati wiki:

“U septembru 2013, Databricks je objavio da je prikupio 13.9 miliona dolara od Andreessen Horowitz. Kompanija je prikupila dodatnih 33 miliona dolara u 2014. godini, 60 miliona dolara u 2016. godini, 140 miliona dolara u 2017. godini, 250 miliona dolara u 2019. (februar) i 400 miliona dolara u 2019. (okt.)”!!!

Neki sjajni ljudi su presjekli Spark. Ne znam, izvini!

A projekti su:

  • Delta jezero - ACID on Spark je nedavno objavljen (o čemu smo sanjali sa Elasticsearch-om) - pretvara ga u bazu podataka: kruta shema, ACID, revizija, verzije...
  • ML Flow — praćenje, pakovanje, upravljanje i skladištenje modela.
  • Koale - Pandas DataFrame API na Sparku - Pandas - Python API za rad sa tabelama i podacima uopšte.

Možete pogledati Spark za one koji ne znaju ili su zaboravili: link. Gledao sam videozapise s primjerima pomalo dosadnih, ali detaljnih savjetodavnih djetlića: DataBricks for Data Science (link) i za inženjering podataka (link).

Ukratko, Databricks izvlači Spark. Svako ko želi normalno koristiti Spark u oblaku uzima DataBricks bez oklijevanja, kako je i predviđeno 🙂 Spark je ovdje glavni diferencijator.
Saznao sam da Spark Streaming nije pravi lažni u realnom vremenu ili mikrobatching. A ako vam treba pravo Realno vrijeme, to je u Apache STORM. Svi također kažu i pišu da je Spark bolji od MapReducea. Ovo je slogan.

DATAIKU

Sjajna stvar od kraja do kraja. Ima puno reklama. Ne razumijem po čemu se razlikuje od Alteryxa?

DataRobot

Paxata za pripremu podataka je posebna kompanija koju je kupio Data Robots u decembru 2019. Sakupili smo 20 MUSD i prodali. Sve za 7 godina.

Priprema podataka u Paxati, a ne u Excelu - pogledajte ovdje: link.
Postoje automatske pretrage i prijedlozi za spajanje između dva skupa podataka. Odlična stvar - da bismo razumjeli podatke, još više bi se naglasak stavio na tekstualne informacije (link).
Katalog podataka je odličan katalog beskorisnih "živih" skupova podataka.
Zanimljivo je i kako se direktoriji formiraju u Paxati (link).

“Prema analitičarskoj firmi Ovum, softver je omogućen zahvaljujući napretku u prediktivna analitika, mašinsko učenje a NoSQL metodologija keširanja podataka.[15] Softver koristi semantički algoritme za razumijevanje značenja kolona tablice podataka i algoritme za prepoznavanje obrazaca za pronalaženje potencijalnih duplikata u skupu podataka.[15][7] Također koristi indeksiranje, prepoznavanje tekstualnih uzoraka i druge tehnologije koje se tradicionalno nalaze u društvenim medijima i softveru za pretraživanje.”

Glavni proizvod Data Robot-a je ovdje. Njihov slogan je od modela do poslovne aplikacije! Našao sam savjetovanje za naftnu industriju u vezi s krizom, ali je bilo vrlo banalno i nezanimljivo: link. Gledao sam njihove video zapise na Mops ili MLops (link). Ovo je takav Frankenstein sastavljen od 6-7 akvizicija raznih proizvoda.

Naravno, postaje jasno da veliki tim Data Scientists mora imati upravo takvo okruženje za rad sa modelima, inače će ih proizvesti puno i nikada ništa ne implementirati. A u našoj uzvodnoj realnosti nafte i plina, kada bismo samo mogli stvoriti jedan uspješan model, to bi bio veliki napredak!

Sam proces je veoma podsećao na rad sa sistemima projektovanja u geološko-geofizici, npr. Petrel. Svi koji nisu previše lijeni prave i modificiraju modele. Prikupite podatke u model. Zatim su napravili referentni model i poslali ga u proizvodnju! Između, recimo, geološkog modela i ML modela, možete pronaći mnogo toga zajedničkog.

domino

Naglasak na otvorenoj platformi i saradnji. Poslovni korisnici se primaju besplatno. Njihov Data Lab je vrlo sličan sharepointu. (I ime jako miriše na IBM). Svi eksperimenti se povezuju s originalnim skupom podataka. Kako je ovo poznato :) Kao u našoj praksi - neki podaci su uvučeni u model, pa su očišćeni i dovedeni u red u modelu, a sve to već živi tamo u modelu i krajevi se ne mogu naći u izvornim podacima .

Domino ima kul virtuelizaciju infrastrukture. Sastavio sam mašinu onoliko jezgara koliko je trebalo u sekundi i krenuo da brojim. Kako je to urađeno, nije odmah jasno. Docker je posvuda. Puno slobode! Bilo koji radni prostor najnovijih verzija se može povezati. Paralelno pokretanje eksperimenata. Praćenje i odabir uspješnih.

Isto kao i DataRobot - rezultati se objavljuju za poslovne korisnike u obliku aplikacija. Za posebno nadarene „zainteresovane strane“. Prati se i stvarna upotreba modela. Sve za Mopse!

Ne razumijem u potpunosti kako složeni modeli završavaju u proizvodnji. Neka vrsta API-ja je obezbjeđena da im pošalje podatke i dobije rezultate.

H2O

Driveless AI je veoma kompaktan i intuitivan sistem za nadgledano ML. Sve u jednoj kutiji. Nije odmah potpuno jasno u vezi sa pozadinom.

Model se automatski pakuje u REST server ili Java aplikaciju. Ovo je odlična ideja. Mnogo je urađeno za interpretabilnost i objašnjivost. Interpretacija i objašnjenje rezultata modela (Šta inherentno ne bi trebalo biti objašnjeno, inače osoba može isto izračunati?).
Po prvi put, studija slučaja o nestrukturiranim podacima i NLP. Kvalitetna arhitektonska slika. I općenito su mi se svidjele slike.

Postoji veliki H2O okvir otvorenog koda koji nije sasvim jasan (skup algoritama/biblioteka?). Vaš vlastiti vizuelni laptop bez programiranja kao što je Jupiter (link). Takođe sam čitao o Pojo i Mojo - H2O modelima umotanim u Javu. Prvi je jednostavan, drugi sa optimizacijom. H20 su jedini(!) kojima je Gartner naveo analitiku teksta i NLP kao njihove prednosti, kao i napore u pogledu objašnjivosti. Veoma je važno!

Na istom mestu: visoke performanse, optimizacija i industrijski standard u oblasti integracije sa hardverom i oblacima.

A slabost je logična - Driverles AI je slab i uzak u poređenju sa njihovim otvorenim kodom. Priprema podataka je slaba u poređenju sa Paxatom! I ignoriraju industrijske podatke - tok, grafikon, geografsku lokaciju. Pa, ne može sve biti samo dobro.

KNIME

Svidjelo mi se 6 vrlo specifičnih, vrlo zanimljivih poslovnih slučajeva na glavnoj stranici. Jak OpenSource.

Gartner ih je degradirao iz lidera u vizionare. Loša zarada dobar je znak za korisnike, s obzirom da Leader nije uvijek najbolji izbor.

Ključna riječ, kao iu H2O, je proširena, što znači pomaganje siromašnim naučnicima za podatke o građanima. Ovo je prvi put da je neko kritikovan zbog performansi u recenziji! Zanimljivo? Odnosno, postoji toliko računarske snage da performanse uopšte ne mogu biti sistemski problem? Gartner ima o ovoj riječi "povećan" zaseban članak, do kojeg se nije moglo doći.
I čini se da je KNIME prvi neamerikanac u recenziji! (A našim dizajnerima se jako svidjela njihova odredišna stranica. Čudni ljudi.

MathWorks

MatLab je stari počasni drug svima poznat! Kutije za alate za sva područja života i situacije. Nešto veoma drugačije. U stvari, puno, puno, puno matematike za sve u životu!

Simulink dodatak proizvod za dizajn sistema. Kopao sam u kutije sa alatima za Digitalne blizance - ne razumijem ništa o tome, ali ovdje dosta je napisano. Za naftna industrija. Općenito, ovo je temeljno drugačiji proizvod od dubina matematike i inženjerstva. Za odabir specifičnih matematičkih alata. Prema Gartneru, njihovi problemi su isti kao i problemi pametnih inženjera - nema saradnje - svako kopa po svom modelu, nema demokratije, nema objašnjivosti.

RapidMiner

Naišao sam i čuo mnogo toga ranije (zajedno sa Matlabom) u kontekstu dobrog otvorenog koda. Zakopao sam malo u TurboPrep kao i obično. Zanima me kako dobiti čiste podatke od prljavih podataka.

Opet možete vidjeti da su ljudi dobri na osnovu marketinških materijala iz 2018. i užasnih ljudi koji govore engleski u demo-u.

I ljudi iz Dortmunda od 2001. sa jakim njemačkim porijeklom)

Gartner MQ 2020. Pregled: Strojno učenje i platforme umjetne inteligencije
Još uvijek ne razumijem sa stranice šta je tačno dostupno u otvorenom kodu - morate kopati dublje. Dobri video zapisi o implementaciji i AutoML konceptima.

Nema ništa posebno ni u vezi sa pozadinom RapidMiner servera. Vjerovatno će biti kompaktan i dobro raditi na premium modelima iz kutije. Upakovan je u Docker. Zajedničko okruženje samo na RapidMiner serveru. A tu je i Radoop, podaci iz Hadoop-a, brojeći rime iz Spark-a u studiju.

Kao što se i očekivalo, mladi vrući prodavci "prodavci prugastih štapića" su ih pomjerili. Gartner, međutim, predviđa njihov budući uspjeh u Enterprise prostoru. Tamo možete prikupiti novac. Nemci to znaju da urade, sveti-sveto :) Ne pominji SAP!!!

Oni mnogo rade za građane! Ali sa stranice možete vidjeti da Gartner kaže da se bore s inovacijama u prodaji i da se ne bore za širinu pokrivenosti, već za profitabilnost.

Ostao SAS и Tibco tipični BI dobavljači za mene... I oba su na samom vrhu, što potvrđuje moje uvjerenje da normalni DataScience logično raste
iz BI, a ne iz oblaka i Hadoop infrastrukture. Od biznisa, odnosno ne iz IT-a. Kao u Gazpromnjeftu na primjer: link,Zrelo DSML okruženje izrasta iz jakih BI praksi. Ali, možda je to ljupko i pristrasno prema MDM-u i drugim stvarima, ko zna.

SAS

Nema se puno za reći. Samo očigledne stvari.

TIBCO

Strategija se čita na listi za kupovinu na Wiki stranici dugoj. Da, duga priča, ali 28!!! Charles. Kupio sam BI Spotfire (2007) još u svojoj tehno mladosti. I također izvještavanje od Jaspersofta (2014), zatim čak tri dobavljača prediktivne analitike Insightful (S-plus) (2008), Statistica (2017) i Alpine Data (2017), obrada događaja i streaming Streambase System (2013), MDM Orchestra Networks (2018) i Snappy Data (2019) platforma u memoriji.

Hello Frankie!

Gartner MQ 2020. Pregled: Strojno učenje i platforme umjetne inteligencije

izvor: www.habr.com

Dodajte komentar