Gartner MQ 2020 Review: Machine Learning lan Platform Intelligence Ponggawa

Iku mokal kanggo nerangake alesan ngapa aku maca iki. Aku mung duwe wektu lan kasengsem ing cara kerja pasar. Lan iki wis dadi pasar lengkap miturut Gartner wiwit taun 2018. Saka 2014-2016 diarani analytics majeng (roots ing BI), ing 2017 - Ilmu Data (Aku ora ngerti carane nerjemahake iki menyang Rusia). Kanggo sing kasengsem ing obahe vendor sak alun, sampeyan bisa kene katon. Lan aku bakal ngomong babagan alun-alun 2020, utamane amarga owah-owahan wiwit taun 2019 minimal: SAP pindhah lan Altair tuku Datawatch.

Iki dudu analisis sistematis utawa tabel. Pandangan individu, uga saka sudut pandang geofisika. Nanging aku tansah penasaran kanggo maca Gartner MQ, padha ngramu sawetara TCTerms sampurna. Mangkene prekara-prekara sing dakgatekake babagan teknis, pasar, lan filosofis.

Iki ora kanggo wong sing jero menyang topik ML, nanging kanggo wong sing kasengsem ing apa sing umume kedadeyan ing pasar.

Pasar DSML dhewe kanthi logis ana ing antarane layanan pangembang BI lan Cloud AI.

Gartner MQ 2020 Review: Machine Learning lan Platform Intelligence Ponggawa

Kutipan lan istilah favorit pisanan:

  • "Pemimpin bisa uga dudu pilihan sing paling apik" - Pimpinan pasar ora mesthi sing sampeyan butuhake. Urgent banget! Minangka akibat saka kekurangan pelanggan fungsional, dheweke tansah nggoleki solusi "paling apik", tinimbang sing "cocog".
  • "Operasialisasi model" - dicekak MOPs. Lan everyone wis wektu hard karo pugs! – (tema pug kelangan ndadekake model bisa).
  • "lingkungan notebook" punika konsep penting ngendi kode, komentar, data lan asil teka bebarengan. Iki cetha banget, janji lan bisa nyuda jumlah kode UI kanthi signifikan.
  • "Bosok ing OpenSource" - uga ngandika - njupuk ROOT ing open source.
  • "Ilmuwan Data Warga" - bolo gampang kuwi, lamers kuwi, ora ahli, sing perlu lingkungan visual lan kabeh limo iku tambahan. Dheweke ora bakal kode.
  • "Demokrasi" - asring digunakake kanggo tegese "nyedhiyakake kanggo wong sing luwih akeh." Kita bisa ngomong "demokratisasi data" tinimbang mbebayani "mbebasake data" sing biasa digunakake. "Democratise" tansah buntut dawa lan kabeh vendor mbukak sawise. Ngilangi intensitas kawruh - entuk aksesibilitas!
  • "Analisis Data Eksplorasi - EDA" - pertimbangan sarana sing kasedhiya. Sawetara statistik. A visualisasi sethitik. Soko sing saben wong nindakake kanggo siji gelar utawa liyane. Ora ngerti ana jeneng kanggo iki
  • "Reproduktifitas" - pengawetan maksimal kabeh parameter lingkungan, input lan output supaya eksperimen bisa diulang sawise ditindakake. Istilah sing paling penting kanggo lingkungan tes eksperimen!

Dadi:

Alteryx

Antarmuka sing keren, kaya dolanan. Skalabilitas, mesthi, rada angel. Patut, masyarakat Citizen engineers watara padha karo tchotchkes kanggo muter. Analytics kabeh sampeyan ana ing siji botol. Ngelingake aku babagan kompleks analisis data korelasi spektral Coscad, sing diprogram ing taun 90-an.

Anaconda

Komunitas watara Python lan R ahli. Open source gedhene. Pranyata kanca-kancaku nggunakake kabeh wektu. Nanging aku ora ngerti.

DataBricks

Kapérang saka telung proyèk opensource - pangembang Spark wis mundhakaken akèh dhuwit wiwit 2013. Aku pancene kudu ngutip wiki:

"Ing September 2013, Databricks ngumumake yen wis ngunggahake $ 13.9 yuta saka Andreessen Horowitz. Perusahaan ngasilake tambahan $33 yuta ing 2014, $60 yuta ing 2016, $140 yuta ing 2017, $250 yuta ing 2019 (Feb) lan $400 yuta ing 2019 (Okt)”!!!

Sawetara wong gedhe ngethok Spark. Aku ora ngerti, nuwun!

Lan proyek kasebut yaiku:

  • Delta Lake - ACID ing Spark bubar dirilis (apa sing kita impi karo Elasticsearch) - dadi database: skema kaku, ACID, audit, versi ...
  • Alur ML - nelusuri, kemasan, manajemen lan panyimpenan model.
  • Koala - Pandas DataFrame API ing Spark - Pandas - Python API kanggo nggarap tabel lan data umume.

Sampeyan bisa ndeleng Spark kanggo sing ora ngerti utawa lali: pranala. Aku nonton video kanthi conto saka pelatuk konsultasi sing rada mboseni nanging rinci: DataBricks for Data Science (pranalalan kanggo Teknik Data (pranala).

Ing cendhak, Databricks narik metu Spark. Sapa wae sing pengin nggunakake Spark biasane ing awan njupuk DataBricks tanpa mangu-mangu, kaya sing dikarepake πŸ™‚ Spark minangka pembeda utama ing kene.
Aku sinau manawa Spark Streaming dudu realtime palsu utawa microbatching. Lan yen sampeyan butuh wektu Nyata Nyata, ana ing Apache STORM. Saben uwong uga ujar lan nulis manawa Spark luwih apik tinimbang MapReduce. Iki slogan.

DATAIKU

Kelangan end-to-end bab. Ana akeh pariwara. Aku ora ngerti carane iku beda saka Alteryx?

DataRobot

Paxata kanggo persiapan data minangka perusahaan kapisah sing dituku dening Data Robots ing Desember 2019. We mundhakaken 20 MUSD lan didol. Kabeh ing 7 taun.

Persiapan data ing Paxata, dudu Excel - deleng kene: pranala.
Ana panelusur otomatis lan usulan kanggo gabung ing antarane rong set data. Sing apik - kanggo mangerteni data kasebut, bakal luwih ditekanake informasi tekstual (pranala).
Katalog Data minangka katalog sing apik banget saka set data "urip" sing ora ana guna.
Iku uga menarik carane direktori dibentuk ing Paxata (pranala).

"Miturut perusahaan analis Ovum, piranti lunak digawe liwat kemajuan ing analytics prediktif, learning machine lan NoSQL metodologi caching data.[15] Piranti lunak nggunakake semantik algoritma kanggo mangerteni makna kolom tabel data lan algoritma pangenalan pola kanggo nemokake duplikat potensial ing set data.[15][7] Uga nggunakake indeksasi, pangenalan pola teks lan teknologi liyane sing biasane ditemokake ing media sosial lan piranti lunak telusuran.

Produk utama Data Robot yaiku kene. Slogan kasebut saka Model nganti Aplikasi Perusahaan! Aku nemokake konsultasi kanggo industri minyak sing ana hubungane karo krisis kasebut, nanging banget lan ora nyenengake: pranala. Aku nonton videone ing Mops utawa MLops (pranala). Iki minangka Frankenstein sing dirakit saka 6-7 akuisisi saka macem-macem produk.

Mesthine, dadi jelas manawa tim Ilmuwan Data sing gedhe kudu duwe lingkungan kaya ngono kanggo nggarap model, yen ora bakal ngasilake akeh lan ora nate nyebarake apa-apa. Lan ing kasunyatan hulu lenga lan gas, yen mung bisa nggawe model sing sukses, iku bakal dadi kemajuan gedhe!

Proses kasebut dhewe banget ngeling-eling karya karo sistem desain ing geologi-geofisika, contone Petel. Saben uwong sing ora kesed nggawe lan ngowahi model. Nglumpukake data menyang model. Banjur padha nggawe model referensi lan dikirim menyang produksi! Antarane, sebutno, model geologi lan model ML, sampeyan bisa nemokake akeh sing umum.

Domino

Penekanan ing platform mbukak lan kolaborasi. Pangguna bisnis ditampa kanthi gratis. Lab Data kasebut meh padha karo sharepoint. (Lan jeneng banget smacks saka IBM). Kabeh eksperimen nyambung menyang set data asli. Sepira akrab iki :) Kaya ing praktik kita - sawetara data diseret menyang model, banjur di resiki lan dilebokake ing model kasebut, lan kabeh iki wis ana ing model kasebut lan ujung ora bisa ditemokake ing data sumber. .

Domino wis virtualisasi infrastruktur kelangan. Aku nglumpuk mesin minangka akeh intine minangka needed ing detik lan banjur count. Carane iku rampung ora langsung cetha. Docker nang endi wae. Kathah kamardikan! Sembarang ruang kerja saka versi paling anyar bisa disambungake. Bukak paralel eksperimen. Nelusuri lan milih sing sukses.

Padha DataRobot - asil diterbitake kanggo pangguna bisnis ing wangun aplikasi. Kanggo "stakeholders" khusus sing wasis. Lan panggunaan nyata model kasebut uga dipantau. Kabeh kanggo Pugs!

Aku ora ngerti kebak carane model Komplek rampung ing produksi. Sawetara jinis API diwenehake kanggo menehi data lan entuk asil.

H2O

AI tanpa drive minangka sistem sing kompak lan intuisi banget kanggo ML sing Diawasi. Kabeh ing siji kothak. Iku ora rampung cetha langsung babagan backend.

Model kasebut kanthi otomatis dikemas menyang server REST utawa Aplikasi Java. Iki minangka ide sing apik. Akeh sing wis ditindakake kanggo Interpretability lan Explainability. Interpretasi lan panjelasan saka asil model (Apa sing ora kudu dijelasake, yen wong bisa ngetung padha?).
Kanggo pisanan, studi kasus babagan data sing ora terstruktur lan NLP. Gambar arsitektur bermutu tinggi. Lan umume aku seneng karo gambar kasebut.

Ana framework H2O open source gedhe sing ora sakabehe jelas (sakumpulan algoritma / perpustakaan?). Laptop visual sampeyan dhewe tanpa pemrograman kaya Jupiter (pranala). Aku uga maca babagan model Pojo lan Mojo - H2O sing dibungkus nganggo basa Jawa. Sing pisanan langsung, sing kapindho kanthi optimasi. H20 mung siji-sijine (!) Sing Gartner nyathet analisis teks lan NLP minangka kekuwatane, uga upaya babagan Explanability. Iku penting banget!

Ing panggonan sing padha: kinerja dhuwur, optimasi lan standar industri ing bidang integrasi karo hardware lan awan.

Lan kelemahane logis - Driverles AI lemah lan sempit dibandhingake karo sumber terbuka. Persiapan data pincang dibandhingake karo Paxata! Lan padha nglirwakake data industri - stream, graph, geo. Inggih, kabeh ora mung apik.

KNIME

Aku seneng 6 kasus bisnis sing spesifik banget lan menarik ing kaca utama. Kuwat OpenSource.

Gartner nudhuhake dheweke saka pimpinan dadi visioner. Entuk dhuwit sing ora apik minangka tandha apik kanggo pangguna, amarga Pemimpin ora mesthi dadi pilihan sing paling apik.

Tembung kunci, kaya ing H2O, ditambah, tegese mbantu ilmuwan data warga miskin. Iki pisanan wong wis ngritik kinerja ing review! menarik? Yaiku, ana akeh daya komputasi sing kinerja ora bisa dadi masalah sistemik? Gartner duwe tembung iki "Ditambah" artikel kapisah, sing ora bisa digayuh.
Lan KNIME misale jek dadi non-Amerika pisanan ing review! (Lan desainer kita seneng banget karo kaca kebangkrutan. Wong aneh.

Matematika

MatLab minangka kanca kehormatan lawas sing dikenal kabeh wong! Kothak piranti kanggo kabeh bidang urip lan kahanan. Soko beda banget. Nyatane, akeh lan akeh lan akeh matematika kanggo kabeh urip!

Produk tambahan Simulink kanggo desain sistem. Aku ndudhuk menyang kothak piranti kanggo Digital Twins - Aku ora ngerti apa-apa bab iku, nanging kene wis akeh sing ditulis. Kanggo industri lenga. UmumΓ©, iki minangka produk dhasar sing beda karo dhasar matΓ©matika lan teknik. Kanggo milih toolkit matematika tartamtu. Miturut Gartner, masalahe padha karo insinyur sing cerdas - ora ana kolaborasi - kabeh wong ngubengi model dhewe, ora ana demokrasi, ora ana eksplisit.

RapidMiner

Aku wis nemoni lan krungu akeh sadurunge (bebarengan karo Matlab) ing konteks sumber terbuka sing apik. Aku ndudhuk sethitik menyang TurboPrep minangka biasanipun. Aku kasengsem ing carane njaluk data resik saka data reged.

Maneh sampeyan bisa ndeleng manawa wong-wong iku apik adhedhasar bahan pemasaran 2018 lan wong-wong sing nganggo basa Inggris sing ala ing demo fitur.

Lan wong saka Dortmund wiwit 2001 kanthi latar mburi Jerman sing kuwat)

Gartner MQ 2020 Review: Machine Learning lan Platform Intelligence Ponggawa
Aku isih ora ngerti saka situs apa persis sing kasedhiya ing open source - sampeyan kudu digali luwih jero. Video sing apik babagan panyebaran lan konsep AutoML.

Ora ana sing khusus babagan backend RapidMiner Server. Mesthine bakal kompak lan bisa digunakake kanthi apik ing premium metu saka kothak. Iku wis rangkep ing Docker. Lingkungan sing dienggo bareng mung ing server RapidMiner. Banjur ana Radoop, data saka Hadoop, ngetang sajak saka Spark ing alur kerja Studio.

Kaya sing dikarepake, para pedagang enom sing panas "bakul teken belang" dipindhah mudhun. Gartner, Nanging, prΓ©dhiksi sukses mangsa ing papan Enterprise. Sampeyan bisa ngumpulake dhuwit ing kana. Wong Jerman ngerti carane iki, suci-suci :) Aja nyebutake SAP !!!

Dheweke nindakake akeh kanggo warga! Nanging saka kaca sampeyan bisa ndeleng manawa Gartner ujar manawa dheweke berjuang karo inovasi penjualan lan ora berjuang kanggo jangkoan, nanging kanggo entuk bathi.

Nginep SAS ΠΈ Tibco vendor BI sing khas kanggo aku ... Lan loro-lorone ana ing ndhuwur, sing negesake kapercayanku yen DataScience normal berkembang kanthi logis.
saka BI, lan ora saka awan lan infrastruktur Hadoop. Saka bisnis, yaiku, lan dudu saka IT. Kaya ing Gazpromneft umpamane: pranala,Lingkungan DSML sing diwasa tuwuh saka praktik BI sing kuwat. Nanging bisa uga smacky lan bias menyang MDM lan liya-liyane, sapa ngerti.

SAS

Ora akeh sing kudu diomongake. Mung perkara sing jelas.

TIBCO

Strategi kasebut diwaca ing dhaptar blanja ing kaca Wiki sing dawane kaca. Ya, crita dawa, nanging 28!!! Charles. Aku tuku BI Spotfire (2007) bali ing techno-muth. Lan uga nglaporake saka Jaspersoft (2014), banjur nganti telung vendor analytics prediktif Insightful (S-plus) (2008), Statistica (2017) lan Alpine Data (2017), proses acara lan streaming Streambase System (2013), MDM Orchestra Networks (2018) lan Snappy Data (2019) platform ing memori.

Hello Frankie!

Gartner MQ 2020 Review: Machine Learning lan Platform Intelligence Ponggawa

Source: www.habr.com

Add a comment