Ulasan Gartner MQ 2020: Pembelajaran Mesin dan Platform Kepintaran Buatan

Tidak mustahil untuk menjelaskan sebab mengapa saya membaca ini. Saya hanya mempunyai masa dan berminat dengan cara pasaran berfungsi. Dan ini sudah menjadi pasaran penuh menurut Gartner sejak 2018. Dari 2014-2016 ia dipanggil analisis lanjutan (akar dalam BI), pada 2017 - Sains Data (saya tidak tahu bagaimana untuk menterjemahkannya ke dalam bahasa Rusia). Bagi yang berminat dengan pergerakan vendor di sekitar dataran, anda boleh di sini tengok. Dan saya akan bercakap tentang dataran 2020, terutamanya kerana perubahan di sana sejak 2019 adalah minimum: SAP berpindah dan Altair membeli Datawatch.

Ini bukan analisis sistematik atau jadual. Pandangan individu, juga dari sudut pandangan ahli geofizik. Tetapi saya sentiasa ingin tahu untuk membaca Gartner MQ, mereka merumuskan beberapa perkara dengan sempurna. Jadi inilah perkara yang saya beri perhatian kepada kedua-dua teknikal, pasaran dan falsafah.

Ini bukan untuk mereka yang mendalami topik ML, tetapi untuk mereka yang berminat dengan perkara yang biasa berlaku di pasaran.

Pasaran DSML sendiri secara logiknya bersarang antara perkhidmatan pembangun BI dan Cloud AI.

Ulasan Gartner MQ 2020: Pembelajaran Mesin dan Platform Kepintaran Buatan

Petikan dan terma kegemaran dahulu:

  • "Seorang Pemimpin mungkin bukan pilihan terbaik" β€” Seorang pemimpin pasaran tidak semestinya apa yang anda perlukan. Sangat mendesak! Akibat kekurangan pelanggan yang berfungsi, mereka sentiasa mencari penyelesaian "terbaik", dan bukannya penyelesaian "sesuai".
  • "Pengoperasian model" - disingkatkan sebagai MOP. Dan semua orang mempunyai masa yang sukar dengan pugs! – (tema pug sejuk menjadikan model berfungsi).
  • "Persekitaran buku nota" ialah konsep penting di mana kod, ulasan, data dan hasil disatukan. Ini sangat jelas, menjanjikan dan boleh mengurangkan jumlah kod UI dengan ketara.
  • "Berakar dalam OpenSource" - baik kata - berakar dalam sumber terbuka.
  • "Saintis Data Warganegara" - kawan-kawan yang mudah, lamer seperti itu, bukan pakar, yang memerlukan persekitaran visual dan segala macam perkara tambahan. Mereka tidak akan kod.
  • "Demokrasi" β€” selalunya digunakan untuk bermaksud "menyediakan kepada lebih ramai orang." Kita boleh menyebut "mendemokrasikan data" dan bukannya "membebaskan data" berbahaya yang biasa kami gunakan. "Demokrasikan" sentiasa ekor panjang dan semua vendor mengejarnya. Kurangkan keamatan pengetahuan - perolehi kebolehcapaian!
  • "Analisis Data Penerokaan - EDA" β€” pertimbangan cara yang ada ini. Beberapa statistik. Sedikit visualisasi. Sesuatu yang semua orang lakukan pada satu tahap atau yang lain. Tidak tahu ada nama untuk ini
  • "Kebolehulangan" β€” pemeliharaan maksimum semua parameter persekitaran, input dan output supaya eksperimen boleh diulang sebaik sahaja dijalankan. Istilah paling penting untuk persekitaran ujian eksperimen!

Jadi:

Alteryx

Antara muka yang sejuk, seperti mainan. Kebolehskalaan, tentu saja, agak sukar. Sehubungan itu, komuniti warga jurutera sekitar sama dengan tchotchkes untuk bermain. Analitis adalah milik anda dalam satu botol. Mengingatkan saya tentang kompleks analisis data korelasi spektrum Coscad, yang telah diprogramkan pada tahun 90-an.

Anaconda

Komuniti di sekitar pakar Python dan R. Sumber terbuka adalah besar dengan sewajarnya. Ternyata rakan sekerja saya menggunakannya sepanjang masa. Tetapi saya tidak tahu.

DataBricks

Terdiri daripada tiga projek sumber terbuka - pembangun Spark telah mengumpul banyak wang sejak 2013. Saya benar-benar perlu memetik wiki:

β€œPada September 2013, Databricks mengumumkan bahawa ia telah mengumpulkan $13.9 juta daripada Andreessen Horowitz. Syarikat itu memperoleh tambahan $33 juta pada 2014, $60 juta pada 2016, $140 juta pada 2017, $250 juta pada 2019 (Feb) dan $400 juta pada 2019 (Okt)”!!!

Beberapa orang hebat memotong Spark. Saya tidak tahu, maaf!

Dan projek-projeknya ialah:

  • Tasik Delta - ACID on Spark baru-baru ini dikeluarkan (apa yang kami impikan dengan Elasticsearch) - mengubahnya menjadi pangkalan data: skema tegar, ACID, pengauditan, versi...
  • Aliran ML β€” pengesanan, pembungkusan, pengurusan dan penyimpanan model.
  • Koala - API Pandas DataFrame pada Spark - Pandas - API Python untuk bekerja dengan jadual dan data secara umum.

Anda boleh melihat Spark untuk mereka yang tidak tahu atau terlupa: pautan. Saya menonton video dengan contoh daripada burung belatuk perundingan yang sedikit membosankan tetapi terperinci: DataBricks untuk Sains Data (pautan) dan untuk Kejuruteraan Data (pautan).

Ringkasnya, Databricks menarik keluar Spark. Sesiapa sahaja yang ingin menggunakan Spark secara normal dalam awan mengambil DataBricks tanpa teragak-agak, seperti yang dimaksudkan πŸ™‚ Spark ialah pembeza utama di sini.
Saya mengetahui bahawa Spark Streaming bukanlah masa nyata palsu atau kumpulan mikro. Dan jika anda memerlukan masa Nyata sebenar, ia berada dalam Apache STORM. Semua orang juga berkata dan menulis bahawa Spark lebih baik daripada MapReduce. Ini adalah slogan.

DATAIKU

Perkara hujung ke hujung yang sejuk. Terdapat banyak iklan. Saya tidak faham bagaimana ia berbeza daripada Alteryx?

DataRobot

Paxata untuk penyediaan data ialah syarikat berasingan yang dibeli oleh Data Robots pada Disember 2019. Kami menaikkan 20 MUSD dan menjual. Semua dalam 7 tahun.

Penyediaan data dalam Paxata, bukan Excel - lihat di sini: pautan.
Terdapat carian automatik dan cadangan untuk gabungan antara dua set data. Perkara yang hebat - untuk memahami data, akan ada lebih banyak penekanan pada maklumat teks (pautan).
Katalog Data ialah katalog terbaik bagi set data "langsung" yang tidak berguna.
Menarik juga bagaimana direktori dibentuk dalam Paxata (pautan).

β€œMenurut firma penganalisis ovum, perisian dimungkinkan melalui kemajuan dalam analisis ramalan, pembelajaran mesin dan juga NoSQL metodologi caching data.[15] Perisian menggunakan semantik algoritma untuk memahami maksud lajur jadual data dan algoritma pengecaman corak untuk mencari kemungkinan pendua dalam set data.[15][7] Ia juga menggunakan pengindeksan, pengecaman corak teks dan teknologi lain yang biasanya ditemui dalam media sosial dan perisian carian.”

Produk utama Data Robot ialah di sini. Slogan mereka adalah dari Model ke Aplikasi Perusahaan! Saya mendapati perundingan untuk industri minyak berkaitan dengan krisis, tetapi ia sangat cetek dan tidak menarik: pautan. Saya menonton video mereka di Mops atau MLops (pautan). Ini adalah Frankenstein yang dipasang dari 6-7 pemerolehan pelbagai produk.

Sudah tentu, menjadi jelas bahawa pasukan Saintis Data yang besar mesti mempunyai persekitaran sedemikian untuk bekerja dengan model, jika tidak, mereka akan menghasilkan banyak model dan tidak pernah menggunakan apa-apa. Dan dalam realiti huluan minyak dan gas kita, jika kita boleh mencipta satu model yang berjaya, itu akan menjadi kemajuan yang hebat!

Proses itu sendiri sangat mengingatkan kerja dengan sistem reka bentuk dalam geologi-geofizik, sebagai contoh Petrel. Semua orang yang tidak terlalu malas membuat dan mengubah suai model. Kumpul data ke dalam model. Kemudian mereka membuat model rujukan dan menghantarnya ke produksi! Antara, katakan, model geologi dan model ML, anda boleh menemui banyak persamaan.

Domino

Penekanan pada platform terbuka dan kerjasama. Pengguna perniagaan diterima secara percuma. Makmal Data mereka sangat serupa dengan sharepoint. (Dan nama itu sangat menyentuh IBM). Semua percubaan dipautkan ke set data asal. Betapa biasa ini :) Seperti dalam amalan kami - beberapa data telah diseret ke dalam model, kemudian ia dibersihkan dan disusun mengikut urutan dalam model, dan semua ini sudah ada di sana dalam model dan hujungnya tidak dapat ditemui dalam data sumber .

Domino mempunyai virtualisasi infrastruktur yang hebat. Saya memasang mesin seberapa banyak teras yang diperlukan dalam satu saat dan pergi mengira. Bagaimana ia dilakukan tidak serta-merta jelas. Docker ada di mana-mana. Banyak kebebasan! Mana-mana ruang kerja versi terkini boleh disambungkan. Pelancaran eksperimen selari. Penjejakan dan pemilihan yang berjaya.

Sama seperti DataRobot - hasilnya diterbitkan untuk pengguna perniagaan dalam bentuk aplikasi. Untuk "pihak berkepentingan" yang sangat berbakat. Dan penggunaan sebenar model juga dipantau. Segala-galanya untuk Pugs!

Saya tidak faham sepenuhnya bagaimana model kompleks berakhir dalam pengeluaran. Beberapa jenis API disediakan untuk memberi mereka data dan mendapatkan hasil.

H2O

AI Tanpa Pemacu ialah sistem yang sangat padat dan intuitif untuk ML Terselia. Semuanya dalam satu kotak. Ia tidak begitu jelas serta-merta tentang bahagian belakang.

Model ini dibungkus secara automatik ke dalam pelayan REST atau Apl Java. Ini adalah idea yang bagus. Banyak yang telah dilakukan untuk Kebolehtafsiran dan Kebolehjelasan. Tafsiran dan penjelasan hasil model (Apa yang sememangnya tidak boleh dijelaskan, jika tidak, seseorang boleh mengira perkara yang sama?).
Buat pertama kalinya, kajian kes tentang data tidak berstruktur dan NLP. Gambar seni bina berkualiti tinggi. Dan secara umum saya suka gambar-gambar itu.

Terdapat rangka kerja H2O sumber terbuka yang besar yang tidak jelas sepenuhnya (satu set algoritma/perpustakaan?). Komputer riba visual anda sendiri tanpa pengaturcaraan seperti Musytari (pautan). Saya juga membaca tentang model Pojo dan Mojo - H2O yang dibalut dalam Java. Yang pertama adalah mudah, yang kedua dengan pengoptimuman. H20 adalah satu-satunya(!) yang Gartner menyenaraikan analisis teks dan NLP sebagai kekuatan mereka, serta usaha mereka mengenai Kebolehjelasan. Ianya sangat penting!

Di tempat yang sama: prestasi tinggi, pengoptimuman dan standard industri dalam bidang penyepaduan dengan perkakasan dan awan.

Dan kelemahannya adalah logik - Driverles AI adalah lemah dan sempit berbanding dengan sumber terbuka mereka. Penyediaan data adalah tempang berbanding Paxata! Dan mereka mengabaikan data industri - aliran, graf, geo. Nah, semuanya tidak boleh hanya baik.

TAHNIAH

Saya menyukai 6 kes perniagaan yang sangat khusus dan sangat menarik di halaman utama. OpenSource yang kukuh.

Gartner menurunkan pangkat mereka daripada pemimpin kepada berwawasan. Memperoleh wang dengan teruk adalah petanda yang baik untuk pengguna, memandangkan Pemimpin bukanlah pilihan terbaik.

Kata kunci, seperti dalam H2O, ditambah, yang bermaksud membantu saintis data warganegara miskin. Ini adalah kali pertama seseorang telah dikritik kerana prestasi dalam ulasan! Menarik? Iaitu, terdapat begitu banyak kuasa pengkomputeran sehingga prestasi tidak boleh menjadi masalah sistemik sama sekali? Gartner mempunyai tentang perkataan "Ditambah" ini artikel berasingan, yang tidak dapat dihubungi.
Dan KNIME nampaknya bukan orang Amerika pertama dalam ulasan itu! (Dan pereka kami sangat menyukai halaman pendaratan mereka. Orang yang pelik.

Mathworks

MatLab ialah rakan kehormat lama yang dikenali semua orang! Kotak alat untuk semua bidang kehidupan dan situasi. Sesuatu yang sangat berbeza. Malah, banyak dan banyak dan banyak matematik untuk segala-galanya dalam hidup!

Produk tambahan Simulink untuk reka bentuk sistem. Saya menggali kotak alat untuk Digital Twins - Saya tidak faham apa-apa tentangnya, tetapi di sini banyak yang telah ditulis. Untuk industri minyak. Secara umum, ini adalah produk yang pada asasnya berbeza daripada kedalaman matematik dan kejuruteraan. Untuk memilih kit alat matematik tertentu. Menurut Gartner, masalah mereka adalah sama seperti jurutera pintar - tiada kerjasama - semua orang membelek-belek model mereka sendiri, tiada demokrasi, tiada penjelasan.

RapidMiner

Saya telah menemui dan mendengar banyak perkara sebelum ini (bersama Matlab) dalam konteks sumber terbuka yang baik. Saya menggali sedikit TurboPrep seperti biasa. Saya berminat dengan cara mendapatkan data bersih daripada data kotor.

Sekali lagi anda dapat melihat bahawa orangnya bagus berdasarkan bahan pemasaran 2018 dan orang yang berbahasa Inggeris yang dahsyat pada demo ciri.

Dan orang dari Dortmund sejak 2001 dengan latar belakang Jerman yang kuat)

Ulasan Gartner MQ 2020: Pembelajaran Mesin dan Platform Kepintaran Buatan
Saya masih tidak faham dari tapak itu apa sebenarnya yang tersedia dalam sumber terbuka - anda perlu menggali lebih mendalam. Video yang bagus tentang penggunaan dan konsep AutoML.

Tiada apa-apa yang istimewa tentang bahagian belakang Pelayan RapidMiner sama ada. Ia mungkin akan padat dan berfungsi dengan baik pada premium di luar kotak. Ia dibungkus dalam Docker. Persekitaran yang dikongsi hanya pada pelayan RapidMiner. Kemudian terdapat Radoop, data daripada Hadoop, mengira sajak daripada aliran kerja Spark in Studio.

Seperti yang dijangkakan, penjual panas muda "penjual kayu berjalur" menurunkannya. Gartner, bagaimanapun, meramalkan kejayaan masa depan mereka dalam ruang Perusahaan. Anda boleh mengumpul wang di sana. Orang Jerman tahu macam mana nak buat ni, holy-holy :) Jangan sebut SAP!!!

Banyak yang mereka lakukan untuk rakyat! Tetapi dari halaman anda dapat melihat bahawa Gartner mengatakan bahawa mereka sedang bergelut dengan inovasi jualan dan tidak berjuang untuk liputan yang luas, tetapi untuk keuntungan.

Kekal SAS ΠΈ Tibco vendor BI biasa untuk saya... Dan kedua-duanya berada di peringkat teratas, yang mengesahkan keyakinan saya bahawa DataScience biasa berkembang secara logik
daripada BI, dan bukan daripada awan dan infrastruktur Hadoop. Dari perniagaan, itu, dan bukan dari IT. Seperti dalam Gazpromneft sebagai contoh: pautan,Persekitaran DSML yang matang berkembang daripada amalan BI yang kukuh. Tetapi mungkin ia adalah smacky dan berat sebelah terhadap MDM dan perkara lain, siapa tahu.

SAS

Tak banyak nak cakap. Hanya perkara yang jelas.

TIBCO

Strategi ini dibaca dalam senarai beli-belah pada halaman Wiki sepanjang halaman. Ya, cerita panjang, tetapi 28!!! Charles. Saya membeli BI Spotfire (2007) pada zaman muda tekno saya. Dan juga melaporkan daripada Jaspersoft (2014), kemudian sebanyak tiga vendor analitik ramalan Insightful (S-plus) (2008), Statistica (2017) dan Alpine Data (2017), pemprosesan acara dan streaming Streambase System (2013), MDM Orchestra Rangkaian (2018 ) dan Snappy Data (2019) platform dalam memori.

Hello Frankie!

Ulasan Gartner MQ 2020: Pembelajaran Mesin dan Platform Kepintaran Buatan

Sumber: www.habr.com

Tambah komen