Ulasan Gartner MQ 2020: Platform Pembelajaran Mesin dan Kecerdasan Buatan

Tidak mungkin menjelaskan alasan mengapa saya membaca ini. Saya hanya punya waktu dan tertarik dengan cara kerja pasar. Dan ini sudah menjadi pasar penuh menurut Gartner sejak 2018. Dari tahun 2014-2016 disebut analisis lanjutan (berakar dari BI), pada tahun 2017 - Ilmu Data (Saya tidak tahu cara menerjemahkannya ke dalam bahasa Rusia). Bagi yang tertarik dengan pergerakan pedagang di sekitar alun-alun, bisa di sini Lihat. Dan saya akan berbicara tentang tahun 2020, terutama karena perubahan di sana sejak 2019 sangat minim: SAP pindah dan Altair membeli Datawatch.

Ini bukan analisis sistematis atau tabel. Pandangan individu, juga dari sudut pandang seorang ahli geofisika. Tapi saya selalu penasaran membaca Gartner MQ, mereka merumuskan beberapa poin dengan sempurna. Berikut hal-hal yang saya perhatikan baik secara teknis, pasar, dan filosofis.

Ini bukan untuk orang-orang yang mendalami topik ML, tapi untuk orang-orang yang tertarik dengan apa yang umumnya terjadi di pasar.

Pasar DSML sendiri secara logis berada di antara layanan pengembang BI dan Cloud AI.

Ulasan Gartner MQ 2020: Platform Pembelajaran Mesin dan Kecerdasan Buatan

Kutipan dan istilah favorit terlebih dahulu:

  • "Seorang Pemimpin mungkin bukan pilihan terbaik" — Pemimpin pasar belum tentu Anda butuhkan. Sangat mendesak! Sebagai konsekuensi dari kurangnya pelanggan yang berfungsi, mereka selalu mencari solusi yang “terbaik”, bukan solusi yang “cocok”.
  • "Operasionalisasi model" - disingkat MOP. Dan semua orang mengalami kesulitan dengan anjing pug! – (tema pug keren membuat modelnya berfungsi).
  • "Lingkungan buku catatan" adalah konsep penting tempat kode, komentar, data, dan hasil digabungkan. Ini sangat jelas, menjanjikan dan dapat mengurangi jumlah kode UI secara signifikan.
  • "Berakar di OpenSource" - dikatakan dengan baik - berakar pada open source.
  • "Ilmuwan Data Warga" - orang-orang yang mudah, orang yang lamban, bukan ahli, yang membutuhkan lingkungan visual dan segala macam hal tambahan. Mereka tidak akan membuat kode.
  • "Demokrasi" — sering digunakan dalam arti “disediakan untuk lebih banyak orang.” Kita bisa mengatakan “demokratisasikan data” daripada “bebaskan data” yang berbahaya seperti yang biasa kita gunakan. “Demokratisasi” selalu merupakan hal yang panjang dan semua vendor mengejarnya. Kurangi intensitas pengetahuan - dapatkan aksesibilitas!
  • "Analisis Data Eksplorasi - EDA" — pertimbangan atas sarana yang tersedia ini. Beberapa statistik. Sedikit visualisasi. Sesuatu yang dilakukan setiap orang pada tingkat tertentu. Tidak tahu ada nama untuk ini
  • "Reproduksibilitas" — pelestarian maksimum seluruh parameter lingkungan, masukan dan keluaran sehingga percobaan dapat diulang setelah dilakukan. Istilah paling penting untuk lingkungan pengujian eksperimental!

Jadi:

Alteryx

Antarmuka keren, seperti mainan. Skalabilitas tentu saja agak sulit. Oleh karena itu, komunitas insinyur Warga sekitar sama dengan tchotchkes untuk dimainkan. Analytics adalah milik Anda dalam satu botol. Mengingatkan saya pada analisis data korelasi spektral yang kompleks coscad, yang diprogram pada tahun 90an.

Anaconda

Komunitas seputar pakar Python dan R. Oleh karena itu, open source sangat besar. Ternyata rekan-rekan saya selalu menggunakannya. Tapi saya tidak tahu.

DataBrick

Terdiri dari tiga proyek sumber terbuka - pengembang Spark telah mengumpulkan banyak uang sejak 2013. Saya benar-benar harus mengutip wiki:

“Pada bulan September 2013, Databricks mengumumkan bahwa mereka telah mengumpulkan $13.9 juta dari Andreessen Horowitz. Perusahaan mengumpulkan tambahan $33 juta pada tahun 2014, $60 juta pada tahun 2016, $140 juta pada tahun 2017, $250 juta pada tahun 2019 (Februari) dan $400 juta pada tahun 2019 (Oktober)”!!!

Beberapa orang hebat memotong Spark. Saya tidak tahu, maaf!

Dan proyek-proyeknya adalah:

  • Danau Delta - ACID di Spark baru-baru ini dirilis (apa yang kami impikan dengan Elasticsearch) - mengubahnya menjadi database: skema kaku, ACID, audit, versi...
  • Aliran ML — pelacakan, pengemasan, pengelolaan dan penyimpanan model.
  • Koala - Pandas DataFrame API di Spark - Pandas - Python API untuk bekerja dengan tabel dan data secara umum.

Anda bisa melihat Spark bagi yang belum tahu atau lupa: link. Saya menonton video dengan contoh-contoh dari pelatuk konsultasi yang sedikit membosankan namun mendetail: DataBricks for Data Science (link) dan untuk Rekayasa Data (link).

Singkatnya, Databricks mengeluarkan Spark. Siapa pun yang ingin menggunakan Spark secara normal di cloud menggunakan DataBricks tanpa ragu-ragu, sebagaimana dimaksud 🙂 Spark adalah pembeda utama di sini.
Saya mengetahui bahwa Spark Streaming bukanlah realtime palsu atau microbatching. Dan jika Anda membutuhkan waktu nyata yang nyata, itu ada di Apache STORM. Semua orang juga mengatakan dan menulis bahwa Spark lebih baik daripada MapReduce. Ini adalah slogannya.

DATAIKU

Hal ujung ke ujung yang keren. Ada banyak iklan. Saya tidak mengerti apa bedanya dengan Alteryx?

Robot Data

Paxata untuk penyiapan data merupakan perusahaan terpisah yang dibeli oleh Data Robots pada Desember 2019. Kami mengumpulkan 20 MUSD dan menjualnya. Semuanya dalam 7 tahun.

Persiapan data di Paxata, bukan Excel - lihat di sini: link.
Ada pencarian otomatis dan proposal untuk gabungan antara dua kumpulan data. Hal yang hebat - untuk memahami data, akan ada lebih banyak penekanan pada informasi tekstual (link).
Katalog Data adalah katalog luar biasa berisi kumpulan data "langsung" yang tidak berguna.
Menarik juga bagaimana direktori dibentuk di Paxata (link).

“Menurut firma analis Telur, perangkat lunak ini dimungkinkan melalui kemajuan dalam analisis prediktif, Mesin belajar dan NoSQL metodologi cache data.[15] Perangkat lunak ini menggunakan semantik algoritma untuk memahami arti kolom tabel data dan algoritma pengenalan pola untuk menemukan potensi duplikat dalam kumpulan data.[15][7] Ia juga menggunakan pengindeksan, pengenalan pola teks, dan teknologi lain yang biasanya ditemukan di media sosial dan perangkat lunak pencarian.”

Produk utama Data Robot adalah di sini. Slogan mereka adalah dari Model ke Aplikasi Perusahaan! Saya menemukan konsultasi untuk industri minyak sehubungan dengan krisis ini, namun hal tersebut sangat dangkal dan tidak menarik: link. Saya menonton video mereka di Mops atau MLops (link). Ini adalah Frankenstein yang dirakit dari 6-7 akuisisi berbagai produk.

Tentu saja, menjadi jelas bahwa tim besar Data Scientist harus memiliki lingkungan seperti itu untuk bekerja dengan model, jika tidak, mereka akan menghasilkan banyak model dan tidak pernah menerapkan apa pun. Dan dalam realitas hulu migas kita, jika saja kita dapat menciptakan satu model yang sukses, maka hal itu akan menjadi kemajuan besar!

Prosesnya sendiri sangat mengingatkan pada pekerjaan sistem desain di bidang geologi-geofisika, misalnya Burung laut. Setiap orang yang tidak malas membuat dan memodifikasi model. Kumpulkan data ke dalam model. Kemudian mereka membuat model referensi dan mengirimkannya ke produksi! Misalnya saja antara model geologi dan model ML, Anda dapat menemukan banyak kesamaan.

kartu domino

Penekanan pada platform terbuka dan kolaborasi. Pengguna bisnis diterima secara gratis. Lab Data mereka sangat mirip dengan sharepoint. (Dan namanya sangat mirip dengan IBM). Semua eksperimen ditautkan ke kumpulan data asli. Betapa familiarnya hal ini :) Seperti dalam praktik kita - beberapa data diseret ke dalam model, kemudian dibersihkan dan diurutkan dalam model, dan semua ini sudah ada di model dan ujungnya tidak dapat ditemukan di data sumber .

Domino memiliki virtualisasi infrastruktur yang keren. Saya merakit mesin sebanyak inti yang diperlukan dalam satu detik dan mulai menghitung. Bagaimana hal itu dilakukan masih belum jelas. Docker ada dimana-mana. Banyak kebebasan! Ruang kerja versi terbaru apa pun dapat dihubungkan. Peluncuran eksperimen paralel. Pelacakan dan pemilihan yang berhasil.

Sama seperti DataRobot - hasilnya dipublikasikan untuk pengguna bisnis dalam bentuk aplikasi. Khususnya bagi “pemangku kepentingan” yang berbakat. Dan penggunaan sebenarnya dari model tersebut juga dipantau. Semuanya untuk Pug!

Saya tidak sepenuhnya memahami bagaimana model rumit berakhir dalam produksi. Beberapa jenis API disediakan untuk memberi mereka data dan mendapatkan hasil.

H2O

AI tanpa drive adalah sistem yang sangat ringkas dan intuitif untuk Supervised ML. Semuanya dalam satu kotak. Tidak sepenuhnya jelas tentang backend.

Model secara otomatis dikemas ke dalam server REST atau Aplikasi Java. Ini adalah ide yang bagus. Banyak yang telah dilakukan untuk Interpretabilitas dan Penjelasan. Interpretasi dan penjelasan hasil model (Apa yang pada dasarnya tidak dapat dijelaskan, jika tidak, seseorang dapat menghitung hal yang sama?).
Untuk pertama kalinya, studi kasus tentang data tidak terstruktur dan NLP. Gambar arsitektur berkualitas tinggi. Dan secara umum saya menyukai gambarnya.

Ada kerangka H2O open source besar yang tidak sepenuhnya jelas (seperangkat algoritma/perpustakaan?). Laptop visual Anda sendiri tanpa pemrograman seperti Jupiter (link). Saya juga membaca tentang Pojo dan Mojo - model H2O yang dibalut Java. Yang pertama mudah, yang kedua dengan optimasi. H20 adalah satu-satunya (!) yang Gartner mencantumkan analisis teks dan NLP sebagai kekuatan mereka, serta upaya mereka terkait Penjelasan. Ini sangat penting!

Di tempat yang sama: kinerja tinggi, optimalisasi dan standar industri di bidang integrasi dengan perangkat keras dan cloud.

Dan kelemahannya logis - Driverles AI lemah dan sempit dibandingkan dengan open source-nya. Persiapan datanya payah dibandingkan dengan Paxata! Dan mereka mengabaikan data industri - aliran, grafik, geo. Ya, semuanya tidak bisa baik-baik saja.

PISAU

Saya menyukai 6 kasus bisnis yang sangat spesifik dan sangat menarik di halaman utama. Sumber Terbuka yang Kuat.

Gartner menurunkan mereka dari pemimpin menjadi visioner. Menghasilkan uang dengan buruk adalah pertanda baik bagi pengguna, mengingat Pemimpin tidak selalu merupakan pilihan terbaik.

Kata kuncinya, seperti dalam H2O, adalah augmented, yang berarti membantu ilmuwan data masyarakat miskin. Ini adalah pertama kalinya seseorang dikritik karena kinerjanya dalam sebuah ulasan! Menarik? Artinya, ada begitu banyak daya komputasi sehingga kinerja tidak bisa menjadi masalah sistem sama sekali? Gartner memiliki kata "Augmented" tentang ini artikel terpisah, yang tidak dapat dijangkau.
Dan KNIME tampaknya menjadi orang non-Amerika pertama dalam ulasan tersebut! (Dan desainer kami sangat menyukai halaman arahan mereka. Orang-orang aneh.

MathWorks

MatLab adalah kawan kehormatan lama yang dikenal semua orang! Kotak peralatan untuk semua bidang kehidupan dan situasi. Sesuatu yang sangat berbeda. Faktanya, banyak sekali matematika untuk segala hal dalam hidup!

Produk tambahan Simulink untuk desain sistem. Saya menggali kotak peralatan untuk Digital Twins - saya tidak mengerti apa pun tentangnya, tapi di sini banyak yang telah ditulis. Untuk industri minyak. Secara umum, ini adalah produk yang secara fundamental berbeda dari kedalaman matematika dan teknik. Untuk memilih perangkat matematika tertentu. Menurut Gartner, masalah mereka sama dengan masalah para insinyur cerdas - tidak ada kolaborasi - semua orang mencari-cari model mereka sendiri, tidak ada demokrasi, tidak ada penjelasan.

RapidMiner

Saya telah menemukan dan mendengar banyak hal sebelumnya (bersama dengan Matlab) dalam konteks open source yang bagus. Saya menggali sedikit tentang TurboPrep seperti biasa. Saya tertarik dengan cara mendapatkan data bersih dari data kotor.

Sekali lagi Anda dapat melihat bahwa orang-orang tersebut baik berdasarkan materi pemasaran tahun 2018 dan orang-orang berbahasa Inggris yang buruk di demo fitur.

Dan orang-orang dari Dortmund sejak tahun 2001 dengan latar belakang Jerman yang kuat)

Ulasan Gartner MQ 2020: Platform Pembelajaran Mesin dan Kecerdasan Buatan
Saya masih tidak mengerti dari situsnya apa sebenarnya yang tersedia dalam open source - Anda perlu menggali lebih dalam. Video bagus tentang penerapan dan konsep AutoML.

Tidak ada yang istimewa dari backend Server RapidMiner juga. Ini mungkin akan kompak dan berfungsi dengan baik pada perangkat premium. Itu dikemas dalam Docker. Lingkungan bersama hanya di server RapidMiner. Lalu ada Radoop, data dari Hadoop, menghitung sajak dari alur kerja Spark di Studio.

Benar saja, para pedagang muda “penjual tongkat bergaris” menurunkan mereka. Namun, Gartner memperkirakan kesuksesan masa depan mereka di bidang Enterprise. Anda dapat mengumpulkan uang di sana. Orang Jerman tahu bagaimana melakukan ini, suci-suci :) Jangan sebut SAP!!!

Mereka melakukan banyak hal untuk warga negara! Namun dari halaman tersebut Anda dapat melihat bahwa Gartner mengatakan bahwa mereka berjuang dengan inovasi penjualan dan tidak berjuang untuk cakupan yang luas, tetapi untuk profitabilitas.

Tersisa SAS и Tibco tipikal vendor BI bagi saya... Dan keduanya berada di posisi paling atas, yang menegaskan keyakinan saya bahwa DataScience normal tumbuh secara logis
dari BI, dan bukan dari cloud dan infrastruktur Hadoop. Yaitu dari bisnis, dan bukan dari IT. Seperti di Gazpromneft misalnya: link, Lingkungan DSML yang matang tumbuh dari praktik BI yang kuat. Tapi mungkin itu smacky dan bias terhadap MDM dan lain-lain, siapa tahu.

SAS

Tidak banyak yang bisa dikatakan. Hanya hal-hal yang sudah jelas.

TIBCO

Strateginya dibaca dalam daftar belanja di halaman Wiki sepanjang halaman. Ya, ceritanya panjang, tapi 28!!! Charles. Saya membeli BI Spotfire (2007) ketika saya masih muda di bidang teknologi. Dan juga laporan dari Jaspersoft (2014), kemudian sebanyak tiga vendor analisis prediktif Insightful (S-plus) (2008), Statistica (2017) dan Alpine Data (2017), event processor dan streaming Streambase System (2013), MDM Orchestra Platform dalam memori Networks (2018 ) dan Snappy Data (2019).

Halo Frankie!

Ulasan Gartner MQ 2020: Platform Pembelajaran Mesin dan Kecerdasan Buatan

Sumber: www.habr.com

Tambah komentar