Teu mungkin pikeun ngajelaskeun alesan naha kuring maca ieu. Kuring ngan kungsi waktos tur éta kabetot dina kumaha pasar jalan. Sareng ieu parantos janten pasar pinuh numutkeun Gartner ti saprak 2018. Ti 2014-2016 disebut analytics canggih (akar dina BI), dina 2017 - Élmu Data (Kuring henteu weruh kumaha carana narjamahkeun ieu kana Rusia). Pikeun maranéhanana kabetot dina gerakan ngical paralatan sabudeureun alun, Anjeun tiasa neuteup. Sareng kuring bakal ngobrol ngeunaan alun-alun 2020, khususna saprak parobihan ti saprak 2019 minimal: SAP pindah sareng Altair mésér Datawatch.
Ieu sanes analisis sistematis atanapi tabel. Hiji pintonan individu, ogé tina sudut pandang geophysicist a. Tapi Kami salawasna panasaran maca Gartner MQ, aranjeunna ngarumuskeun sababaraha titik sampurna. Janten ieu mangrupikeun hal-hal anu kuring perhatikeun sacara téknis, wijaksana pasar, sareng filosofis.
Ieu sanés pikeun jalma anu jero kana topik ML, tapi pikeun jalma anu resep kana naon anu umumna lumangsung di pasar.
Pasar DSML sorangan sacara logis sarang antara jasa pamekar BI sareng Cloud AI.

Tanda kutip sareng istilah anu dipikaresep heula:
- "Pamimpin panginten sanés pilihan anu pangsaéna" - A pamimpin pasar teu merta naon nu peryogi. urgent pisan! Salaku konsekuensi tina kurangna customer fungsional, aranjeunna salawasna pilari solusi "pangalusna", tinimbang "cocog".
- "Operasialisasi modél" - disingget MOPs. Jeung dulur boga waktu teuas kalawan pugs! - (téma pug tiis ngajantenkeun modél tiasa dianggo).
- "Lingkungan notebook" mangrupa konsép penting dimana kode, komentar, data jeung hasil datangna babarengan. Ieu jelas pisan, ngajangjikeun sareng tiasa ngirangan jumlah kode UI sacara signifikan.
- "Akar dina OpenSource" - ceuk ogé - nyokot root dina open source.
- "Élmuwan Data Warga" - dudes gampang sapertos, lamers sapertos, teu ahli, anu peryogi lingkungan visual jeung sagala sorts hal bantu. Aranjeunna moal kode.
- "Démokrasi" - mindeng dipaké pikeun hartosna "nyieun sadia ka rentang lega jalma". Urang tiasa nyarios "démokrasikeun data" tibatan anu bahaya "ngosongkeun data" anu biasa kami anggo. "Democratise" sok buntut panjang tur sagala ngical paralatan ngajalankeun sanggeus eta. Leungit dina inténsitas pangaweruh - gain dina diakses!
- "Analisis Data Éksplorasi - EDA" - tinimbangan sarana sadia ieu. Sababaraha statistik. A visualisasi saeutik. Hal anu dilakukeun ku sadayana dina hiji gelar atanapi anu sanés. Teu terang aya nami ieu
- "Reproducibility" - pelestarian maksimal sadaya parameter lingkungan, input sareng kaluaran supados percobaan tiasa diulang saatos dilaksanakeun. Istilah anu paling penting pikeun lingkungan tés ékspérimén!
jadi:
Alteryx
Antarbeungeut keren, sapertos cocooan. Skalabilitas, tangtosna, rada sesah. Sasuai, komunitas Warga insinyur sabudeureun sarua jeung tchotchkes maén. Analytics sadayana milik anjeun dina hiji botol. Ngingetkeun kuring ngeunaan kompléks analisis data spéktral-korelasi , anu diprogram dina taun 90an.
anaconda
Komunitas sabudeureun Python jeung ahli Sunda. Open source ageung sasuai. Tétéla yén batur sapagawean kuring ngagunakeun éta sepanjang waktos. Tapi kuring henteu terang.
DataBricks
Diwangun ku tilu proyék opensource - pamekar Spark geus ngumpulkeun naraka loba duit saprak 2013. Nyaan kudu cutatan wiki:
"Dina Séptémber 2013, Databricks ngumumkeun yén éta parantos ngangkat $ 13.9 juta ti Andreessen Horowitz. Pausahaan ngumpulkeun tambahan $ 33 juta dina 2014, $ 60 juta dina 2016, $ 140 juta dina 2017, $ 250 juta dina 2019 (Feb) sareng $ 400 juta dina 2019 (Okt) ”!!!
Sababaraha urang hébat motong Spark. Abdi henteu terang, punten!
Sareng proyékna nyaéta:
- Tasik Delta - ACID on Spark nembé dileupaskeun (anu diimpikeun ku Elasticsearch) - janten database: skéma kaku, ACID, auditing, versi ...
- Aliran ML - tracking, bungkusan, manajemén jeung neundeun model.
- Koala - Pandas DataFrame API on Spark - Pandas - Python API pikeun gawé bareng tabel sarta data sacara umum.
Anjeun tiasa ningali Spark pikeun anu henteu terang atanapi hilap: . Kuring ningali pidéo sareng conto tina pelatuk konsultasi anu rada pikaboseneun tapi detil: DataBricks for Data Science () jeung Téknik Data ().
Pondokna, Databricks narik kaluar Spark. Saha waé anu hoyong nganggo Spark sacara normal dina méga nyandak DataBricks tanpa ragu, sakumaha anu dimaksud 🙂 Spark mangrupikeun pembeda utama di dieu.
Kuring diajar yén Spark Streaming sanés realtime palsu atanapi microbatching. Sareng upami anjeun peryogi waktos Nyata Nyata, éta aya dina Apache STORM. Sarerea ogé nyarios sareng nyerat yén Spark langkung saé tibatan MapReduce. Ieu slogan.
DATAIKU
Cool hal tungtung-to-tungtung. Aya seueur iklan. Kuring teu ngarti kumaha eta béda ti Alteryx?
DataRobot
Paxata pikeun persiapan data mangrupikeun perusahaan anu misah anu dibeli ku Data Robots dina bulan Désémber 2019. Kami ngangkat 20 MUSD sareng dijual. Sadayana dina 7 taun.
Persiapan data dina Paxata, sanes Excel - tingali di dieu: .
Aya panéangan otomatis sareng usulan pikeun ngagabung antara dua set data. Hiji hal hébat - ngartos data, bakal aya malah leuwih tekenan kana informasi tékstual ().
Katalog Data mangrupa katalog alus teuing tina datasets "hirup" gunana.
Éta ogé pikaresepeun kumaha diréktori kabentuk dina Paxata ().
"Numutkeun firma analis , parangkat lunak dimungkinkeun ngaliwatan kamajuan dina , jeung metodologi cache data. software ngagunakeun algoritma pikeun ngarti harti kolom tabel data sarta algoritma pangakuan pola pikeun manggihan duplikat poténsial dina data-set. Ogé ngagunakeun indexing, pangakuan pola téks na téknologi lianna tradisional kapanggih dina média sosial jeung software pilarian.
Produk utama Data Robot nyaéta . Sloganna nyaéta tina Model ka Aplikasi Perusahaan! Kuring mendakan konsultasi pikeun industri minyak anu aya hubunganana sareng krisis, tapi éta pisan banal sareng henteu pikaresepeun: . Kuring lalajo video maranéhanana dina Mops atawa MLops (). Ieu sapertos Frankenstein dirakit ti 6-7 akuisisi rupa produk.
Tangtosna, janten jelas yén tim ageung Élmuwan Data kedah gaduh lingkungan sapertos kitu pikeun damel sareng modél, upami henteu aranjeunna bakal ngahasilkeun seueur sareng henteu pernah nyebarkeun nanaon. Sareng dina kanyataan hulu minyak sareng gas urang, upami urang tiasa nyiptakeun hiji modél anu suksés, éta bakal janten kamajuan anu saé!
Prosés sorangan éta pisan reminiscent tina karya kalawan sistem desain dina géologi-géofisika, contona . Saha waé anu teu puguh ogé ngadamel sareng ngarobih modél. Kumpulkeun data kana modél. Teras aranjeunna ngadamel modél rujukan sareng dikirim ka produksi! Antara, sebutkeun, modél géologis sareng modél ML, anjeun tiasa mendakan seueur anu umum.
domino
Tekenan kana platform kabuka sareng kolaborasi. Pamaké bisnis diaku gratis. Lab Datana sami sareng sharepoint. (Jeung ngaran niatna smacks of IBM). Sadaya percobaan numbu ka dataset asli. Kumaha akrab ieu :) Sapertos dina prakték urang - sababaraha data nyeret kana modél, teras dibersihkeun sareng diurutkeun dina modél, sareng sadayana ieu parantos aya dina modél sareng tungtung henteu tiasa dipendakan dina data sumber. .
Domino gaduh virtualisasi infrastruktur anu saé. Kuring dirakit mesin saloba cores sakumaha diperlukeun dina sadetik jeung indit ka cacah. Kumaha éta dilakukeun henteu langsung écés. Docker aya dimana-mana. Loba kabebasan! Sakur rohangan gawé tina vérsi panganyarna tiasa disambungkeun. peluncuran paralel percobaan. Nyukcruk sareng milih anu suksés.
Sarua sareng DataRobot - hasilna diterbitkeun pikeun pangguna bisnis dina bentuk aplikasi. Pikeun husus gifted "stakeholders". Jeung pamakéan sabenerna model ogé diawaskeun. Sagalana pikeun Pugs!
Kuring teu ngarti sapinuhna kumaha model kompléks mungkas nepi di produksi. Sababaraha jinis API disayogikeun pikeun nyayogikeun aranjeunna data sareng kéngingkeun hasil.
H2O
Driveless AI mangrupikeun sistem anu kompak sareng intuitif pikeun ML Diawasan. Sagalana dina hiji kotak. Ieu teu sagemblengna jelas langsung ngeunaan backend nu.
Modél ieu otomatis ngarangkep kana server REST atanapi Java App. Ieu mangrupakeun ide nu sae. Seueur anu parantos dilakukeun pikeun Interpretability sareng Explainability. Interprétasi jeung katerangan tina hasil model (Naon inherently teu kudu explainable, disebutkeun hiji jalma bisa ngitung sarua?).
Pikeun kahiji kalina, studi kasus ngeunaan data teu terstruktur jeung . Gambar arsitéktur kualitas luhur. Sarta sacara umum kuring resep gambar.
Aya kerangka open source H2O badag anu teu sagemblengna jelas (sakumpulan algoritma / perpustakaan?). Laptop visual anjeun sorangan tanpa program sapertos Jupiter (). Kuring ogé maca ngeunaan Pojo sareng Mojo - model H2O dibungkus dina Java. Anu kahiji langsung, anu kadua kalayan optimasi. H20 mangrupikeun hiji-hijina(!) Anu Gartner didaptarkeun analitik téks sareng NLP salaku kakuatanana, ogé usahana ngeunaan Explanability. Éta penting pisan!
Di tempat anu sarua: kinerja tinggi, optimasi jeung standar industri dina widang integrasi jeung hardware na awan.
Sareng kalemahanna logis - Driverles AI lemah sareng sempit dibandingkeun sareng open source na. Persiapan data lumpuh dibandingkeun sareng Paxata! Sareng aranjeunna teu malire data industri - stream, graph, geo. Nya, sadayana henteu ngan ukur saé.
péso
Kuring resep 6 pisan husus, kasus bisnis pisan metot dina kaca utama. OpenSource anu kuat.
Gartner nurunkeun aranjeunna tina pamimpin ka visionaries. Earning duit kirang mangrupakeun tanda alus pikeun pamaké, nunjukkeun yen Pamimpin teu salawasna pilihan pangalusna.
Kecap konci, sakumaha dina H2O, ieu augmented, nu hartina nulungan élmuwan data warga miskin. Ieu kahiji kalina batur geus dikritik pikeun pagelaran dina review hiji! metot? Nyaéta, aya seueur kakuatan komputasi sahingga kinerja henteu tiasa janten masalah sistemik? Gartner gaduh ngeunaan kecap ieu "Augmented" , nu teu bisa ngahontal.
Sareng KNIME sigana janten non-Amérika anu munggaran dina ulasan! (Jeung désainer urang bener resep kaca badarat maranéhanana. Jalma aneh.
MathWorks
MatLab mangrupikeun babaturan kahormatan kuno anu dipikanyaho ku sadayana! Kotak alat pikeun sagala widang kahirupan sareng kaayaan. Hal pisan béda. Nyatana, seueur pisan sareng seueur matematika pikeun sadayana dina kahirupan!
Produk tambihan Simulink pikeun desain sistem. Kuring ngali kotak alat pikeun Kembar Digital - Kuring henteu ngartos nanaon ngeunaan éta, tapi geus loba nu ditulis. Pikeun . Sacara umum, ieu produk fundamentally béda ti bojong matematik jeung rékayasa. Pikeun milih toolkit matematika husus. Numutkeun ka Gartner, masalahna sami sareng insinyur pinter - teu aya kolaborasi - sadayana rummages dina modél sorangan, teu aya démokrasi, teu aya explicability.
RapidMiner
Kuring geus datang di sakuliah sarta uninga pisan sateuacan (sareng Matlab) dina konteks open source alus. Kuring ngali saeutik kana TurboPrep sakumaha biasa. Abdi kabetot dina cara meunangkeun data bersih tina data kotor.
Deui anjeun tiasa ningali yén jalma anu saé dumasar kana bahan pamasaran 2018 sareng jalma-jalma anu nyarios Inggris anu dahsyat dina demo fitur.
Sareng jalma-jalma ti Dortmund ti saprak 2001 kalayan latar Jerman anu kuat)

Kuring masih henteu ngartos tina situs naon anu sayogi dina open source - anjeun kedah ngagali langkung jero. Pidéo anu saé ngeunaan panyebaran sareng konsép AutoML.
Aya nanaon husus ngeunaan backend RapidMiner Server boh. Éta sigana bakal kompak sareng tiasa dianggo saé dina premium out of the box. Éta dibungkus dina Docker. Lingkungan dibagikeun ngan dina server RapidMiner. Lajeng aya Radoop, data ti Hadoop, cacah rhymes ti Spark in Studio workflow.
Saperti nu diharapkeun, ngical paralatan panas ngora "penjual teken belang" dipindahkeun ka handap. Gartner, kumaha oge, prédiksi kasuksésan hareup maranéhanana dina spasi Enterprise. Anjeun tiasa ngumpulkeun duit di dinya. Urang Jérman terang kumaha ngalakukeun ieu, suci-suci :) Tong nyebut SAP !!!
Aranjeunna ngalakukeun pisan pikeun warga! Tapi tina kaca anjeun tiasa ningali yén Gartner nyarios yén aranjeunna berjuang sareng inovasi penjualan sareng henteu berjuang pikeun lebar sinyalna, tapi pikeun kauntungan.
Cicing Sas и Tibco ngical paralatan BI anu khas pikeun kuring ... Sareng duanana aya di luhur pisan, anu negeskeun kayakinan kuring yén DataScience normal tumbuh sacara logis.
ti BI, sareng sanés tina méga sareng infrastruktur Hadoop. Tina bisnis, nyaéta, sanés ti IT. Kawas dina Gazpromneft contona: ,Lingkungan DSML dewasa tumbuh tina prakték BI anu kuat. Tapi meureun éta smacky jeung bias arah MDM jeung hal séjén, saha weruh.
Sas
Henteu seueur anu nyarios. Ngan hal-hal anu atra.
TIBCO
Strategi ieu dibaca dina daptar balanja dina kaca Wiki panjang halaman. Sumuhun, carita panjang, tapi 28!!! Charles. Kuring meuli BI Spotfire (2007) deui di techno-nonnoman kuring. Sareng ogé ngalaporkeun ti Jaspersoft (2014), teras saloba tilu padagang analytics duga Insightful (S-plus) (2008), Statistica (2017) sareng Alpine Data (2017), pamrosésan acara sareng streaming Streambase System (2013), MDM Orchestra Networks (2018) sareng Snappy Data (2019) dina platform mémori.
Hello Frankie!

sumber: www.habr.com
