Gartner MQ 2020 sharhi: Mashinani o'rganish va sun'iy intellekt platformalari

Buni nima uchun o'qiganimni tushuntirib bo'lmaydi. Menda vaqt bor edi va bozor qanday ishlashi bilan qiziqdim. Va bu Gartner ma'lumotlariga ko'ra, 2018 yildan beri allaqachon to'liq bozor. 2014-2016 yillarda u ilg'or analitika (BI-dagi ildizlar), 2017 yilda - Data Science (buni rus tiliga qanday tarjima qilishni bilmayman) deb nomlangan. Maydon atrofidagi sotuvchilarning harakatlariga qiziqqanlar uchun siz mumkin shu yerda qarang. Va men 2020 kvadrat haqida gapiraman, ayniqsa 2019 yildan beri u erda o'zgarishlar minimal bo'lganligi sababli: SAP ko'chib o'tdi va Altair Datawatch-ni sotib oldi.

Bu tizimli tahlil yoki jadval emas. Geofizik nuqtai nazaridan ham individual nuqtai nazar. Lekin men har doim Gartner MQ-ni o'qishga qiziqaman, ular ba'zi fikrlarni mukammal shakllantiradilar. Shunday qilib, men texnik, bozor nuqtai nazaridan va falsafiy jihatdan e'tibor bergan narsalarga e'tibor qaratdim.

Bu ML mavzusiga chuqur kirib boradigan odamlar uchun emas, balki bozorda nima sodir bo'layotganiga qiziqqan odamlar uchun.

DSML bozorining o'zi mantiqiy ravishda BI va Cloud AI ishlab chiquvchi xizmatlari o'rtasida joylashgan.

Gartner MQ 2020 sharhi: Mashinani o'rganish va sun'iy intellekt platformalari

Avval sevimli iqtiboslar va atamalar:

  • "Lider eng yaxshi tanlov bo'lmasligi mumkin" - Bozor rahbari sizga kerak bo'lgan narsa emas. Juda shoshilinch! Funktsional mijozning yo'qligi natijasida ular doimo "mos" emas, balki "eng yaxshi" echimni qidiradilar.
  • "Modelni ishga tushirish" - MOPlar deb qisqartirilgan. Va har bir kishi puglar bilan qiynaladi! – (salqin pug mavzusi modelni ishlaydi).
  • "Noutbuk muhiti" kod, sharhlar, ma'lumotlar va natijalar birlashadigan muhim tushunchadir. Bu juda aniq, istiqbolli va UI kodining miqdorini sezilarli darajada kamaytirishi mumkin.
  • "OpenSource-da ildiz otgan" - yaxshi dedi - ochiq manbada ildiz otadi.
  • "Fuqarolar ma'lumotlari bo'yicha olimlar" - shunday oson dudeslar, bunday lamerlar, mutaxassislar emas, ular vizual muhitga va har xil yordamchi narsalarga muhtoj. Ular kodlashmaydi.
  • "Demokratiya" - ko'pincha "odamlarning keng doirasiga kirish" ma'nosida ishlatiladi. Biz foydalanadigan xavfli "ma'lumotlarni ozod qilish" o'rniga "ma'lumotlarni demokratlashtirish" deyishimiz mumkin. "Demokratiya" har doim uzun quyruq va barcha sotuvchilar uning orqasidan yugurishadi. Bilim intensivligini yo'qotish - foydalanish imkoniyatini oshirish!
  • "Tadqiqot ma'lumotlarini tahlil qilish - EDA" - bu mavjud vositalarni hisobga olish. Ba'zi statistika. Bir oz vizualizatsiya. Har bir inson u yoki bu darajada qiladigan narsa. Buning nomi borligini bilmasdim
  • "Reproduktivlik" — tajriba o‘tkazilgandan keyin takrorlanishi uchun atrof-muhitning barcha parametrlari, kirish va chiqishlarining maksimal darajada saqlanishi. Eksperimental sinov muhiti uchun eng muhim atama!

Shunday qilib:

Alteryx

Ajoyib interfeys, xuddi o'yinchoq kabi. Scalability, albatta, biroz qiyin. Shunga ko'ra, o'ynash uchun tchotchkes bilan bir xil atrofida muhandislar fuqarolik jamiyati. Analytics hammasi sizniki bir shishada. Menga spektral-korrelyatsiya ma'lumotlarini tahlil qilish kompleksini eslatdi Koskad, 90-yillarda dasturlashtirilgan.

Anaconda

Python va R mutaxassislari atrofidagi hamjamiyat. Ochiq manba shunga mos ravishda katta. Ma’lum bo‘lishicha, hamkasblarim undan doim foydalanishadi. Lekin bilmasdim.

DataBricks

U uchta ochiq manbali loyihadan iborat - Spark ishlab chiquvchilari 2013-yildan beri juda katta pul yig‘ishgan. Men wikidan iqtibos keltirishim kerak:

“2013-yil sentabrida Databricks Andreessen Horowitzdan 13.9 million dollar yig‘ganini e’lon qildi. Kompaniya 33 yilda qo'shimcha 2014 million dollar, 60 yilda 2016 million dollar, 140 yilda 2017 million dollar, 250 yilda (fevral) 2019 million dollar va 400 yilda (oktyabr) 2019 million dollar to'plagan”!!!

Ba'zi buyuk odamlar Sparkni kesib tashladilar. Bilmayman, kechirasiz!

Va loyihalar:

  • Delta ko'li - ACID on Spark yaqinda chiqarildi (biz Elasticsearch bilan orzu qilgan narsamiz) - uni ma'lumotlar bazasiga aylantiradi: qattiq sxema, ACID, audit, versiyalar...
  • ML oqimi — modellarni kuzatish, qadoqlash, boshqarish va saqlash.
  • Koalalar - Pandas DataFrame API on Spark - Pandas - Python API jadvallar va umuman ma'lumotlar bilan ishlash uchun.

Siz bilmagan yoki unutganlar uchun Spark-ga qarashingiz mumkin: aloqa. Men bir oz zerikarli, ammo batafsil maslahat beradigan o'rmonchilardan misollar bilan videolarni tomosha qildim: DataBricks for Data Science (aloqa) va ma'lumotlar muhandisligi uchun (aloqa).

Qisqasi, Databricks Sparkni chiqarib tashlaydi. Spark-dan bulutda normal foydalanishni istagan har bir kishi DataBricks-ni hech ikkilanmasdan oladi, 🙂 Spark bu erda asosiy farqlovchi hisoblanadi.
Men Spark Streaming haqiqiy soxta real vaqt yoki mikrobatching emasligini bilib oldim. Agar sizga real real vaqt kerak bo'lsa, u Apache STORM-da. Spark MapReduce-dan yaxshiroq ekanligini hamma ham aytadi va yozadi. Bu shior.

DATAIKU

Oxir-oqibat ajoyib narsa. Reklamalar juda ko'p. Men Alteryxdan qanday farq qilishini tushunmayapman?

DataRobot

Ma'lumotlarni tayyorlash uchun Paxata - bu Data Robots tomonidan 2019 yil dekabr oyida sotib olingan alohida kompaniya. Biz 20 MUSD yig'ib, sotdik. Hammasi 7 yil ichida.

Excelda emas, Paxata da ma'lumotlarni tayyorlash - bu yerga qarang: aloqa.
Avtomatik qidiruvlar va ikkita ma'lumotlar to'plami o'rtasida ulanish uchun takliflar mavjud. Ajoyib narsa - ma'lumotlarni tushunish uchun matnli ma'lumotlarga ko'proq e'tibor beriladi (aloqa).
Ma'lumotlar katalogi foydasiz "jonli" ma'lumotlar to'plamlarining ajoyib katalogidir.
Paxata-da kataloglar qanday tuzilgani ham qiziq (aloqa).

"Tahlilchi firmaning fikriga ko'ra Tuxumdon, dasturiy ta'minot ilg'or yutuqlar orqali amalga oshiriladi Bashoratli analitik, kompyuterni o'rganish va NoSQL ma'lumotlarni keshlash metodologiyasi.[15] Dasturiy ta'minot foydalanadi semantik Ma'lumotlar jadvali ustunlarining ma'nosini tushunish uchun algoritmlar va ma'lumotlar to'plamidagi potentsial dublikatlarni topish uchun naqshni aniqlash algoritmlari.[15][7] Shuningdek, u indekslash, matn naqshini aniqlash va an'anaviy ravishda ijtimoiy media va qidiruv dasturlarida topiladigan boshqa texnologiyalardan foydalanadi.

Data Robotning asosiy mahsuloti shu yerda. Ularning shiori – Modeldan Korxonaga ilovaga! Men inqiroz munosabati bilan neft sanoati uchun maslahat topdim, lekin bu juda oddiy va qiziq emas edi: aloqa. Men ularning videolarini Mops yoki MLops-da tomosha qildim (aloqa). Bu turli xil mahsulotlarning 6-7 ta xarididan yig'ilgan shunday Frankenshteyn.

Albatta, ma'lumotlar bo'yicha olimlarning katta jamoasi modellar bilan ishlash uchun shunday muhitga ega bo'lishi kerakligi aniq bo'ladi, aks holda ular juda ko'p ishlab chiqaradilar va hech qachon hech narsa joylashtirmaydilar. Va bizning neft va gazimizning yuqori oqimida, agar biz bitta muvaffaqiyatli modelni yarata olsak, bu katta taraqqiyot bo'lar edi!

Jarayonning o'zi, masalan, geologiya-geofizikada loyihalash tizimlari bilan ishlashni juda eslatdi Petrel. Juda dangasa bo'lmagan har bir kishi modellarni yaratadi va o'zgartiradi. Modelga ma'lumotlarni to'plang. Keyin ular mos yozuvlar modelini yasashdi va uni ishlab chiqarishga yuborishdi! Aytaylik, geologik model va ML modeli o'rtasida siz juda ko'p umumiy narsalarni topishingiz mumkin.

Domino

Ochiq platforma va hamkorlikka e'tibor. Biznes foydalanuvchilari bepul qabul qilinadi. Ularning ma'lumotlar laboratoriyasi sharepointga juda o'xshaydi. (Va bu nom IBMga juda mos keladi). Barcha tajribalar asl ma'lumotlar to'plamiga bog'lanadi. Bu qanchalik tanish :) Bizning amaliyotimizda bo'lgani kabi - ba'zi ma'lumotlar modelga tortilgan, keyin ular tozalangan va modelga joylashtirilgan va bularning barchasi allaqachon modelda yashaydi va manba ma'lumotlarida uchlarini topib bo'lmaydi. .

Domino ajoyib infratuzilma virtualizatsiyasiga ega. Men mashinani bir soniyada kerak bo'lganda shuncha yadro yig'dim va hisoblashga o'tdim. Bu qanday amalga oshirilgani darhol aniq emas. Docker hamma joyda. Ko'p erkinlik! Eng so'nggi versiyalarning har qanday ish joylari ulanishi mumkin. Eksperimentlarni parallel ravishda ishga tushirish. Muvaffaqiyatlilarni kuzatish va tanlash.

DataRobot bilan bir xil - natijalar biznes foydalanuvchilari uchun ilovalar ko'rinishida nashr etiladi. Ayniqsa iqtidorli "manfaatdor tomonlar" uchun. Va modellarning haqiqiy ishlatilishi ham nazorat qilinadi. Hammasi Puglar uchun!

Men murakkab modellar ishlab chiqarishda qanday tugashini to'liq tushunmayapman. Ularga ma'lumot berish va natijalarni olish uchun qandaydir API taqdim etiladi.

H2O

Drayvsiz AI - bu Supervised ML uchun juda ixcham va intuitiv tizim. Hammasi bitta qutida. Backend haqida darhol to'liq aniq emas.

Model avtomatik ravishda REST serveriga yoki Java ilovasiga joylashtiriladi. Bu ajoyib fikr. Interpretability va Explainability uchun ko'p ishlar qilindi. Model natijalarini talqin qilish va tushuntirish (Nima tabiatan tushuntirilmasligi kerak, aks holda odam xuddi shunday hisoblashi mumkin?).
Birinchi marta tuzilmagan ma'lumotlar va NLP. Yuqori sifatli arxitektura rasm. Va umuman olganda, rasmlar menga yoqdi.

To'liq aniq bo'lmagan katta ochiq manba H2O ramkasi mavjud (algoritmlar/kutubxonalar to'plami?). Yupiter kabi dasturlashsiz o'zingizning vizual noutbukingiz (aloqa). Men Java-ga o'ralgan Pojo va Mojo - H2O modellari haqida ham o'qidim. Birinchisi oddiy, ikkinchisi optimallashtirish bilan. H20 Gartner matn tahlili va NLPni kuchli tomonlari, shuningdek, tushuntirishga oid sa'y-harakatlarini sanab o'tgan yagona(!). Bu juda muhim!

Xuddi shu joyda: apparat va bulutlar bilan integratsiya sohasida yuqori ishlash, optimallashtirish va sanoat standarti.

Va zaif tomoni mantiqiy - Driverles AI ochiq manbalariga qaraganda zaif va tor. Ma'lumotlarni tayyorlash Paxata bilan solishtirganda oqsoqlangan! Va ular sanoat ma'lumotlariga e'tibor bermaydilar - oqim, grafik, geo. Axir, hamma narsa yaxshi bo'lishi mumkin emas.

KNIME

Menga asosiy sahifadagi 6 ta juda aniq, juda qiziqarli biznes holatlari yoqdi. Kuchli OpenSource.

Gartner ularni rahbarlikdan vizyonerlar darajasiga tushirdi. Yomon pul topish foydalanuvchilar uchun yaxshi belgidir, chunki Rahbar har doim ham eng yaxshi tanlov emas.

Kalit so'z, H2O'da bo'lgani kabi, kengaytirilgan, ya'ni kambag'al fuqarolar ma'lumotlari olimlariga yordam berishni anglatadi. Kimdir birinchi marta sharhda ishlashi uchun tanqid qilindi! Qiziqmi? Ya'ni, hisoblash kuchi shunchalik ko'pki, unumdorlik umuman tizimli muammo bo'la olmaydi? Gartner bu so'z haqida "Augmented" bor alohida maqola, unga erishib bo'lmadi.
Va KNIME ko'rib chiqishda birinchi amerikalik bo'lmaganga o'xshaydi! (Va bizning dizaynerlarga ularning ochilish sahifasi juda yoqdi. G'alati odamlar.

MathWorks

MatLab - hammaga ma'lum bo'lgan eski faxriy o'rtoq! Hayotning barcha sohalari va vaziyatlar uchun asboblar qutilari. Juda boshqacha narsa. Darhaqiqat, hayotdagi hamma narsa uchun juda ko'p va juda ko'p matematika!

Tizim dizayni uchun Simulink qo'shimcha mahsuloti. Raqamli egizaklar uchun asboblar qutilarini qazib oldim - men bu haqda hech narsani tushunmayapman, lekin shu yerda ko'p yozilgan. Uchun neft sanoati. Umuman olganda, bu matematika va muhandislik chuqurligidan tubdan farq qiladigan mahsulotdir. Muayyan matematik asboblar to'plamini tanlash uchun. Gartnerga ko'ra, ularning muammolari aqlli muhandislarniki bilan bir xil - hamkorlik yo'q - har kim o'z modelida, demokratiya yo'q, tushuntirish mumkin emas.

RapidMiner

Men yaxshi ochiq manba kontekstida (Matlab bilan birga) ko'p narsalarni uchratdim va eshitdim. Men odatdagidek TurboPrep-ni biroz qazib oldim. Men iflos ma'lumotlardan toza ma'lumotlarni qanday olish kerakligi bilan qiziqaman.

Yana siz 2018-yilgi marketing materiallari va xususiyat demosida ingliz tilida so'zlashadigan dahshatli odamlarga asoslangan holda odamlar yaxshi ekanini ko'rishingiz mumkin.

Va 2001 yildan beri kuchli nemis tiliga ega Dortmundliklar)

Gartner MQ 2020 sharhi: Mashinani o'rganish va sun'iy intellekt platformalari
Men hali ham saytdan ochiq manbada nima borligini tushunmayapman - siz chuqurroq qazishingiz kerak. Joylashtirish va AutoML tushunchalari haqida yaxshi videolar.

RapidMiner Server serverida ham alohida narsa yo'q. Bu, ehtimol, ixcham bo'ladi va premium-da yaxshi ishlaydi. U Docker-da qadoqlangan. Faqat RapidMiner serverida umumiy muhit. Va keyin Radoop, Hadoop ma'lumotlari, Studio ish jarayonida Spark'dan qofiyalarni hisoblash.

Kutilganidek, yosh issiq sotuvchilar "chiziqli tayoq sotuvchilari" ularni pastga siljitishdi. Gartner esa ularning Enterprise sohasida kelajakdagi muvaffaqiyatlarini bashorat qilmoqda. Siz u erda pul to'plashingiz mumkin. Nemislar buni qanday qilishni biladi, muqaddas-muqaddas :) SAP haqida gapirmang!!!

Ular fuqarolar uchun ko'p narsa qilishadi! Ammo sahifadan Gartner savdo innovatsiyalari bilan kurashayotganini va qamrov kengligi uchun emas, balki rentabellik uchun kurashayotganini aytishini ko'rishingiz mumkin.

Qoldi SAS и Tibko men uchun odatiy BI sotuvchilari ... Va ikkalasi ham eng yuqori pog'onada, bu mening oddiy DataScience mantiqiy o'sib borayotganiga ishonchimni tasdiqlaydi
bulutlar va Hadoop infratuzilmalaridan emas, balki BIdan. Biznesdan, ya'ni ITdan emas. Masalan, Gazpromneftdagi kabi: aloqa,Yetuk DSML muhiti kuchli BI amaliyotlaridan kelib chiqadi. Ammo, ehtimol, bu MDM va boshqa narsalarga nisbatan zerikarli va tarafkashdir, kim biladi.

SAS

Aytishga ko'p narsa yo'q. Faqat aniq narsalar.

TIBCO

Strategiya Wiki sahifasidagi xaridlar ro'yxatida o'qiladi. Ha, uzoq gap, lekin 28!!! Charlz. Men texno-yoshligimda BI Spotfire (2007) ni sotib olganman. Shuningdek, Jaspersoft (2014), so'ngra uchta bashoratli tahliliy sotuvchilardan Insightful (S-plus) (2008), Statistica (2017) va Alpine Data (2017), voqealarni qayta ishlash va oqimli Streambase System (2013), MDM Orchestra hisobotlari. Networks (2018) va Snappy Data (2019) xotira platformasi.

Salom Frankie!

Gartner MQ 2020 sharhi: Mashinani o'rganish va sun'iy intellekt platformalari

Manba: www.habr.com

a Izoh qo'shish