Gartner MQ 2020: Платформы машыннага навучання і штучнага інтэлекту

Немагчыма растлумачыць прычыну, навошта я гэта прачытаў. Проста быў час і было цікава, як уладкованы рынак. А гэта ўжо паўнавартасны рынак па Gartner з 2018-га года. З 2014-2016 называлася прасунутай аналітыкай (карані ў BI), у 2017 - Data Science (не ведаю, як перавесці гэта на рускую). Каму цікавыя перасоўванні вендараў па квадраце можна тут паглядзець. А я буду казаць пра квадрат 2020-га года, тым больш, што змены там з 2019-га мінімальныя: выехаў SAP і Altair купіў Datawatch.

Гэта не сістэматызаваны разбор і не табліца. Індывідуальны погляд, яшчэ з пункту гледжання геафізіка. Але мне заўсёды цікава чытаць Gartner MQ, яны цудоўна некаторыя моманты фармулююць. Так што тут рэчы, на якія я звярнуў увагу і ў тэхнічным плане, і ў рыначным, і ў філасофскім.

Гэта не для людзей, якія глыбока ў тэме ML, але для людзей, якія цікавяцца тым, што ўвогуле адбываецца на рынку.

Сам DSML рынак лагічна гняздуецца паміж BI і Cloud AI developer services.

Gartner MQ 2020: Платформы машыннага навучання і штучнага інтэлекту

Спачатку ўпадабанае цытаты і тэрміны:

  • "A Leader не можа быць найлепшым" - Лідэр рынку - гэта зусім неабавязкова тое, што трэба вам. Вельмі надзённа! Як следства адсутнасці функцыянальнага заказчыка вечна шукаюць усё лепшае рашэнне, а не падыходнае .
  • "Model operationalisation" - скарачаецца як MOPs. І з мопсамі ва ўсіх цяжкавата! –(прышпільная тэма мопсік прымушае мадэль працаваць).
  • "Notebook environment" - важны канцэпт, дзе код, каментары, дадзеныя і вынікі аб'ядноўваюцца разам. Гэта вельмі зразумела, перспектыўна і можа істотна скараціць аб'ём UI кода.
  • "Rooted in OpenSource" - Добра сказана - укараняецца ў апенсорсе.
  • "Citizen Data Scientists" — такія лёгкія чувакі, ламеры такія, не эксперты, якім патрэбна асяроддзе візуальнае і ўсякія дапаможныя штукі. Кадзіць яны не будуць.
  • "Democratise" - Часта выкарыстоўваецца ў значэнні "зрабіць даступным больш шырокаму колу людзей". Можна казаць "democratise the data" замест небяспечнага "free the data", які мы раней выкарыстоўвалі. Democratise гэта заўсёды long tail і за ім усе вендары бягуць. Страціць у навукаёмістасці - выйграць у даступнасці!
  • "Exploratory Data Analysis - EDA" - Разгляд дадзенымі падручнымі сродкамі. Крыху статыстыкі. Трохі візуалізацыі. Тое, што ўсё робяць у той ці іншай ступені. Не ведаў, што для гэтага ёсць назва
  • "Reproducability" - максімальнае захаванне ўсіх параметраў асяроддзя, уваходаў і выхадаў з тым, каб можна было паўтарыць эксперымент аднойчы праведзены. Найважнейшы тэрмін для эксперыментальнага тэставага асяроддзя!

Такім чынам:

Alteryx

Прышпільны інтэрфейс прама цацачны. З маштабаванасцю, вядома, тугавата. Адпаведна кам'юніці Citizen інжынераў вакол такіх жа з цацкамі пагуляць. Аналітыка свая ўсё сваё ў адным флаконе. Нагадала мне комплекс спектральна-карэляцыйнага аналізу дадзеных Coscad, які праграмавалі ў 90х.

Анаконда

Кам'юніці вакол Python і R экспертаў. Апенсорса вялікая адпаведна. Высветлілася, што мае калегі ўвесь час выкарыстоўваюць. А я не ведаў.

DataBricks

Складаецца з трох opensource праектаў — распрацоўшчыкі Spark грошай паднялі колькасць ад 2013. Я прамы павінны працытаваць wiki:

“У September 2013, Databricks абвясцілі, што ён быў вынесены $13.9 млн ад Andreessen Horowitz. The Company raised additional $33 million in 2014, $60 million in 2016, $140 million in 2017, $250 million in 2019 (Feb) and $400 million in 2019 (Oct)”!!!

Вялікія нейкія людзі Spark пілавалі. Не знаёмы шкада!

А праекты такія:

  • Возера Дэльта ACID на Spark зусім нядаўна адрэлізавалі (то пра што мы марылі над Elasticsearch) ператварае яго ў БД: цвёрдая схема, ACID, аўдыт, версіі…
  • ML Flow - трэкінг, упакоўка, кіраванне і захоўванне мадэляў.
  • Каалы - Pandas DataFrame API на Spark - Pandas - Python API для працы з таблічкамі і дадзенымі наогул.

Паглядзець можна пра Spark, хто раптам не ведае ці забыўся: спасылка. Відосікі паглядзеў з прыкладамі ад крыху занудных але дэталёвых кансалт-дзятлаў:спасылка) і для Data Engineering (спасылка).

Карацей Databricks выцягвае Spark. Хто хоча Spark нармальна поюзать ў воблаку бярэ DataBricks не задумваючыся, як і задумвалася 🙂 Spark - тут галоўны дыферэнцыятар.
Даведаўся, што Spark Streaming – гэта не сапраўдны fake realtime ці microbatching. А калі патрэбен сапраўдны Real Real time – гэта ў Apache STORM. Яшчэ ўсё кажуць і пішуць, што Spark страмчэй MapReduce. Лозунг такі.

DATAIKU

Прышпільная штучка end-to-end. Рэкламы шмат. Не зразумеў, чым ад Alteryx адрозніваецца?

DataRobot

Paxata для падрыхтоўкі дадзеных класна - гэта асобная кампанія, якую ў снежні 2019 купілі Дата Робаты. Паднялі 20 MUSD і прадаліся. Усё за 7 гадоў.

Падрыхтоўка дадзеных у Paxata, а не ў Excel - тут паглядзець: спасылка.
Аўтаматычныя цыбулькі там і прапановы join'аў паміж двума датасетамі. Выдатная рэч - каб паразбірацца з дадзенымі, яшчэ б пабольш упора на тэкставую інфармацыю (спасылка).
Data Catalogue - выдатны каталог нікому не патрэбных "жывых" датасетаў.
Таксама цікава як каталогі фармуюцца ў Paxata (спасылка).

«According to analyst firm яйкаклетка, the software is made possible through advances in прагнастычная аналітыка, навучанне з дапамогай машыны і NoSQL data caching methodology.[15] Праграмнае забеспячэнне выкарыстоўвае сэнсавая algorithms для падрыхтаванай схемы data table's columns і pattern recognition algorithms для find potential duplicates in data-set.[15][7] Гэта таксама спосаб indexing, text pattern recognition and other technology traditionally found in social media and search software.

Асноўны прадукт Data Robot гэта тут. Іх лозунг - ад Мадэлі да карпаратыўнага з дадаткам! Выявіў кансалтынг для нафтавікі ў сувязі з крызісам, але вельмі банальны і нецікавы: спасылка. Паглядзеў іх відэа па Mops або MLops (спасылка). Гэта такі Франкенштэйн сабраны з 6-7 аквізішэнаў розных прадуктаў.

Вядома станавіцца зразумела, што вялікая каманда Data Scientists павінна мець менавіта такое асяроддзе для працы з мадэлямі, а то яны наплодзяць іх мноства і нічога ніколі не задэплояць. А ў нашай нафтагазавай upstream рэальнасці - адну мадэльку б удалую стварыць і гэта ўжо вялікі прагрэс!

Сам працэс вельмі нагадаў працу праектнымі сістэмамі ў геалогіі-геафізіцы, напрыклад буравеснік. Усё каму не лянота робяць і мадыфікуюць мадэлі. Збіраюць у мадэлі дадзеныя. Потым зрабілі эталонную мадэль і перадаюць у вытворчасць! Тыя паміж скажам геалагічнай мадэллю і ML мадэллю можна знайсці шмат агульнага.

Даміно

Упор на адкрытую платформу і на калабарэйшн. Бізнэс карыстальнікаў пускаюць бясплатна. Іх Data Lab моцна нагадвае шарапоінт. (А ад назвы моцна аддае IBMам). Усе эксперыменты лінкуюць да зыходнага датасету. Як гэта знаёма 🙂 Як у нашай практыцы - нейкія дадзеныя ў мадэль зацягнулі, потым там у мадэлі пачысцілі і прывялі ў парадак і ўсё гэта там ужо жыве ў мадэлі і канцоў у зыходных дадзеных не знайсці.

У Domino крутая інфраструктурная віртуалізацыя. Сабраў машынку колькі трэба ядраў за секунду і паехаў лічыць. Як зроблена - не зусім зразумела адразу. Усюды Docker. Шмат свабоды! Любыя воркспейсы апошніх версій можна падлучаць. Паралельны запуск эксперыментаў. Трэкінг і адбор удалых.

Тое ж што і DataRobot – вынікі публікуюцца для бізнес карыстальнікаў у выглядзе прыкладанняў. Для асабліва адораных «стэйкхолдэраў». І яшчэ маніторыцца ўласна выкарыстанне мадэляў. Усё для мопсаў!

Не зразумеў да канца як складаныя мадэлі ў прадакшн сыходзяць. Нейкае API падаецца, каб іх накарміць дадзенымі і атрымліваць вынікі.

H2O

Driveless AI - вельмі кампактная і зразумелая сістэма для Supervised ML. Усё ў адной скрыначцы. Пра бэкэнд не зразумела да канца адразу.

Мадэль аўтаматычна пакуюць у REST сервер або Java App. Гэта выдатная ідэя. Многае зроблена для Interpretability і Explainability. Інтэрпрэтацыя і тлумачэнне вынікаў працы мадэлі (Што па сваёй сутнасці не павінна быць вытлумачальна, інакш і чалавек можа тое ж палічыць?).
Упершыню падрабязна разглядаецца кейс пра неструктураваныя дадзеныя і NLP. Якасная архітэктурная карцінка. І ўвогуле карцінкі спадабаліся.

Ёсць вялікі апенсорс фрэймворк H2O не зусім зразумела (набор алгарытмаў/бібліятэк?). Уласны наўтбук візуальны без праграмавання як Jupiter (спасылка). Яшчэ пачытаў пра Pojo і Mojo мадэлі H2O абгорнутыя ў яву. Першае ў лоб, другое з аптымізацыяй. H20 – адзіныя (!), каму Gartner упісаў тэкставую аналітыку і NLP у моцныя бакі, а гэтак жа іх намаганні ў стаўленні Explanability. Гэта вельмі важна!

Там жа: высокая прадукцыйнасць, аптымізацыя і стандарт для галіны ў галіне інтэграцыі з залозамі і аблокамі.

А ў слабасці лагічна – Driverles AI слабаваты і вузкаваты ў параўнанні з іх жа апенсорсам. Падрыхтоўка дадзеных кульгае ў параўнанні з той жа Paxata! І ігнаруюць індустрыяльныя дадзеныя - stream, graph, geo. Ну не можа проста ўсё быць добра.

КРЫМ

Спадабаліся 6 вельмі канкрэтных вельмі цікавых бізнес кейсаў на галоўнай старонцы. Моцны OpenSource.

Gartner з лідэраў апусціў у візіянеры. Дрэнна грошы зарабляюць - добры знак для карыстальнікаў, улічваючы што Лідэр - не заўсёды лепшы выбар.

Ключавое слова як і ў H2O - augmented гэта значыць дапамога ўбогім citizen data scientists. Упершыню кагосьці ў аглядзе палаялі за прадукцыйнасць! Цікава? Гэта значыць, вылічальных магутнасцяў столькі, што прадукцыйнасць наогул не можа быць сістэмнай праблемай? Пра гэтае слова “Augmented” у Gartner ёсць асобны артыкул, да якой дабрацца не ўдалося.
І KNIME у аглядзе здаецца першы неамерыканец! (І дызайнерам нашым вельмі іх лэндынг спадабаўся. Дзіўныя людзі.

MathWorks

MatLаb - стары ганаровы таварыш вядомы ўсім! Тулбоксы для ўсіх абласцей жыцця і сітуацый. Нешта вельмі іншае. Фактычна шмат-шмат-шмат матэматыкі на ўсе наогул выпадкі жыцця!

Дадатковы прадукт Simulink для дызайну сістэм. Закапаўся ў тулбоксы для Лічбавых Двайнікоў - нічога пра гэта не разумею, а тут прама шмат напісана. Для нафтавікі. Увогуле гэта прынцыпова іншы прадукт з глыбінь матэматыкі і інжынерыі. Для падбору тулкітаў матэматыкі канкрэтнай. Паводле Гартнеру ў іх праблемы ўсё як у разумных інжынераў - ніякай калабарацыі - кожны ў сваёй мадэлі рыецца, ніякай дэмакратыі, ніякага эксплейнабіліці.

RapidMiner

Шмат і сутыкаўся і чуў раней (разам з Матлабам) у кантэксце добрага апенсарсу. Закапаўся крыху ў TurboPrep як звычайна. Цікавіць мяне як з брудных звестак чыстыя атрымліваць.

Зноў відаць, што людзі добрыя па маркетынгавых матэрыялах 2018 года і жудасна размаўляюць па ангельску людзям на feature demo.

А людзі з Дортмунда з 2001 г. з моцным нямецкім мінулым)

Gartner MQ 2020: Платформы машыннага навучання і штучнага інтэлекту
Так і не зразумеў з сайта што менавіта ў апенсорсе даступна - трэба глыбей закопвацца. Добрыя відасікі пра дэплоймент і AutoML іх канцэпцыі.

Пра бэкенд RapidMiner Server таксама нічога асаблівага няма. Напэўна, гэта будзе кампактна і добра працаваць on premice out of the box. У Docker пакуецца. Шар environment толькі на серверы RapidMiner. І яшчэ ёсць Radoop, дадзеныя з хадупа, лічылкі з Spark у Studio workflow.

Пасунулі іх уніз як і чакалася маладыя гарачыя вендары «прадаўцы паласатых палачак». Гартнер аднак прадказвае ім будучы поспех у Enterprise прасторы. Грошай там падняць можна. Немцы гэта ўмеюць свят-свят 🙂 Don't mention SAP!!!

Для сітызенаў шмат робяць! Але па старонцы відаць як Gartner і кажа, што з інавацыйнасцю продажаў тугавата ў іх і яны не змагаюцца за шырыню пакрыцця, але за прыбытковасць.

Засталіся ПАВ и Tibco тыповыя BI вендары для мяне… І абодва ў самым топе, што пацвярджае маю ўпэўненасць у тым, што нармальны DataScience лагічна расце
з BI, а не з аблокаў і Hadoop інфраструктур. З бізнэсу г.зн., а не з IT. Як у Газпромнефть напрыклад: спасылка, Спелая DSML асяроддзе вырастае з трывалай BI практыкі. Але можа яна і з душком і перакосам на MDM і іншыя справы, хто ведае.

ПАВ

Няма чаго сказаць асоба. Толькі відавочныя рэчы.

ТІБКО

Стратэгія чытаецца ў спісе пакупак на старонцы ў Wiki доўгай са старонку. Так, доўгая гісторыя, але 28!!! Карл. падкупіла BI Spotfire (2007) яшчэ ў часы маёй тэхна-маладосці. І яшчэ рэпартынг Jaspersoft (2014), далей аж трох вендараў прэдыктыўнай аналітыкі Insightful (S-plus) (2008), Statistica (2017) and Alpine Data (2017), апрацоўка падзей і стрымінг Streambase System (2013), MDM Orchestra Networks (2018 ) і Snappy Data (2019) in-memory платформа.

Прывітанне, Фрэнкі!

Gartner MQ 2020: Платформы машыннага навучання і штучнага інтэлекту

Крыніца: habr.com

Дадаць каментар