Gartner MQ 2020: Платформи машинного навчання та штучного інтелекту

Неможливо пояснити причину, навіщо це прочитав. Просто був час і було цікаво, як улаштований ринок. А це вже повноцінний ринок по Gartner з 2018 року. З 2014-2016 називалося просунутою аналітикою (коріння в BI), у 2017 – Data Science (не знаю, як перекласти це російською). Кому цікаві пересування вендорів квадратом – можна тут подивитися. А я говоритиму про квадрат 2020-го року, тим більше, що зміни там з 2019-го мінімальні: виїхав SAP і Altair купив Datawatch.

Це не систематизований аналіз і таблиця. Індивідуальний погляд, ще з погляду геофізики. Але мені завжди цікаво читати Gartner MQ, вони чудово деякі моменти формулюють. Отже, тут речі, на які я звернув увагу і в технічному плані, і в ринковому, і у філософському.

Це не для людей, які глибоко в темі ML, але для людей, які цікавляться тим, що відбувається на ринку.

Сам DSML ринок логічно гніздиться між BI та Cloud AI developer services.

Gartner MQ 2020: Платформи машинного навчання та штучного інтелекту

Спочатку цитати і терміни, що сподобалося:

  • "A Leader не може бути кращим choice" — Лідер ринку – це зовсім необов'язково те, що вам потрібно. Дуже насущно! Як наслідок відсутності функціонального замовника завжди шукають все «найкраще» рішення, а не «підходяще».
  • «Model operationalisation» – скорочується як MOPs. І з мопсами у всіх важкувато! - (Прикольна тема мопсик змушує модель працювати).
  • "Notebook environment" – важливий концепт, де код, коментарі, дані та результати об'єднуються разом. Це дуже зрозуміло, перспективно і може значно скоротити обсяг UI коду.
  • "Rooted in OpenSource" - добре сказано - укорінюється в опенсорсі.
  • "Citizen Data Scientists" — такі легкі чуваки, ламери такі, не експерти, яким потрібне середовище візуальне та всякі допоміжні штуки. Кодувати вони не будуть.
  • "Democratise" - Часто використовується в значенні "зробити доступним більш широкому колу людей". Можна говорити "democratise the data" замість небезпечного "free the data", який ми раніше використовували. "Democratise" - це завжди long tail і за ним всі вендори біжать. Втратити в наукомісткості – виграти у доступності!
  • «Exploratory Data Analysis – EDA» - Розгляд даними підручними засобами. Небагато статистики. Трохи візуалізації. Те, що все роблять тією чи іншою мірою. Не знав, що для цього є назва
  • «Reproducability» — максимальне збереження всіх параметрів середовища, входів і виходів для того, щоб можна було повторити експеримент, проведений один раз. Найважливіший термін для експериментального тестового середовища!

Отже:

Артерікс

Прикольний інтерфейс прямо іграшковий. З масштабованістю, звичайно, тугувато. Відповідно ком'юніті Citizen інженерів навколо таких самих із цяцьками пограти. Аналітика своя все своє в одному флаконі. Нагадало мені комплекс спектрально-кореляційного аналізу даних Coscad, який програмували у 90х.

Анаконда

Комуніті навколо Python і R експертів. Опенсорса велика відповідно. З'ясувалося, що мої колеги постійно використовують. А я не знав.

DataBricks

Складається з трьох opensource проектів - розробники Spark грошей підняли пекло кількість з 2013. Я прямий повинен процитувати wiki:

“В September 2013, Databricks здогадалися, що він мав розрахований $13.9 мільйона від Andreessen Horowitz. The Company raised additional $33 мільйонів в 2014, $60 мільйонів в 2016, $140 мільйонів в 2017, $250 мільйонів в 2019 (Feb) і $400 мільйонів в 2019 (Oct)”!!!

Великі люди Spark пилили. Не знайомий шкода!

А проекти такі:

  • Озеро Дельта — ACID на Spark зовсім недавно відрелізували (те, про що ми мріяли над Elasticsearch) — перетворює його на БД: жорстка схема, ACID, аудит, версії…
  • ML Flow - Трекінг, упаковка, управління та зберігання моделей.
  • Коалас - Pandas DataFrame API на Spark - Pandas - Python API для роботи з табличками та даними взагалі.

Подивитися можна про Spark, хто раптом не знає чи забув: посилання. Видосики подивився з прикладами від трохи занудних, але детальних консалт-дятлів: DataBricks для Data Science (посилання) та для Data Engineering (посилання).

Коротше Databricks витягує Spark. Хто хоче Spark нормально поюзати у хмарі бере DataBricks не замислюючись, як і замислювалося 🙂 Spark – тут головний диференціатор.
Дізнався, що Spark Streaming – це не справжній fake realtime чи microbatching. А якщо потрібний реальний Real Real time — це в Apache STORM. Ще всі говорять і пишуть, що Spark крутіший за MapReduce. Гасло таке.

DATAIKU

Прикольна штучка end-to-end. Реклами багато. Чи не зрозумів, чим від Alteryx відрізняється?

DataRobot

Paxata для підготовки даних класно – це окрема компанія, яку у грудні 2019 року купили Дата Роботи. Підняли 20 MUSD та продалися. Усі за 7 років.

Підготовка даних у Paxata, а не в Excel – тут подивитися: посилання.
Автоматичні лукапчики там та пропозиції join'ів між двома датасетами. Відмінна річ — щоб порозумітися з даними, ще більше упору на текстову інформацію (посилання).
Data Catalogue - чудовий каталог нікому не потрібних "живих" датасетів.
Теж цікаво як каталоги формуються в Paxata (посилання).

«According to analyst firm яйцеклітина, the software is made possible через advances in прогностична аналітика, навчання за допомогою машини і NoSQL data caching методології.[15] Програмне забезпечення використовує смисловий algoritms до understand meaning of table columns and pattern recognition algoritms to find potential duplicates in a data-set.[15][7] Це також використовує indexing, text pattern recognition and other technology traditionally found in social media and search software.»

Основний продукт Data Robot це тут. Їхнє гасло — від Моделі до корпоративної програми! Виявив консалтинг для нафтовики через кризу, але дуже банальний і нецікавий: посилання. Подивився їх відео по Mops або MLops (посилання). Це такий Франкенштейн, зібраний з 6-7 аквізишенів різних продуктів.

Звичайно ставати зрозуміло, що велика команда Data Scientists повинна мати саме таке середовище для роботи з моделями, бо вони наплодять їх безліч і нічого ніколи не задеплоять. А в нашій нафтогазовій upstream реальності — одну модельку вдала б створити і це вже великий прогрес!

Сам процес дуже нагадав роботу проектними системами у геології-геофізиці, наприклад Буревісник. Всі кому не ліньки роблять і модифікують моделі. Збирають у моделі дані. Потім зробили еталонну модель та передають у виробництво! Ті між скажемо геологічною моделлю та ML моделлю можна знайти багато спільного.

Domino

Упор на відкриту платформу та на колаборейшн. Бізнес користувачів пускають безкоштовно. Їх Data Lab сильно нагадує шарепоінт. (А від назви сильно віддає IBM). Усі експерименти лінкують до вихідного датасету. Як це знайомо 🙂 Як у нашій практиці – якісь дані в модель затягли, потім там у моделі почистили і привели до ладу і все це там уже живе в моделі і зрештою у вихідних даних не знайти.

Domino має круту інфраструктурну віртуалізацію. Зібрав машинку скільки треба ядер за секунду і поїхав рахувати. Як зроблено – не зовсім зрозуміло відразу. Скрізь Docker. Багато волі! Будь-які воркспейси останніх версій можна підключати. Паралельний запуск експериментів. Трекінг та відбір вдалих.

Те ж саме, що й DataRobot — результати публікуються для бізнес-користувачів у вигляді додатків. Для особливо обдарованих "стейкхолдерів". І ще моніториться власне використання моделей. Все для мопсів!

Не зрозумів до кінця, як складні моделі в продакшн йдуть. Якийсь API надається, щоб їх нагодувати даними та отримувати результати.

H2O

Driveless AI – дуже компактна та зрозуміла система для Supervised ML. Все в одній коробочці. Про бекенд не зрозуміло до кінця відразу.

Модель автоматично упаковують у REST сервер чи Java App. Це чудова ідея. Багато зроблено для Interpretability та Explainability. Інтерпретація і пояснення результатів роботи моделі (Що за своєю суттю не повинно бути зрозумілим, інакше і людина може те саме порахувати?).
Вперше докладно розглядається кейс про неструктуровані дані та НЛП. Якісна архітектурна картинка. І взагалі картинки сподобалися.

Є великий опенсорс фреймворк H2O не зовсім зрозуміло (набір алгоритмів/бібліотек?). Власний ноутбук візуальний без програмування як Jupiter (посилання). Ще почитав про Pojo і Mojo - моделі H2O обернуті в яву. Перше в лоба, друге з оптимізацією. H20 — єдині(!), кому Gartner вписав текстову аналітику та NLP у сильні сторони, а також їхні зусилля щодо Explanability. Це дуже важливо!

Там же: висока продуктивність, оптимізація та стандарт для галузі в галузі інтеграції із залозами та хмарами.

А в слабкості логічно — Driverles AI слабенький і вузькуватий у порівнянні з їхнім же опенсорсом. Підготовка даних кульгає в порівнянні з тією ж Paxata! І ігнорують індустріальні дані – stream, graph, geo. Ну не може просто все бути добре.

КНІМ

Сподобалися 6 дуже конкретних цікавих бізнес кейсів на великій сторінці. Сильний OpenSource.

Gartner із лідерів опустив у візіонери. Погано гроші заробляють — добрий знак для користувачів, враховуючи, що Лідер – не завжди найкращий вибір.

Ключове слово як і в H2O - augmented це означає допомогу убогим citizen data scientists. Вперше когось в огляді посварилися за продуктивність! Цікаво? Тобто обчислювальних потужностей стільки, що продуктивність взагалі може бути системною проблемою? Про це слово "Augmented" у Gartner є окрема стаття, До якої дістатися не вдалося.
І KNIME у огляді здається перший неамериканець! (І дизайнерам нашим дуже їхній лендінг сподобався. Дивні люди.

MathWorks

MatLab – старий почесний товариш відомий усім! Тулбокси для всіх сфер життя та ситуацій. Щось дуже інше. Фактично багато-багато-багато математики на всі взагалі випадки життя!

Додатковий продукт Simulink для систем дизайну. Закопався в тулбокси для Цифрових Двійників - нічого про це не розумію, а тут прямо багато написано. Для нафтянки. Загалом це принципово інший продукт із глибин математики та інженерії. Для вибору тулкітів математики конкретної. Згідно з Гартнером, у них проблеми всі як у розумних інженерів — жодної колаборації — кожен у своїй моделі риється, жодної демократії, ніякого експлейнабіліті.

RapidMiner

Багато і стикався і чув раніше (поряд із Матлабом) у контексті гарного опенсорсу. Закопався трохи у TurboPrep як завжди. Цікавить мене як з брудних даних чисті отримувати.

Знову видно, що люди хороші за маркетинговими матеріалами 2018 року і жахливо говорять англійською людьми на feature demo.

А люди з Дортмунда з 2001 з сильним німецьким минулим)

Gartner MQ 2020: Платформи машинного навчання та штучного інтелекту
Так і не зрозумів із сайту, що саме в опенсорсі доступно — треба глибше закопуватися. Хороші видосики про деплоймент та AutoML їхню концепцію.

Про бекенд RapidMiner Server теж нічого особливого немає. Напевно, це буде компактно і добре працювати on premice out of the box. У Docker упаковується. Шара environment тільки на сервері RapidMiner. І ще є Radoop, дані з ходупа, лічилки з Spark у Studio workflow.

Посунули їх униз як і очікувалося молоді гарячі вендори «продавці смугастих паличок». Гартнер проте пророкує їм майбутній успіх в просторі Enterprise. Грошей там підняти можна. Німці це вміють свят-свят 🙂 Don't mention SAP!

Для сітізенів багато роблять! Але по сторінці видно як Gartner і каже, що з інноваційністю продажів туго у них і вони не борються за широту покриття, але за прибутковість.

залишилися ПАР и Tibco типові BI вендори для мене… І обидва в самому топі, що підтверджує мою впевненість у тому, що нормальний DataScience логічно росте
з BI, а не з хмар та Hadoop інфраструктур. З бізнесу, тобто, а не з IT. Як у Газпромнафту наприклад: посиланняЗріла DSML середовище виростає з міцної BI практики. Але може вона і з душком та перекосом на MDM та інші справи, хто знає.

ПАР

Нема чого сказати особливо. Лише очевидні речі.

TIBCO

Стратегія читається у списку покупок на сторінці у Wiki довгою зі сторінки. Так, довга історія, але 28! Карл. підкупила BI Spotfire (2007) ще за часів моєї техно-молодості. І ще репортинг Jaspersoft (2014), далі аж трьох вендорів предиктивної аналітики Insightful (S-plus) (2008), Statistica (2017) and Alpine Data (2017), обробка подій та стримінг Streambase System (2013), MDM Orchestra Networks (2018) ) та Snappy Data (2019) in-memory платформа.

Привіт, Френкі!

Gartner MQ 2020: Платформи машинного навчання та штучного інтелекту

Джерело: habr.com

Додати коментар або відгук