Gartner MQ 2020 шолуы: Machine Learning және жасанды интеллект платформалары

Мұны не үшін оқығанымды түсіндіру мүмкін емес. Менде уақыт болды және нарықтың қалай жұмыс істейтіні қызықтырды. Бұл Gartner мәліметтері бойынша 2018 жылдан бері толыққанды нарық. 2014-2016 жылдар аралығында ол кеңейтілген аналитика (BI-дағы тамырлар), 2017 жылы - Data Science (мен оны орыс тіліне қалай аудару керектігін білмеймін) деп аталды. Алаңдағы сатушылардың қозғалысына қызығушылық танытқандар үшін сіз аласыз осында қара. Мен 2020 алаңы туралы айтатын боламын, әсіресе 2019 жылдан бері ондағы өзгерістер аз болғандықтан: SAP көшіп кетті және Altair Datawatch сатып алды.

Бұл жүйелі талдау немесе кесте емес. Жеке көзқарас, геофизик тұрғысынан да. Бірақ мен әрқашан Gartner MQ оқуға қызығамын, олар кейбір ойларды тамаша тұжырымдайды. Міне, мен техникалық, нарықтық және философиялық тұрғыдан назар аударған нәрселер.

Бұл ML тақырыбын терең меңгерген адамдарға емес, нарықта не болып жатқанына қызығушылық танытатын адамдарға арналған.

DSML нарығының өзі логикалық түрде BI және Cloud AI әзірлеуші ​​қызметтері арасында орналасады.

Gartner MQ 2020 шолуы: Machine Learning және жасанды интеллект платформалары

Алдымен таңдаулы дәйексөздер мен терминдер:

  • «Көшбасшы ең жақсы таңдау болмауы мүмкін» — Нарық көшбасшысы сізге қажет нәрсе емес. Өте шұғыл! Функционалды тұтынушының болмауының салдары ретінде олар әрқашан «қолайлы» емес, «ең жақсы» шешімді іздейді.
  • «Модельді пайдалану» - MOP деп қысқартылған. Әрқайсысы пагтармен қиынға соғады! – (салқын соғу тақырыбы модельді жұмыс істейді).
  • «Дәптер ортасы» код, түсініктемелер, деректер және нәтижелер біріктірілетін маңызды тұжырымдама. Бұл өте анық, перспективалы және UI кодының көлемін айтарлықтай азайтуы мүмкін.
  • «OpenSource жүйесінде түбірленген» - жақсы айтты - ашық көзде тамыр алады.
  • «Азаматтық деректер ғалымдары» - визуалды орта мен түрлі көмекші заттарды қажет ететін сарапшылар емес, осындай жеңіл жігіттер, осындай ақсақалдар. Олар кодтамайды.
  • «Демократия» — көбінесе «адамдардың кең ауқымына қолжетімді ету» деген мағынада қолданылады. Біз бұрын қолданып жүрген қауіпті «деректерді босату» дегеннің орнына «деректерді демократияландыру» деп айта аламыз. «Демократияландыру» әрқашан ұзын құйрық және барлық сатушылар оның артынан жүгіреді. Білімнің қарқындылығын жоғалту - қол жетімділікті арттыру!
  • «Барлау деректерін талдау – EDA» — осы қолда бар құралдарды қарастыру. Кейбір статистика. Кішкене визуализация. Әркім бір дәрежеде жасайтын нәрсе. Бұл атау бар екенін білмедім
  • «Қайта шығару» — эксперимент жүргізілгеннен кейін қайталануы үшін қоршаған ортаның барлық параметрлерін, кірістер мен шығыстарды барынша сақтау. Эксперименттік сынақ ортасы үшін ең маңызды термин!

Мәселен:

Альтерикс

Керемет интерфейс, ойыншық сияқты. Масштабтау, әрине, біршама қиын. Тиісінше, tchotchkes ойнауға бірдей айналасында инженерлер Азаматтық қоғамдастық. Аналитиканың барлығы бір бөтелкеде сіздікі. Спектрлік-корреляциялық деректерді талдау кешенін есіме түсірді Коскад, ол 90-шы жылдары бағдарламаланған.

Анаконда

Python және R мамандарының айналасындағы қауымдастық. Ашық дереккөз сәйкесінше үлкен. Әріптестерім үнемі пайдаланады екен. Бірақ мен білмедім.

DataBricks

Үш ашық жобадан тұрады – Spark әзірлеушілері 2013 жылдан бері қыруар ақша жинады. Мен викиден дәйексөз келтіруім керек:

«2013 жылдың қыркүйегінде Databricks Андрессен Хоровицтен 13.9 миллион доллар жинағанын хабарлады. Компания 33 жылы қосымша 2014 миллион доллар, 60 жылы 2016 миллион доллар, 140 жылы 2017 миллион доллар, 250 жылы (ақпан) 2019 миллион доллар және 400 жылы (қазан) 2019 миллион доллар жинады»!!!

Кейбір ұлы адамдар Spark-ті кесіп тастады. Білмеймін, кешіріңіз!

Ал жобалар:

  • Дельта көлі - ACID on Spark жақында шығарылды (Elasticsearch көмегімен біз армандаған нәрсе) - оны дерекқорға айналдырады: қатаң схема, ACID, аудит, нұсқалар...
  • ML ағыны — үлгілерді қадағалау, орау, басқару және сақтау.
  • Коалас - Spark жүйесіндегі Pandas DataFrame API - Pandas - жалпы кестелермен және деректермен жұмыс істеуге арналған Python API.

Білмейтін немесе ұмытып кеткендер үшін Spark-ты қарауға болады: байланыс. Мен аздап қызықсыз, бірақ егжей-тегжейлі кеңес беретін тоқылдақтардың мысалдары бар бейнелерді көрдім: DataBricks for Data Science (байланыс) және деректер инженериясы үшін (байланыс).

Қысқасы, Databricks Spark-ті шығарады. Spark қолданбасын бұлтта қалыпты түрде пайдаланғысы келетін кез келген адам ойлағандай DataBricks-ті еш ойланбастан қабылдайды 🙂 Spark бұл жерде негізгі дифференциатор болып табылады.
Мен Spark Streaming нақты уақыттағы жалған немесе микробағдарлама емес екенін білдім. Егер сізге нақты нақты уақыт қажет болса, ол Apache STORM-да. Барлығы Spark MapReduce-тен жақсы екенін айтады және жазады. Бұл ұран.

DATAIKU

Керемет нәрсе. Жарнамалар көп. Мен оның Alteryx-тен айырмашылығын түсінбеймін бе?

DataRobot

Деректерді дайындауға арналған Paxata - бұл Data Robots 2019 жылдың желтоқсанында сатып алған жеке компания. Біз 20 миллион доллар жинап, саттық. Барлығы 7 жылда.

Excel емес, Paxata бағдарламасында деректерді дайындау – мына жерден қараңыз: байланыс.
Екі деректер жиыны арасында қосылуға арналған автоматты іздеулер мен ұсыныстар бар. Керемет нәрсе - деректерді түсіну үшін мәтіндік ақпаратқа көбірек көңіл бөлінетін еді (байланыс).
Деректер каталогы – пайдасыз «тірі» деректер жиындарының тамаша каталогы.
Paxata-да каталогтар қалай құрылғаны да қызық (байланыс).

«Аналитикалық фирманың мәліметі бойынша аналық жасуша, бағдарламалық қамтамасыз ету ілгерілету арқылы мүмкін болды болжамды талдау, машина оқыту және NoSQL деректерді кэштеу әдістемесі.[15] Бағдарламалық құрал пайдаланады семантикалық деректер кестесінің бағандарының мағынасын түсінуге арналған алгоритмдер және деректер жиынындағы ықтимал көшірмелерді табу үшін үлгіні тану алгоритмдері.[15][7] Ол сондай-ақ индекстеу, мәтін үлгісін тану және дәстүрлі түрде әлеуметтік медиа мен іздеу бағдарламалық құралында табылған басқа технологияларды пайдаланады.

Data Robot негізгі өнімі болып табылады осында. Олардың ұраны үлгіден кәсіпорынға дейін! Мен дағдарысқа байланысты мұнай саласына кеңес беруді таптым, бірақ бұл өте қарапайым және қызықсыз болды: байланыс. Мен олардың бейнелерін Mops немесе MLops арқылы көрдім (байланыс). Бұл әртүрлі өнімдерді 6-7 сатып алудан жиналған осындай Франкенштейн.

Әрине, деректер ғалымдарының үлкен тобында модельдермен жұмыс істеу үшін дәл осындай орта болуы керек екені белгілі болды, әйтпесе олар олардың көп бөлігін шығарады және ешқашан ештеңені орналастырмайды. Біздің мұнай мен газдың жоғары ағынындағы шындықта, егер біз бір сәтті модель жасай алсақ, бұл үлкен ілгерілеу болар еді!

Процестің өзі, мысалы, геология-геофизикадағы жобалау жүйелерімен жұмысты өте еске түсірді Petrel. Тым жалқау емес кез келген адам үлгілерді жасайды және өзгертеді. Модельге деректерді жинаңыз. Содан кейін олар анықтамалық үлгі жасап, оны өндіріске жіберді! Айталық, геологиялық модель мен ML моделінің арасында сіз көп нәрсені ортақ таба аласыз.

Domino

Ашық платформаға және ынтымақтастыққа баса назар аударыңыз. Бизнес пайдаланушылар тегін қабылданады. Олардың деректер зертханасы sharepoint-ке өте ұқсас. (Және бұл атау IBM-ге қатты ұқсайды). Барлық эксперименттер бастапқы деректер жиынына сілтеме жасайды. Бұл қаншалықты таныс :) Біздің тәжірибеміздегідей - кейбір деректер үлгіге апарылды, содан кейін ол тазартылды және үлгіде ретке келтірілді және мұның бәрі модельде өмір сүреді және ұштарын бастапқы деректерде табу мүмкін емес. .

Domino керемет инфрақұрылымдық виртуализацияға ие. Мен машинаны бір секундта қанша қажет болса, сонша ядро ​​жинадым және санауға кірістім. Оның қалай жасалғаны бірден белгісіз. Docker барлық жерде. Көп еркіндік! Соңғы нұсқалардың кез келген жұмыс кеңістігін қосуға болады. Эксперименттерді параллель іске қосу. Табыстыларды қадағалау және таңдау.

DataRobot сияқты - нәтижелер бизнес пайдаланушылар үшін қолданбалар түрінде жарияланады. Ерекше дарынды «мүдделі тараптарға» арналған. Сондай-ақ үлгілердің нақты пайдаланылуы да бақыланады. Барлығы Pugs үшін!

Мен күрделі модельдердің өндірісте қалай аяқталатынын толық түсінбеймін. Деректерді беру және нәтижелерді алу үшін кейбір API түрі берілген.

H2O

Driveless AI - Supervised ML үшін өте ықшам және интуитивті жүйе. Барлығы бір қорапта. Бұл сервер туралы бірден анық емес.

Модель автоматты түрде REST серверіне немесе Java қолданбасына жинақталады. Бұл тамаша идея. Түсіндіру және түсіндіру үшін көп нәрсе жасалды. Модельдің нәтижелерін интерпретациялау және түсіндіру (Нені түсіндірмеу керек, әйтпесе адам дәл солай есептей алады?).
Алғаш рет құрылымдалмаған деректер туралы кейс зерттеуі және НЛП. Жоғары сапалы архитектуралық сурет. Ал жалпы маған суреттер ұнады.

Үлкен ашық бастапқы H2O негізі бар, ол толығымен анық емес (алгоритмдер/кітапханалар жиынтығы?). Юпитер сияқты бағдарламалаусыз жеке визуалды ноутбук (байланыс). Мен Java-ға оралған Pojo және Mojo - H2O үлгілері туралы да оқыдым. Біріншісі қарапайым, екіншісі оңтайландырумен. H20 – Gartner мәтіндік талдау мен NLP-ті күшті жақтары, сондай-ақ Түсіндіру мүмкіндігіне қатысты күш-жігері ретінде тізімдеген жалғыз(!). Бұл өте маңызды!

Бір орында: жоғары өнімділік, оңтайландыру және аппараттық және бұлттармен интеграция саласындағы салалық стандарт.

Және әлсіздік логикалық - Driverles AI олардың ашық көзімен салыстырғанда әлсіз және тар. Деректерді дайындау Paxata-мен салыстырғанда ақсап! Және олар өнеркәсіптік деректерді - ағынды, графикті, геоды елемейді. Жақсы, бәрі жақсы болуы мүмкін емес.

МҰНАЙ

Маған басты беттегі өте нақты, өте қызықты 6 іскерлік кейс ұнады. Күшті OpenSource.

Гартнер оларды көшбасшылардан көрегендерге дейін төмендетті. Көшбасшы әрқашан ең жақсы таңдау бола бермейтінін ескере отырып, нашар ақша табу пайдаланушылар үшін жақсы белгі.

Негізгі сөз, H2O сияқты, кеңейтілген, бұл кедей азаматтардың деректерін зерттеушілерге көмектесуді білдіреді. Бұл бірінші рет біреудің шолуда өнімділігі үшін сынға ұшырауы! Қызықты? Яғни, есептеу қуаты сонша, өнімділік мүлдем жүйелі мәселе бола алмайды? Gartner бұл сөз туралы «Толықтырылған» бөлек мақала, оған жету мүмкін болмады.
Ал KNIME шолуда бірінші американдық емес сияқты! (Ал біздің дизайнерлерге олардың бастапқы парақшасы қатты ұнады. Біртүрлі адамдар.

MathWorks

MatLab - бәріне белгілі ескі құрметті жолдас! Өмірдің барлық салаларына және жағдайларға арналған құралдар қораптары. Өте басқа нәрсе. Шын мәнінде, өмірдегі барлық нәрсе үшін көп, көп және көп математика!

Жүйені жобалауға арналған Simulink қосымша өнімі. Мен сандық егіздер үшін құралдар жәшіктерін қазып алдым - мен бұл туралы ештеңе түсінбеймін, бірақ осында көп жазылған. Үшін мұнай өнеркәсібі. Жалпы, бұл математика мен техниканың тереңдігінен түбегейлі өзгеше өнім. Арнайы математика құралдарын таңдау үшін. Гартнердің пікірінше, олардың проблемалары ақылды инженерлердің проблемаларымен бірдей - ынтымақтастық жоқ - әркім өз үлгісінде, демократия жоқ, түсініксіз.

RapidMiner

Мен жақсы ашық дереккөз контекстінде бұрын (Matlab-пен бірге) көп кездестірдім және естідім. Мен әдеттегідей TurboPrep-ті аздап зерттедім. Мені ластанған деректерден таза деректерді қалай алуға болатыны қызықтырады.

2018 жылғы маркетингтік материалдарға және демонстрацияда ағылшын тілінде сөйлейтін қорқынышты адамдарға негізделген адамдар жақсы екенін тағы да көруге болады.

Ал 2001 жылдан бері неміс тілі мықты Дортмундтықтар)

Gartner MQ 2020 шолуы: Machine Learning және жасанды интеллект платформалары
Мен сайттан ашық көзде не бар екенін әлі түсінбеймін - тереңірек қазу керек. Орналастыру және AutoML тұжырымдамалары туралы жақсы бейнелер.

RapidMiner Server серверінде де ерекше ештеңе жоқ. Ол ықшам болады және қораптан тыс премиумда жақсы жұмыс істейді. Ол Docker-де пакеттелген. Ортақ орта тек RapidMiner серверінде. Содан кейін Radoop, Hadoop деректері, Studio жұмыс процесінде Spark рифмаларын санау бар.

Күткендей, жас қызу сатушылар «жолақты таяқтарды сатушылар» оларды төмен жылжытты. Алайда Gartner олардың Enterprise кеңістігіндегі болашақ табыстарын болжайды. Сол жерден ақша жинауға болады. Немістер мұны біледі, киелі-қасиетті :) САП деп айтпай-ақ қойыңыз!!!

Олар азаматтар үшін көп нәрсе жасайды! Бірақ парақтан сіз Gartner компаниясының сату инновацияларымен күресіп жатқанын және қамтудың кеңдігі үшін емес, кірістілік үшін күресетінін айтады.

Қалды SAS и Тибко Мен үшін типтік BI жеткізушілері... Және екеуі де ең жоғарғы орында, бұл менің қалыпты DataScience логикалық түрде өсіп келе жатқанына сенімділікті растайды
бұлттар мен Hadoop инфрақұрылымдарынан емес, BI жүйесінен. Бизнестен, яғни IT-тен емес. Мысалы, «Газпромнефть» сияқты: байланыс,Жетілген DSML ортасы күшті BI тәжірибелерінен пайда болады. Бірақ, мүмкін, бұл МДМ-ға және басқа нәрселерге бейтарап және бейтарап болуы мүмкін, кім біледі.

SAS

Айтатын көп нәрсе жоқ. Тек айқын нәрселер.

TIBCO

Стратегия бір беттік Wiki бетіндегі сатып алу тізімінде оқылады. Иә, ұзақ әңгіме, бірақ 28!!! Чарльз. Мен BI Spotfire (2007) бағдарламасын техно-жас кезімде сатып алдым. Сондай-ақ, Jaspersoft (2014), одан кейін Insightful (S-plus) (2008), Statistica (2017) және Alpine Data (2017) үш болжамды аналитика жеткізушілерінен есеп беру, оқиғаларды өңдеу және Streambase жүйесі (2013), MDM оркестрі. Networks (2018) және Snappy Data (2019) жадтағы платформасы.

Сәлем Фрэнки!

Gartner MQ 2020 шолуы: Machine Learning және жасанды интеллект платформалары

Ақпарат көзі: www.habr.com

пікір қалдыру