Gartner MQ 2020 İcmalı: Maşın Öyrənməsi və Süni İntellekt Platformaları

Bunu oxumağımın səbəbini izah etmək mümkün deyil. Sadəcə vaxtım var idi və bazarın necə işləməsi ilə maraqlanırdım. Və bu artıq 2018-ci ildən Gartner-ə görə tam hüquqlu bazardır. 2014-2016-cı illərdə qabaqcıl analitika (BI-də köklər), 2017-ci ildə Data Science (Bunu rus dilinə necə tərcümə edəcəyimi bilmirəm) adlanırdı. Meydan ətrafında satıcıların hərəkəti ilə maraqlananlar üçün edə bilərsiniz burada bax. Mən 2020 kvadratı haqqında danışacağam, xüsusən 2019-cu ildən bəri orada dəyişikliklər minimal olduğundan: SAP köçdü və Altair Datawatch aldı.

Bu sistemli təhlil və ya cədvəl deyil. Fərdi baxış, həm də geofizik nöqteyi-nəzərindən. Ancaq Gartner MQ-nu oxumaq mənə həmişə maraqlıdır, onlar bəzi məqamları mükəmməl formalaşdırırlar. Beləliklə, həm texniki, həm bazar baxımından, həm də fəlsəfi baxımdan diqqət yetirdiyim şeylər bunlardır.

Bu, ML mövzusuna dərindən bələd olan insanlar üçün deyil, ümumiyyətlə bazarda baş verənlərlə maraqlanan insanlar üçündür.

DSML bazarının özü məntiqi olaraq BI və Cloud AI developer xidmətləri arasında yuva qurur.

Gartner MQ 2020 İcmalı: Maşın Öyrənməsi və Süni İntellekt Platformaları

Əvvəlcə sevimli sitatlar və terminlər:

  • “Lider ən yaxşı seçim olmaya bilər” - Bazar lideri mütləq sizə lazım olan şey deyil. Çox təcili! Funksional müştərinin olmaması nəticəsində onlar həmişə “uyğun” deyil, “ən yaxşı” həll yolunu axtarırlar.
  • "Model əməliyyatı" - MOP kimi qısaldılmışdır. Və hamı puglarla çətinlik çəkir! – (sərin pug mövzusu modeli işləyir).
  • "Noutbuk mühiti" kodun, şərhlərin, məlumatların və nəticələrin bir araya gəldiyi mühüm konsepsiyadır. Bu, çox aydın, perspektivlidir və UI kodunun miqdarını əhəmiyyətli dərəcədə azalda bilər.
  • "OpenSource-da köklü" - yaxşı dedi - açıq mənbədə kök salır.
  • "Vətəndaş Məlumat Alimləri" - vizual mühitə və hər cür köməkçi şeylərə ehtiyacı olan bu qədər asan dostlar, belə lamerlər, ekspertlər deyil. Onlar kodlamayacaqlar.
  • "Demokratiya" — tez-tez “daha ​​geniş insanlar üçün əlçatan etmək” mənasında istifadə olunur. Əvvəllər istifadə etdiyimiz təhlükəli “məlumatları azad etmək” əvəzinə “məlumatları demokratikləşdirin” deyə bilərik. “Demokratikləşmə” həmişə uzun bir quyruqdur və bütün satıcılar onun arxasınca qaçırlar. Bilik intensivliyində uduzmaq - əlçatanlıq qazanmaq!
  • "Kəşfiyyatlı Məlumatların Təhlili - EDA" — bu mövcud vasitələrin nəzərə alınması. Bəzi statistika. Bir az vizuallaşdırma. Hər kəsin bu və ya digər dərəcədə etdiyi bir şey. Bunun bir adı olduğunu bilmirdim
  • "Reproduktivlik" — eksperimentin həyata keçirildikdən sonra təkrarlanması üçün ətraf mühitin bütün parametrlərinin, giriş və çıxışlarının maksimum dərəcədə qorunması. Eksperimental test mühiti üçün ən vacib termin!

Belə ki:

Altereks

Sərin interfeys, oyuncaq kimi. Ölçeklenebilirlik, əlbəttə ki, bir qədər çətindir. Buna görə, Vətəndaş birliyi ətrafdakı mühəndislərlə eyni tchotchkes oynayacaq. Analitika bir şüşədə sizindir. Mənə spektral korrelyasiya məlumatlarının təhlili kompleksini xatırlatdı Koskad, 90-cı illərdə proqramlaşdırılmışdır.

Anakonda

Python və R mütəxəssisləri ətrafında icma. Açıq mənbə müvafiq olaraq böyükdür. Məlum oldu ki, həmkarlarım bundan daim istifadə edirlər. Amma bilmirdim.

DataBricks

Üç açıq mənbə layihəsindən ibarətdir - Spark tərtibatçıları 2013-cü ildən bəri çoxlu pul yığıblar. Mən həqiqətən vikidən sitat gətirməliyəm:

“2013-cü ilin sentyabrında Databricks Andreessen Horowitz-dən 13.9 milyon dollar cəlb etdiyini açıqladı. Şirkət 33-cü ildə əlavə olaraq 2014 milyon dollar, 60-cı ildə 2016 milyon dollar, 140-ci ildə 2017 milyon dollar, 250-cu ildə (fevral) 2019 milyon dollar və 400-cu ildə (oktyabr) 2019 milyon dollar qazandı”!!!

Bəzi böyük insanlar Spark-ı kəsdi. Bilmirəm, üzr istəyirəm!

Və layihələr bunlardır:

  • Delta gölü - ACID on Spark bu yaxınlarda buraxıldı (Elasticsearch ilə xəyal etdiyimiz şey) - onu verilənlər bazasına çevirir: sərt sxem, ACID, audit, versiyalar...
  • ML axını — modellərin izlənməsi, qablaşdırılması, idarə olunması və saxlanması.
  • Koalalar - Spark-da Pandas DataFrame API - Pandas - Ümumilikdə cədvəllər və verilənlərlə işləmək üçün Python API.

Bilməyənlər və ya unudanlar üçün Spark-a baxa bilərsiniz: əlaqə. Bir az darıxdırıcı, lakin ətraflı məsləhət verən ağacdələnlərdən nümunələrlə videolara baxdım: DataBricks for Data Science (əlaqə) və Məlumat Mühəndisliyi üçün (əlaqə).

Bir sözlə, Databricks Spark-ı çıxarır. Spark-ı buludda normal istifadə etmək istəyən hər kəs nəzərdə tutulduğu kimi çəkinmədən DataBricks-i götürür 🙂 Spark burada əsas fərqləndiricidir.
Mən öyrəndim ki, Spark Streaming əsl saxta real vaxt və ya mikrobatinq deyil. Əgər sizə real Real Real vaxt lazımdırsa, o, Apache STORM-dadır. Hamı da deyir və yazır ki, Spark MapReduce-dan yaxşıdır. Bu şüardır.

DATAIKU

Sərin başdan-başa şey. Çoxlu reklamlar var. Alteryx-dən nə ilə fərqləndiyini başa düşmürəm?

DataRobot

Məlumatların hazırlanması üçün Paxata, 2019-cu ilin dekabrında Data Robots tərəfindən satın alınan ayrıca bir şirkətdir. 20 MUSD topladıq və satdıq. Hamısı 7 ildə.

Excel-də deyil, Paxata-da məlumatların hazırlanması - buraya baxın: əlaqə.
Avtomatik axtarışlar və iki məlumat dəsti arasında birləşmə üçün təkliflər var. Əla bir şey - məlumatları başa düşmək üçün mətn məlumatlarına daha çox diqqət yetiriləcəkdir (əlaqə).
Məlumat Kataloqu yararsız "canlı" verilənlər toplusunun əla kataloqudur.
Paxata-da kataloqların necə formalaşması da maraqlıdır (əlaqə).

“Analitik firmanın fikrincə Yumurta, proqram təminatının inkişafı ilə mümkün olur proqnozlaşdırıcı analitik, maşın təlimNoSQL məlumatların keşləşdirilməsi metodologiyası.[15] Proqram təminatı istifadə edir semantik verilənlər cədvəlinin sütunlarının mənasını anlamaq üçün alqoritmlər və verilənlər dəstində potensial dublikatları tapmaq üçün nümunə tanıma alqoritmləri.[15][7] O, həmçinin indeksləşdirmə, mətn nümunəsinin tanınması və ənənəvi olaraq sosial mediada və axtarış proqramlarında tapılan digər texnologiyalardan istifadə edir.

Data Robotun əsas məhsulu burada. Onların şüarı Modeldən Müəssisə Tətbiqinə! Böhranla əlaqədar neft sənayesi üçün konsaltinq tapdım, lakin bu, çox bayağı və maraqsız idi: əlaqə. Onların videolarına Mops və ya MLops-da baxdım (əlaqə). Bu, müxtəlif məhsulların 6-7 alışından yığılmış belə bir Frankensteindir.

Əlbəttə, aydın olur ki, Data Scientists-dən ibarət böyük bir komanda modellərlə işləmək üçün məhz belə bir mühitə malik olmalıdır, əks halda onlar çoxlu sayda istehsal edəcək və heç vaxt heç nə yerləşdirməyəcəklər. Və neft və qazın yuxarı axını reallığımızda, əgər biz bir uğurlu model yarada bilsəydik, bu, böyük irəliləyiş olardı!

Prosesin özü, məsələn, geologiya-geofizikada layihələndirmə sistemləri ilə işi çox xatırladırdı Petrel. Çox tənbəl olmayan hər kəs modellər düzəldir və dəyişdirir. Modelə məlumat toplayın. Sonra bir istinad modeli düzəldib istehsala göndərdilər! Deyək ki, geoloji model və ML modeli arasında çoxlu ortaq cəhətlər tapa bilərsiniz.

Domino

Açıq platforma və əməkdaşlığa vurğu. Biznes istifadəçiləri pulsuz qəbul edilir. Onların Data Laboratoriyası sharepoint-ə çox bənzəyir. (Və adı IBM-ə çox uyğun gəlir). Bütün eksperimentlər orijinal verilənlər bazası ilə əlaqələndirilir. Bu nə qədər tanışdır 🙂 Təcrübəmizdə olduğu kimi - bəzi məlumatlar modelə sürükləndi, sonra təmizləndi və modeldə qaydaya salındı ​​və bütün bunlar artıq modeldə yaşayır və ucları mənbə məlumatlarında tapmaq mümkün deyil.

Domino əla infrastruktur virtualizasiyasına malikdir. Maşını bir saniyədə lazım olan qədər özəyi yığdım və saymağa getdim. Bunun necə edildiyi dərhal aydın deyil. Docker hər yerdədir. Çoxlu azadlıq! Ən son versiyaların istənilən iş sahəsi birləşdirilə bilər. Eksperimentlərin paralel başlanması. Uğurlu olanların izlənməsi və seçilməsi.

DataRobot ilə eyni - nəticələr tətbiqlər şəklində iş istifadəçiləri üçün dərc olunur. Xüsusilə istedadlı “maraqlı tərəflər” üçün. Və modellərin faktiki istifadəsi də izlənilir. Pugs üçün hər şey!

Mürəkkəb modellərin istehsalda necə bitdiyini tam başa düşə bilmirəm. Onlara məlumat vermək və nəticələr əldə etmək üçün bir növ API təmin edilir.

H2O

Sürücüsüz AI Nəzarət olunan ML üçün çox yığcam və intuitiv sistemdir. Hər şey bir qutuda. Arxa uç haqqında dərhal tam aydın deyil.

Model avtomatik olaraq REST serverinə və ya Java Tətbiqinə yığılır. Bu əla fikirdir. Təfsir və izaholunma üçün çox işlər görülüb. Modelin nəticələrinin təfsiri və izahı (Nə mahiyyət etibarilə izah edilə bilməz, əks halda insan eyni şeyi hesablaya bilər?).
İlk dəfə olaraq strukturlaşdırılmamış məlumatlar haqqında nümunə araşdırması və NLP. Yüksək keyfiyyətli memarlıq şəkli. Və ümumiyyətlə, şəkilləri bəyəndim.

Tamamilə aydın olmayan böyük bir açıq mənbəli H2O çərçivəsi var (bir sıra alqoritmlər/kitabxanalar?). Yupiter kimi proqramlaşdırmadan öz vizual laptopunuz (əlaqə). Java ilə bükülmüş Pojo və Mojo - H2O modelləri haqqında da oxudum. Birincisi sadədir, ikincisi optimallaşdırma ilə. H20 Gartner-in güclü tərəfləri kimi mətn analitikası və NLP-ni, eləcə də Anlatıcılıqla bağlı səylərini sadaladığı yeganə(!) şirkətlərdir. Bu çox vacibdir!

Eyni yerdə: aparat və buludlarla inteqrasiya sahəsində yüksək performans, optimallaşdırma və sənaye standartı.

Və zəiflik məntiqlidir - Driverles AI açıq mənbə ilə müqayisədə zəif və dardır. Məlumatların hazırlanması Paxata ilə müqayisədə axsaqdır! Onlar sənaye məlumatlarına məhəl qoymurlar - axın, qrafik, coğrafi. Yaxşı, hər şey yaxşı ola bilməz.

KNIME

Əsas səhifədəki 6 çox konkret, çox maraqlı biznes işi xoşuma gəldi. Güclü OpenSource.

Gartner onları liderlərdən uzaqgörənlərə qədər aşağı saldı. Liderin həmişə ən yaxşı seçim olmadığını nəzərə alsaq, zəif pul qazanmaq istifadəçilər üçün yaxşı əlamətdir.

Açar söz, H2O-da olduğu kimi, artırılmışdır, bu da yoxsul vətəndaş məlumat alimlərinə kömək etmək deməkdir. İlk dəfədir ki, kimsə nəzərdən keçirilən performansa görə tənqid olunur! Maraqlıdır? Yəni, o qədər hesablama gücü var ki, performans heç bir sistem problemi ola bilməz? Gartner'in bu sözü haqqında "Augmented" var ayrı məqalə, çatmaq mümkün olmadı.
Və KNIME nəzərdən keçirilən ilk qeyri-Amerikalı kimi görünür! (Və bizim dizaynerlər onların açılış səhifəsini çox bəyəndilər. Qəribə insanlar.

MathWorks

MatLab hər kəsə məlum olan köhnə fəxri yoldaşdır! Həyatın bütün sahələri və vəziyyətlər üçün alət qutuları. Çox fərqli bir şey. Əslində, həyatda hər şey üçün çoxlu və çoxlu riyaziyyat!

Sistem dizaynı üçün Simulink əlavə məhsulu. Rəqəmsal Əkizlər üçün alət qutularını qazdım - bu barədə heç nə başa düşmürəm, amma burada çox yazılıb. üçün neft sənayesi. Ümumiyyətlə, bu, riyaziyyat və mühəndisliyin dərinliklərindən əsaslı şəkildə fərqli bir məhsuldur. Xüsusi riyaziyyat alət dəstlərini seçmək üçün. Gartner-ə görə, onların problemləri ağıllı mühəndislərin problemləri ilə eynidir - heç bir əməkdaşlıq yoxdur - hər kəs öz modelində, heç bir demokratiyada, izaholunmazlıqda gəzir.

RapidMiner

Yaxşı açıq mənbə kontekstində əvvəllər (Matlab ilə birlikdə) çox rast gəlmişəm və eşitmişəm. Həmişəki kimi TurboPrep-i bir az qazdım. Məni çirkli məlumatlardan təmiz məlumatları necə əldə etmək maraqlandırır.

Yenə də 2018-ci ilin marketinq materiallarına və xüsusiyyət demosunda ingilis dilində danışan dəhşətli insanlara əsaslanaraq insanların yaxşı olduğunu görə bilərsiniz.

Və 2001-ci ildən güclü alman mənşəli Dortmundlular)

Gartner MQ 2020 İcmalı: Maşın Öyrənməsi və Süni İntellekt Platformaları
Mən hələ də saytdan açıq mənbədə nəyin mövcud olduğunu başa düşmürəm - daha dərindən qazmaq lazımdır. Yerləşdirmə və AutoML konsepsiyaları haqqında yaxşı videolar.

RapidMiner Server backendində də xüsusi bir şey yoxdur. Çox güman ki, kompakt olacaq və qutudan kənarda yaxşı işləyəcək. Docker-də qablaşdırılır. Yalnız RapidMiner serverində paylaşılan mühit. Və sonra Radoop, Hadoop-un məlumatları, Studio iş prosesində Spark-dan gələn qafiyələri hesablayır.

Gözlənildiyi kimi, gənc qaynar satıcılar "zolaqlı çubuqların satıcıları" onları aşağı saldılar. Bununla belə, Gartner onların Enterprise məkanında gələcək uğurlarını proqnozlaşdırır. Orada pul yığa bilərsiniz. Bunu almanlar bilir, müqəddəs-müqəddəs :) SAP demə!!!

Vətəndaşlar üçün çox şey edirlər! Ancaq səhifədən görə bilərsiniz ki, Gartner satış innovasiyası ilə mübarizə apardıqlarını və əhatə dairəsinin genişliyi üçün deyil, gəlirlilik üçün mübarizə apardıqlarını söyləyir.

Qaldı SAS и Tibco mənim üçün tipik BI satıcıları... Və hər ikisi ən yüksək pillədədir, bu da mənim normal DataScience-in məntiqi olaraq böyüdüyünə inamımı təsdiqləyir
buludlardan və Hadoop infrastrukturlarından deyil, BI-dan. Biznesdən, yəni İT-dən deyil. Məsələn, Qazpromneftdə olduğu kimi: əlaqə,Yetkin DSML mühiti güclü BI təcrübələrindən yaranır. Ancaq bəlkə də MDM və başqa şeylərə qarşı qərəzli və qərəzlidir, kim bilir.

SAS

Deyəcək çox şey yoxdur. Yalnız aşkar şeylər.

TİBCO

Strategiya bir səhifə uzunluğundakı Wiki səhifəsində alış-veriş siyahısında oxunur. Bəli, uzun hekayə, amma 28!!! Çarlz. Mən BI Spotfire (2007) filmini texno-gəncliyimdə almışam. Həmçinin Jaspersoft (2014), daha sonra üç proqnozlaşdırıcı analitika satıcısı Insightful (S-plus) (2008), Statistica (2017) və Alpine Data (2017), hadisələrin işlənməsi və yayımı Streambase System (2013), MDM Orchestra-dan hesabatlar Networks (2018) və Snappy Data (2019) yaddaşdaxili platforma.

Salam Frankie!

Gartner MQ 2020 İcmalı: Maşın Öyrənməsi və Süni İntellekt Platformaları

Mənbə: www.habr.com

Добавить комментарий