بررسی Gartner MQ 2020: یادگیری ماشین و پلتفرم‌های هوش مصنوعی

توضیح دلیل خواندن این مطلب غیرممکن است. من فقط وقت داشتم و به نحوه عملکرد بازار علاقه مند بودم. و این در حال حاضر یک بازار تمام عیار به گفته گارتنر از سال 2018 است. از سال 2014 تا 2016 آن را تجزیه و تحلیل پیشرفته (ریشه در BI) نامیدند، در سال 2017 - علم داده (من نمی دانم چگونه این را به روسی ترجمه کنم). برای کسانی که به حرکات دستفروشان در اطراف میدان علاقه مند هستند، می توانید اینجا نگاه کن و من در مورد مربع 2020 صحبت خواهم کرد، به ویژه از آنجایی که تغییرات در آنجا از سال 2019 بسیار کم است: SAP خارج شد و Altair Datawatch را خریداری کرد.

این یک تحلیل سیستماتیک یا یک جدول نیست. یک دیدگاه فردی، آن هم از دیدگاه یک ژئوفیزیکدان. اما من همیشه کنجکاو هستم که Gartner MQ را بخوانم، آنها برخی از نکات را کاملاً فرموله می کنند. بنابراین در اینجا مواردی وجود دارد که من هم از نظر فنی، هم از نظر بازار و هم از نظر فلسفی به آنها توجه کردم.

این برای افرادی نیست که عمیقاً به موضوع ML می پردازند، بلکه برای افرادی است که به آنچه که به طور کلی در بازار اتفاق می افتد علاقه مند هستند.

خود بازار DSML به طور منطقی بین خدمات توسعه دهنده هوش مصنوعی و هوش مصنوعی Cloud قرار دارد.

بررسی Gartner MQ 2020: یادگیری ماشین و پلتفرم‌های هوش مصنوعی

ابتدا نقل قول ها و اصطلاحات مورد علاقه:

  • "یک رهبر ممکن است بهترین انتخاب نباشد" - یک رهبر بازار لزوماً چیزی نیست که شما به آن نیاز دارید. بسیار ضروری بسیار فوری بسیار مبرم اضطراری! در نتیجه فقدان مشتری کارآمد، آنها همیشه به دنبال "بهترین" راه حل هستند تا راه حل "مناسب".
  • "عملیاتی سازی مدل" - به اختصار MOPs نامیده می شود. و همه با پاگ مشکل دارند! – (تم باحال میناکاری باعث می شود که مدل کار کند).
  • "محیط نوت بوک" مفهوم مهمی است که در آن کد، نظرات، داده ها و نتایج با هم ترکیب می شوند. این بسیار واضح، امیدوارکننده است و می تواند میزان کدهای UI را به میزان قابل توجهی کاهش دهد.
  • "ریشه شده در منبع باز" - خوب گفته شد - در منبع باز ریشه می گیرد.
  • "دانشمندان داده شهروندی" - آدم‌های ساده‌ای، آدم‌های متحجر، نه متخصص، که به یک محیط بصری و انواع چیزهای کمکی نیاز دارند. آنها کد نمی کنند.
  • "دموکراسی" - اغلب به معنای "در دسترس قرار دادن برای طیف وسیع تری از مردم" استفاده می شود. می‌توانیم به‌جای عبارت خطرناک «آزاد کردن داده‌ها» که قبلاً استفاده می‌کردیم، بگوییم «داده‌ها را دمکراتیک کنید». "دموکراسی" همیشه دم بلندی است و همه فروشندگان به دنبال آن می دوند. از دست دادن در شدت دانش - به دست آوردن در دسترسی!
  • "تحلیل داده های اکتشافی - EDA" - در نظر گرفتن این وسایل موجود. برخی از آمار. کمی تجسم. کاری که همه به یک درجه انجام می دهند. نمیدونستم اسمی برای این وجود داره
  • "تکرار پذیری" - حداکثر حفظ تمام پارامترهای محیطی، ورودی ها و خروجی ها به طوری که آزمایش می تواند یک بار انجام شود. مهمترین اصطلاح برای محیط تست تجربی!

پس:

Alteryx

رابط کاربری جالب، درست مثل یک اسباب بازی. البته مقیاس پذیری کمی دشوار است. بر این اساس، جامعه شهروندی از مهندسین در اطراف همان با tchotchkes به بازی. تجزیه و تحلیل همه چیز شما در یک بطری است. من را به یاد مجموعه ای از تجزیه و تحلیل داده های همبستگی طیفی انداخت کاسکاد، که در دهه 90 برنامه ریزی شد.

آناکوندا

جامعه پیرامون کارشناسان پایتون و R. منبع باز بر این اساس بزرگ است. معلوم شد که همکاران من همیشه از آن استفاده می کنند. اما من نمی دانستم.

DataBricks

شامل سه پروژه منبع باز است - توسعه دهندگان Spark از سال 2013 تا کنون پول زیادی به دست آورده اند. من واقعاً باید از ویکی نقل قول کنم:

«در سپتامبر 2013، Databricks اعلام کرد که 13.9 میلیون دلار از Andreessen Horowitz جمع آوری کرده است. این شرکت 33 میلیون دلار اضافی در سال 2014، 60 میلیون دلار در سال 2016، 140 میلیون دلار در سال 2017، 250 میلیون دلار در سال 2019 (فوریه) و 400 میلیون دلار در سال 2019 (اکتبر) جمع آوری کرد.

برخی از افراد بزرگ اسپارک را قطع کردند. من نمی دانم، متاسفم!

و پروژه ها عبارتند از:

  • دریاچه دلتا - ACID در Spark اخیراً منتشر شد (آنچه ما در مورد آن با Elasticsearch آرزو داشتیم) - آن را به یک پایگاه داده تبدیل می کند: طرحواره سفت و سخت، ACID، حسابرسی، نسخه ها ...
  • جریان ML - ردیابی، بسته بندی، مدیریت و ذخیره سازی مدل ها.
  • کوالاها - Pandas DataFrame API در Spark - Pandas - Python API برای کار با جداول و داده ها به طور کلی.

برای کسانی که نمی‌دانند یا فراموش کرده‌اند می‌توانید به Spark نگاه کنید: پیوند. من ویدیوهایی را با نمونه هایی از دارکوب های مشاور کمی خسته کننده اما دقیق تماشا کردم: DataBricks for Data Science (پیوند) و برای مهندسی داده (پیوند).

به طور خلاصه، Databricks اسپارک را بیرون می کشد. هر کسی که بخواهد به طور معمول از Spark در فضای ابری استفاده کند، بدون تردید DataBricks را همانطور که در نظر گرفته شده است استفاده می کند 🙂 Spark متمایز کننده اصلی در اینجا است.
من فهمیدم که Spark Streaming واقعی جعلی واقعی یا میکروبچینگ نیست. و اگر به زمان واقعی واقعی نیاز دارید، در Apache STORM است. همه هم می گویند و می نویسند که Spark بهتر از MapReduce است. این شعار است.

DATAIKU

چیز انتها به انتها باحال. تبلیغات زیاد است. من متوجه نشدم که چه فرقی با Alteryx دارد؟

DataRobot

Paxata برای آماده سازی داده یک شرکت جداگانه است که توسط Data Robots در دسامبر 2019 خریداری شد. ما 20 MUSD جمع آوری کردیم و فروختیم. همه در 7 سال

آماده سازی داده ها در Paxata، نه Excel - اینجا را ببینید: پیوند.
جستجوها و پیشنهادهای خودکار برای اتصال بین دو مجموعه داده وجود دارد. یک چیز عالی - برای درک داده ها، تاکید بیشتری بر اطلاعات متنی وجود دارد (پیوند).
کاتالوگ داده یک کاتالوگ عالی از مجموعه داده های بی فایده "زنده" است.
همچنین جالب است که چگونه دایرکتوری ها در Paxata تشکیل می شوند (پیوند).

به گفته شرکت تحلیلگر تخمک، نرم افزار از طریق پیشرفت در تحلیل های پیش بینی, فراگیری ماشین و NoSQL روش ذخیره سازی داده ها[15] نرم افزار استفاده می کند معنایی الگوریتم‌هایی برای درک معنای ستون‌های جدول داده و الگوریتم‌های تشخیص الگو برای یافتن موارد تکراری احتمالی در یک مجموعه داده.[15][7] همچنین از نمایه سازی، تشخیص الگوی متن و سایر فناوری هایی که به طور سنتی در رسانه های اجتماعی و نرم افزارهای جستجو یافت می شود، استفاده می کند.

محصول اصلی دیتا ربات است اینجا. شعار آنها از مدل تا برنامه سازمانی است! من مشاوره برای صنعت نفت در رابطه با بحران پیدا کردم، اما بسیار پیش پا افتاده و غیر جالب بود: پیوند. من ویدیوهای آنها را در Mops یا Mlops تماشا کردم (پیوند). این چنین فرانکشتاین است که از 6-7 خرید از محصولات مختلف مونتاژ شده است.

البته مشخص می‌شود که یک تیم بزرگ از دانشمندان داده باید دقیقاً چنین محیطی را برای کار با مدل‌ها داشته باشند، در غیر این صورت تعداد زیادی از آنها را تولید می‌کنند و هرگز چیزی را مستقر نمی‌کنند. و در واقعیت بالادستی نفت و گاز ما، اگر فقط می توانستیم یک مدل موفق ایجاد کنیم، پیشرفت بزرگی بود!

خود این فرآیند بسیار یادآور کار با سیستم های طراحی در زمین شناسی-ژئوفیزیک بود مرغ باران. هرکسی که زیاد تنبل نیست مدل می سازد و اصلاح می کند. داده ها را در مدل جمع آوری کنید. سپس یک مدل مرجع درست کردند و به تولید فرستادند! بین مثلاً یک مدل زمین شناسی و یک مدل ML، می توانید نقاط مشترک زیادی پیدا کنید.

مهره های بازی دومینو

تاکید بر پلتفرم باز و همکاری. کاربران تجاری به صورت رایگان پذیرفته می شوند. آزمایشگاه داده آنها بسیار شبیه به اشتراک گذاری است. (و نام به شدت بوی IBM می دهد). همه آزمایش‌ها به مجموعه داده اصلی پیوند دارند. چقدر آشناست :) همانطور که در تمرین ما - برخی از داده ها به مدل کشیده شد، سپس پاک شد و در مدل مرتب شد، و همه اینها قبلاً در مدل وجود دارد و انتهای آن در داده های منبع یافت نمی شود .

دومینو مجازی سازی زیرساخت جالبی دارد. من دستگاه را به تعداد مورد نیاز در یک ثانیه مونتاژ کردم و به شمارش رفتم. چگونگی انجام آن بلافاصله مشخص نیست. داکر همه جا هست. آزادی فراوان! هر فضای کاری از آخرین نسخه ها را می توان متصل کرد. راه اندازی موازی آزمایش ها. پیگیری و انتخاب افراد موفق

همانند DataRobot - نتایج برای کاربران تجاری در قالب اپلیکیشن منتشر می شود. مخصوص "ذینفعان" با استعداد. و استفاده واقعی از مدل ها نیز نظارت می شود. همه چیز برای پاگ!

من به طور کامل درک نمی کنم که چگونه مدل های پیچیده در نهایت تولید می شوند. نوعی API برای تغذیه آنها و دریافت نتایج ارائه شده است.

H2O

هوش مصنوعی بدون Drive یک سیستم بسیار فشرده و بصری برای نظارت ML است. همه چیز در یک جعبه در مورد Backend کاملاً مشخص نیست.

مدل به طور خودکار در یک سرور REST یا برنامه جاوا بسته بندی می شود. این یک ایده عالی است. کارهای زیادی برای تفسیرپذیری و توضیح پذیری انجام شده است. تفسیر و توضیح نتایج مدل (چه چیزی ذاتاً نباید قابل توضیح باشد وگرنه شخص می تواند همان را محاسبه کند؟).
برای اولین بار، مطالعه موردی در مورد داده های بدون ساختار و NLP. تصویر معماری با کیفیت بالا و به طور کلی من عکس ها را دوست داشتم.

یک چارچوب منبع باز بزرگ H2O وجود دارد که کاملاً واضح نیست (مجموعه ای از الگوریتم ها/کتابخانه ها؟). لپ تاپ بصری خودتان بدون برنامه نویسی مانند Jupiter (پیوند). من همچنین در مورد مدل های Pojo و Mojo - H2O که در جاوا پیچیده شده اند مطالعه کردم. اولی ساده است، دومی با بهینه سازی. H20 تنها کسانی هستند (!) که گارتنر تجزیه و تحلیل متن و NLP را به عنوان نقاط قوت خود و همچنین تلاش آنها در مورد توضیح پذیری را فهرست کرده است. این خیلی مهمه!

در همان مکان: عملکرد بالا، بهینه سازی و استاندارد صنعت در زمینه یکپارچه سازی با سخت افزار و ابر.

و ضعف منطقی است - هوش مصنوعی Driverles در مقایسه با منبع باز آنها ضعیف و باریک است. آماده سازی داده ها در مقایسه با Paxata لنگ است! و آنها داده های صنعتی - جریان، نمودار، جغرافیا را نادیده می گیرند. خوب، همه چیز نمی تواند خوب باشد.

KNIME

من از 6 مورد بسیار خاص و جالب تجاری در صفحه اصلی خوشم آمد. منبع باز قوی

گارتنر آنها را از رهبران به رؤیاپردازان تنزل داد. با توجه به اینکه Leader همیشه بهترین انتخاب نیست، کسب درآمد ضعیف نشانه خوبی برای کاربران است.

کلمه کلیدی، مانند H2O، تقویت شده است، که به معنای کمک به دانشمندان داده شهروند فقیر است. این اولین باری است که یک نفر به خاطر عملکرد در یک نقد مورد انتقاد قرار می گیرد! جالب هست؟ یعنی آنقدر قدرت محاسباتی وجود دارد که عملکرد اصلا نمی تواند یک مشکل سیستمی باشد؟ گارتنر در مورد این کلمه "Augmented" گفته است مقاله جداگانه، که دسترسی به آن امکان پذیر نبود.
و به نظر می رسد KNIME اولین غیر آمریکایی در بررسی است! (و طراحان ما واقعاً صفحه فرود خود را دوست داشتند. افراد عجیب و غریب.

MathWorks

MatLab یک رفیق افتخاری قدیمی است که برای همه شناخته شده است! جعبه ابزار برای همه زمینه های زندگی و موقعیت ها. یه چیز خیلی متفاوت در واقع، ریاضیات زیاد و زیاد برای همه چیز در زندگی!

محصول الحاقی Simulink برای طراحی سیستم. من در جعبه ابزار برای دوقلوهای دیجیتال حفر کردم - چیزی در مورد آن نمی فهمم، اما اینجا بسیار نوشته شده است برای صنعت نفت. به طور کلی، این محصول اساساً متفاوت از اعماق ریاضیات و مهندسی است. برای انتخاب جعبه ابزار ریاضی خاص. به گفته گارتنر، مشکلات آنها مانند مشکلات مهندسان هوشمند است - بدون همکاری - هر کسی با مدل خود سر و کار دارد، بدون دموکراسی، بدون توضیح.

RapidMiner

من قبلاً (همراه با Matlab) در زمینه منبع باز خوب با چیزهای زیادی برخورد کرده و شنیده ام. من طبق معمول کمی داخل TurboPrep حفاری کردم. من علاقه مندم که چگونه داده های تمیز را از داده های کثیف دریافت کنم.

باز هم می توانید ببینید که افراد بر اساس مواد بازاریابی 2018 و افراد وحشتناک انگلیسی زبان در نسخه نمایشی ویژگی خوب هستند.

و افرادی از دورتموند از سال 2001 با پیشینه قوی آلمانی)

بررسی Gartner MQ 2020: یادگیری ماشین و پلتفرم‌های هوش مصنوعی
من هنوز از سایت نمی‌دانم دقیقاً چه چیزی در منبع باز موجود است - باید عمیق‌تر کاوش کنید. ویدیوهای خوب در مورد استقرار و مفاهیم AutoML.

هیچ چیز خاصی در مورد باطن سرور RapidMiner نیز وجود ندارد. احتمالاً جمع و جور خواهد بود و در خارج از جعبه به خوبی کار می کند. در داکر بسته بندی شده است. محیط مشترک فقط در سرور RapidMiner. و سپس Radoop، داده های Hadoop، شمارش قافیه ها از Spark در گردش کار استودیو وجود دارد.

همانطور که انتظار می رفت، فروشندگان داغ جوان "فروشندگان چوب های راه راه" آنها را به پایین منتقل کردند. با این حال، گارتنر موفقیت آینده آنها را در فضای Enterprise پیش بینی می کند. اونجا میتونی پول جمع کنی آلمانی ها این کارو میدونن مقدس-قدسی :) اسم SAP رو نزن!!!

آنها کارهای زیادی برای شهروندان انجام می دهند! اما از صفحه می توانید ببینید که گارتنر می گوید که آنها با نوآوری در فروش دست و پنجه نرم می کنند و برای وسعت پوشش نمی جنگند، بلکه برای سودآوری می جنگند.

ماند SAS и Tibco فروشندگان BI معمولی برای من... و هر دو در بالاترین سطح هستند، که اطمینان من را تایید می کند که DataScience عادی به طور منطقی در حال رشد است.
از BI، و نه از ابرها و زیرساخت های Hadoop. از تجارت، یعنی، و نه از IT. مانند گازپروم نفت به عنوان مثال: پیوندیک محیط بالغ DSML از شیوه های قوی BI رشد می کند. اما شاید نسبت به MDM و چیزهای دیگر بد و مغرضانه باشد، چه کسی می داند.

SAS

چیز زیادی برای گفتن نیست فقط چیزهای بدیهی

TIBCO

این استراتژی در یک لیست خرید در یک صفحه ویکی طولانی خوانده می شود. آره داستان طولانیه ولی 28!!! چارلز من BI Spotfire (2007) را در دوران تکنولوژی خود خریداری کردم. و همچنین گزارش‌هایی از Jaspersoft (2014)، سپس سه فروشنده پیش‌بینی‌کننده تجزیه و تحلیل Insightful (S-plus) (2008)، Statistica (2017) و Alpine Data (2017)، پردازش رویداد و پخش جریان Streambase System (2013)، ارکستر MDM پلتفرم حافظه Networks (2018) و Snappy Data (2019).

سلام فرانکی!

بررسی Gartner MQ 2020: یادگیری ماشین و پلتفرم‌های هوش مصنوعی

منبع: www.habr.com

اضافه کردن نظر