مراجعة Gartner MQ 2020: منصات التعلم الآلي والذكاء الاصطناعي

من المستحيل شرح سبب قراءتي لهذا. لقد كان لدي الوقت وكنت مهتمًا بكيفية عمل السوق. وهذا بالفعل سوق متكامل وفقًا لشركة Gartner منذ عام 2018. من عام 2014 إلى عام 2016، كانت تسمى التحليلات المتقدمة (الجذور في BI)، في عام 2017 - علوم البيانات (لا أعرف كيفية ترجمتها إلى اللغة الروسية). وللمهتمين بحركات الباعة حول الساحة يمكنك ذلك هنا ينظر. وسأتحدث عن مربع 2020، خاصة وأن التغييرات هناك منذ 2019 ضئيلة: خرجت SAP واشترت Altair Datawatch.

هذا ليس تحليل منهجي أو جدول. وجهة نظر فردية، أيضًا من وجهة نظر الجيوفيزيائي. لكن لدي فضول دائمًا لقراءة Gartner MQ، فهم يصوغون بعض النقاط بشكل مثالي. إذن، هذه هي الأشياء التي أوليتها اهتمامًا من الناحية الفنية والسوقية والفلسفية.

هذا ليس للأشخاص المتعمقين في موضوع تعلم الآلة، ولكن للأشخاص المهتمين بما يحدث بشكل عام في السوق.

يقع سوق DSML نفسه بشكل منطقي بين خدمات مطوري BI وCloud AI.

مراجعة Gartner MQ 2020: منصات التعلم الآلي والذكاء الاصطناعي

الاقتباسات والمصطلحات المفضلة أولاً:

  • "القائد قد لا يكون الخيار الأفضل" — إن القائد في السوق ليس بالضرورة هو ما تحتاجه. عاجل جدا! ونتيجة لعدم وجود عميل فعال، فإنهم يبحثون دائمًا عن الحل "الأفضل"، بدلاً من الحل "المناسب".
  • "تفعيل النموذج" - يُختصر بـ MOPs. والجميع يواجه صعوبة مع الصلصال! – (موضوع الصلصال الرائع يجعل النموذج يعمل).
  • "بيئة الكمبيوتر المحمول" هو مفهوم مهم حيث تجتمع التعليمات البرمجية والتعليقات والبيانات والنتائج معًا. هذا واضح جدًا وواعد ويمكن أن يقلل بشكل كبير من كمية كود واجهة المستخدم.
  • "الجذور في المصدر المفتوح" - حسنًا - يتجذر في المصادر المفتوحة.
  • "علماء بيانات المواطنين" - مثل هؤلاء الرجال السهلين، مثل هؤلاء الأعرج، وليس الخبراء، الذين يحتاجون إلى بيئة بصرية وجميع أنواع الأشياء المساعدة. لن يقوموا بالتشفير.
  • "ديمقراطية" - غالبًا ما يستخدم ليعني "إتاحته لمجموعة واسعة من الأشخاص". يمكننا أن نقول "إضفاء الطابع الديمقراطي على البيانات" بدلاً من "تحرير البيانات" الخطيرة التي اعتدنا استخدامها. إن "الديمقراطية" هي دائما ذيل طويل، وجميع البائعين يلاحقونها. فقدان كثافة المعرفة - اكتساب إمكانية الوصول!
  • "تحليل البيانات الاستكشافية - EDA" - النظر في هذه الوسائل المتاحة. بعض الإحصائيات. القليل من التصور. شيء يفعله الجميع بدرجة أو بأخرى. لم أكن أعرف أن هناك اسمًا لهذا
  • "قابلية اعادة الأنتاج" — أقصى قدر من الحفاظ على جميع المعلمات والمدخلات والمخرجات البيئية بحيث يمكن تكرار التجربة بمجرد تنفيذها. المصطلح الأكثر أهمية لبيئة الاختبار التجريبي!

لذلك:

Alteryx

واجهة رائعة، تمامًا مثل اللعبة. قابلية التوسع، بطبيعة الحال، صعبة بعض الشيء. وفقا لذلك، فإن مجتمع المواطنين من المهندسين حول نفسه مع tchotchkes للعب. التحليلات كلها لك في زجاجة واحدة. ذكرني بمجموعة معقدة من تحليل بيانات الارتباط الطيفي كوسكادوالتي تمت برمجتها في التسعينات.

الأناكندة أفعى ضخمة

مجتمع حول خبراء Python وR. المصدر المفتوح كبير وفقًا لذلك. اتضح أن زملائي يستخدمونه طوال الوقت. لكنني لم أعرف.

داتابريكس

يتكون من ثلاثة مشاريع مفتوحة المصدر - لقد جمع مطورو Spark أموالاً طائلة منذ عام 2013. ولا بد لي حقًا من اقتباس الويكي:

"في سبتمبر 2013، أعلنت شركة Databricks أنها جمعت 13.9 مليون دولار من أندريسن هورويتز. جمعت الشركة 33 مليون دولار إضافية في عام 2014، و60 مليون دولار في عام 2016، و140 مليون دولار في عام 2017، و250 مليون دولار في عام 2019 (فبراير) و400 مليون دولار في عام 2019 (أكتوبر)"!!!

بعض الأشخاص العظماء قطعوا سبارك. لا أعرف، آسف!

والمشاريع هي:

  • دلتا ليك - تم إصدار ACID on Spark مؤخرًا (ما حلمنا به مع Elasticsearch) - تحويله إلى قاعدة بيانات: مخطط جامد، ACID، التدقيق، الإصدارات...
  • تدفق مل - تتبع النماذج وتعبئتها وإدارتها وتخزينها.
  • الكوالا - Pandas DataFrame API على Spark - Pandas - Python API للعمل مع الجداول والبيانات بشكل عام.

ويمكنكم الاطلاع على سبارك لمن لا يعرف أو نسي: رابط. لقد شاهدت مقاطع فيديو تحتوي على أمثلة من نقار الخشب الاستشاريين المملين بعض الشيء ولكن المفصلين: DataBricks for Data Science (رابط) ولهندسة البيانات (رابط).

باختصار، تقوم Databricks بسحب Spark. أي شخص يريد استخدام Spark بشكل طبيعي في السحابة يأخذ DataBricks دون تردد، كما هو مقصود 🙂 Spark هي أداة التمييز الرئيسية هنا.
لقد تعلمت أن Spark Streaming ليس حقيقيًا أو مزيفًا في الوقت الفعلي أو microbatch. وإذا كنت بحاجة إلى وقت حقيقي حقيقي، فهو موجود في Apache STORM. يقول الجميع أيضًا ويكتبون أن Spark أفضل من MapReduce. هذا هو الشعار.

داتيكو

شيء رائع من النهاية إلى النهاية. هناك الكثير من الإعلانات. لا أفهم كيف يختلف عن Alteryx؟

داتا روبوت

Paxata لإعداد البيانات هي شركة منفصلة تم شراؤها بواسطة Data Robots في ديسمبر 2019. لقد جمعنا 20 مليون دولار أمريكي وقمنا ببيعها. كل ذلك في 7 سنوات.

إعداد البيانات في Paxata، وليس Excel - انظر هنا: رابط.
توجد عمليات بحث ومقترحات تلقائية للصلات بين مجموعتي بيانات. شيء عظيم - لفهم البيانات، سيكون هناك المزيد من التركيز على المعلومات النصية (رابط).
يعد كتالوج البيانات كتالوجًا ممتازًا لمجموعات البيانات "الحية" عديمة الفائدة.
ومن المثير للاهتمام أيضًا كيفية تشكيل الدلائل في Paxata (رابط).

"وفقا لشركة المحللين بيضة الانثى، أصبح البرنامج ممكنًا من خلال التقدم في تحليلات تنبؤية, آلة التعلم و NoSQL منهجية تخزين البيانات.[15] يستخدم البرنامج دلالات الألفاظ خوارزميات لفهم معنى أعمدة جدول البيانات وخوارزميات التعرف على الأنماط للعثور على التكرارات المحتملة في مجموعة البيانات.[15][7] كما أنها تستخدم الفهرسة والتعرف على أنماط النص والتقنيات الأخرى الموجودة تقليديًا في وسائل التواصل الاجتماعي وبرامج البحث.

المنتج الرئيسي لـ Data Robot هو هنا. شعارهم هو من النموذج إلى تطبيق المؤسسة! لقد وجدت استشارات لصناعة النفط فيما يتعلق بالأزمة، لكنها كانت مبتذلة وغير مثيرة للاهتمام: رابط. لقد شاهدت مقاطع الفيديو الخاصة بهم على Mops أو MLops (رابط). هذا هو فرانكشتاين الذي تم تجميعه من 6-7 عمليات استحواذ لمنتجات مختلفة.

بالطبع، يصبح من الواضح أن فريقًا كبيرًا من علماء البيانات يجب أن يكون لديهم مثل هذه البيئة للعمل مع النماذج، وإلا فسوف ينتجون الكثير منها ولن ينشروا أي شيء أبدًا. وفي واقعنا في مجال النفط والغاز، إذا تمكنا من إنشاء نموذج واحد ناجح، فسيكون ذلك بمثابة تقدم عظيم!

كانت العملية نفسها تذكرنا جدًا بالعمل مع أنظمة التصميم في الجيولوجيا والجيوفيزياء، على سبيل المثال طائر النوء. كل من ليس كسولًا جدًا يصنع النماذج ويعدلها. جمع البيانات في النموذج. ثم صنعوا نموذجًا مرجعيًا وأرسلوه إلى الإنتاج! بين النموذج الجيولوجي ونموذج التعلم الآلي، على سبيل المثال، يمكنك العثور على الكثير من القواسم المشتركة.

الدومينو

التركيز على منصة مفتوحة والتعاون. يتم قبول مستخدمي الأعمال مجانًا. مختبر البيانات الخاص بهم يشبه إلى حد كبير نقطة المشاركة. (والاسم ينم بقوة عن شركة IBM). ترتبط جميع التجارب بمجموعة البيانات الأصلية. كم هو مألوف :) كما هو الحال في ممارستنا - تم سحب بعض البيانات إلى النموذج، ثم تم تنظيفها وترتيبها في النموذج، وكل هذا موجود بالفعل في النموذج ولا يمكن العثور على النهايات في البيانات المصدر .

يتمتع Domino بمحاكاة افتراضية رائعة للبنية التحتية. لقد قمت بتجميع الجهاز بالعدد المطلوب من النوى في ثانية واحدة ثم ذهبت للعد. ولم يتضح على الفور كيف تم ذلك. عامل ميناء في كل مكان. الكثير من الحرية! يمكن توصيل أي مساحات عمل من أحدث الإصدارات. إطلاق موازي للتجارب. تتبع واختيار الناجحين.

مثل DataRobot - يتم نشر النتائج لمستخدمي الأعمال في شكل تطبيقات. "لأصحاب المصلحة" الموهوبين بشكل خاص. ويتم أيضًا مراقبة الاستخدام الفعلي للنماذج. كل شيء من أجل الصلصال!

لا أفهم تمامًا كيف تنتهي النماذج المعقدة في الإنتاج. يتم توفير نوع ما من واجهة برمجة التطبيقات (API) لإطعامهم بالبيانات والحصول على النتائج.

H2O

يعد Driveless AI نظامًا مدمجًا وبديهيًا للغاية لتعلم الآلة الخاضع للإشراف. كل شيء في صندوق واحد. ليس من الواضح تمامًا على الفور فيما يتعلق بالواجهة الخلفية.

يتم تجميع النموذج تلقائيًا في خادم REST أو تطبيق Java. هذا هو فكرة عظيمة. لقد تم عمل الكثير من أجل قابلية التفسير وقابلية الشرح. تفسير وتفسير نتائج النموذج (ما هو الشيء الذي لا ينبغي تفسيره بطبيعته وإلا يمكن للإنسان حسابه؟).
لأول مرة، دراسة حالة حول البيانات غير المنظمة و NLP. صورة معمارية عالية الجودة. وبشكل عام الصور أعجبتني.

يوجد إطار عمل كبير مفتوح المصدر H2O غير واضح تمامًا (مجموعة من الخوارزميات/المكتبات؟). كمبيوتر محمول مرئي خاص بك بدون برمجة مثل جوبيتر (رابط). قرأت أيضًا عن نماذج Pojo وMojo - H2O المغلفة بجافا. الأول واضح، والثاني مع التحسين. H20 هم الوحيدون (!) الذين أدرجت لهم Gartner تحليلات النص والبرمجة اللغوية العصبية باعتبارها نقاط قوتهم، بالإضافة إلى جهودهم فيما يتعلق بقابلية الشرح. انها مهمة جدا!

في نفس المكان: الأداء العالي والتحسين ومعايير الصناعة في مجال التكامل مع الأجهزة والسحابات.

والضعف منطقي - فالذكاء الاصطناعي لبرنامج Driverles ضعيف وضيق مقارنة بمصدره المفتوح. إعداد البيانات ضعيف مقارنة بـ Paxata! ويتجاهلون البيانات الصناعية مثل التدفق والرسم البياني والجغرافيا. حسنًا، لا يمكن أن يكون كل شيء جيدًا فحسب.

KNIME

لقد أعجبتني حالات العمل الستة المحددة جدًا والمثيرة للاهتمام للغاية في الصفحة الرئيسية. مصدر مفتوح قوي.

قامت مؤسسة جارتنر بتخفيض رتبتهم من القادة إلى أصحاب الرؤى. يعد كسب المال بشكل سيئ علامة جيدة للمستخدمين، نظرًا لأن القائد ليس هو الخيار الأفضل دائمًا.

الكلمة الرئيسية، كما هو الحال في H2O، يتم تكبيرها، مما يعني مساعدة علماء بيانات المواطنين الفقراء. هذه هي المرة الأولى التي يتم فيها انتقاد شخص ما بسبب أدائه في المراجعة! مثير للاهتمام؟ أي أن هناك قدرًا كبيرًا من قوة الحوسبة بحيث لا يمكن أن يكون الأداء مشكلة نظامية على الإطلاق؟ لدى Gartner حول هذه الكلمة "المعززة" المادة منفصلة، والتي لم يتسن الوصول إليها.
ويبدو أن KNIME هو أول شخص غير أمريكي في المراجعة! (ولقد أحب مصممونا حقًا صفحتهم المقصودة. أشخاص غريبون.

ماثووركس

ماتلاب هو الرفيق الفخري القديم المعروف لدى الجميع! صناديق الأدوات لجميع مجالات الحياة والمواقف. شيء مختلف جدا. في الواقع، الكثير والكثير والكثير من الرياضيات لكل شيء في الحياة!

منتج إضافي لـ Simulink لتصميم النظام. لقد بحثت في صناديق الأدوات الخاصة بالتوائم الرقمية - لا أفهم شيئًا عنها، لكن هنا لقد كتب الكثير. ل صناعة النفط. بشكل عام، هذا منتج مختلف جذريا عن أعماق الرياضيات والهندسة. لاختيار مجموعات أدوات الرياضيات محددة. وفقا لجارتنر، فإن مشاكلهم هي نفس مشاكل المهندسين الأذكياء - لا يوجد تعاون - الجميع ينقبون في نموذجهم الخاص، لا ديمقراطية، ولا قابلية للتفسير.

رابيدماينر

لقد صادفت وسمعت الكثير من قبل (جنبًا إلى جنب مع Matlab) في سياق المصادر المفتوحة الجيدة. لقد حفرت قليلاً في TurboPrep كالمعتاد. أنا مهتم بكيفية الحصول على بيانات نظيفة من البيانات القذرة.

مرة أخرى، يمكنك أن ترى أن الأشخاص جيدون استنادًا إلى المواد التسويقية لعام 2018 والأشخاص السيئين الذين يتحدثون الإنجليزية في العرض التوضيحي للميزات.

وأشخاص من دورتموند منذ عام 2001 بخلفية ألمانية قوية)

مراجعة Gartner MQ 2020: منصات التعلم الآلي والذكاء الاصطناعي
ما زلت لا أفهم من الموقع ما هو متاح بالضبط في المصادر المفتوحة - تحتاج إلى التعمق أكثر. مقاطع فيديو جيدة حول النشر ومفاهيم AutoML.

لا يوجد شيء مميز في الواجهة الخلفية لخادم RapidMiner أيضًا. من المحتمل أن يكون مدمجًا ويعمل بشكل جيد على الإصدار المميز خارج الصندوق. يتم تعبئتها في عامل الميناء. البيئة المشتركة فقط على خادم RapidMiner. ثم هناك Radoop، البيانات من Hadoop، التي تحسب القوافي من Spark في سير عمل الاستوديو.

وكما هو متوقع، قام البائعون الشباب "بائعو العصي المخططة" بنقلهم إلى الأسفل. ومع ذلك، تتوقع شركة Gartner نجاحها المستقبلي في مجال المؤسسات. يمكنك جمع المال هناك. يعرف الألمان كيف يفعلون ذلك، يا مقدس :) لا تذكر SAP !!!

يفعلون الكثير للمواطنين! ولكن من الصفحة يمكنك أن ترى أن شركة Gartner تقول إنها تكافح من أجل الابتكار في مجال المبيعات ولا تكافح من أجل اتساع نطاق التغطية، بل من أجل الربحية.

مكثت SAS и تيبكو بائعو ذكاء الأعمال النموذجيون بالنسبة لي... وكلاهما في القمة، مما يؤكد ثقتي في أن DataScience العادي ينمو بشكل منطقي
من BI، وليس من السحب والبنى التحتية Hadoop. من العمل، وليس من تكنولوجيا المعلومات. كما هو الحال في شركة غازبرومنفت على سبيل المثال: رابط,تنشأ بيئة DSML الناضجة من ممارسات ذكاء الأعمال القوية. ولكن ربما يكون الأمر مبتذلًا ومتحيزًا تجاه MDM وأشياء أخرى، من يدري.

SAS

ليس هناك الكثير ليقوله. فقط الأشياء الواضحة.

تيبكو

تتم قراءة الإستراتيجية في قائمة التسوق على صفحة Wiki التي يبلغ طولها صفحة. نعم القصة طويلة ولكن 28!!! تشارلز. لقد اشتريت BI Spotfire (2007) عندما كنت في شبابي التقني. وأيضًا تقديم التقارير من Jaspersoft (2014)، ثم ما يصل إلى ثلاثة من موردي التحليلات التنبؤية Insightful (S-plus) (2008)، وStatistica (2017)، وAlpine Data (2017)، ومعالجة الأحداث وبثها Streambase System (2013)، وMDM Orchestra الشبكات (2018) وSnapy Data (2019) منصة في الذاكرة.

مرحبا فرانكي!

مراجعة Gartner MQ 2020: منصات التعلم الآلي والذكاء الاصطناعي

المصدر: www.habr.com

إضافة تعليق