ګارټینر MQ 2020 بیاکتنه: د ماشین زده کړې او مصنوعي استخباراتو پلیټ فارمونه

دا ناشونې ده چې د دې دلیل تشریح کړم چې ولې ما دا لوستل. ما یوازې وخت درلود او لیواله وم چې بازار څنګه کار کوي. او دا دمخه د 2018 راهیسې د ګارټینر په وینا بشپړ بازار دی. له 2014-2016 څخه دا د پرمختللي تحلیلونو (په BI کې ریښې) په نوم یادیږي ، په 2017 کې - ډیټا ساینس (زه نه پوهیږم چې دا څنګه په روسیه کې ژباړم). د هغو کسانو لپاره چې د مربع په شاوخوا کې د پلورونکو حرکتونو سره علاقه لري، تاسو کولی شئ دلته وګوره او زه به د 2020 مربع په اړه وغږیږم ، په ځانګړي توګه له هغه وخته چې د 2019 راهیسې هلته بدلونونه خورا لږ دي: SAP بهر شو او الټایر ډیټاواچ پیرودل.

دا یو سیستماتیک تحلیل یا میز نه دی. یو انفرادي لید، د جیو فزیک پوه له نظره هم. مګر زه تل د ګارټینر MQ لوستلو ته لیواله یم ، دوی ځینې ټکي په سمه توګه جوړوي. نو دلته هغه شیان دي چې ما په تخنیکي، بازار موندنه او فلسفه کې دواړو ته پاملرنه کړې.

دا د هغو خلکو لپاره ندي چې د ML موضوع ته ژور دي، مګر د هغو خلکو لپاره چې په بازار کې په عمومي توګه پیښیږي لیوالتیا لري.

د DSML بازار پخپله په منطقي ډول د BI او کلاوډ AI پراختیا کونکي خدماتو ترمینځ ځاله کوي.

ګارټینر MQ 2020 بیاکتنه: د ماشین زده کړې او مصنوعي استخباراتو پلیټ فارمونه

د خوښې نرخونه او شرایط لومړی:

  • "یو مشر ممکن غوره انتخاب نه وي" - د بازار مشر اړین نه دی هغه څه چې تاسو ورته اړتیا لرئ. ډېر عاجل! د فعال پیرودونکي نشتوالي په پایله کې، دوی تل د "مناسب" حل پرځای د "غوره" حل په لټه کې دي.
  • "موډل عملیات" - د MOPs په توګه لنډیز. او هرڅوک د پګ سره سخت وخت لري! - (سړه پګ موضوع د ماډل کار کوي).
  • "د نوټ بوک چاپیریال" یو مهم مفهوم دی چیرې چې کوډ، تبصرې، ډاټا او پایلې یوځای راځي. دا خورا روښانه، ژمن دی او کولی شي د پام وړ د UI کوډ مقدار کم کړي.
  • "په اوپن سورس کې ریښه شوی" - ښه وویل - په خلاصې سرچینې کې ریښه اخلي.
  • "د اتباعو د معلوماتو ساینس پوهان" - داسې اسانه ملګري، داسې لیمر، نه ماهرین، چې یو بصری چاپیریال او هر ډول مرستندویه شیانو ته اړتیا لري. دوی به کوډ نه کوي.
  • "ډیموکراسي" - ډیری وختونه د دې معنی کارول کیږي "د خلکو پراخه لړۍ ته چمتو کول." موږ کولی شو د خطرناک "ډیټا وړیا" پرځای "ډیټا ډیموکراتیک کړئ" ووایو چې موږ یې کاروو. "ډیموکراسي" تل یوه اوږده لکۍ ده او ټول پلورونکي یې تعقیبوي. د پوهې شدت له لاسه ورکړئ - په لاسرسي کې لاسته راوړئ!
  • "د سپړنې ډاټا تحلیل - EDA" - د دې شته وسیلو په پام کې نیولو سره. ځینې ​​احصایې. یو کوچنی لید. یو څه چې هرڅوک یې په یوې درجې یا بل ډول کوي. نه پوهیدل چې د دې لپاره کوم نوم شتون لري
  • "د بیا تولید وړتیا" - د ټولو چاپیریال پارامترونو، آخذونو او محصولاتو اعظمي ساتنه ترڅو تجربه تکرار شي چې یوځل ترسره شي. د تجربوي ازموینې چاپیریال لپاره خورا مهم اصطلاح!

نو:

الټریکس

ښه انٹرفیس ، لکه د لوبو په څیر. اندازه کول، البته، یو څه ستونزمن دي. په همدې اساس، د انجینرانو د ښاریانو ټولنه د لوبې کولو لپاره د ټچچک سره ورته شاوخوا. تجزیات ستاسو ټول په یوه بوتل کې دي. ما ته د سپیکٹرل - ارتباط ډیټا تحلیل یوه پیچلې یادونه وکړه Coscad، کوم چې په 90s کې برنامه شوی و.

انکونډا

د Python او R متخصصینو شاوخوا ټولنه. خلاص سرچینه د دې مطابق لویه ده. دا معلومه شوه چې زما همکاران دا هر وخت کاروي. خو زه نه پوهېدم.

ډیټابرکس

د خلاصې سرچینې درې پروژې لري - د سپارک پراختیا کونکو له 2013 راهیسې ډیرې پیسې راټولې کړې. زه واقعیا باید د ویکي حواله وکړم:

"د سپتمبر په 2013 کې، ډیټابرکس اعلان وکړ چې دا د اندریسسن هورویټز څخه 13.9 ملیون ډالر راټول کړي دي. شرکت په 33 کې 2014 ملیون ډالر، په 60 کې 2016 ملیون ډالر، په 140 کې 2017 ملیون ډالر، په 250 (فبروري) کې 2019 ملیون ډالر او په 400 (اکتوبر) کې 2019 ملیون ډالر اضافي راټول کړي"!!!

ځینې ​​​​لوی خلک سپارک پرې کوي. زه نه پوهیږم، بخښنه غواړم!

او پروژې دا دي:

  • ډیلټا جهيل - په سپارک کې ACID پدې وروستیو کې خپور شو (هغه څه چې موږ یې د Elasticsearch سره خوب لیدلی) - دا په ډیټابیس بدلوي: سخت سکیما، ACID، پلټنې، نسخې ...
  • د ایم ایل فلو - د ماډلونو تعقیب، بسته بندي، مدیریت او ذخیره کول.
  • کوالاس - په سپارک کې د پانډاس ډیټا فریم API - پانډاس - په عموم کې د میزونو او ډیټا سره کار کولو لپاره Python API.

تاسو کولی شئ د هغو کسانو لپاره سپارک وګورئ څوک چې نه پوهیږي یا هیر شوي دي: لینک. ما د یو څه ستړي مګر مفصل مشورې لرونکی لرګیو څخه د مثالونو سره ویډیوګانې ولیدل: د ډیټا ساینس لپاره ډیټا برکس (لینک) او د ډیټا انجینرۍ لپاره (لینک).

په لنډه توګه، ډیټابرکس سپارک راوباسي. هرڅوک چې غواړي په بادل کې په نورمال ډول سپارک وکاروي پرته له ځنډه ډیټا برکس اخلي ، لکه څنګه چې هدف 🙂 سپارک دلته اصلي توپیر کونکی دی.
ما زده کړل چې د سپارک سټریمینګ ریښتیني جعلي ریښتیني وخت یا مایکروبیچنګ ندی. او که تاسو ریښتیني ریښتیني وخت ته اړتیا لرئ، دا په اپاچي طوفان کې دی. هرڅوک دا هم وايي او لیکي چې سپارک د MapReduce څخه غوره دی. دا شعار دی.

دتایکو

د پای څخه تر پایه ښه شی. ډیری اعلانونه شتون لري. زه نه پوهیږم چې دا د الټریکس څخه څنګه توپیر لري؟

ډاټا روبوټ

د معلوماتو چمتو کولو لپاره Paxata یو جلا شرکت دی چې د ډیټا روبوټ لخوا په دسمبر 2019 کې اخیستل شوی. موږ 20 MUSD پورته کړل او وپلورل شول. ټول په 7 کلونو کې.

په Paxata کې د معلوماتو چمتو کول، نه Excel - دلته وګورئ: لینک.
د دوه ډیټاسیټونو ترمینځ د یوځای کیدو لپاره اتوماتیک لیدونه او وړاندیزونه شتون لري. یو لوی شی - د معلوماتو د پوهیدو لپاره، په متني معلوماتو باندې به ډیر ټینګار وي (لینک).
د ډیټا کتلاګ د بې ګټې "ژوند" ډیټاسیټونو عالي کتلاګ دی.
دا هم په زړه پورې ده چې څنګه لارښودونه په Paxata کې جوړیږي (لینک).

"د شنونکي شرکت په وینا اووم، سافټویر د پرمختګ له لارې ممکن شوی اټکل شوي شننې, ماشین زده کړه او د ایس ایس ایل د معلوماتو ذخیره کولو میتودولوژي[15] سافټویر کاروي سیمانټیک د ډیټا سیټ کې احتمالي نقل موندلو لپاره د ډیټا جدول د کالمونو او نمونو پیژندنې الګوریتمونو په معنی پوهیدو لپاره الګوریتمونه.[15][7] دا د لیست کولو، د متن نمونو پیژندنه او نور ټیکنالوژي هم کاروي چې په دودیز ډول په ټولنیزو رسنیو او د لټون سافټویر کې موندل کیږي.

د ډیټا روبوټ اصلي محصول دی دلته. د دوی شعار له ماډل څخه تر تصدۍ غوښتنلیک پورې دی! ما د بحران په اړه د تیلو د صنعت لپاره مشوره وموندله، مګر دا خورا ممنوع او غیر زړه پورې وه: لینک. ما د دوی ویډیوګانې په Mops یا MLops کې ولیدل (لینک). دا داسې فرانکنسټین دی چې د مختلف محصولاتو 6-7 استملاکونو څخه راټول شوی.

البته ، دا روښانه کیږي چې د ډیټا ساینس پوهانو لوی ټیم باید د ماډلونو سره کار کولو لپاره ورته چاپیریال ولري ، که نه نو دوی به ډیری تولید کړي او هیڅ شی به ځای په ځای نکړي. او زموږ د تیلو او ګازو پورته کولو واقعیت کې، که موږ یوازې یو بریالی ماډل جوړ کړو، دا به لوی پرمختګ وي!

دا پروسه پخپله د جیولوژي - جیو فزیک کې د ډیزاین سیسټمونو سره د کار خورا یادونه وه ، د مثال په توګه پټریل. هرڅوک چې ډیر سست نه وي ماډلونه جوړوي او بدلوي. په موډل کې معلومات راټول کړئ. بیا دوی د حوالې ماډل جوړ کړ او تولید ته یې واستاوه! د جیولوژیکي ماډل او د ML ماډل تر مینځ، تاسو کولی شئ ډیر مشترک ومومئ.

ډومينو

په خلاص پلیټ فارم او همکارۍ ټینګار. د سوداګرۍ کاروونکي وړیا منل کیږي. د دوی ډیټا لابراتوار د شریک نقطې ته ورته دی. (او نوم په کلکه د IBM څخه خوند اخلي). ټولې تجربې د اصلي ډیټا سیټ سره تړاو لري. دا څومره پیژندل شوی دی :) لکه څنګه چې زموږ په عمل کې - ځینې معلومات موډل ته راښکته شوي ، بیا یې پاک شوي او په ماډل کې ترتیب شوي ، او دا ټول دمخه په موډل کې ژوند کوي او پای د سرچینې ډیټا کې نشي موندل کیدی. .

ډومینو د ښه زیربنا مجازی کول لري. ما ماشین په یوه ثانیه کې د اړتیا سره سم ډیری کورونه راټول کړل او شمیرلو ته لاړم. دا څنګه ترسره شو سمدستي روښانه نده. ډاکر هر ځای دی. ډیره ازادي! د وروستي نسخو هر ډول کاري ځایونه وصل کیدی شي. د تجربو موازي پیل کول. د بریالي کسانو تعقیب او انتخاب.

د DataRobot په څیر - پایلې د سوداګرۍ کاروونکو لپاره د غوښتنلیکونو په بڼه خپریږي. په ځانګړې توګه ډالۍ شوي "سټیک هولډرانو" لپاره. او د ماډلونو اصلي کارول هم څارل کیږي. د پګ لپاره هرڅه!

زه په بشپړ ډول نه پوهیږم چې څنګه پیچلي ماډلونه په تولید کې پای ته رسیږي. ځینې ​​​​ډول API چمتو شوي ترڅو دوی ډیټا تغذیه کړي او پایلې ترلاسه کړي.

H2O

ډرایولیس AI د نظارت شوي ML لپاره خورا کمپیکٹ او هوښیار سیسټم دی. هرڅه په یوه بکس کې. دا د پس منظر په اړه سمدلاسه په بشپړ ډول روښانه نده.

ماډل په اوتومات ډول په REST سرور یا جاوا ایپ کې بسته شوی. دا یو ښه نظر دی. د تشریح او توضیح لپاره ډیر څه شوي دي. د موډل د پایلو تفسیر او تشریح (څه شی باید د توضیح وړ نه وي، که نه نو یو څوک کولی شي ورته حساب وکړي؟).
د لومړي ځل لپاره، د غیر منظم معلوماتو په اړه د قضیې مطالعه او NLP. د لوړ کیفیت معماري انځور. او په عموم کې ما عکسونه خوښ کړل.

دلته د خلاصې سرچینې H2O چوکاټ شتون لري چې په بشپړ ډول روښانه ندي (د الګوریتم / کتابتونونو سیټ؟). ستاسو خپل لید لیپ ټاپ پرته له برنامه کولو لکه Jupiter (لینک). ما په جاوا کې د پوجو او موجو - H2O ماډلونو په اړه هم لوستل. لومړی مستقیم دی، دوهم د اصلاح سره. H20 یوازینی (!) دي چې ګارټینر د متن تحلیلونه او NLP د دوی ځواک په توګه لیست کړي، او همدارنګه د توضیح کولو په اړه د دوی هڅې. دا ډیره مهمه ده!

په ورته ځای کې: د هارډویر او بادلونو سره د ادغام په برخه کې لوړ فعالیت ، اصلاح او د صنعت معیار.

او کمزوری منطقی دی - Driverles AI د دوی د خلاصې سرچینې په پرتله ضعیف او تنګ دی. د معلوماتو چمتو کول د Paxata په پرتله نیمګړي دي! او دوی صنعتي ډاټا - جریان، ګراف، جیو له پامه غورځوي. ښه، هر څه یوازې ښه نه وي.

KNIME

ما په اصلي پاڼه کې 6 خورا مشخص، خورا په زړه پورې سوداګریزې قضیې خوښې کړې. قوي خلاص سرچینه.

ګارټینر دوی له مشرانو څخه لیدونکي ته راکم کړل. په کمزوري توګه د پیسو ګټل د کاروونکو لپاره ښه نښه ده، په دې شرط چې مشر تل غوره انتخاب نه وي.

کلیدي کلمه، لکه څنګه چې په H2O کې، وده شوې، چې معنی یې د بې وزلو اتباعو معلوماتو ساینس پوهانو سره مرسته کوي. دا لومړی ځل دی چې یو څوک په بیاکتنه کې د فعالیت لپاره نیوکه کیږي! په زړه پورې؟ دا دی، دومره کمپیوټري ځواک شتون لري چې فعالیت نشي کولی سیسټمیک ستونزه وي؟ ګارټینر د دې کلمې په اړه لري "اګمینټډ" جلا مقاله، کوم چې نشي رسیدلی.
او KNIME په بیاکتنه کې لومړی غیر امریکایی ښکاري! (او زموږ ډیزاینر واقعیا د دوی د لینډینګ پا pageه خوښ کړه. عجیب خلک.

MathWorks

MatLab یو پخوانی افتخاري ملګری دی چې هرچا ته پیژندل کیږي! د ژوند او شرایطو د ټولو برخو لپاره اوزار بکسونه. یو څه ډیر مختلف. په حقیقت کې ، په ژوند کې د هرڅه لپاره ډیری او ډیری او ډیری ریاضي!

د سیسټم ډیزاین لپاره د سمولنک اضافه محصول. ما د ډیجیټل جالونو لپاره د وسیلو بکسونه کیندل - زه د دې په اړه هیڅ نه پوهیږم، مګر دلته ډیر څه لیکل شوي. لپاره د تیلو صنعت. په عموم کې، دا د ریاضیاتو او انجینرۍ له ژورو څخه بنسټیز ډول مختلف محصول دی. د ریاضیاتو ځانګړي وسایل غوره کولو لپاره. د ګارټینر په وینا ، د دوی ستونزې د هوښیار انجینرانو په څیر دي - هیڅ همکاري نلري - هرڅوک په خپل ماډل کې شاوخوا ګرځي ، نه ډیموکراسي ، نه توضیحي.

RapidMiner

ما د ښې خلاصې سرچینې په شرایطو کې (د متلاب سره) دمخه ډیر څه اوریدلي او اوریدلي یم. ما د معمول په څیر TurboPrep ته یو څه کیندل. زه لیواله یم چې څنګه د ناپاکو معلوماتو څخه پاک معلومات ترلاسه کړم.

یوځل بیا تاسو لیدلی شئ چې خلک د 2018 بازار موندنې موادو او د فیچر ډیمو کې د انګلیسي ژبې ډارونکي خلکو پراساس ښه دي.

او د دورتموند خلک له 2001 راهیسې د قوي آلماني شالید سره)

ګارټینر MQ 2020 بیاکتنه: د ماشین زده کړې او مصنوعي استخباراتو پلیټ فارمونه
زه لاهم د سایټ څخه نه پوهیږم چې واقعیا په خلاص سرچینه کې شتون لري - تاسو اړتیا لرئ ژور وخورئ. د ګمارنې او AutoML مفاهیمو په اړه ښه ویډیوګانې.

د RapidMiner Server backend په اړه کوم ځانګړی شتون نلري. دا به شاید کمپیکٹ وي او د بکس څخه بهر پریمیم باندې ښه کار وکړي. دا په ډاکر کې بسته شوی. شریک چاپیریال یوازې د RapidMiner سرور کې. او بیا رادوپ شتون لري، د هډوپ څخه ډاټا، د سټوډیو کاري فلو کې د سپارک څخه نظمونه شمیرل.

لکه څنګه چې تمه کیده، ځوان ګرم پلورونکي "د پټو لرګیو پلورونکي" دوی ښکته کړل. په هرصورت، ګارټینر، د شرکت په ځای کې د دوی راتلونکي بریالیتوب وړاندوینه کوي. تاسو کولی شئ هلته پیسې راټول کړئ. آلمانان پوهیږي چې دا څنګه وکړي، مقدس - مقدس :) د SAP یادونه مه کوئ!!!

دوی د ښاریانو لپاره ډیر څه کوي! مګر د پاڼې څخه تاسو لیدلی شئ چې ګارټینر وايي چې دوی د پلور نوښت سره مبارزه کوي او د پوښښ پراخولو لپاره جګړه نه کوي، مګر د ګټې لپاره.

پاتې شو SAS и Tibco زما لپاره عام BI پلورونکي ... او دواړه په سر کې دي، کوم چې زما باور تاییدوي چې نورمال ډیټا ساینس په منطقي توګه وده کوي
د BI څخه، او نه د بادل او هډوپ زیربناوو څخه. د سوداګرۍ څخه، دا دی، او نه د IT څخه. لکه د مثال په توګه په Gazpromneft کې: لینکیو بالغ DSML چاپیریال د BI قوي تمریناتو څخه وده کوي. مګر شاید دا د MDM او نورو شیانو په وړاندې سپک او تعصب وي ، څوک پوهیږي.

SAS

د ویلو لپاره ډیر څه نشته. یوازې ښکاره شیان.

TIBCO

ستراتیژي د ویکي پاڼې په اوږده پاڼه کې د پیرود لیست کې لوستل کیږي. هو، اوږده کیسه، مګر 28!!! چارلس ما BI Spotfire (2007) بیرته په خپل تخنیکي ځوانۍ کې اخیستی. او همدارنګه د Jaspersoft (2014) څخه راپور ورکول، بیا د دریو وړاندوینې تحلیلي پلورونکي Insightful (S-plus) (2008)، Statistica (2017) او Alpine Data (2017)، د پیښو پروسس کول او سټیمینګ سټریمبیس سیسټم (2013)، MDM آرکیسټرا شبکې (2018) او سنیپي ډیټا (2019) په حافظه کې پلیټ فارم.

سلام فرانکي!

ګارټینر MQ 2020 بیاکتنه: د ماشین زده کړې او مصنوعي استخباراتو پلیټ فارمونه

سرچینه: www.habr.com

Add a comment