گارٹنر ایم کیو 2020 کا جائزہ: مشین لرننگ اور مصنوعی ذہانت کے پلیٹ فارمز

میں نے اسے کیوں پڑھا اس کی وجہ بیان کرنا ناممکن ہے۔ میرے پاس ابھی وقت تھا اور اس میں دلچسپی تھی کہ مارکیٹ کیسے کام کرتی ہے۔ اور یہ 2018 سے گارٹنر کے مطابق پہلے سے ہی ایک مکمل مارکیٹ ہے۔ 2014-2016 سے اسے جدید تجزیات (BI میں جڑیں) کہا گیا، 2017 میں - ڈیٹا سائنس (مجھے نہیں معلوم کہ اس کا روسی میں ترجمہ کیسے کیا جائے)۔ چوک کے ارد گرد دکانداروں کی نقل و حرکت میں دلچسپی رکھنے والوں کے لیے، آپ کر سکتے ہیں۔ یہاں دیکھو اور میں 2020 مربع کے بارے میں بات کروں گا، خاص طور پر چونکہ وہاں 2019 کے بعد سے تبدیلیاں بہت کم ہیں: SAP باہر چلا گیا اور Altair نے Datawatch خرید لیا۔

یہ کوئی منظم تجزیہ یا میز نہیں ہے۔ ایک انفرادی نقطہ نظر، ایک جیو فزیکسٹ کے نقطہ نظر سے بھی۔ لیکن میں گارٹنر ایم کیو کو پڑھنے کے لیے ہمیشہ متجسس رہتا ہوں، وہ کچھ نکات کو بالکل ٹھیک ترتیب دیتے ہیں۔ تو یہاں وہ چیزیں ہیں جن پر میں نے تکنیکی، بازار کے لحاظ سے اور فلسفیانہ طور پر توجہ دی ہے۔

یہ ان لوگوں کے لیے نہیں ہے جو ML کے موضوع میں گہری دلچسپی رکھتے ہیں، بلکہ ان لوگوں کے لیے جو بازار میں عام طور پر کیا ہو رہا ہے اس میں دلچسپی رکھتے ہیں۔

DSML مارکیٹ خود منطقی طور پر BI اور Cloud AI ڈویلپر سروسز کے درمیان گھوںسلا کرتی ہے۔

گارٹنر ایم کیو 2020 کا جائزہ: مشین لرننگ اور مصنوعی ذہانت کے پلیٹ فارمز

پسندیدہ اقتباسات اور اصطلاحات پہلے:

  • "لیڈر بہترین انتخاب نہیں ہو سکتا" - مارکیٹ لیڈر ضروری نہیں کہ آپ کی ضرورت کے مطابق ہو۔ بہت ضروری! فعال کسٹمر کی کمی کے نتیجے میں، وہ ہمیشہ "مناسب" حل کی بجائے "بہترین" حل کی تلاش میں رہتے ہیں۔
  • "ماڈل آپریشنلائزیشن" - مختصراً MOPs۔ اور ہر ایک کو پگ کے ساتھ مشکل وقت ہے! - (ٹھنڈا پگ تھیم ماڈل کو کام کرتا ہے)۔
  • "نوٹ بک ماحول" ایک اہم تصور ہے جہاں کوڈ، تبصرے، ڈیٹا اور نتائج ایک ساتھ آتے ہیں۔ یہ بہت واضح، امید افزا ہے اور UI کوڈ کی مقدار کو نمایاں طور پر کم کر سکتا ہے۔
  • "اوپن سورس میں جڑیں" - اچھی طرح سے کہا - کھلے ذریعہ میں جڑ لیتا ہے.
  • "شہری ڈیٹا سائنسدان" - ایسے آسان دوست، ایسے لنگڑے، ماہرین نہیں، جنہیں بصری ماحول اور ہر طرح کی معاون چیزوں کی ضرورت ہوتی ہے۔ وہ کوڈ نہیں کریں گے۔
  • "جمہوریت" - اکثر اس کا مطلب ہوتا ہے "لوگوں کی ایک وسیع رینج کو دستیاب کرو۔" ہم استعمال کرنے والے خطرناک "ڈیٹا کو آزاد کریں" کے بجائے "ڈیٹا کو جمہوری بنائیں" کہہ سکتے ہیں۔ "ڈیموکریٹائز" ہمیشہ ایک لمبی دم ہوتی ہے اور تمام دکاندار اس کے پیچھے بھاگتے ہیں۔ علم کی شدت میں کمی - رسائی میں فائدہ!
  • "تحقیقاتی ڈیٹا کا تجزیہ - EDA" - ان دستیاب ذرائع پر غور کرنا۔ کچھ اعدادوشمار۔ تھوڑا سا تصور۔ کچھ ایسا جو ہر کوئی کسی نہ کسی حد تک کرتا ہے۔ پتہ نہیں اس کا کوئی نام تھا۔
  • " تولیدی صلاحیت" - تمام ماحولیاتی پیرامیٹرز، ان پٹ اور آؤٹ پٹس کا زیادہ سے زیادہ تحفظ تاکہ ایک بار مکمل ہونے کے بعد تجربہ دہرایا جا سکے۔ تجرباتی امتحانی ماحول کے لیے سب سے اہم اصطلاح!

تو:

الریری

ٹھنڈا انٹرفیس، بالکل ایک کھلونے کی طرح۔ اسکیل ایبلٹی، یقیناً، قدرے مشکل ہے۔ اسی مناسبت سے شہری برادری کے انجینئروں کے اردگرد چہچہاتے ہوئے کھیلتے ہیں۔ تجزیات آپ کے پاس ایک بوتل میں ہیں۔ مجھے سپیکٹرل ارتباطی ڈیٹا تجزیہ کے ایک پیچیدہ کی یاد دلائی کوسکاڈ، جو 90 کی دہائی میں پروگرام کیا گیا تھا۔

یناکونڈا

Python اور R ماہرین کے ارد گرد کمیونٹی۔ اس کے مطابق اوپن سورس بڑا ہے۔ پتہ چلا کہ میرے ساتھی اسے ہر وقت استعمال کرتے ہیں۔ لیکن میں نہیں جانتا تھا۔

ڈیٹا برکس

تین اوپن سورس پروجیکٹس پر مشتمل ہے - اسپارک ڈویلپرز نے 2013 سے بہت زیادہ رقم اکٹھی کی ہے۔ مجھے واقعی ویکی کا حوالہ دینا ہوگا:

ستمبر 2013 میں، ڈیٹابرکس نے اعلان کیا کہ اس نے اینڈریسن ہورووٹز سے $13.9 ملین اکٹھے کیے ہیں۔ کمپنی نے 33 میں 2014 ملین ڈالر، 60 میں 2016 ملین ڈالر، 140 میں 2017 ملین ڈالر، 250 (فروری) میں 2019 ملین ڈالر اور 400 (اکتوبر) میں 2019 ملین ڈالر اضافی اکٹھے کیے”!!!

کچھ عظیم لوگوں نے چنگاری کو کاٹ دیا۔ مجھے نہیں معلوم، معذرت!

اور منصوبے یہ ہیں:

  • ڈیلٹا جھیل - اسپارک پر ACID حال ہی میں جاری کیا گیا تھا (جس کا ہم نے Elasticsearch کے ساتھ خواب دیکھا تھا) - اسے ایک ڈیٹا بیس میں بدل دیتا ہے: سخت اسکیما، ACID، آڈیٹنگ، ورژن...
  • ایم ایل فلو - ماڈلز کی ٹریکنگ، پیکیجنگ، مینجمنٹ اور اسٹوریج۔
  • کوالاس - Spark پر پانڈاس ڈیٹا فریم API - پانڈاس - عام طور پر ٹیبلز اور ڈیٹا کے ساتھ کام کرنے کے لیے Python API۔

آپ اسپارک کو ان لوگوں کے لیے دیکھ سکتے ہیں جو نہیں جانتے یا بھول گئے ہیں: لنک. میں نے قدرے بورنگ لیکن تفصیلی مشاورتی woodpeckers کی مثالوں کے ساتھ ویڈیوز دیکھے: DataBricks for Data Science (لنک) اور ڈیٹا انجینئرنگ کے لیے (لنک).

مختصراً، ڈیٹابرکس اسپارک کو نکالتا ہے۔ جو کوئی بھی اسپارک کو کلاؤڈ میں عام طور پر استعمال کرنا چاہتا ہے وہ بغیر کسی ہچکچاہٹ کے DataBricks لے لیتا ہے، جیسا کہ ارادہ ہے 🙂 Spark یہاں اہم فرق کرنے والا ہے۔
میں نے سیکھا کہ اسپارک اسٹریمنگ اصلی جعلی ریئل ٹائم یا مائکرو بیچنگ نہیں ہے۔ اور اگر آپ کو حقیقی حقیقی وقت کی ضرورت ہے، تو یہ Apache STORM میں ہے۔ ہر کوئی یہ بھی کہتا اور لکھتا ہے کہ Spark MapReduce سے بہتر ہے۔ یہ نعرہ ہے۔

داتائیکو

ٹھنڈی اینڈ ٹو اینڈ بات۔ بہت سارے اشتہارات ہیں۔ مجھے سمجھ نہیں آتی کہ یہ Alteryx سے کیسے مختلف ہے؟

ڈیٹاروبوٹ

ڈیٹا کی تیاری کے لیے Paxata ایک الگ کمپنی ہے جسے ڈیٹا روبوٹس نے دسمبر 2019 میں خریدا تھا۔ ہم نے 20 MUSD اکٹھا کیا اور فروخت کیا۔ سب 7 سالوں میں۔

Paxata میں ڈیٹا کی تیاری، ایکسل میں نہیں - یہاں دیکھیں: لنک.
دو ڈیٹاسیٹس کے درمیان جوائن کرنے کے لیے خودکار تلاش اور تجاویز موجود ہیں۔ ایک زبردست چیز - ڈیٹا کو سمجھنے کے لیے، متنی معلومات پر اور بھی زیادہ زور دیا جائے گا (لنک).
ڈیٹا کیٹلاگ بیکار "لائیو" ڈیٹاسیٹس کا ایک بہترین کیٹلاگ ہے۔
یہ بھی دلچسپ ہے کہ Paxata میں ڈائریکٹریز کیسے بنتی ہیں (لنک).

"تجزیہ کار فرم کے مطابق اووممیں پیشرفت کے ذریعے سافٹ ویئر کو ممکن بنایا گیا ہے۔ پیش گوئی تجزیات, مشین لرننگ اور NoSQL ڈیٹا کیشنگ کا طریقہ کارہے [15] سافٹ ویئر استعمال کرتا ہے۔ معنوی ڈیٹا سیٹ میں ممکنہ ڈپلیکیٹس تلاش کرنے کے لیے ڈیٹا ٹیبل کے کالموں اور پیٹرن کی شناخت کے الگورتھم کے معنی کو سمجھنے کے لیے الگورتھم۔ہے [15]ہے [7] یہ انڈیکسنگ، ٹیکسٹ پیٹرن کی شناخت اور دیگر ٹیکنالوجیز کا بھی استعمال کرتا ہے جو روایتی طور پر سوشل میڈیا اور سرچ سافٹ ویئر میں پائی جاتی ہیں۔

ڈیٹا روبوٹ کی اہم مصنوعات ہے یہاں. ان کا نعرہ ماڈل سے انٹرپرائز ایپلی کیشن تک ہے! میں نے بحران کے سلسلے میں تیل کی صنعت کے لیے مشورہ پایا، لیکن یہ بہت ہی معمولی اور غیر دلچسپ تھا: لنک. میں نے ان کی ویڈیوز Mops یا MLops پر دیکھی (لنک)۔ یہ مختلف مصنوعات کے 6-7 حصول سے جمع اس طرح ایک Frankenstein ہے.

یقیناً، یہ واضح ہو جاتا ہے کہ ڈیٹا سائنسدانوں کی ایک بڑی ٹیم کے پاس ماڈلز کے ساتھ کام کرنے کے لیے ایسا ماحول ہونا ضروری ہے، ورنہ وہ ان میں سے بہت کچھ پیدا کریں گے اور کبھی کچھ بھی تعینات نہیں کریں گے۔ اور ہمارے تیل اور گیس کے اوپر کی حقیقت میں، اگر ہم صرف ایک کامیاب ماڈل بنا سکتے ہیں، تو یہ بہت بڑی پیش رفت ہوگی!

یہ عمل بذات خود ارضیات-جیو فزکس میں ڈیزائن سسٹم کے ساتھ کام کی بہت یاد دلانے والا تھا، مثال کے طور پر Petrel. ہر کوئی جو بہت سست نہیں ہے وہ ماڈل بناتا اور تبدیل کرتا ہے۔ ماڈل میں ڈیٹا اکٹھا کریں۔ پھر انہوں نے ایک حوالہ ماڈل بنایا اور اسے پروڈکشن میں بھیج دیا! ایک ارضیاتی ماڈل اور ایم ایل ماڈل کے درمیان، آپ کو بہت کچھ مشترک مل سکتا ہے۔

ڈامنو

کھلے پلیٹ فارم اور تعاون پر زور۔ کاروباری صارفین کو بلا معاوضہ داخلہ دیا جاتا ہے۔ ان کی ڈیٹا لیب شیئر پوائنٹ سے بہت ملتی جلتی ہے۔ (اور نام IBM کو سختی سے مارتا ہے)۔ تمام تجربات اصل ڈیٹاسیٹ سے منسلک ہیں۔ یہ کتنا مانوس ہے 🙂 جیسا کہ ہماری پریکٹس میں ہے - کچھ ڈیٹا کو ماڈل میں گھسیٹا گیا، پھر اسے صاف کر کے ماڈل میں ترتیب دیا گیا، اور یہ سب کچھ پہلے سے ہی ماڈل میں موجود ہے اور ماخذ ڈیٹا میں سرے نہیں مل سکتے۔

ڈومینو میں ٹھنڈا انفراسٹرکچر ورچوئلائزیشن ہے۔ میں نے ایک سیکنڈ میں ضرورت کے مطابق مشین کو اسمبل کیا اور گننے گیا۔ یہ کیسے کیا گیا فوری طور پر واضح نہیں ہے۔ ڈوکر ہر جگہ ہے۔ بہت ساری آزادی! تازہ ترین ورژن کے کسی بھی ورک اسپیس کو منسلک کیا جا سکتا ہے۔ تجربات کا متوازی آغاز۔ ٹریکنگ اور کامیاب لوگوں کا انتخاب۔

DataRobot کی طرح - نتائج کاروباری صارفین کے لیے ایپلی کیشنز کی شکل میں شائع کیے جاتے ہیں۔ خاص طور پر تحفے والے "اسٹیک ہولڈرز" کے لیے۔ اور ماڈلز کے اصل استعمال پر بھی نظر رکھی جاتی ہے۔ Pugs کے لئے سب کچھ!

میں پوری طرح سے نہیں سمجھتا ہوں کہ پیچیدہ ماڈل پیداوار میں کیسے ختم ہوتے ہیں۔ انہیں ڈیٹا فیڈ کرنے اور نتائج حاصل کرنے کے لیے کچھ قسم کا API فراہم کیا جاتا ہے۔

H2O

ڈرائیو لیس اے آئی سپروائزڈ ایم ایل کے لیے ایک بہت ہی کمپیکٹ اور بدیہی نظام ہے۔ ایک باکس میں سب کچھ۔ یہ بیک اینڈ کے بارے میں ابھی پوری طرح واضح نہیں ہے۔

ماڈل خود بخود REST سرور یا Java App میں پیک ہو جاتا ہے۔ یہ بہت اچھا خیال ہے۔ تشریح اور وضاحت کے لیے بہت کچھ کیا گیا ہے۔ ماڈل کے نتائج کی تشریح اور وضاحت (جو فطری طور پر قابل وضاحت نہیں ہونا چاہئے، بصورت دیگر ایک شخص اس کا حساب لگا سکتا ہے؟)
پہلی بار، غیر ساختہ ڈیٹا کے بارے میں کیس اسٹڈی اور ینیلپی. اعلی معیار کی تعمیراتی تصویر۔ اور عام طور پر مجھے تصاویر پسند آئی۔

ایک بڑا اوپن سورس H2O فریم ورک ہے جو مکمل طور پر واضح نہیں ہے (الگورتھمز/لائبریریوں کا ایک سیٹ؟) آپ کا اپنا بصری لیپ ٹاپ بغیر پروگرامنگ جیسے مشتری (لنک)۔ میں نے جاوا میں لپٹے پوجو اور موجو - H2O ماڈلز کے بارے میں بھی پڑھا۔ پہلا سیدھا ہے، دوسرا اصلاح کے ساتھ۔ H20 صرف وہی ہیں (!) جن کے لیے گارٹنر نے متن کے تجزیات اور NLP کو ان کی طاقت کے ساتھ ساتھ وضاحت کے حوالے سے ان کی کوششوں کو درج کیا ہے۔ یہ بہت اہم ہے!

اسی جگہ: ہارڈ ویئر اور بادلوں کے ساتھ انضمام کے میدان میں اعلی کارکردگی، اصلاح اور صنعت کا معیار۔

اور کمزوری منطقی ہے - Driverles AI ان کے اوپن سورس کے مقابلے میں کمزور اور تنگ ہے۔ Paxata کے مقابلے میں ڈیٹا کی تیاری لنگڑی ہے! اور وہ صنعتی ڈیٹا - سٹریم، گراف، جیو کو نظر انداز کرتے ہیں۔ ٹھیک ہے، سب کچھ صرف اچھا نہیں ہوسکتا.

KNIME

مجھے مرکزی صفحہ پر 6 انتہائی مخصوص، انتہائی دلچسپ کاروباری معاملات پسند آئے۔ مضبوط اوپن سورس۔

گارٹنر نے انہیں لیڈروں سے کم کرکے بصیرت والوں تک پہنچا دیا۔ کمزور طریقے سے پیسہ کمانا صارفین کے لیے ایک اچھی علامت ہے، اس لیے کہ لیڈر ہمیشہ بہترین انتخاب نہیں ہوتا ہے۔

کلیدی لفظ، جیسا کہ H2O میں ہے، بڑھا ہوا ہے، جس کا مطلب ہے غریب شہریوں کے ڈیٹا سائنسدانوں کی مدد کرنا۔ یہ پہلا موقع ہے جب کسی کو کسی جائزے میں کارکردگی پر تنقید کا نشانہ بنایا گیا ہو! دلچسپ؟ یعنی کمپیوٹنگ کی اتنی طاقت ہے کہ کارکردگی کوئی نظامی مسئلہ نہیں ہو سکتا؟ گارٹنر نے اس لفظ کے بارے میں "Augmented" علیحدہ مضمون، جس تک نہیں پہنچ سکا۔
اور KNIME جائزے میں پہلا غیر امریکی لگتا ہے! (اور ہمارے ڈیزائنرز نے واقعی اپنے لینڈنگ پیج کو پسند کیا۔ عجیب لوگ۔

میتھ ورکس

MatLab ایک پرانا اعزازی کامریڈ ہے جسے ہر کوئی جانتا ہے! زندگی کے تمام شعبوں اور حالات کے لیے ٹول بکس۔ کچھ بہت مختلف۔ درحقیقت، زندگی کی ہر چیز کے لیے بہت ساری اور بہت سی ریاضی!

سسٹم ڈیزائن کے لیے ایک Simulink ایڈ آن پروڈکٹ۔ میں نے ڈیجیٹل ٹوئنز کے لیے ٹول باکسز کھود لیے - مجھے اس کے بارے میں کچھ سمجھ نہیں آتا، لیکن یہاں بہت کچھ لکھا گیا ہے. کے لیے تیل کی صنعت. عام طور پر، یہ ریاضی اور انجینئرنگ کی گہرائیوں سے بنیادی طور پر مختلف مصنوعات ہے۔ مخصوص ریاضی کے ٹول کٹس کو منتخب کرنے کے لیے۔ گارٹنر کے مطابق، ان کے مسائل وہی ہیں جو سمارٹ انجینئرز کے ہیں - کوئی تعاون نہیں - ہر کوئی اپنے اپنے ماڈل میں گھومتا پھرتا ہے، کوئی جمہوریت نہیں، کوئی وضاحت نہیں ہے۔

ریپڈ مائنر

میں نے اچھے اوپن سورس کے تناظر میں (متلاب کے ساتھ) پہلے بھی بہت کچھ سنا اور سنا ہے۔ میں نے معمول کے مطابق ٹربو پریپ میں تھوڑا سا کھود لیا۔ میں اس میں دلچسپی رکھتا ہوں کہ گندے ڈیٹا سے صاف ڈیٹا کیسے حاصل کیا جائے۔

ایک بار پھر آپ دیکھ سکتے ہیں کہ فیچر ڈیمو پر 2018 کے مارکیٹنگ مواد اور خوفناک انگریزی بولنے والے لوگوں کی بنیاد پر لوگ اچھے ہیں۔

اور 2001 سے ڈورٹمنڈ کے لوگ مضبوط جرمن پس منظر کے ساتھ)

گارٹنر ایم کیو 2020 کا جائزہ: مشین لرننگ اور مصنوعی ذہانت کے پلیٹ فارمز
مجھے ابھی تک سائٹ سے سمجھ نہیں آئی کہ اوپن سورس میں بالکل کیا دستیاب ہے - آپ کو گہرائی میں کھودنے کی ضرورت ہے۔ تعیناتی اور آٹو ایم ایل تصورات کے بارے میں اچھی ویڈیوز۔

RapidMiner سرور پسدید کے بارے میں بھی کچھ خاص نہیں ہے۔ یہ شاید کمپیکٹ ہو گا اور پریمیم آؤٹ آف دی باکس پر اچھی طرح کام کرے گا۔ یہ ڈوکر میں پیک کیا گیا ہے۔ صرف RapidMiner سرور پر مشترکہ ماحول۔ اور پھر Radoop ہے، Hadoop سے ڈیٹا، سٹوڈیو ورک فلو میں Spark سے نظموں کی گنتی۔

جیسا کہ توقع کی گئی تھی، نوجوان گرم فروش "دھاری دار لاٹھیوں کے بیچنے والے" نے انہیں نیچے منتقل کر دیا۔ گارٹنر، تاہم، انٹرپرائز کی جگہ میں ان کی مستقبل کی کامیابی کی پیش گوئی کرتا ہے۔ آپ وہاں پیسے جمع کر سکتے ہیں۔ جرمن جانتے ہیں کہ یہ کیسے کرنا ہے، مقدس:) SAP کا ذکر نہ کریں!!!

وہ شہریوں کے لیے بہت کچھ کرتے ہیں! لیکن صفحہ سے آپ دیکھ سکتے ہیں کہ گارٹنر کا کہنا ہے کہ وہ سیلز کی جدت کے ساتھ جدوجہد کر رہے ہیں اور کوریج کی وسعت کے لیے نہیں بلکہ منافع کے لیے لڑ رہے ہیں۔

رہا۔ SAS и ٹبکو میرے لیے عام BI وینڈرز... اور دونوں ہی سب سے اوپر ہیں، جو میرے اس اعتماد کی تصدیق کرتا ہے کہ نارمل ڈیٹا سائنس منطقی طور پر بڑھ رہی ہے
BI سے، اور بادلوں اور Hadoop انفراسٹرکچر سے نہیں۔ کاروبار سے، یعنی، اور آئی ٹی سے نہیں۔ جیسا کہ Gazpromneft میں مثال کے طور پر: لنک,ایک بالغ DSML ماحول مضبوط BI طریقوں سے پروان چڑھتا ہے۔ لیکن ہوسکتا ہے کہ یہ MDM اور دوسری چیزوں کی طرف مضحکہ خیز اور متعصب ہے، کون جانتا ہے۔

SAS

کہنے کو بہت کچھ نہیں ہے۔ صرف واضح چیزیں۔

TIBCO

حکمت عملی کو ایک صفحہ لمبے Wiki صفحہ پر خریداری کی فہرست میں پڑھا جاتا ہے۔ جی ہاں، لمبی کہانی، لیکن 28!!! چارلس میں نے BI Spotfire (2007) واپس اپنے ٹیکنو یوتھ میں خریدا تھا۔ اور Jaspersoft (2014) سے بھی رپورٹنگ، پھر زیادہ سے زیادہ تین پیش گوئی کرنے والے تجزیاتی وینڈرز Insightful (S-plus) (2008)، Statistica (2017) اور Alpine Data (2017)، ایونٹ پروسیسنگ اور اسٹریمنگ اسٹریمبیس سسٹم (2013)، MDM آرکسٹرا نیٹ ورکس (2018) اور اسنیپی ڈیٹا (2019) ان میموری پلیٹ فارم۔

ہیلو فرینکی!

گارٹنر ایم کیو 2020 کا جائزہ: مشین لرننگ اور مصنوعی ذہانت کے پلیٹ فارمز

ماخذ: www.habr.com

نیا تبصرہ شامل کریں