Gartner MQ 2020 тойм: Машины сургалт ба хиймэл оюун ухааны платформууд

Би яагаад үүнийг уншсаныг тайлбарлах боломжгүй юм. Би зүгээр л зав гаргаж, зах зээл хэрхэн ажилладагийг сонирхож байсан. Энэ бол 2018 оноос хойш Gartner-ийн мэдээлснээр аль хэдийн бүрэн эрхт зах зээл юм. 2014-2016 онуудад үүнийг дэвшилтэт аналитик (үндэс нь BI), 2017 онд - Өгөгдлийн шинжлэх ухаан (би үүнийг орос хэл рүү хэрхэн орчуулахаа мэдэхгүй байна). Талбайн эргэн тойрон дахь худалдаачдын хөдөлгөөнийг сонирхож буй хүмүүст та боломжтой энд хар. Би 2020 оны талбайн талаар ярих болно, ялангуяа 2019 оноос хойш тэнд гарсан өөрчлөлтүүд маш бага байгаа тул: SAP нүүж, Altair Datawatch-ийг худалдаж авсан.

Энэ бол системчилсэн дүн шинжилгээ, хүснэгт биш юм. Хувь хүний ​​үзэл бодол, бас геофизикчийн үүднээс. Гэхдээ би Gartner MQ-г уншихыг үргэлж сонирхож байдаг, тэд зарим зүйлийг төгс томъёолдог. Тиймээс би техникийн хувьд ч, зах зээлийн хувьд ч, философийн хувьд ч анхаарлаа хандуулсан зүйлүүдийг энд оруулав.

Энэ нь ML-ийн сэдвийг гүнзгийрүүлсэн хүмүүст биш, харин зах зээл дээр юу болж байгааг сонирхож буй хүмүүст зориулагдсан юм.

DSML зах зээл нь өөрөө логикийн хувьд BI болон Cloud AI хөгжүүлэгчийн үйлчилгээнүүдийн хооронд байрладаг.

Gartner MQ 2020 тойм: Машины сургалт ба хиймэл оюун ухааны платформууд

Эхлээд дуртай ишлэл, нэр томъёо:

  • "Удирдагч бол хамгийн сайн сонголт биш байж магадгүй" - Зах зээлийн тэргүүлэгч гэдэг нь танд хэрэгтэй зүйл биш юм. Маш яаралтай! Үйлчлүүлэгчгүйн улмаас тэд "тохирох" гэхээсээ илүү "хамгийн сайн" шийдлийг хайж байдаг.
  • "Загвар ашиглалт" - MOPs гэж товчилсон. Мөн хүн бүр пагуудтай хэцүү байдаг! – (cool pug сэдэв нь загварыг ажил хэрэг болгодог).
  • "Тэмдэглэлийн дэвтэр орчин" код, тайлбар, өгөгдөл, үр дүнг нэгтгэдэг чухал ойлголт юм. Энэ нь маш тодорхой, ирээдүйтэй бөгөөд UI кодын хэмжээг мэдэгдэхүйц бууруулж чадна.
  • "OpenSource дээр үндэслэсэн" - сайн хэлсэн - нээлттэй эх сурвалж дээр үндэслэдэг.
  • "Иргэдийн мэдээлэл судлаачид" - ийм амархан нөхдүүд, ийм ламмерууд, мэргэжилтнүүд биш, тэдэнд харааны орчин, бүх төрлийн туслах зүйл хэрэгтэй. Тэд кодлохгүй.
  • "Ардчилал" - "Өргөн хүрээний хүмүүст хүртээмжтэй болгох" гэсэн утгатай. Бидний хэрэглэж байсан аюултай "өгөгдлөө чөлөөлөх" гэхийн оронд "өгөгдлийг ардчилал" гэж хэлж болно. “Ардчилал” гэдэг бол дандаа урт сүүл бөгөөд бүх худалдаачид түүний араас гүйдэг. Мэдлэгийн эрчмийг алдах - хүртээмжтэй байдлыг нэмэгдүүлэх!
  • "Судалгааны мэдээллийн шинжилгээ - EDA" - эдгээр боломжтой арга хэрэгслийг авч үзэх. Зарим статистик. Бага зэрэг дүрслэл. Хүн бүр нэг хэмжээгээр хийдэг зүйл. Ийм нэр байдаг гэдгийг мэдсэнгүй
  • "Дахин үйлдвэрлэх чадвар" - хүрээлэн буй орчны бүх үзүүлэлт, оролт, гаралтыг дээд зэргээр хадгалах, ингэснээр туршилтыг нэг удаа давтах боломжтой болно. Туршилтын туршилтын орчны хамгийн чухал нэр томъёо!

Тиймээс:

Alteryx

Тоглоом шиг гайхалтай интерфэйс. Өргөтгөх чадвар нь мэдээжийн хэрэг бага зэрэг хэцүү байдаг. Үүний дагуу tchotchkes тоглох нь ижил эргэн тойронд инженерүүдийн Иргэдийн нийгэмлэг. Аналитик бол нэг саванд таных. Спектр-корреляцийн өгөгдлийн шинжилгээний цогцыг надад санууллаа Коскад, 90-ээд онд програмчлагдсан.

Анасбара

Python болон R мэргэжилтнүүдийн эргэн тойрон дахь нийгэмлэг. Нээлттэй эх үүсвэр нь том хэмжээтэй. Хамт ажиллагсад маань байнга хэрэглэдэг нь тогтоогдсон. Гэхдээ би мэдээгүй.

DataBricks

Гурван нээлттэй эхийн төслөөс бүрддэг - Spark хөгжүүлэгчид 2013 оноос хойш асар их мөнгө цуглуулсан. Би викигээс иш татах хэрэгтэй байна:

“2013 оны есдүгээр сард Databricks Андреессен Хоровицоос 13.9 сая доллар босгосноо зарлав. Тус компани 33 онд 2014 сая доллар, 60 онд 2016 сая доллар, 140 онд 2017 сая доллар, 250 онд (2019-р сард) 400 сая доллар, 2019 онд (XNUMX-р сард) XNUMX сая доллар нэмж босгосон”!!!

Зарим агуу хүмүүс Spark-ийг таслав. Би мэдэхгүй, уучлаарай!

Мөн төслүүд нь:

  • Дельта нуур - ACID on Spark саяхан гарсан (бидний Elasticsearch-тэй мөрөөдөж байсан зүйл) - үүнийг мэдээллийн сан болгон хувиргадаг: хатуу схем, ACID, аудит, хувилбарууд ...
  • ML урсгал - загваруудыг хянах, савлах, удирдах, хадгалах.
  • Коалас - Spark дээрх Pandas DataFrame API - Pandas - Ерөнхийдөө хүснэгт болон өгөгдөлтэй ажиллахад зориулсан Python API.

Мэдэхгүй эсвэл мартсан хүмүүст зориулж Spark-ийг үзэж болно: ссылка. Би бага зэрэг уйтгартай боловч нарийвчилсан зөвлөгөө өгдөг тоншуулуудын жишээ бүхий видеог үзсэн: DataBricks for Data Science (ссылка) ба мэдээллийн инженерчлэлийн хувьд (ссылка).

Товчхондоо Databricks нь Spark-ыг гаргаж авдаг. Spark-ийг үүлэн дээр хэвийн ашиглахыг хүссэн хэн бүхэн DataBricks-ийг эргэлзэлгүйгээр зориулалтын дагуу авдаг 🙂 Spark бол энд гол ялгагч юм.
Spark Streaming нь жинхэнэ хуурамч бодит цаг эсвэл микробатшин биш гэдгийг би мэдсэн. Хэрэв танд бодит бодит цаг хэрэгтэй бол энэ нь Apache STORM-д байна. Мөн Spark MapReduce-ээс дээр гэж бүгд хэлж, бичдэг. Энэ бол уриа лоозон юм.

DATAIKU

Эцэс төгсгөлгүй сайхан зүйл. Зар сурталчилгаа их байна. Энэ нь Alteryx-ээс юугаараа ялгаатай болохыг би ойлгохгүй байна уу?

DataRobot програм

Өгөгдөл бэлтгэхэд зориулсан Paxata нь 2019 оны 20-р сард Data Robots-ээс худалдаж авсан тусдаа компани юм. Бид 7 ам.доллар босгож зарсан. Бүгд XNUMX жилийн дотор.

Excel-д биш Paxata-д өгөгдөл бэлтгэх - эндээс үзнэ үү: ссылка.
Автомат хайлтууд болон хоёр өгөгдлийн багцын хооронд нэгдэх саналууд байдаг. Маш сайн зүйл - өгөгдлийг ойлгохын тулд текстэн мэдээлэлд илүү их ач холбогдол өгөх болно (ссылка).
Өгөгдлийн каталог нь ашиггүй "амьд" мэдээллийн багцуудын гайхалтай каталог юм.
Paxata-д лавлахууд хэрхэн үүсдэг нь бас сонирхолтой юм (ссылка).

“Аналист фирмийн мэдээлснээр Ovum, програм хангамж нь дэвшилтүүдээр боломжтой болсон урьдчилан таамаглах аналитик, машин суралцах болон NoSQL өгөгдлийг кэшлэх арга зүй.[15] Програм хангамж ашигладаг семантик өгөгдлийн хүснэгтийн баганын утгыг ойлгох алгоритмууд болон өгөгдлийн багц дахь боломжит давхардлыг олох загвар таних алгоритмууд.[15][7] Энэ нь индексжүүлэх, текстийн хэв маягийг таних болон нийгмийн сүлжээ, хайлтын программ хангамжид байдаг уламжлалт технологийг ашигладаг."

Data Robot-ийн гол бүтээгдэхүүн нь энд. Тэдний уриа нь Загвараас Enterprise Application хүртэл! Хямралтай холбогдуулан газрын тосны салбарт зөвлөгөө өгөхийг би олж мэдсэн боловч энэ нь маш улиг болсон бөгөөд сонирхолгүй байсан: ссылка. Би тэдний видеог Mops эсвэл MLops дээр үзсэн (ссылка). Энэ бол янз бүрийн бүтээгдэхүүний 6-7 худалдан авалтаас угсарсан ийм Франкенштейн юм.

Мэдээжийн хэрэг, өгөгдөл судлаачдын том баг нь загвартай ажиллах ийм орчинтой байх ёстой, эс тэгвээс тэд маш ихийг үйлдвэрлэж, хэзээ ч юу ч байрлуулахгүй байх нь тодорхой болж байна. Манай газрын тос, байгалийн хийн дээд урсгалын бодит байдалд, хэрэв бид нэг амжилттай загварыг бий болгож чадвал энэ нь маш том дэвшил байх болно!

Энэ үйл явц нь жишээлбэл, геологи-геофизикийн дизайны системтэй ажиллах ажлыг маш их санагдуулдаг Амьтан. Залхуу биш хүн бүр загвар өмсөж, өөрчилдөг. Загварт өгөгдөл цуглуулах. Дараа нь тэд жишиг загвар хийж, үйлдвэрлэлд явуулсан! Геологийн загвар ба ML загвар хоёрын хооронд та нийтлэг зүйлийг олж чадна.

Доминик

Нээлттэй платформ, хамтын ажиллагааг чухалчилдаг. Бизнесийн хэрэглэгчдийг үнэ төлбөргүй оруулдаг. Тэдний Data Lab нь sharepoint-тэй тун төстэй. (Мөн энэ нэр нь IBM-д хүчтэй нийцдэг). Бүх туршилтууд нь анхны мэдээллийн багцтай холбогддог. Энэ нь хэр танил юм бэ :) Манай практикт байдаг шиг - зарим өгөгдлийг загварт чирж, дараа нь цэвэрлэж, загварт оруулсан бөгөөд энэ бүхэн загварт амьдардаг бөгөөд төгсгөлийг эх сурвалжаас олж чадахгүй байна. .

Domino нь гайхалтай дэд бүтцийн виртуалчлалтай. Би машиныг нэг секундын дотор шаардлагатай хэдэн цөмийг угсарч, тоолохоор явлаа. Үүнийг хэрхэн хийсэн нь тодорхойгүй байна. Докер хаа сайгүй байдаг. Маш их эрх чөлөө! Хамгийн сүүлийн хувилбаруудын аль ч ажлын талбарыг холбож болно. Туршилтыг зэрэгцээ эхлүүлэх. Амжилттай хүмүүсийг хянах, сонгох.

DataRobot-тэй адил үр дүн нь бизнесийн хэрэглэгчдэд зориулж програм хэлбэрээр нийтлэгддэг. Ялангуяа авьяаслаг "оролцогч талуудад" зориулав. Мөн загваруудын бодит хэрэглээг хянадаг. Pugs-д зориулсан бүх зүйл!

Нарийн төвөгтэй загварууд хэрхэн үйлдвэрлэгдэж байгааг би сайн ойлгохгүй байна. Тэдгээрийг өгөгдөлд оруулах, үр дүнд хүрэхийн тулд зарим төрлийн API-г өгдөг.

H2O

Driveless AI нь Supervised ML-д зориулсан маш авсаархан, ойлгомжтой систем юм. Бүх зүйл нэг хайрцагт. Энэ нь арын хэсгийн талаар шууд тодорхойгүй байна.

Загвар нь REST сервер эсвэл Java програмд ​​автоматаар багцлагдсан. Энэ бол гайхалтай санаа юм. Тайлбарлах, тайлбарлахын тулд маш их зүйл хийсэн. Загварын үр дүнгийн тайлбар, тайлбар (Угаасаа юуг тайлбарлах ёсгүй, эс тэгвээс хүн үүнийг тооцоолж чадах уу?).
Анх удаа бүтэцгүй өгөгдлийн талаарх кейс судалгаа болон NLP. Өндөр чанартай архитектурын зураг. Тэгээд ерөнхийдөө зургууд нь надад таалагдсан.

Том хэмжээний нээлттэй эхийн H2O хүрээ байдаг бөгөөд энэ нь бүрэн тодорхой бус байна (алгоритм/номын сангийн багц?). Бархасбадь шиг програмчлалгүй өөрийн харааны зөөврийн компьютер (ссылка). Би бас Java-д ороосон Pojo болон Mojo - H2O загваруудын талаар уншсан. Эхнийх нь энгийн, хоёр дахь нь оновчлолтой. H20 бол Gartner-аас текст аналитик болон NLP-ийг давуу тал, тайлбарлах чадварын талаархи хүчин чармайлтаа жагсаасан цорын ганц (!) юм. Энэ нь маш чухал юм!

Үүнтэй ижил газар: техник хангамж, үүлтэй нэгтгэх чиглэлээр өндөр гүйцэтгэл, оновчлол, салбарын стандарт.

Мөн сул тал нь логик юм - Driverles AI нь нээлттэй эх сурвалжтай харьцуулахад сул, нарийн юм. Мэдээлэл бэлтгэх нь Paxata-тай харьцуулахад доголон юм! Мөн тэд үйлдвэрлэлийн өгөгдлийг үл тоомсорлодог - урсгал, график, гео. За, бүх зүйл зүгээр л сайхан байж болохгүй.

KNIME

Үндсэн хуудсан дээрх маш тодорхой, маш сонирхолтой бизнесийн 6 тохиолдол надад таалагдсан. Хүчтэй нээлттэй эх сурвалж.

Гартнер тэднийг удирдагчаас алсын хараатай болгон бууруулсан. Удирдагч үргэлж хамгийн сайн сонголт байдаггүй тул муу мөнгө олох нь хэрэглэгчдийн хувьд сайн шинж юм.

Түлхүүр үг нь H2O-ийн нэгэн адил нэмэгдсэн бөгөөд энэ нь ядуу иргэдийн мэдээлэл судлаачдад туслах гэсэн үг юм. Энэ нь хэн нэгнийг шүүмжийн гүйцэтгэлд шүүмжлүүлсэн анхны тохиолдол юм! Сонирхолтой юу? Өөрөөр хэлбэл, гүйцэтгэл нь системийн асуудал байж болохгүй маш их тооцоолох хүчин чадалтай юу? Gartner энэ үгийн талаар "Augmented" тусдаа зүйл, хүрэх боломжгүй байсан.
Мөн KNIME бол энэхүү тойм дахь анхны америк бус хүн юм шиг санагдаж байна! (Мөн манай дизайнеруудад тэдний буух хуудас үнэхээр таалагдсан. Хачирхалтай хүмүүс.

MathWorks

MatLab бол хүн бүрийн мэддэг эртний хүндэт нөхөр юм! Амьдралын бүх талбар, нөхцөл байдалд зориулсан хэрэгслийн хайрцаг. Маш өөр зүйл. Үнэн хэрэгтээ амьдралын бүх зүйлд маш их, маш олон тооны математик байдаг!

Системийн дизайн хийхэд зориулсан Simulink нэмэлт бүтээгдэхүүн. Би Дижитал ихрүүдэд зориулсан багажны хайрцгийг ухсан - Би энэ талаар юу ч ойлгохгүй байна, гэхдээ энд маш их бичсэн. Учир нь газрын тосны үйлдвэр. Ерөнхийдөө энэ бол математик, инженерчлэлийн гүнээс тэс өөр бүтээгдэхүүн юм. Математикийн тусгай хэрэгслийг сонгох. Гартнерын хэлснээр тэдний асуудал нь ухаалаг инженерүүдийнхтэй адил байдаг - ямар ч хамтын ажиллагаа байхгүй - хүн бүр өөр өөрийн загвараар эргэлддэг, ардчилал, тайлбарлах боломжгүй байдаг.

RapidMiner

Би сайн нээлттэй эх сурвалжийн хүрээнд өмнө нь (Matlab-тай хамт) маш их уулзаж, сонсож байсан. Би ердийнхөөрөө TurboPrep-ийг бага зэрэг ухаж үзсэн. Би бохир өгөгдлөөс хэрхэн цэвэр мэдээлэл авах талаар сонирхож байна.

2018 оны маркетингийн материал, аймшигт англиар ярьдаг хүмүүс дээр үндэслэн онцлох үзүүлбэр дээр хүмүүс сайн байгааг та дахин харж болно.

Мөн 2001 оноос хойш Дортмундаас ирсэн хүчирхэг Герман гаралтай хүмүүс)

Gartner MQ 2020 тойм: Машины сургалт ба хиймэл оюун ухааны платформууд
Би сайтаас нээлттэй эх сурвалж дээр яг юу байгааг ойлгохгүй байна - та илүү гүнзгий ухах хэрэгтэй. Байршуулах болон AutoML ойлголтуудын тухай сайн видеонууд.

RapidMiner серверийн арын хэсэгт онцгой зүйл байхгүй. Энэ нь авсаархан байж магадгүй бөгөөд дээд зэргийн чанартайгаар сайн ажиллах болно. Энэ нь Docker-д савлагдсан байдаг. Зөвхөн RapidMiner сервер дээр хуваалцсан орчин. Дараа нь Radoop, Hadoop-ын өгөгдөл, Studio ажлын урсгал дахь Spark-ийн шүлгийг тоолдог.

Хүлээгдэж байсанчлан залуу халуун худалдагч "судалтай саваа худалдагчид" тэднийг доош нь хөдөлгөв. Гэсэн хэдий ч Gartner тэдний ирээдүйн амжилтыг Enterprise орон зайд урьдчилан таамаглаж байна. Та тэндээс мөнгө босгож болно. Германчууд үүнийг яаж хийхийг мэддэг, ариун гэгээн :) SAP гэж битгий хэлээрэй!!!

Тэд иргэдийн төлөө их зүйл хийдэг! Гэхдээ Gartner борлуулалтын инновацитай тэмцэж байгаа бөгөөд хамрах хүрээг нь өргөжүүлэхийн төлөө бус харин ашиг олохын төлөө тэмцэж байгаа гэж энэ хуудаснаас харж болно.

Үлдсэн SAS и Тибко Миний хувьд ердийн BI борлуулагчид... Мөн хоёулаа хамгийн дээд талд байгаа нь ердийн DataScience логикийн хувьд өсч байна гэсэн миний итгэлийг баталж байна.
үүлэн болон Hadoop дэд бүтцээс биш BI-ээс. Бизнесээс, өөрөөр хэлбэл IT-ээс биш. Жишээлбэл, Газпромнефть шиг: ссылка, BI-ийн хүчтэй дадлагаас боловсорсон DSML орчин бий болдог. Гэхдээ магадгүй энэ нь МДМ болон бусад зүйлд хандах хандлагатай байж магадгүй юм, хэн мэдлээ.

SAS

Нэг их хэлэх юм алга. Зөвхөн тодорхой зүйлүүд.

ТИБКО

Стратегийг нэг хуудасны Wiki хуудсан дээрх худалдааны жагсаалтаас уншина. Тиймээ, урт түүх, гэхдээ 28!!! Чарльз. Би залуу насандаа BI Spotfire (2007)-г худалдаж авсан. Мөн Jaspersoft (2014), дараа нь Insightful (S-plus) (2008), Statistica (2017) болон Alpine Data (2017), үйл явдлыг боловсруулах, цацах Streambase System (2013), MDM Orchestra зэрэг гурван таамаглах аналитик үйлдвэрлэгчээс мэдээлэв. Networks (2018) болон Snappy Data (2019) санах ойн платформ.

Сайн уу Фрэнки!

Gartner MQ 2020 тойм: Машины сургалт ба хиймэл оюун ухааны платформууд

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх