Муну эмне үчүн окуганымды түшүндүрүү мүмкүн эмес. Болгону убактым болуп, базардын кандай иштегенине кызыктым. Бул 2018-жылдан бери Gartner боюнча толук кандуу рынок болуп саналат. 2014-2016-жылдары ал өркүндөтүлгөн аналитика (BI'дагы тамырлар) деп аталды, 2017-жылы - Data Science (мен муну орус тилине кантип которууну билбейм). Аянттын айланасындагы сатуучулардын кыймылына кызыккандар үчүн кара. Мен 2020-жылдын аянты жөнүндө сөз кылам, айрыкча 2019-жылдан бери ал жердеги өзгөрүүлөр минималдуу болгондуктан: SAP көчүп кетип, Altair Datawatch сатып алды.
Бул системалуу анализ же таблица эмес. Жекече көз караш, ошондой эле геофизиктин көз карашынан. Бирок мен Gartner MQ-ну окууга ар дайым кызыгам, алар кээ бир ойлорду эң сонун формулировкалайт. Ошентип, мен техникалык жактан да, рыноктук жактан да, философиялык жактан да көңүл бурган нерселерге токтолдум.
Бул ML темасын терең изилдеген адамдар үчүн эмес, жалпысынан рынокто эмне болуп жатканына кызыккан адамдар үчүн.
DSML рыногу логикалык жактан BI жана Cloud AI иштеп чыгуучу кызматтарынын ортосунда жайгашкан.

Биринчи сүйүктүү цитаталар жана терминдер:
- "Лидер эң жакшы тандоо болбошу мүмкүн" — Базардын лидери сөзсүз эле сизге керектүү нерсе эмес. Абдан срочно! Функционалдуу кардар жок болгондуктан, алар ар дайым "ылайлуу" эмес, "эң жакшы" чечимди издешет.
- "Моделди иштетүү" - MOP деп кыскартылган. Ал эми ар бир адам погов менен кыйынга турат! – (салкын пуг темасы моделдин иштешин камсыздайт).
- "Блокнот чөйрөсү" код, комментарийлер, маалыматтар жана натыйжалар чогулган маанилүү түшүнүк. Бул абдан түшүнүктүү, келечектүү жана UI кодунун көлөмүн бир топ кыскарта алат.
- "OpenSource'до түптөлгөн" - жакшы айтылган - ачык булактан тамыр алат.
- "Жарандардын маалымат таануучулары" - визуалдык чөйрөгө жана ар кандай жардамчы нерселерге муктаж болгон эксперттер эмес, ушундай жеңил жигиттер, лаймерлер. Алар код бербейт.
- "Демократия" - көбүнчө "адамдардын кеңири чөйрөсүнө жеткиликтүү кылуу" дегенди билдирет. Биз мурда колдонгон коркунучтуу "маалыматтарды бошотуу" дегендин ордуна "маалыматтарды демократиялаштыруу" деп айта алабыз. "Демократиялаштыруу" дайыма узун куйрук жана бардык сатуучулар анын артынан чуркашат. Билимдин интенсивдүүлүгүн жоготуңуз - жеткиликтүүлүккө ээ болуңуз!
- "Изилдөөчү маалыматтарды талдоо - EDA" — бул колдо болгон каражаттарды кароо. Кээ бир статистика. Бир аз визуализация. Ар бир адам тигил же бул даражада жасай турган нерсе. Мунун аты бар экенин билген эмесмин
- "Кайра жаралуу" — эксперимент бир жолу кайталанышы үчүн айлана-чөйрөнүн бардык параметрлерин, кириш жана чыгашаларын максималдуу сактоо. Эксперименталдык сыноо чөйрөсү үчүн эң маанилүү термин!
Ошондуктан:
Alteryx
Оюнчук сыяктуу сонун интерфейс. Масштабтоо, албетте, бир аз кыйын. Ошого ылайык, tchotchkes менен бирдей айланасында инженерлердин Жаран коомчулугу ойнойт. Аналитика бир бөтөлкөдө сиздики. спектрдик-корреляциялык маалыматтарды талдоо комплексин эске салды , 90-жылдары программаланган.
Анаконда
Python жана R эксперттеринин айланасындагы коомчулук. Ачык булак ошого жараша чоң. Аны кесиптештерим дайыма колдонушат экен. Бирок мен билген эмесмин.
DataBricks
Үч ачык булактуу долбоорлордон турат - Spark иштеп чыгуучулары 2013-жылдан бери абдан чоң акча чогултушту. Мен викиден цитата келтиришим керек:
«2013-жылдын сентябрында Databricks компаниясы Андрессен Хоровицтен 13.9 миллион доллар чогултканын жарыялаган. Компания 33-жылы кошумча 2014 миллион доллар, 60-жылы 2016 миллион доллар, 140-жылы 2017 миллион доллар, 250-жылы 2019 миллион доллар (февраль) жана 400-жылы (окт.) 2019 миллион доллар чогулткан”!!!
Кээ бир улуу адамдар Спаркты кесип салышты. Билбейм, кечир!
Ал эми долбоорлор болуп саналат:
- Delta Lake - ACID on Spark жакында жарыкка чыкты (биз Elasticsearch менен кыялданган нерсебиз) - аны маалымат базасына айлантат: катаал схема, ACID, аудит, версиялар...
- ML Flow — моделдерди көзөмөлдөө, таңгактоо, башкаруу жана сактоо.
- Коалалар - Spark боюнча Pandas DataFrame API - Pandas - Жалпысынан таблицалар жана маалыматтар менен иштөө үчүн Python API.
Билбеген же унутуп калгандар үчүн Sparkты карасаңыз болот: . Мен бир аз тажатма, бирок деталдуу кеңеш берүүчү тоңкулдоолордон мисалдар менен видеолорду көрдүм: DataBricks for Data Science () жана маалымат инженериясы үчүн ().
Кыскача айтканда, Databricks Sparkты чыгарат. Spark'ты булутта кадимкидей колдонгусу келген адам эч ойлонбостон DataBricks алат, 🙂 Spark бул жерде негизги айырмалоочу болуп саналат.
Мен Spark Streaming чыныгы жасалма реалдуу убакыт же микробаттинг эмес экенин билдим. Эгер сизге реалдуу реалдуу убакыт керек болсо, ал Apache STORM ичинде. Ар бир адам Spark MapReduceге караганда жакшыраак деп айтышат жана жазат. Бул ураан.
DATAIKU
Аябай сонун нерсе. Жарнамалар көп. Мен түшүнгөн жокмун, ал Alteryxтен эмнеси менен айырмаланат?
DataRobot
Маалыматтарды даярдоо үчүн Paxata 2019-жылы декабрда Data Robots тарабынан сатылып алынган өзүнчө компания. 20 миллион доллар чогултуп, саттык. Баары 7 жылда.
Маалыматтарды Excel эмес, Paxataда даярдоо - бул жерден караңыз: .
Автоматтык издөөлөр жана эки маалымат топтомунун ортосунда кошулуу үчүн сунуштар бар. Эң сонун нерсе - маалыматтарды түшүнүү үчүн, тексттик маалыматка көбүрөөк басым жасалат ().
Берилиштер каталогу – бул пайдасыз "тирүү" маалымат топтомдорунун эң сонун каталогу.
Паxaтада каталогдор кандайча түзүлөөрү да кызыктуу ().
"Аналитикалык фирманын айтымында , программалык камсыздоонун жетишкендиктери аркылуу мүмкүн болот , жана маалыматтарды кэштөө методологиясы. Программалык камсыздоо колдонот берилиштер таблицасынын мамычаларынын маанисин түшүнүү үчүн алгоритмдер жана берилиштер топтомундагы потенциалдуу кайталанмаларды табуу үчүн үлгү таануу алгоритмдери. Ал ошондой эле индекстөө, текст үлгүсүн таануу жана социалдык медиада жана издөө программаларында салттуу түрдө табылган башка технологияларды колдонот.
Data Robot негизги продукт болуп саналат . Алардын урааны моделден Enterprise Application! Мен кризиске байланыштуу мунай өнөр жайы үчүн консультация таптым, бирок бул абдан баналдык жана кызыксыз болду: . Мен алардын видеолорун Mops же MLops аркылуу көрдүм (). Бул ар кандай буюмдардын 6-7 сатып чогултулган мындай Frankenstein болуп саналат.
Албетте, маалымат илимпоздорунун чоң командасы моделдер менен иштөө үчүн ушундай чөйрөгө ээ болушу керек, антпесе алар көп чыгарышат жана эч качан эч нерсе жайылтышпайт. Ал эми биздин мунай менен газдын жогору жагындагы реалдуулукта, эгер биз бир ийгиликтүү моделди түзө алсак, бул чоң прогресс болмок!
Процесстин өзү, мисалы, геология-геофизикадагы долбоорлоо системалары менен иштөөнү абдан эске салды . Өтө жалкоо эмес ар бир адам моделдерди жасап, өзгөртөт. моделге маалыматтарды чогултуу. Андан кийин эталондук моделди жасап, өндүрүшкө жөнөтүштү! Айталы, геологиялык модель менен ML моделинин ортосунда сиз жалпы көп нерселерди таба аласыз.
домино
Ачык платформага жана кызматташууга басым жасоо. Бизнес колдонуучулар акысыз кабыл алынат. Алардын маалымат лабораториясы sharepointке абдан окшош. (Жана аты IBMге катуу тийет). Бардык эксперименттер баштапкы маалымат топтомуна шилтеме кылат. Бул канчалык тааныш :) Биздин практикадагыдай - кээ бир маалыматтар моделге сүйрөлгөн, андан кийин ал тазаланып, моделде иретке келтирилген жана мунун баары модельде жашайт жана учтары булактан табылбайт .
Domino сонун инфраструктураны виртуалдаштырууга ээ. Мен станокту бир секундда канча керек болсо, ошончо өзөк чогултуп, санап кирдим. Бул кандайча жасалганы дароо ачык-айкын эмес. Docker бардык жерде. Көп эркиндик! Акыркы версиялардын бардык иш мейкиндиктерин туташтырууга болот. Эксперименттерди параллелдүү ишке киргизүү. Ийгиликтерге көз салуу жана тандоо.
DataRobot сыяктуу - натыйжалар тиркемелер түрүндө бизнес колдонуучулар үчүн жарыяланат. Өзгөчө таланттуу "кызыкдар тараптар" үчүн. Ал эми моделдердин иш жүзүндө колдонулушу да көзөмөлдөнөт. Баардыгы Pugs үчүн!
Мен комплекстүү моделдер өндүрүштө кантип аяктаарын толук түшүнбөйм. Аларга маалыматтарды берүү жана натыйжаларды алуу үчүн кандайдыр бир API берилет.
H2O
Driveless AI - бул Supervised ML үчүн абдан компакттуу жана интуитивдик система. Баары бир кутуда. Бул backend жөнүндө дароо эле так эмес.
Модель автоматтык түрдө REST серверине же Java колдонмосуна топтолот. Бул сонун идея. Чечмелөө жана түшүндүрүү үчүн көп нерсе жасалды. Модельдин натыйжаларын интерпретациялоо жана түшүндүрүү (Эмне табиятынан түшүндүрүүгө болбошу керек, антпесе адам ошону эсептей алат?).
Биринчи жолу структураланбаган маалыматтар жөнүндө кейс изилдөө жана . Жогорку сапаттагы архитектуралык сүрөт. Анан жалпысынан сүрөттөр мага жакты.
Толугу менен так эмес чоң ачык булак H2O алкагы бар (алгоритмдердин/китепканалардын жыйындысы?). Юпитер сыяктуу программалоосуз өзүңүздүн визуалдык ноутбукуңуз (). Мен ошондой эле Java менен оролгон Pojo жана Mojo - H2O моделдери жөнүндө окудум. Биринчиси түз, экинчиси оптималдаштыруу менен. H20 жалгыз гана(!) Гартнер текст аналитикасын жана NLPди күчтүү жактары катары санап, ошондой эле түшүндүрмөлүүлүккө карата аракеттерин көрсөттү. Бул өтө маанилүү!
Ошол эле жерде: аппараттык жана булуттар менен интеграция чөйрөсүндө жогорку өндүрүмдүүлүк, оптималдаштыруу жана тармактык стандарт.
Ал эми алсыздыгы логикалык - Driverles AI алардын ачык булагына салыштырмалуу алсыз жана тар. Маалыматтарды даярдоо Paxataга салыштырмалуу аксак! Жана алар өнөр жай маалыматтарын этибарга алышпайт - агым, график, гео. Ооба, баары жөн эле жакшы болушу мүмкүн эмес.
KNIME
Мага башкы беттеги 6 абдан конкреттүү, абдан кызыктуу бизнес учурлары жакты. Күчтүү OpenSource.
Гартнер аларды лидерлерден көрөгөчкө чейин төмөндөткөн. Акчаны начар табуу колдонуучулар үчүн жакшы белги, анткени Лидер дайыма эле эң жакшы тандоо эмес.
Негизги сөз, H2O сыяктуу, көбөйдү, бул кедей жарандардын маалымат илимпоздоруна жардам берүү дегенди билдирет. Бул биринчи жолу сын-пикирде аткарган иши үчүн сынга кабылды! Кызыктуубу? Башкача айтканда, эсептөө күчү ушунчалык көп болгондуктан, аткаруу такыр системалык көйгөй боло албайт? Gartner бул сөз жөнүндө "Augmented" жетүү мүмкүн эмес.
Жана KNIME карап чыгууда биринчи америкалык эмес окшойт! (Ал эми биздин дизайнерлерге алардын десант баракчасы абдан жакты. Кызык адамдар.
MathWorks
MatLab баарына белгилүү эски ардактуу жолдош! Жашоонун жана кырдаалдын бардык тармактары үчүн куралдар кутучалары. Такыр башкача нерсе. Чынында, жашоодо бардык нерсе үчүн көп, көп жана көп математика!
Системаны долбоорлоо үчүн Simulink кошумча продукт. Мен Digital Twins үчүн куралдар кутучаларын казып көрдүм - мен бул жөнүндө эч нерсе түшүнбөйм, бирок көп жазылган. үчүн . Жалпысынан алганда, бул математика жана инженерия тереңдигинен түп-тамырынан бери айырмаланган продукт. Атайын математика куралдарын тандоо. Гартнердин айтымында, алардын көйгөйлөрү акылдуу инженерлердикиндей эле - эч кандай кызматташуу жок - ар ким өз моделинде, эч кандай демократияда, ачык-айкындуулукта айланат.
RapidMiner
Мен жакшы ачык булактын контекстинде мурун (Matlab менен бирге) көп жолукканмын жана укканмын. Мен адаттагыдай эле TurboPrepди бир аз каздым. Мени кир маалыматтардан таза маалыматтарды кантип алуу керектиги кызыктырат.
Дагы сиз 2018-жылдын маркетинг материалдарынын жана өзгөчөлүк демосунда англис тилинде сүйлөгөн коркунучтуу адамдардын негизинде жакшы экенин көрө аласыз.
Ал эми 2001-жылдан бери күчтүү немис тектүү Дортмунддуктар)

Мен дагы деле сайттан ачык булакта эмне бар экенин түшүнбөйм - сиз тереңирээк казышыңыз керек. Жайгаштыруу жана AutoML түшүнүктөрү жөнүндө жакшы видеолор.
RapidMiner Server серверинде да өзгөчө эч нерсе жок. Бул, балким, компакттуу жана кутудан тышкары премиумда жакшы иштейт. Ал Dockerде пакеттелген. RapidMiner серверинде гана бөлүшүлгөн чөйрө. Андан кийин Radoop, Hadup маалыматтары, Spark in Studio иш процессиндеги рифмаларды санайт.
Күтүлгөндөй эле, жаш кызуу сатуучулар «чаар таяк сатуучулар» аларды ылдый жылдырышты. Gartner, бирок Enterprise мейкиндигинде алардын келечектеги ийгилиги болжолдойт. Ошол жерден акча чогулта аласыз. Муну немецтер билет, ыйык-ыйык :) SAP деп айтпагыла!!!
Алар жарандар үчүн көп нерсе кылышат! Бирок барактан Gartner алар сатуу инновациялары менен күрөшүп жатканын жана камтуунун кеңдиги үчүн эмес, кирешелүүлүк үчүн күрөшүп жатканын айтканын көрүүгө болот.
калды SAS и Tibco мен үчүн типтүү BI сатуучулары... Жана экөө тең эң бийикте, бул кадимки DataScience логикалык жактан өсүп жатат деген ишенимимди тастыктайт
Булуттардан жана Hadoop инфраструктураларынан эмес, BIден. Бизнестен, башкача айтканда, IT эмес. Мисалы, Газпромнефтиндегидей: , жетилген DSML чөйрөсү күчтүү BI практикасынан келип чыгат. Бирок, балким, бул МДМга жана башка нерселерге карата бир жактуу, ким билет.
SAS
Айта турган көп нерсе жок. Ачык эле нерселер.
TIBCO
Стратегия бир бетке созулган Wiki баракчасындагы соода тизмесинде окулат. Ооба, узун окуя, бирок 28!!! Чарльз. BI Spotfire (2007) тасмасын техно-жаш кезимде сатып алгам. Жана ошондой эле Jaspersoft (2014), андан кийин үч прогноздук аналитика сатуучулары Insightful (S-plus) (2008), Statistica (2017) жана Alpine Data (2017), окуяларды иштеп чыгуу жана Streambase системасы (2013), MDM оркестринин отчеттору Networks (2018) жана Snappy Data (2019) эстутумдагы платформа.
Салам Фрэнки!

Source: www.habr.com
