Ne mimkûn e ku ez sedema xwendina vê yekê vebêjim. Min tenê wext hebû û bala min dikişand ka bazar çawa dixebite. Û ev jixwe li gorî Gartner ji 2018-an vir ve bazarek tam e. Ji 2014-2016-an jê re analîtîkên pêşkeftî (root di BI de), di sala 2017-an de - Zanistiya Daneyê (ez nizanim meriv vê yekê bi rûsî wergerîne) tê gotin. Ji bo kesên ku bi tevgerên firoşkaran li dora meydanê re eleqedar dibin, hûn dikarin dîtinî. Û ez ê qala qada 2020-an bikim, nemaze ji ber ku guheztinên li wir ji sala 2019-an vir ve hindik in: SAP derket û Altair Datawatch kirî.
Ev ne analîzek sîstematîk an tabloyek e. Nêrîneke takekesî, di heman demê de ji nêrîna jeofîzîknasekî. Lê ez her gav meraq dikim ku Gartner MQ bixwînim, ew hin xalan bêkêmasî formule dikin. Ji ber vê yekê li vir tiştên ku min hem ji hêla teknîkî, hem ji hêla bazarê ve, hem jî ji hêla felsefî ve bala xwe dayê.
Ev ne ji bo kesên ku di mijara ML de kûr in, lê ji bo kesên ku bala xwe didin tiştên ku bi gelemperî li sûkê diqewimin e.
Bazara DSML bixwe bi mentiqî di navbera karûbarên pêşdebirên BI û Cloud AI-ê de hêl dibe.

Pêşî gotin û şertên bijare:
- "Dibe ku rêberek ne bijareya herî baş be" - Rêberê bazarê ne hewce ye ku hûn hewce ne. Pir lezgîn! Wekî encamek nebûna xerîdarek fonksiyonel, ew her gav li çareseriya "baş" digerin, ne ya "guncaw".
- "Operasyona Modelê" - bi kurtî wek MOPs. Û her kes bi pugs re zehmet e! - (mijara pug a xweş modelê dixebitîne).
- "Hêwirdora notebook" têgehek girîng e ku kod, şîrove, dane û encam li hev dicivin. Ev pir zelal, sozdar e û dikare bi girîngî mîqdara koda UI kêm bike.
- "Di OpenSource de Rooted" - baş got - di çavkaniya vekirî de root digire.
- "Zanyarên Daneyên Hevwelatî" - hevalên wusa hêsan, lamerên wusa, ne pispor, ku hewceyê hawîrdorek dîtbar û her cûre tiştên alîkar in. Ew ê kod nakin.
- "Dimûqratî" - bi gelemperî ji bo wateya "berdestkirina ji cûrbecûr kesan re" tê bikar anîn. Em dikarin li şûna xetereya xeternak "daneyên azad bikin" ku me berê bikar dianîn, bibêjin "daneyan demokratîk bikin". "Demokrasî" her dem dûvikek dirêj e û hemî firoşkar li pey wê dimeşin. Di ziravbûna zanînê de winda bikin - di gihîştinê de qezenc bikin!
- "Analîzkirina Daneyên Lêgerînê - EDA" - Berçavkirina van awayên berdest. Hin statîstîk. Dîmenek piçûk. Tiştek ku her kes bi dereceyek din dike. Nizanibû ku navekî vê yekê heye
- "Ji nû ve hilberandin" - Parastina herî zêde ya hemî pîvanên hawîrdorê, ketin û derketinê da ku ceribandin carekê were dubare kirin. Ji bo jîngehek ceribandina ceribandinê peyva herî girîng!
Ji ber vê yekê
Alteryx
Navbera xweş, mîna pêlîstokek. Scalability, bê guman, hinekî dijwar e. Li gorî vê yekê, Citizen civata endezyarên li dora heman yên ku bi tchotchkes lîstin. Analytics hemî di yek şûşê de ya we ye. Analîzek daneya pêwendiya spektral-têkiliyek tevlihev anî bîra min , ku di salên 90-an de hate bernamekirin.
Anaconda
Civata li dora pisporên Python û R. Li gorî vê çavkaniya vekirî mezin e. Derket holê ku hevkarên min her dem wê bikar tînin. Lê min nizanîbû.
DataBricks
Ji sê projeyên çavkaniya vekirî pêk tê - pêşdebirên Spark ji sala 2013-an vir ve gelek drav berhev kirine.
"Di îlona 2013 de, Databricks ragihand ku wê 13.9 mîlyon dolar ji Andreessen Horowitz berhev kiriye. Pargîdanî di sala 33-an de 2014 mîlyon dolar, di sala 60-an de 2016 mîlyon dolar, di sala 140-an de 2017 mîlyon dolar, di sala 250-an de 2019 mîlyon dolar û di sala 400-an de 2019 mîlyon dolar û di sala XNUMX-an de XNUMX mîlyon dolar zêde berhev kir."!!!
Hin mirovên mezin Spark birrîn. Nizanim, bibore!
Û proje ev in:
- Gola Delta - ACID li ser Spark di van demên dawî de hate berdan (tiştê ku me bi Elasticsearch re xeyal dikir) - wê vediguherîne databasek: şema hişk, ACID, vedîtin, guhertoyên…
- ML Flow - şopandin, pakkirin, rêvebirin û hilanîna modelan.
- koala - Pandas DataFrame API li ser Spark - Pandas - Python API ji bo xebata bi tablo û daneyan bi gelemperî.
Hûn dikarin ji bo kesên ku nizanin an ji bîr kirine li Spark binêrin: . Min li vîdyoyên bi mînakên ji daristanvanên şêwirmendî yên hinekî bêzar lê hûrgulî temaşe kir: DataBricks for Data Science () û ji bo Endezyariya Daneyên ().
Bi kurtasî, Databricks Spark derdixe. Her kesê ku bixwaze Spark bi gelemperî di ewr de bikar bîne bêyî dudilî DataBricks digire, wekî ku tê armanc kirin 🙂 Spark li vir cûdakarê sereke ye.
Ez fêr bûm ku Spark Streaming ne rasteqîn an mîkrobatching derewîn e. Û heke hûn hewceyê wextê rastîn rastîn hewce bikin, ew di Apache STORM de ye. Her kes jî dibêje û dinivîse ku Spark ji MapReduce çêtir e. Slogan ev e.
DATAIKU
Tiştê dawî-bi-dawî xweş. Gelek reklam hene. Ez fêm nakim ka ew ji Alteryx çawa cûda dibe?
DataRobot
Paxata ji bo amadekirina daneyê pargîdaniyek cûda ye ku di Kanûna 2019-an de ji hêla Data Robots ve hatî kirîn. Me 20 MUSD berhev kir û firotin. Hemû di 7 salan de.
Amadekirina daneyê li Paxata, ne Excel - li vir bibînin: .
Lêgerîn û pêşniyarên otomatîkî yên ji bo hevgirtinê di navbera du daneyan de hene. Tiştek mezin - ji bo têgihiştina daneyan, dê hêj bêtir giranî li ser agahdariya nivîsê hebe ().
Kataloga Daneyan katalogek hêja ya komên daneya "zindî" yên bêkêr e.
Di heman demê de balkêş e ku ka derhêner li Paxata çawa têne damezrandin ().
"Li gorî pargîdaniya analîstê , nermalava bi pêşkeftinên di nav de pêk tê , û ji metodolojiya cachkirina daneyan. Nermalavê bikar tîne algorîtmayên ji bo fêmkirina wateya stûnên tabloya daneyê û algorîtmayên naskirina nimûneyê ji bo dîtina dubareyên potansiyel di komek daneyê de. Ew di heman demê de îndekskirin, naskirina nimûneya nivîsê û teknolojiyên din ên ku bi kevneşopî di medyaya civakî û nermalava lêgerînê de têne dîtin bikar tîne.
Berhema sereke ya Data Robot e . Slogana wan ji Modelê berbi Serlêdana Enterprise ye! Min şêwirmendiya pîşesaziya neftê di derbarê qeyranê de dît, lê ew pir banal û ne balkêş bû: . Min vîdyoyên wan li Mops an Mlops temaşe kir (). Ev Frankensteinek wusa ye ku ji 6-7 destkeftiyên hilberên cihêreng hatî berhev kirin.
Bê guman, diyar dibe ku tîmek mezin a Zanyarên Danezan divê ji bo xebata bi modelan re jîngehek wusa hebe, wekî din ew ê gelek ji wan hilberînin û çu carî tiştek bi cih nekin. Û di rastiya meya neft û gazê ya jorîn de, ger tenê em bikarin modelek serfiraz biafirînin, ew ê pêşkeftinek mezin be!
Pêvajo bi xwe pir dişibiya xebata bi pergalên sêwiranê yên di jeolojî-geofîzîkê de, mînakî . Her kesê ku ne pir tembel be modelan çêdike û diguherîne. Daneyên di modelê de berhev bikin. Dûv re wan modelek referans çêkirin û ew şandin hilberînê! Di navbera, bêje, modelek jeolojîk û modelek ML de, hûn dikarin gelek hevbeş bibînin.
domînoyê
Girîngiya li ser platforma vekirî û hevkariyê. Bikarhênerên karsaziyê belaş têne pejirandin. Laboratoriya Daneyên wan pir dişibihe sharepoint. (Û navê IBM bi tundî dişewite). Hemî ceribandin bi daneya orîjînal ve girêdidin. Ev çiqas nas e :) Mîna ku di pratîka me de - hin dane di nav modelê de hatin kişandin, dûv re ew di modelê de hate paqij kirin û rêz kirin, û ev hemî jixwe di modelê de dijî û dawiya di daneya çavkaniyê de nayê dîtin. .
Domino xwedan virtualîzasyona binesaziya xweş e. Min makîneyê di saniyeyekê de bi qasî ku hewce dike berhev kir û çû jimartinê. Çawa hate kirin ne diyar e. Docker li her derê ye. Gelek azadî! Her cîhên xebatê yên guhertoyên herî dawî dikarin werin girêdan. Destpêkirina paralel ya ceribandinan. Şopandin û hilbijartina yên serkeftî.
Heman wekî DataRobot - encam ji bo bikarhênerên karsaziyê di forma serîlêdanê de têne weşandin. Ji bo "berjewendiyên" bi taybetî jêhatî. Û karanîna rastîn a modelan jî tê şopandin. Her tişt ji bo Pugs!
Ez bi tevahî fêm nakim ka modelên tevlihev çawa di hilberînê de diqede. Hin cûreyek API-ê tê peyda kirin da ku daneya wan bide xwarin û encam bigire.
H2O
AI-a bê Drive-ê ji bo ML-ya Çavdêrî pergalek pir kompakt û xwerû ye. Her tişt di yek qutikê de. Di derbarê paşverûyê de tavilê ne diyar e.
Model bixweber di serverek REST an Java Appê de tête pak kirin. Ev fikreke mezin e. Ji bo şîrovekirin û şirovekirinê gelek tişt hatine kirin. Şirovekirin û ravekirina encamên modelê (Di eslê xwe de divê çi neyê ravekirin, wekî din mirov dikare heman hesab bike?).
Ji bo cara yekem, lêkolînek dozek li ser daneyên nesazkirî û . Wêneyê mîmarî-kalîteya bilind. Û bi gelemperî min ji wêneyan hez kir.
Çarçoveyek mezin a çavkaniya vekirî ya H2O heye ku bi tevahî ne zelal e (komek algorîtmayan / pirtûkxane?). Laptopa xweya dîtbarî bêyî bernamekirina mîna Jupiter (). Min di heman demê de li ser Pojo û Mojo jî xwend - modelên H2O yên ku di Java-yê de hatine pêçan. Ya yekem rasterast e, ya duyemîn bi xweşbîniyê ye. H20 tenê ew in(!) ku Gartner analîtîka nivîsê û NLP wekî hêza wan, û her weha hewildanên wan ên di derbarê Explanability de navnîş kir. Ew pir girîng e!
Di heman cîhî de: performansa bilind, xweşbînkirin û standarda pîşesaziyê di warê entegrasyona bi hardware û ewran de.
Û qelsî mentiqî ye - Driverles AI li gorî çavkaniya xweya vekirî qels û teng e. Amadekirina daneyan li gorî Paxata qels e! Û ew daneyên pîşesaziyê paşguh nakin - stream, grafîk, erdnîgarî. Welê, her tişt nikare tenê baş be.
KNIME
Min ji 6 bûyerên karsaziya pir taybetî, pir balkêş ên li ser rûpela sereke hez kir. Çavkaniya vekirî ya bihêz.
Gartner wan ji serokan daxist ber çavan. Qezenckirina drav ji bo bikarhêneran nîşanek baş e, ji ber ku Rêber ne her gav bijareya çêtirîn e.
Peyva sereke, wekî di H2O de, tê zêdekirin, ku tê vê wateyê ku alîkariya zanyarên daneya hemwelatiyên belengaz. Ev cara yekem e ku kesek ji ber performansa di vekolînekê de tê rexne kirin! Balkêş? Ango, ew qas hêza hesabkirinê heye ku performans bi tevahî nikare bibe pirsgirêkek pergalê? Gartner li ser vê peyva "Augmented" heye , ku nikaribû bigihêje.
Û KNIME di vekolînê de yekem ne-Amerîkî ye! (Û sêwirînerên me ji rûpela xwe ya zevî pir ecibandin. Mirovên xerîb.
MathWorks
MatLab rêhevalekî rûmetê yê kevn e ku ji her kesî re tê zanîn! Toolboxên ji bo hemî qadên jiyanê û rewşan. Tiştek pir cûda. Bi rastî, pir û pir û pir matematîkî ji bo hemî demên jiyanê!
Hilberek pêvek a Simulink ji bo sêwirana pergalê. Min ji bo Twinsên Dîjîtal nav qutiyên amûran da - ez tiştek jê fam nakim, lê gelek hatiye nivîsandin. Bo . Bi gelemperî, ev hilberek bingehîn ji kûrahiya matematîkî û endezyariyê cûda ye. Ji bo hilbijartina amûrên matematîkê yên taybetî. Li gorî Gartner, pirsgirêkên wan mîna yên endezyarên jîr in - bê hevkarî - her kes di modela xwe de, bê demokrasî, bê ravekirin, li dora xwe digere.
RapidMiner
Min berê (bi Matlab re) di çarçoweya çavkaniyek vekirî ya baş de rastî gelek tiştan hat û bihîst. Min wek her car hinekî li TurboPrep koland. Ez meraq dikim ka meriv çawa daneyên paqij ji daneyên qirêj bi dest dixe.
Dîsa hûn dikarin bibînin ku mirov li ser bingeha materyalên kirrûbirra 2018-an û mirovên îngilîz ên tirsnak ên di demoya taybetmendiyê de baş in.
Û mirovên ji Dortmundê ji 2001-an vir ve bi paşnavek Almanî ya bihêz)

Ez hîn jî ji malperê fam nakim ka bi rastî di çavkaniya vekirî de çi heye - hûn hewce ne ku kûr kûr bikolin. Vîdyoyên baş di derbarê bicîhkirin û têgehên AutoML de.
Di derheqê paşdeya RapidMiner Server-ê de jî tiştek taybetî tune. Ew ê belkî tevlihev be û li ser premium ji qutiyê baş bixebite. Ew di Docker de tête pak kirin. Jîngeha hevpar tenê li ser servera RapidMiner. Dûv re Radoop heye, daneyên Hadoop, jimartina rêzikên ji Spark di xebata Studio de.
Wekî ku tê hêvîkirin, firoşkarên ciwan ên germ "firotanên çîpên xerîdar" ew bar kirin. Lêbelê, Gartner serkeftina wan a pêşerojê di qada Enterprise de pêşbîn dike. Hûn dikarin li wir pereyan berhev bikin. Alman vê yekê dizanin, pîroz-pîroz :) Behsa SAPê nekin!!!
Ji bo welatiyan gelek tiştan dikin! Lê ji rûpelê hûn dikarin bibînin ku Gartner dibêje ku ew bi nûjeniya firotanê re têdikoşin û ne ji bo berfirehiya vegirtinê, lê ji bo berjewendiyê şer dikin.
Mabûn SAS и Tibco firoşkarên BI-yê yên tîpîk ji bo min... Û her du jî di serî de ne, ku ev pêbaweriya min piştrast dike ku DataScience normal bi mentiqî mezin dibe
ji BI, û ne ji ewr û binesaziyên Hadoop. Ji karsaziyê, ew e, û ne ji IT-ê. Mînakî di Gazpromneft de: , Jîngehek DSML ya gihîştî ji pratîkên BI-ya bihêz mezin dibe. Lê dibe ku ew li hember MDM û tiştên din şêrîn û alîgir be, kî dizane.
SAS
Pir tişt nîne ku bêje. Tenê tiştên eşkere.
TIBCO
Stratejî di navnîşek kirînê de li ser rûpelek Wiki-rûpel-dirêj tê xwendin. Erê, çîrok dirêj, lê 28!!! Charles. Min BI Spotfire (2007) dîsa di xortaniya xwe ya teknolojiyê de kirî. Û her weha ji Jaspersoft (2014) rapor dike, dûv re bi qasî sê firoşkarên analîtîkên pêşbînîker Insightful (S-plus) (2008), Statistica (2017) û Daneyên Alpine (2017), pêvajoyek bûyer û weşana Pergala Streambase (2013), Orkestra MDM Tora (2018) û Snappy Data (2019) platforma bîranînê.
Silav Frankie!

Source: www.habr.com
