Léirmheas Gartner MQ 2020: Foghlaim Meaisín agus Ardáin Faisnéise Saorga

Tá sé dodhéanta an chúis a léigh mé seo a mhíniú. Ní raibh ach am agam agus bhí suim agam sa chaoi a n-oibríonn an margadh. Agus is margadh lán-chuimsitheach é seo cheana féin de réir Gartner ó 2018. Ó 2014-2016 tugadh anailísíocht chun cinn (fréamhacha i BI) air, in 2017 - Eolaíocht Sonraí (níl a fhios agam conas é seo a aistriú go Rúisis). Dóibh siúd a bhfuil suim acu i ngluaiseachtaí díoltóirí timpeall na cearnóige, is féidir leat anseo cuma. Agus labhróidh mé faoi chearnóg 2020, go háirithe ós rud é nach bhfuil mórán athruithe ann ó 2019: bhog SAP amach agus cheannaigh Altair Datawatch.

Ní anailís chórasach nó tábla é seo. Dearcadh aonair, freisin ó thaobh geoifisice. Ach táim fiosrach i gcónaí Gartner MQ a léamh, cruthaíonn siad roinnt pointí go foirfe. Mar sin, seo iad na rudaí ar thug mé aird orthu go teicniúil, sa mhargadh agus go fealsúnach.

Níl sé seo do dhaoine atá go domhain san ábhar ML, ach do dhaoine a bhfuil suim acu i cad atá ag tarlú go ginearálta ar an margadh.

Neadaíonn margadh DSML féin go loighciúil idir seirbhísí forbróra BI agus Cloud AI.

Léirmheas Gartner MQ 2020: Foghlaim Meaisín agus Ardáin Faisnéise Saorga

Sleachta agus téarmaí is fearr leat ar dtús:

  • "B'fhéidir nach é Ceannaire an rogha is fearr" — Ní gá gurb é ceannaire margaidh an rud atá uait. An-phráinneach! Mar thoradh ar easpa custaiméara feidhmiúil, bíonn siad i gcónaí ag lorg an réitigh “is fearr”, seachas an réiteach “oiriúnach”.
  • "Oibriú múnla" - giorraithe mar MOPanna. Agus bíonn am deacair ag gach duine le pugs! – (déanann téama pug fionnuar an tsamhail oibriú).
  • "Timpeallacht leabhar nótaí" is coincheap tábhachtach é ina dtagann cód, tuairimí, sonraí agus torthaí le chéile. Tá sé seo an-soiléir, tuar dóchais inti agus féadann sé méid an chóid Chomhéadain a laghdú go suntasach.
  • "Fréamhaithe in OpenSource" - dea-ráite - glacann sé an fhréamh i bhfoinse oscailte.
  • "Eolaithe Sonraí Saoránach" - dudes éasca den sórt sin, lamers den sórt sin, ní saineolaithe, a bhfuil gá acu le timpeallacht amhairc agus gach cineál rudaí cúnta. Ní bheidh siad cód.
  • "Daonlathas" — is minic a chiallaíonn sé “a chur ar fáil do raon níos leithne daoine.” Is féidir linn “daonlathas a dhéanamh ar na sonraí” a rá in ionad “saor na sonraí” contúirteacha a d’úsáideamar. Is eireaball fada é “Democratise” i gcónaí agus ritheann gach díoltóir ina dhiaidh. Caill i ndéine an eolais - gnóthachan in inrochtaineacht!
  • "Anailís Sonraí Taiscéalaíoch - EDA" — breithniú ar na hacmhainní atá ar fáil. Roinnt staitisticí. Amharcléiriú beag. Rud a dhéanann gach duine go pointe amháin nó go pointe eile. Ní raibh a fhios go raibh ainm air seo
  • "In-atáirgtheacht" — caomhnú uasta na bparaiméadar comhshaoil, na hionchuir agus na n-aschur go léir ionas gur féidir an turgnamh a dhéanamh arís nuair a dhéantar é. An téarma is tábhachtaí do thimpeallacht tástála turgnamhach!

Mar sin:

Alteryx

Comhéadan fionnuar, díreach cosúil le bréagán. Tá scalability, ar ndóigh, beagán deacair. Dá réir sin, an pobal Saoránach na n-innealtóirí ar fud an gcéanna le tchotchkes a imirt. Is leatsa Analytics go léir in aon bhuidéal amháin. Chuir coimpléasc anailíse ar shonraí speictreach-chomhghaolaithe i gcuimhne dom Cosc, a cláraíodh sna 90í.

Anaconda

Pobail timpeall saineolaithe Python agus R. Tá foinse oscailte mór dá réir sin. D'éirigh sé amach go n-úsáideann mo chomhghleacaithe é an t-am ar fad. Ach ní raibh a fhios agam.

Brics Sonraí

Comhdhéanta de thrí thionscadal foinse oscailte - tá an-chuid airgid bailithe ag forbróirí Spark ó 2013. Caithfidh mé an vicí a lua i ndáiríre:

“I mí Mheán Fómhair 2013, d’fhógair Databricks go raibh $13.9 milliún bailithe aige ó Andreessen Horowitz. D’ardaigh an chuideachta $33 milliún breise in 2014, $60 milliún in 2016, $140 milliún in 2017, $250 milliún in 2019 (Feabhra) agus $400 milliún in 2019 (Deireadh Fómhair)”!!!

Ghearr roinnt daoine iontacha Spark. Níl a fhios agam, faraor!

Agus is iad na tionscadail:

  • Loch Delta - Eisíodh ACID on Spark le déanaí (an rud a shamhlaigh muid le Elasticsearch) - déanann sé bunachar sonraí de: scéimre docht, ACID, iniúchadh, leaganacha ...
  • Sreabhadh ML — samhlacha a rianú, a phacáistiú, a bhainistiú agus a stóráil.
  • Coalas - Pandas DataFrame API on Spark - Pandas - Python API le haghaidh oibriú le táblaí agus sonraí i gcoitinne.

Is féidir leat breathnú ar Spark dóibh siúd nach bhfuil a fhios acu nó a bhfuil dearmad déanta acu ar: nasc. Bhreathnaigh mé ar fhíseáin le samplaí ó choillearnach a bhí beagán leadránach ach mionsonraithe: DataBricks for Data Science (nasc) agus le haghaidh Innealtóireacht Sonraí (nasc).

I mbeagán focal, tarraingíonn Databricks Spark amach. Aon duine atá ag iarraidh Spark a úsáid de ghnáth sa scamall glacann sé DataBricks gan leisce, mar a bhí beartaithe 🙂 Is é Spark an príomh-dhifreálaí anseo.
D'fhoghlaim mé nach fíor-ama falsa nó microbatching é Spark Streaming. Agus má tá fíor-ama fíor-ama uait, tá sé in Apache STORM. Deir agus scríobhann gach duine freisin go bhfuil Spark níos fearr ná MapReduce. Is é seo an mana.

DATAIKU

Rud fionnuar deireadh go deireadh. Tá go leor fógraí ann. Ní thuigim cén difríocht atá idir é agus Alteryx?

DataRobot

Is cuideachta ar leith é Paxata le haghaidh ullmhú sonraí a cheannaigh Data Robots i mí na Nollag 2019. D'ardaigh muid 20 MUSD agus díoladh. Gach i 7 mbliana.

Ullmhúchán sonraí i Paxata, ní Excel - féach anseo: nasc.
Tá cuardaigh uathoibríocha agus moltaí le haghaidh nascanna idir dhá thacar sonraí. Rud iontach - chun na sonraí a thuiscint, bheadh ​​níos mó béime fós ar fhaisnéis téacsúil (nasc).
Is catalóg iontach de thacair shonraí “bheo” gan úsáid í an Chatalóg Sonraí.
Tá sé suimiúil freisin conas a fhoirmítear eolairí i Paxata (nasc).

“Dar le gnólacht anailísí Ovum, tá na bogearraí indéanta trí dhul chun cinn i Analytics thuarthach, foghlaim meaisín agus an NoSQL modheolaíocht taisceadh sonraí.[15] Úsáideann na bogearraí semantic halgartaim chun brí cholúin tábla sonraí agus halgartaim aitheantais patrún a thuiscint chun dúbailt ionchasacha a aimsiú i dtacar sonraí.[15][7] Úsáideann sé freisin innéacsú, aithint patrún téacs agus teicneolaíochtaí eile a fhaightear go traidisiúnta sna meáin shóisialta agus i mbogearraí cuardaigh.”

Is é an príomhtháirge atá ag Data Robot anseo. Tá a mana ó Mhúnla go Feidhmchlár Fiontair! Fuair ​​​​mé an dul i gcomhairle le tionscal na hola maidir leis an ngéarchéim, ach bhí sé an-bhanal agus uninteresting: nasc. Bhreathnaigh mé ar a bhfíseáin ar Mops nó MLops (nasc). Seo Frankenstein den sórt sin le chéile ó 6-7 éadálacha táirgí éagsúla.

Ar ndóigh, bíonn sé soiléir go gcaithfidh foireann mhór Eolaithe Sonraí timpeallacht den sórt sin a bheith acu chun oibriú le samhlacha, ar shlí eile déanfaidh siad go leor díobh agus ní dhéanfaidh siad aon rud a imscaradh. Agus inár réaltacht in aghaidh an tsrutha ola agus gáis, mura bhféadfaimis ach múnla rathúil amháin a chruthú, bheadh ​​dul chun cinn iontach ann!

Bhí an próiseas féin an-chuimhneach ar an obair le córais dearaidh sa gheolaíocht-gheoifisic, mar shampla Petrel. Déanann gach duine nach bhfuil ró-leisciúil samhlacha agus modhnaítear iad. Bailigh sonraí isteach sa mhúnla. Ansin rinne siad múnla tagartha agus chuir siad chuig táirgeadh é! Idir, abair, samhail gheolaíoch agus samhail ML, is féidir leat teacht ar a lán i gcoiteann.

Domino

Béim ar ardán oscailte agus ar chomhoibriú. Ceadaítear úsáideoirí gnó saor in aisce. Tá a Saotharlann Sonraí an-chosúil le sharepoint. (Agus an t-ainm smacks go láidir ar IBM). Nascann gach turgnamh leis an mbunthacar sonraí. Cé chomh eolach é seo 🙂 Mar atá inár gcleachtas - tarraingíodh roinnt sonraí isteach sa mhúnla, ansin glanadh é agus cuireadh in ord é sa mhúnla, agus tá sé seo go léir ina chónaí sa mhúnla cheana féin agus ní féidir na foircinn a fháil sna sonraí foinse.

Tá fíorúlú bonneagair fionnuar ag Domino. Chruinnigh mé an meaisín a oiread croíleacáin agus ba ghá i soicind agus chuaigh mé a chomhaireamh. Níl sé soiléir láithreach conas a rinneadh é. Tá Docker i ngach áit. Go leor saoirse! Is féidir aon spásanna oibre de na leaganacha is déanaí a nascadh. Seoladh comhthreomhar turgnaimh. Rianú agus roghnú na cinn rathúla.

Mar an gcéanna le DataRobot - foilsítear na torthaí d'úsáideoirí gnó i bhfoirm iarratais. Do “geallsealbhóirí” a bhfuil ardchumas acu. Agus déantar monatóireacht freisin ar úsáid iarbhír na samhlacha. Gach rud le haghaidh Pugs!

Ní thuigim go hiomlán cé chomh casta is atá samhlacha casta i dtáirgeadh. Cuirtear API de chineál éigin ar fáil chun sonraí a bheathú dóibh agus torthaí a fháil.

H2O

Is córas an-dhlúth agus iomasach é Driveless AI le haghaidh ML faoi Mhaoirseacht. Gach rud i mbosca amháin. Níl sé iomlán soiléir ar an bpointe boise faoin inneall.

Déantar an tsamhail a phacáistiú go huathoibríoch isteach i bhfreastalaí REST nó i Java App. Is smaoineamh iontach é seo. Tá go leor déanta ar mhaithe le Léirmhíniú agus Inmhíniú. Léiriú agus míniú ar thorthaí an mhúnla (Cad é nár chóir a mhíniú go bunúsach, ar shlí eile is féidir le duine an rud céanna a ríomh?).
Don chéad uair, rinneadh cás-staidéar faoi shonraí neamhstruchtúrtha agus NLP. Pictiúr ailtireachta ar ardchaighdeán. Agus go ginearálta thaitin na pictiúir liom.

Tá creat mór foinse oscailte H2O ann nach bhfuil iomlán soiléir (sraith algartam/leabharlann?). Do ríomhaire glúine amhairc féin gan ríomhchlárú mar Iúpatar (nasc). Léigh mé freisin faoi Pojo agus Mojo - samhlacha H2O fillte i Java. Tá an chéad cheann simplí, an dara ceann le leas iomlán a bhaint. Is iad H20 na cinn amháin(!) dár liostaigh Gartner anailísíocht téacs agus NLP mar a láidreachtaí, chomh maith lena n-iarrachtaí maidir le Míniú. Tá sé an-tábhachtach!

San áit chéanna: ardfheidhmíocht, leas iomlán a bhaint agus caighdeán tionscail i réimse an chomhtháthaithe le crua-earraí agus scamaill.

Agus tá an laige loighciúil - tá Driverles AI lag agus caol i gcomparáid lena bhfoinse oscailte. Tá ullmhú sonraí bacach i gcomparáid le Paxata! Agus déanann siad neamhaird ar shonraí tionsclaíocha - sruth, graf, geo. Bhuel, ní féidir le gach rud a bheith go maith.

KNIME

Thaitin na 6 chás gnó an-sonrach, an-suimiúil liom ar an bpríomhleathanach. Foinse Oscailte Láidir.

Scar Gartner iad ó cheannairí go físairí. Is comhartha maith é airgead a thuilleamh go dona d’úsáideoirí, ós rud é nach é an Ceannaire an rogha is fearr i gcónaí.

Méadaítear an eochairfhocal, mar atá i H2O, rud a chiallaíonn cabhrú le heolaithe sonraí saoránach bocht. Seo an chéad uair a cháineadh duine as feidhmíocht in athbhreithniú! Suimiúil? Is é sin, tá an oiread sin cumhachta ríomhaireachta ann nach féidir le feidhmíocht a bheith ina fadhb chórasach ar chor ar bith? Tá Gartner faoin bhfocal seo “Méadaithe” alt ar leithligh, nach bhféadfaí a bhaint amach.
Agus is cosúil gurb é KNIME an chéad neamh-Mheiriceánach san athbhreithniú! (Agus thaitin ár ndearthóirí go mór lena leathanach tuirlingthe. Daoine aisteacha.

MathWorks

Sean-chomrádaí oinigh é MatLab a bhfuil aithne ag gach duine air! Boscaí uirlisí do gach réimse den saol agus cásanna. Rud an-difriúil. Go deimhin, go leor agus go leor agus go leor matamaitice do gach rud sa saol!

Táirge breiseán Simulink le haghaidh dearadh córais. thochail mé isteach i mboscaí uirlisí le haghaidh Cúpla Digiteach - ní thuigim aon rud faoi, ach anseo tá go leor scríofa. Le haghaidh tionscal ola. Go ginearálta, is táirge é seo atá difriúil go bunúsach ó dhoimhneacht na matamaitice agus na hinnealtóireachta. Chun uirlisí sainiúla matamaitice a roghnú. Dar le Gartner, tá a gcuid fadhbanna mar an gcéanna le fadhbanna na n-innealtóirí cliste - gan aon chomhoibriú - tá gach duine ag tinker lena múnla féin, gan daonlathas, gan aon infheictheacht.

RapidMiner

Tháinig mé trasna agus go leor cloiste agam roimhe seo (in éineacht le Matlab) i gcomhthéacs foinse oscailte mhaith. Dug mé beagán i TurboPrep mar is gnách. Tá suim agam conas sonraí glan a fháil ó shonraí salach.

Arís is féidir leat a fheiceáil go bhfuil na daoine go maith bunaithe ar na hábhair mhargaíochta 2018 agus na daoine uafásacha Béarla ag an taispeántas gné.

Agus daoine ó Dortmund ó 2001 a bhfuil cúlra láidir Gearmánach acu)

Léirmheas Gartner MQ 2020: Foghlaim Meaisín agus Ardáin Faisnéise Saorga
Ní thuigim go fóill ón suíomh cad go díreach atá ar fáil i bhfoinse oscailte - ní mór duit tochailt níos doimhne. Físeáin mhaithe faoi imscaradh agus coincheapa AutoML.

Níl aon rud speisialta faoi inneall Freastalaí RapidMiner ach an oiread. Is dócha go mbeidh sé dlúth agus go n-oibreoidh sé go maith ar phréimh as an mbosca. Tá sé pacáistithe i Docker. Timpeallacht roinnte amháin ar an bhfreastalaí RapidMiner. Agus ansin tá Radoop, sonraí ó Hadoop, ag comhaireamh rainn ó shreabhadh oibre Spark in Studio.

Mar a bheifí ag súil leis, d'aistrigh díoltóirí te óga “díoltóirí maidí stiallacha” síos iad. Tá Gartner, áfach, ag tuar go n-éireoidh leo sa spás Fiontar amach anseo. Is féidir leat airgead a bhailiú ansin. Tá a fhios ag na Gearmánaigh conas é seo a dhéanamh, naofa-naofa :) Ná trácht ar SAP!!!

Déanann siad go leor do shaoránaigh! Ach ón leathanach is féidir leat a fheiceáil go ndeir Gartner go bhfuil siad ag streachailt le nuálaíocht díolacháin agus nach bhfuil siad ag troid le haghaidh fairsinge clúdach, ach le haghaidh brabúsacht.

D'fhan SAS и Tibco díoltóirí tipiciúla BI domsa ... Agus tá an dá cheann ag an mbarr, rud a dhearbhaíonn mo mhuinín go bhfuil gnáth-DataScience ag fás go loighciúil
ó BI, agus ní ó scamaill agus bonneagair Hadoop. Ó ghnó, is é sin, agus ní ó TF. Cosúil le Gazpromneft mar shampla: nasc,Fásann timpeallacht aibí DSML as cleachtais BI láidir. Ach b’fhéidir go bhfuil sé smacky agus claonta i dtreo MDM agus rudaí eile, cé a fhios.

SAS

Níl mórán le rá. Níl ach na rudaí soiléire.

TIBCO

Tá an straitéis le léamh i liosta siopadóireachta ar leathanach Vicí ar fad. Sea, scéal fada, ach 28!!! Charles. Cheannaigh mé BI Spotfire (2007) ar ais i mo óige techno. Agus tuairisciú freisin ó Jaspersoft (2014), ansin oiread agus trí díoltóirí anailísíochta thuarthach Insightful (S-plus) (2008), Statistica (2017) agus Alpine Data (2017), próiseáil imeachtaí agus sruthú Streambase System (2013), MDM Orchestra Líonraí (2018 ) agus Snappy Data (2019) ardán i gcuimhne.

Dia duit Frankie!

Léirmheas Gartner MQ 2020: Foghlaim Meaisín agus Ardáin Faisnéise Saorga

Foinse: will.com

Add a comment