Gartner MQ 2020 apskats: maŔīnmÄcÄ«Å”anÄs un mÄkslÄ«gÄ intelekta platformas
Nav iespÄjams izskaidrot iemeslu, kÄpÄc es to izlasÄ«ju. Man vienkÄrÅ”i bija laiks un interesÄjos, kÄ darbojas tirgus. Un tas jau ir pilnvÄrtÄ«gs tirgus saskaÅÄ ar Gartner kopÅ” 2018. gada. No 2014. lÄ«dz 2016. gadam to sauca par uzlaboto analÄ«zi (saknes BI), 2017. gadÄ par datu zinÄtni (es nezinu, kÄ to tulkot krieviski). Tiem, kurus interesÄ pÄrdevÄju kustÄ«ba pa laukumu, varat Å”eit Skaties. Un es runÄÅ”u par 2020. gada laukumu, jo Ä«paÅ”i tÄpÄc, ka kopÅ” 2019. gada izmaiÅas tajÄ ir minimÄlas: SAP pÄrcÄlÄs un Altair iegÄdÄjÄs Datawatch.
Å Ä« nav sistemÄtiska analÄ«ze vai tabula. IndividuÄls skatÄ«jums, arÄ« no Ä£eofiziÄ·a viedokļa. Bet man vienmÄr ir interese lasÄ«t Gartner MQ, viÅi lieliski formulÄ dažus punktus. TÄtad, Å”eit ir lietas, kurÄm es pievÄrsu uzmanÄ«bu gan tehniski, gan tirgus, gan filozofiski.
Tas nav paredzÄts cilvÄkiem, kuri ir dziļi iedziļinÄjuÅ”ies ML tÄmÄ, bet gan cilvÄkiem, kurus interesÄ tas, kas vispÄr notiek tirgÅ«.
Pats DSML tirgus loÄ£iski atrodas starp BI un Cloud AI izstrÄdÄtÄju pakalpojumiem.
Vispirms iecienÄ«tÄkie citÄti un termini:
"LÄ«deris var nebÅ«t labÄkÄ izvÄle" ā Tirgus lÄ«deris ne vienmÄr ir tas, kas jums nepiecieÅ”ams. Ä»oti steidzami! FunkcionÄla klienta trÅ«kuma dÄļ viÅi vienmÄr meklÄ ālabÄkoā, nevis āpiemÄrotÄkoā risinÄjumu.
"Modeļa operacionalizÄcija" - saÄ«sinÄti kÄ MOP. Un visiem ir grÅ«ti ar mopÅ”iem! ā (forÅ”a mopÅ”u tÄma liek modelim darboties).
"PiezÄ«mju grÄmatiÅas vide" ir svarÄ«gs jÄdziens, kurÄ apvienojas kods, komentÄri, dati un rezultÄti. Tas ir ļoti skaidrs, daudzsoloÅ”s un var ievÄrojami samazinÄt lietotÄja interfeisa koda daudzumu.
"SakÅojies OpenSource" - labi teikts - iesakÅojas atvÄrtÄ avotÄ.
"PilsoÅu datu zinÄtnieki" - tÄdi viegli Äaļi, tÄdi lameri, nevis eksperti, kam vajag vizuÄlo vidi un visÄdas palÄ«glietas. ViÅi nekodÄs.
"DemokrÄtija" ā bieži lietots ar nozÄ«mi āpadarÄ«t pieejamu plaÅ”Äkam cilvÄku lokamā. MÄs varam teikt "demokratizÄjiet datus", nevis bÄ«stamo "atbrÄ«vot datus", ko izmantojÄm. āDemokratizÄcijaā vienmÄr ir gara aste, un visi pÄrdevÄji skrien pÄc tÄ. ZaudÄjiet zinÄÅ”anu intensitÄti - iegÅ«stiet pieejamÄ«bu!
"IzpÄtes datu analÄ«ze ā EDA" ā Å”o pieejamo lÄ«dzekļu izskatÄ«Å”ana. Daži statistikas dati. Nedaudz vizualizÄcijas. Kaut kas tÄds, ko vienÄ vai otrÄ pakÄpÄ dara visi. NezinÄju, ka Å”im ir kÄds nosaukums
"ReproducÄjamÄ«ba" ā visu vides parametru, ievades un rezultÄtu maksimÄla saglabÄÅ”ana, lai eksperimentu pÄc tÄ veikÅ”anas varÄtu atkÄrtot. VissvarÄ«gÄkais termins eksperimentÄlai testa videi!
TÄtad:
Alterikss
ForÅ”a saskarne, gluži kÄ rotaļlieta. MÄrogojamÄ«ba, protams, ir nedaudz sarežģīta. AttiecÄ«gi PilsoÅu kopiena inženieru ap to paÅ”u ar tchotchkes spÄlÄt. Analytics ā viss jums vienÄ pudelÄ. Man atgÄdinÄja spektrÄlÄs korelÄcijas datu analÄ«zes kompleksu Coscad, kas tika ieprogrammÄts 90. gados.
Anaconda
Kopiena ap Python un R ekspertiem. AtvÄrtais avots ir attiecÄ«gi liels. IzrÄdÄ«jÄs, ka mani kolÄÄ£i to izmanto visu laiku. Bet es nezinÄju.
DataBricks
SastÄv no trim atvÄrtÄ pirmkoda projektiem - Spark izstrÄdÄtÄji ir savÄkuÅ”i satriecoÅ”u naudu kopÅ” 2013. gada. Man tieÅ”Äm jÄcitÄ wiki:
ā2013. gada septembrÄ« Databricks paziÅoja, ka ir piesaistÄ«jis 13.9 miljonus USD no Andreessen Horowitz. UzÅÄmums piesaistÄ«ja papildu USD 33 miljonus 2014. gadÄ, 60 miljonus USD 2016. gadÄ, 140 miljonus USD 2017. gadÄ, 250 miljonus USD 2019. gadÄ (februÄrÄ«) un 400 miljonus USD 2019. gadÄ (oktobrÄ«)ā!!!
Daži lieliski cilvÄki sagriež Spark. Es nezinu, piedod!
Un projekti ir:
Deltas ezers - Nesen tika izlaists ACID on Spark (par ko mÄs sapÅojÄm ar Elasticsearch) - pÄrvÄrÅ” to datu bÄzÄ: stingra shÄma, ACID, audits, versijas...
ML plÅ«sma ā modeļu izsekoÅ”ana, iepakoÅ”ana, pÄrvaldÄ«ba un uzglabÄÅ”ana.
koala - Pandas DataFrame API Spark - Pandas - Python API darbam ar tabulÄm un datiem kopumÄ.
JÅ«s varat apskatÄ«t Spark tiem, kas nezina vai ir aizmirsuÅ”i: saite. NoskatÄ«jos video ar piemÄriem no nedaudz garlaicÄ«giem, bet detalizÄtiem konsultÄjoÅ”iem dzeÅiem: DataBricks for Data Science (saite) un datu inženierijai (saite).
ÄŖsÄk sakot, Databricks izvelk Spark. Ikviens, kurÅ” vÄlas normÄli izmantot Spark mÄkonÄ«, bez vilcinÄÅ”anÄs Åem DataBricks, kÄ paredzÄts š Spark Å”eit ir galvenais atŔķirÄ«bas faktors.
Es uzzinÄju, ka Spark Streaming nav Ä«sta viltota reÄllaika vai mikrobatching. Un, ja jums ir nepiecieÅ”ams Ä«sts reÄlais laiks, tas ir pieejams Apache STORM. Visi arÄ« saka un raksta, ka Spark ir labÄks par MapReduce. Tas ir sauklis.
DATAIKU
ForÅ”a lieta no gala lÄ«dz galam. Ir daudz sludinÄjumu. Es nesaprotu, kÄ tas atŔķiras no Alteryx?
DataRobot
Paxata datu sagatavoÅ”anai ir atseviŔķs uzÅÄmums, kuru Data Robots iegÄdÄjÄs 2019. gada decembrÄ«. SavÄcÄm 20 MUSD un pÄrdevÄm. Viss 7 gadu laikÄ.
Datu sagatavoÅ”ana programmÄ Paxata, nevis Excel - skatÄ«t Å”eit: saite.
PastÄv automÄtiska meklÄÅ”ana un priekÅ”likumi divu datu kopu savienoÅ”anai. Lieliska lieta - lai izprastu datus, bÅ«tu vÄl lielÄks uzsvars uz tekstuÄlo informÄciju (saite).
Datu katalogs ir lielisks bezjÄdzÄ«gu ādzÄ«vuā datu kopu katalogs.
Interesanti ir arÄ« tas, kÄ Paxata tiek veidoti direktoriji (saite).
āSaskaÅÄ ar analÄ«tiÄ·u firmas teikto olŔūna, programmatÅ«ra ir iespÄjama, pateicoties uzlabojumiem prognozÄjoÅ”Ä analÄ«ze, maŔīna mÄcÄ«Å”anÄs un NoSQL datu keÅ”atmiÅas metodika.[15] ProgrammatÅ«ra izmanto semantiskais algoritmi, lai izprastu datu tabulas kolonnu nozÄ«mi, un modeļu atpazÄ«Å”anas algoritmi, lai atrastu iespÄjamos dublikÄtus datu kopÄ.[15][7] Tas izmanto arÄ« indeksÄÅ”anu, teksta rakstu atpazÄ«Å”anu un citas tehnoloÄ£ijas, kas tradicionÄli atrodamas sociÄlajos medijos un meklÄÅ”anas programmatÅ«rÄ.
Data Robot galvenais produkts ir Å”eit. ViÅu sauklis ir no modeļa lÄ«dz uzÅÄmuma lietojumprogrammai! Man Ŕķita, ka saistÄ«bÄ ar krÄ«zi konsultÄcijas naftas nozarei bija ļoti banÄlas un neinteresantas: saite. Es skatÄ«jos viÅu videoklipus Mops vai MLops (saite). Å is ir tÄds FrankenÅ”teins, kas salikts no 6-7 dažÄdu produktu iegÄdes.
Protams, kļūst skaidrs, ka lielai datu zinÄtnieku komandai ir jÄbÅ«t tieÅ”i tÄdai videi darbam ar modeļiem, pretÄjÄ gadÄ«jumÄ viÅi tos saražos daudz un nekad neko neizvietos. Un mÅ«su naftas un gÄzes augÅ”upÄjÄ realitÄtÄ, ja mÄs varÄtu izveidot vienu veiksmÄ«gu modeli, tas bÅ«tu liels progress!
Pats process ļoti atgÄdinÄja, piemÄram, darbu ar projektÄÅ”anas sistÄmÄm Ä£eoloÄ£ijÄ-Ä£eofizikÄ vÄtrasputns. Visi, kam nav slinkums, veido un modificÄ modeļus. Apkopojiet datus modelÄ«. Tad viÅi izveidoja atsauces modeli un nosÅ«tÄ«ja to uz ražoÅ”anu! Starp, piemÄram, Ä£eoloÄ£isko modeli un ML modeli, jÅ«s varat atrast daudz kopÄ«ga.
Domino
Uzsvars uz atvÄrto platformu un sadarbÄ«bu. Biznesa lietotÄji tiek uzÅemti bez maksas. ViÅu datu laboratorija ir ļoti lÄ«dzÄ«ga sharepoint. (Un nosaukums stipri smaržo pÄc IBM). Visi eksperimenti ir saistÄ«ti ar sÄkotnÄjo datu kopu. Cik tas ir pazÄ«stams :) KÄ jau mÅ«su praksÄ - daži dati tika ievilkti modelÄ«, tad tie tika iztÄ«rÄ«ti un sakÄrtoti modelÄ«, un tas viss jau dzÄ«vo tur modelÄ« un galus nevar atrast avota datos .
Domino ir lieliska infrastruktÅ«ras virtualizÄcija. SamontÄju maŔīnu tik daudz serdeÅu, cik nepiecieÅ”ams sekundÄ, un devos skaitÄ«t. KÄ tas tika darÄ«ts, uzreiz nav skaidrs. Docker ir visur. Daudz brÄ«vÄ«bas! Var pievienot jebkuras jaunÄko versiju darbvietas. Eksperimentu paralÄla uzsÄkÅ”ana. VeiksmÄ«go izsekoÅ”ana un atlase.
Tas pats, kas DataRobot ā rezultÄti tiek publicÄti biznesa lietotÄjiem aplikÄciju veidÄ. ÄŖpaÅ”i apdÄvinÄtÄm āieinteresÄtajÄm pusÄmā. Un tiek uzraudzÄ«ta arÄ« modeļu faktiskÄ izmantoÅ”ana. Viss MopÅ”iem!
Es pilnÄ«bÄ nesaprotu, kÄ sarežģīti modeļi nonÄk ražoÅ”anÄ. Tiek nodroÅ”inÄts sava veida API, lai ievadÄ«tu datus un iegÅ«tu rezultÄtus.
H2O
Driveless AI ir ļoti kompakta un intuitÄ«va sistÄma Supervised ML. Viss vienÄ kastÄ. Uzreiz nav pilnÄ«bÄ skaidrs par aizmuguri.
Modelis tiek automÄtiski iepakots REST serverÄ« vai Java lietotnÄ. Å Ä« ir lieliska ideja. Daudz ir darÄ«ts interpretÄjamÄ«bas un izskaidrojamÄ«bas labÄ. Modeļa rezultÄtu interpretÄcija un skaidrojums (Kas pÄc savas bÅ«tÄ«bas nedrÄ«kst bÅ«t izskaidrojams, pretÄjÄ gadÄ«jumÄ cilvÄks var aprÄÄ·inÄt to paÅ”u?).
Pirmo reizi gadÄ«juma izpÄte par nestrukturÄtiem datiem un NLP. Augstas kvalitÄtes arhitektÅ«ras bilde. Un vispÄr man patika bildes.
Ir liels atvÄrtÄ koda H2O ietvars, kas nav lÄ«dz galam skaidrs (algoritmu/bibliotÄku kopums?). JÅ«su vizuÄlais klÄpjdators bez programmÄÅ”anas, piemÄram, Jupiters (saite). LasÄ«ju arÄ« par Pojo un Mojo - H2O modeļiem, kas ietÄ«ti Java. Pirmais ir vienkÄrÅ”s, otrais ar optimizÄciju. H20 ir vienÄ«gie (!), kuriem Gartner kÄ savas stiprÄs puses minÄja teksta analÄ«zi un NLP, kÄ arÄ« centienus skaidrojamÄ«bas jomÄ. Tas ir ļoti svarÄ«gi!
Turpat: augsta veiktspÄja, optimizÄcija un nozares standarts integrÄcijas jomÄ ar aparatÅ«ru un mÄkoÅiem.
Un vÄjums ir loÄ£isks - Driverles AI ir vÄjÅ” un Å”aurs, salÄ«dzinot ar to atvÄrto avotu. Datu sagatavoÅ”ana klibo, salÄ«dzinot ar Paxatu! Un viÅi ignorÄ rÅ«pnieciskos datus - straumi, grafiku, Ä£eogrÄfisko atraÅ”anÄs vietu. Nu, viss nevar bÅ«t tikai labi.
KNIME
Man patika 6 ļoti specifiski, ļoti interesanti biznesa gadÄ«jumi galvenajÄ lapÄ. SpÄcÄ«gs OpenSource.
Gartners viÅus pazeminÄja no lÄ«deriem par vizionÄriem. Slikta naudas pelnÄ«Å”ana ir laba zÄ«me lietotÄjiem, Åemot vÄrÄ, ka Leader ne vienmÄr ir labÄkÄ izvÄle.
AtslÄgas vÄrds, tÄpat kÄ H2O, ir papildinÄts, kas nozÄ«mÄ palÄ«dzÄt nabadzÄ«gajiem pilsoÅu datu zinÄtniekiem. Å Ä« ir pirmÄ reize, kad kÄds tiek kritizÄts par sniegumu apskatÄ! Interesanti? Tas nozÄ«mÄ, ka ir tik daudz skaitļoÅ”anas jaudas, ka veiktspÄja vispÄr nevar bÅ«t sistÄmiska problÄma? Gartner ir par Å”o vÄrdu āPaplaÅ”inÄtsā atseviŔķs raksts, kuru nevarÄja sasniegt.
Un KNIME, Ŕķiet, ir pirmais neamerikÄnis apskatÄ! (Un mÅ«su dizaineriem ļoti patika viÅu galvenÄ lapa. DÄ«vaini cilvÄki.
MathWorks
MatLab ir sens visiem zinÄms goda biedrs! Instrumentu kastes visÄm dzÄ«ves jomÄm un situÄcijÄm. Kaut kas ļoti atŔķirÄ«gs. PatiesÄ«bÄ daudz, daudz un daudz matemÄtikas visam dzÄ«vÄ!
Simulink papildprodukts sistÄmas projektÄÅ”anai. Es iedziļinÄjos digitÄlo dvÄ«Åu rÄ«ku kastÄs - es par to neko nesaprotu, bet Å”eit daudz ir rakstÄ«ts. PriekÅ” naftas rÅ«pniecÄ«ba. KopumÄ tas ir bÅ«tiski atŔķirÄ«gs produkts no matemÄtikas un inženierzinÄtÅu dziļumiem. Lai atlasÄ«tu konkrÄtus matemÄtikas rÄ«ku komplektus. PÄc Gartnera domÄm, viÅu problÄmas ir tÄdas paÅ”as kÄ viedajiem inženieriem ā nekÄdas sadarbÄ«bas ā katrs rakÅÄjas savÄ modelÄ«, nekÄdas demokrÄtijas, nekÄdas izskaidrojamÄ«bas.
RapidMiner
Esmu daudz saskÄries un dzirdÄjis iepriekÅ” (kopÄ ar Matlab) laba atvÄrtÄ koda kontekstÄ. Es kÄ parasti nedaudz iedziļinÄjos TurboPrep. Mani interesÄ, kÄ iegÅ«t tÄ«rus datus no netÄ«riem datiem.
Atkal var redzÄt, ka cilvÄki ir labi, pamatojoties uz 2018. gada mÄrketinga materiÄliem un briesmÄ«gajiem angļu valodÄ runÄjoÅ”iem cilvÄkiem funkcijas demonstrÄcijÄ.
Un cilvÄki no Dortmundes kopÅ” 2001. gada ar spÄcÄ«gu vÄcu izcelsmi)
Es joprojÄm no vietnes nesaprotu, kas tieÅ”i ir pieejams atvÄrtajÄ pirmkoda formÄtÄ - jums ir jÄiedziļinÄs. Labi video par izvietoÅ”anu un AutoML koncepcijÄm.
ArÄ« RapidMiner Server aizmugursistÄmai nav nekÄ Ä«paÅ”a. Tas, iespÄjams, bÅ«s kompakts un labi darbosies ar premium klases komplektu. Tas ir iepakots Docker. Koplietojama vide tikai RapidMiner serverÄ«. Un tad ir Radoop, dati no Hadoop, kas skaita atskaÅas no Spark in Studio darbplÅ«smÄ.
KÄ jau gaidÄ«ts, jaunie karstie pÄrdevÄji "svÄ«traino nÅ«ju pÄrdevÄji" tos nobÄ«dÄ«ja uz leju. TomÄr Gartner prognozÄ viÅu turpmÄkos panÄkumus Enterprise telpÄ. Tur var savÄkt naudu. VÄcieÅ”i to prot, svÄts-svÄts :) SAP nepiemini!!!
ViÅi daudz dara pilsoÅu labÄ! Bet no lapas var redzÄt, ka Gartner saka, ka viÅi cÄ«nÄs ar pÄrdoÅ”anas inovÄcijÄm un cÄ«nÄs nevis par pÄrklÄjuma plaÅ”umu, bet gan par rentabilitÄti.
Palika SAS Šø Tibco man tipiski BI pÄrdevÄji... Un abi ir paÅ”Ä augÅ”Ä, kas apliecina manu pÄrliecÄ«bu, ka normÄls DataScience loÄ£iski aug
no BI, nevis no mÄkoÅiem un Hadoop infrastruktÅ«rÄm. No biznesa, tas ir, nevis no IT. PiemÄram, piemÄram, Gazpromneft: saite,Nobriedusi DSML vide veidojas no spÄcÄ«gas BI prakses. Bet varbÅ«t tas ir smirdÄ«gs un neobjektÄ«vs pret MDM un citÄm lietÄm, kas zina.
SAS
Nav daudz ko teikt. Tikai paŔsaprotamas lietas.
TIBCO
StratÄÄ£ija tiek lasÄ«ta iepirkumu sarakstÄ lapas garÄ Wiki lapÄ. JÄ, garÅ” stÄsts, bet 28!!! ÄÄrlzs. Es nopirku BI Spotfire (2007) savÄ tehno jaunÄ«bÄ. Un arÄ« ziÅojumi no Jaspersoft (2014), pÄc tam pat trÄ«s prognozÄÅ”anas analÄ«tikas pÄrdevÄjiem Insightful (S-plus) (2008), Statistica (2017) un Alpine Data (2017), notikumu apstrÄdes un straumÄÅ”anas Streambase System (2013), MDM Orchestra. TÄ«kli (2018) un Snappy Data (2019) atmiÅas platforma.