Gartner MQ 2020 apskats: maŔīnmācÄ«Å”anās un mākslÄ«gā intelekta platformas

Nav iespējams izskaidrot iemeslu, kāpēc es to izlasÄ«ju. Man vienkārÅ”i bija laiks un interesējos, kā darbojas tirgus. Un tas jau ir pilnvērtÄ«gs tirgus saskaņā ar Gartner kopÅ” 2018. gada. No 2014. lÄ«dz 2016. gadam to sauca par uzlaboto analÄ«zi (saknes BI), 2017. gadā par datu zinātni (es nezinu, kā to tulkot krieviski). Tiem, kurus interesē pārdevēju kustÄ«ba pa laukumu, varat Å”eit Skaties. Un es runāŔu par 2020. gada laukumu, jo Ä«paÅ”i tāpēc, ka kopÅ” 2019. gada izmaiņas tajā ir minimālas: SAP pārcēlās un Altair iegādājās Datawatch.

Å Ä« nav sistemātiska analÄ«ze vai tabula. Individuāls skatÄ«jums, arÄ« no Ä£eofiziÄ·a viedokļa. Bet man vienmēr ir interese lasÄ«t Gartner MQ, viņi lieliski formulē dažus punktus. Tātad, Å”eit ir lietas, kurām es pievērsu uzmanÄ«bu gan tehniski, gan tirgus, gan filozofiski.

Tas nav paredzēts cilvēkiem, kuri ir dziļi iedziļinājuÅ”ies ML tēmā, bet gan cilvēkiem, kurus interesē tas, kas vispār notiek tirgÅ«.

Pats DSML tirgus loģiski atrodas starp BI un Cloud AI izstrādātāju pakalpojumiem.

Gartner MQ 2020 apskats: maŔīnmācÄ«Å”anās un mākslÄ«gā intelekta platformas

Vispirms iecienītākie citāti un termini:

  • "LÄ«deris var nebÅ«t labākā izvēle" ā€” Tirgus lÄ«deris ne vienmēr ir tas, kas jums nepiecieÅ”ams. Ä»oti steidzami! Funkcionāla klienta trÅ«kuma dēļ viņi vienmēr meklē ā€œlabākoā€, nevis ā€œpiemērotākoā€ risinājumu.
  • "Modeļa operacionalizācija" - saÄ«sināti kā MOP. Un visiem ir grÅ«ti ar mopÅ”iem! ā€“ (forÅ”a mopÅ”u tēma liek modelim darboties).
  • "PiezÄ«mju grāmatiņas vide" ir svarÄ«gs jēdziens, kurā apvienojas kods, komentāri, dati un rezultāti. Tas ir ļoti skaidrs, daudzsoloÅ”s un var ievērojami samazināt lietotāja interfeisa koda daudzumu.
  • "Sakņojies OpenSource" - labi teikts - iesakņojas atvērtā avotā.
  • "Pilsoņu datu zinātnieki" - tādi viegli čaļi, tādi lameri, nevis eksperti, kam vajag vizuālo vidi un visādas palÄ«glietas. Viņi nekodēs.
  • "Demokrātija" ā€” bieži lietots ar nozÄ«mi ā€œpadarÄ«t pieejamu plaŔākam cilvēku lokamā€. Mēs varam teikt "demokratizējiet datus", nevis bÄ«stamo "atbrÄ«vot datus", ko izmantojām. ā€œDemokratizācijaā€ vienmēr ir gara aste, un visi pārdevēji skrien pēc tā. Zaudējiet zināŔanu intensitāti - iegÅ«stiet pieejamÄ«bu!
  • "Izpētes datu analÄ«ze ā€” EDA" ā€” Å”o pieejamo lÄ«dzekļu izskatÄ«Å”ana. Daži statistikas dati. Nedaudz vizualizācijas. Kaut kas tāds, ko vienā vai otrā pakāpē dara visi. Nezināju, ka Å”im ir kāds nosaukums
  • "ReproducējamÄ«ba" ā€” visu vides parametru, ievades un rezultātu maksimāla saglabāŔana, lai eksperimentu pēc tā veikÅ”anas varētu atkārtot. VissvarÄ«gākais termins eksperimentālai testa videi!

Tātad:

Alterikss

ForÅ”a saskarne, gluži kā rotaļlieta. MērogojamÄ«ba, protams, ir nedaudz sarežģīta. AttiecÄ«gi Pilsoņu kopiena inženieru ap to paÅ”u ar tchotchkes spēlēt. Analytics ā€” viss jums vienā pudelē. Man atgādināja spektrālās korelācijas datu analÄ«zes kompleksu Coscad, kas tika ieprogrammēts 90. gados.

Anaconda

Kopiena ap Python un R ekspertiem. Atvērtais avots ir attiecīgi liels. Izrādījās, ka mani kolēģi to izmanto visu laiku. Bet es nezināju.

DataBricks

Sastāv no trim atvērtā pirmkoda projektiem - Spark izstrādātāji ir savākuÅ”i satriecoÅ”u naudu kopÅ” 2013. gada. Man tieŔām jācitē wiki:

ā€œ2013. gada septembrÄ« Databricks paziņoja, ka ir piesaistÄ«jis 13.9 miljonus USD no Andreessen Horowitz. Uzņēmums piesaistÄ«ja papildu USD 33 miljonus 2014. gadā, 60 miljonus USD 2016. gadā, 140 miljonus USD 2017. gadā, 250 miljonus USD 2019. gadā (februārÄ«) un 400 miljonus USD 2019. gadā (oktobrÄ«)ā€!!!

Daži lieliski cilvēki sagriež Spark. Es nezinu, piedod!

Un projekti ir:

  • Deltas ezers - Nesen tika izlaists ACID on Spark (par ko mēs sapņojām ar Elasticsearch) - pārvērÅ” to datu bāzē: stingra shēma, ACID, audits, versijas...
  • ML plÅ«sma ā€” modeļu izsekoÅ”ana, iepakoÅ”ana, pārvaldÄ«ba un uzglabāŔana.
  • koala - Pandas DataFrame API Spark - Pandas - Python API darbam ar tabulām un datiem kopumā.

JÅ«s varat apskatÄ«t Spark tiem, kas nezina vai ir aizmirsuÅ”i: saite. NoskatÄ«jos video ar piemēriem no nedaudz garlaicÄ«giem, bet detalizētiem konsultējoÅ”iem dzeņiem: DataBricks for Data Science (saite) un datu inženierijai (saite).

ÄŖsāk sakot, Databricks izvelk Spark. Ikviens, kurÅ” vēlas normāli izmantot Spark mākonÄ«, bez vilcināŔanās ņem DataBricks, kā paredzēts šŸ™‚ Spark Å”eit ir galvenais atŔķirÄ«bas faktors.
Es uzzināju, ka Spark Streaming nav īsta viltota reāllaika vai mikrobatching. Un, ja jums ir nepiecieŔams īsts reālais laiks, tas ir pieejams Apache STORM. Visi arī saka un raksta, ka Spark ir labāks par MapReduce. Tas ir sauklis.

DATAIKU

ForŔa lieta no gala līdz galam. Ir daudz sludinājumu. Es nesaprotu, kā tas atŔķiras no Alteryx?

DataRobot

Paxata datu sagatavoÅ”anai ir atseviŔķs uzņēmums, kuru Data Robots iegādājās 2019. gada decembrÄ«. Savācām 20 MUSD un pārdevām. Viss 7 gadu laikā.

Datu sagatavoŔana programmā Paxata, nevis Excel - skatīt Ŕeit: saite.
Pastāv automātiska meklÄ“Å”ana un priekÅ”likumi divu datu kopu savienoÅ”anai. Lieliska lieta - lai izprastu datus, bÅ«tu vēl lielāks uzsvars uz tekstuālo informāciju (saite).
Datu katalogs ir lielisks bezjēdzÄ«gu ā€œdzÄ«vuā€ datu kopu katalogs.
Interesanti ir arī tas, kā Paxata tiek veidoti direktoriji (saite).

ā€œSaskaņā ar analÄ«tiÄ·u firmas teikto olŔūna, programmatÅ«ra ir iespējama, pateicoties uzlabojumiem prognozējoŔā analÄ«ze, maŔīna mācÄ«Å”anās un NoSQL datu keÅ”atmiņas metodika.[15] ProgrammatÅ«ra izmanto semantiskais algoritmi, lai izprastu datu tabulas kolonnu nozÄ«mi, un modeļu atpazÄ«Å”anas algoritmi, lai atrastu iespējamos dublikātus datu kopā.[15][7] Tas izmanto arÄ« indeksÄ“Å”anu, teksta rakstu atpazÄ«Å”anu un citas tehnoloÄ£ijas, kas tradicionāli atrodamas sociālajos medijos un meklÄ“Å”anas programmatÅ«rā.

Data Robot galvenais produkts ir Å”eit. Viņu sauklis ir no modeļa lÄ«dz uzņēmuma lietojumprogrammai! Man Ŕķita, ka saistÄ«bā ar krÄ«zi konsultācijas naftas nozarei bija ļoti banālas un neinteresantas: saite. Es skatÄ«jos viņu videoklipus Mops vai MLops (saite). Å is ir tāds FrankenÅ”teins, kas salikts no 6-7 dažādu produktu iegādes.

Protams, kļūst skaidrs, ka lielai datu zinātnieku komandai ir jābÅ«t tieÅ”i tādai videi darbam ar modeļiem, pretējā gadÄ«jumā viņi tos saražos daudz un nekad neko neizvietos. Un mÅ«su naftas un gāzes augÅ”upējā realitātē, ja mēs varētu izveidot vienu veiksmÄ«gu modeli, tas bÅ«tu liels progress!

Pats process ļoti atgādināja, piemēram, darbu ar projektÄ“Å”anas sistēmām Ä£eoloÄ£ijā-Ä£eofizikā vētrasputns. Visi, kam nav slinkums, veido un modificē modeļus. Apkopojiet datus modelÄ«. Tad viņi izveidoja atsauces modeli un nosÅ«tÄ«ja to uz ražoÅ”anu! Starp, piemēram, Ä£eoloÄ£isko modeli un ML modeli, jÅ«s varat atrast daudz kopÄ«ga.

Domino

Uzsvars uz atvērto platformu un sadarbību. Biznesa lietotāji tiek uzņemti bez maksas. Viņu datu laboratorija ir ļoti līdzīga sharepoint. (Un nosaukums stipri smaržo pēc IBM). Visi eksperimenti ir saistīti ar sākotnējo datu kopu. Cik tas ir pazīstams :) Kā jau mūsu praksē - daži dati tika ievilkti modelī, tad tie tika iztīrīti un sakārtoti modelī, un tas viss jau dzīvo tur modelī un galus nevar atrast avota datos .

Domino ir lieliska infrastruktÅ«ras virtualizācija. Samontēju maŔīnu tik daudz serdeņu, cik nepiecieÅ”ams sekundē, un devos skaitÄ«t. Kā tas tika darÄ«ts, uzreiz nav skaidrs. Docker ir visur. Daudz brÄ«vÄ«bas! Var pievienot jebkuras jaunāko versiju darbvietas. Eksperimentu paralēla uzsākÅ”ana. VeiksmÄ«go izsekoÅ”ana un atlase.

Tas pats, kas DataRobot ā€“ rezultāti tiek publicēti biznesa lietotājiem aplikāciju veidā. ÄŖpaÅ”i apdāvinātām ā€œieinteresētajām pusēmā€. Un tiek uzraudzÄ«ta arÄ« modeļu faktiskā izmantoÅ”ana. Viss MopÅ”iem!

Es pilnībā nesaprotu, kā sarežģīti modeļi nonāk ražoŔanā. Tiek nodroŔināts sava veida API, lai ievadītu datus un iegūtu rezultātus.

H2O

Driveless AI ir ļoti kompakta un intuitīva sistēma Supervised ML. Viss vienā kastē. Uzreiz nav pilnībā skaidrs par aizmuguri.

Modelis tiek automātiski iepakots REST serverÄ« vai Java lietotnē. Å Ä« ir lieliska ideja. Daudz ir darÄ«ts interpretējamÄ«bas un izskaidrojamÄ«bas labā. Modeļa rezultātu interpretācija un skaidrojums (Kas pēc savas bÅ«tÄ«bas nedrÄ«kst bÅ«t izskaidrojams, pretējā gadÄ«jumā cilvēks var aprēķināt to paÅ”u?).
Pirmo reizi gadījuma izpēte par nestrukturētiem datiem un NLP. Augstas kvalitātes arhitektūras bilde. Un vispār man patika bildes.

Ir liels atvērtā koda H2O ietvars, kas nav lÄ«dz galam skaidrs (algoritmu/bibliotēku kopums?). JÅ«su vizuālais klēpjdators bez programmÄ“Å”anas, piemēram, Jupiters (saite). LasÄ«ju arÄ« par Pojo un Mojo - H2O modeļiem, kas ietÄ«ti Java. Pirmais ir vienkārÅ”s, otrais ar optimizāciju. H20 ir vienÄ«gie (!), kuriem Gartner kā savas stiprās puses minēja teksta analÄ«zi un NLP, kā arÄ« centienus skaidrojamÄ«bas jomā. Tas ir ļoti svarÄ«gi!

Turpat: augsta veiktspēja, optimizācija un nozares standarts integrācijas jomā ar aparatūru un mākoņiem.

Un vājums ir loÄ£isks - Driverles AI ir vājÅ” un Å”aurs, salÄ«dzinot ar to atvērto avotu. Datu sagatavoÅ”ana klibo, salÄ«dzinot ar Paxatu! Un viņi ignorē rÅ«pnieciskos datus - straumi, grafiku, Ä£eogrāfisko atraÅ”anās vietu. Nu, viss nevar bÅ«t tikai labi.

KNIME

Man patika 6 ļoti specifiski, ļoti interesanti biznesa gadījumi galvenajā lapā. Spēcīgs OpenSource.

Gartners viņus pazemināja no lÄ«deriem par vizionāriem. Slikta naudas pelnÄ«Å”ana ir laba zÄ«me lietotājiem, ņemot vērā, ka Leader ne vienmēr ir labākā izvēle.

Atslēgas vārds, tāpat kā H2O, ir papildināts, kas nozÄ«mē palÄ«dzēt nabadzÄ«gajiem pilsoņu datu zinātniekiem. Å Ä« ir pirmā reize, kad kāds tiek kritizēts par sniegumu apskatā! Interesanti? Tas nozÄ«mē, ka ir tik daudz skaitļoÅ”anas jaudas, ka veiktspēja vispār nevar bÅ«t sistēmiska problēma? Gartner ir par Å”o vārdu ā€œPaplaÅ”inātsā€ atseviŔķs raksts, kuru nevarēja sasniegt.
Un KNIME, Ŕķiet, ir pirmais neamerikānis apskatā! (Un mÅ«su dizaineriem ļoti patika viņu galvenā lapa. DÄ«vaini cilvēki.

MathWorks

MatLab ir sens visiem zināms goda biedrs! Instrumentu kastes visām dzÄ«ves jomām un situācijām. Kaut kas ļoti atŔķirÄ«gs. PatiesÄ«bā daudz, daudz un daudz matemātikas visam dzÄ«vē!

Simulink papildprodukts sistēmas projektÄ“Å”anai. Es iedziļinājos digitālo dvīņu rÄ«ku kastēs - es par to neko nesaprotu, bet Å”eit daudz ir rakstÄ«ts. PriekÅ” naftas rÅ«pniecÄ«ba. Kopumā tas ir bÅ«tiski atŔķirÄ«gs produkts no matemātikas un inženierzinātņu dziļumiem. Lai atlasÄ«tu konkrētus matemātikas rÄ«ku komplektus. Pēc Gartnera domām, viņu problēmas ir tādas paÅ”as kā viedajiem inženieriem ā€“ nekādas sadarbÄ«bas ā€“ katrs rakņājas savā modelÄ«, nekādas demokrātijas, nekādas izskaidrojamÄ«bas.

RapidMiner

Esmu daudz saskāries un dzirdējis iepriekÅ” (kopā ar Matlab) laba atvērtā koda kontekstā. Es kā parasti nedaudz iedziļinājos TurboPrep. Mani interesē, kā iegÅ«t tÄ«rus datus no netÄ«riem datiem.

Atkal var redzēt, ka cilvēki ir labi, pamatojoties uz 2018. gada mārketinga materiāliem un briesmÄ«gajiem angļu valodā runājoÅ”iem cilvēkiem funkcijas demonstrācijā.

Un cilvēki no Dortmundes kopÅ” 2001. gada ar spēcÄ«gu vācu izcelsmi)

Gartner MQ 2020 apskats: maŔīnmācÄ«Å”anās un mākslÄ«gā intelekta platformas
Es joprojām no vietnes nesaprotu, kas tieÅ”i ir pieejams atvērtajā pirmkoda formātā - jums ir jāiedziļinās. Labi video par izvietoÅ”anu un AutoML koncepcijām.

ArÄ« RapidMiner Server aizmugursistēmai nav nekā Ä«paÅ”a. Tas, iespējams, bÅ«s kompakts un labi darbosies ar premium klases komplektu. Tas ir iepakots Docker. Koplietojama vide tikai RapidMiner serverÄ«. Un tad ir Radoop, dati no Hadoop, kas skaita atskaņas no Spark in Studio darbplÅ«smā.

Kā jau gaidÄ«ts, jaunie karstie pārdevēji "svÄ«traino nÅ«ju pārdevēji" tos nobÄ«dÄ«ja uz leju. Tomēr Gartner prognozē viņu turpmākos panākumus Enterprise telpā. Tur var savākt naudu. VācieÅ”i to prot, svēts-svēts :) SAP nepiemini!!!

Viņi daudz dara pilsoņu labā! Bet no lapas var redzēt, ka Gartner saka, ka viņi cÄ«nās ar pārdoÅ”anas inovācijām un cÄ«nās nevis par pārklājuma plaÅ”umu, bet gan par rentabilitāti.

Palika SAS Šø Tibco man tipiski BI pārdevēji... Un abi ir paŔā augŔā, kas apliecina manu pārliecÄ«bu, ka normāls DataScience loÄ£iski aug
no BI, nevis no mākoņiem un Hadoop infrastruktūrām. No biznesa, tas ir, nevis no IT. Piemēram, piemēram, Gazpromneft: saite,Nobriedusi DSML vide veidojas no spēcīgas BI prakses. Bet varbūt tas ir smirdīgs un neobjektīvs pret MDM un citām lietām, kas zina.

SAS

Nav daudz ko teikt. Tikai paŔsaprotamas lietas.

TIBCO

Stratēģija tiek lasÄ«ta iepirkumu sarakstā lapas garā Wiki lapā. Jā, garÅ” stāsts, bet 28!!! Čārlzs. Es nopirku BI Spotfire (2007) savā tehno jaunÄ«bā. Un arÄ« ziņojumi no Jaspersoft (2014), pēc tam pat trÄ«s prognozÄ“Å”anas analÄ«tikas pārdevējiem Insightful (S-plus) (2008), Statistica (2017) un Alpine Data (2017), notikumu apstrādes un straumÄ“Å”anas Streambase System (2013), MDM Orchestra. TÄ«kli (2018) un Snappy Data (2019) atmiņas platforma.

Sveiks, Frenkij!

Gartner MQ 2020 apskats: maŔīnmācÄ«Å”anās un mākslÄ«gā intelekta platformas

Avots: www.habr.com

Pievieno komentāru