Gartner MQ 2020 umsögn: Vélnám og gervigreindarkerfi

Það er ómögulegt að útskýra ástæðuna fyrir því að ég las þetta. Ég hafði bara tíma og hafði áhuga á því hvernig markaðurinn virkar. Og þetta er nú þegar fullgildur markaður samkvæmt Gartner síðan 2018. Frá 2014-2016 var það kallað háþróuð greining (rætur í BI), árið 2017 - Data Science (ég veit ekki hvernig á að þýða þetta yfir á rússnesku). Fyrir þá sem hafa áhuga á hreyfingum söluaðila um torgið, getur þú hér sjáðu. Og ég mun tala um 2020 ferninginn, sérstaklega þar sem breytingarnar þar síðan 2019 eru í lágmarki: SAP flutti út og Altair keypti Datawatch.

Þetta er ekki kerfisbundin greining eða tafla. Einstaklingssýn, líka frá sjónarhóli jarðeðlisfræðings. En ég er alltaf forvitinn að lesa Gartner MQ, þeir móta suma punkta fullkomlega. Svo hér eru atriðin sem ég veitti athygli bæði tæknilega, markaðslega og heimspekilega.

Þetta er ekki fyrir fólk sem er djúpt í efni ML, heldur fyrir fólk sem hefur áhuga á því sem er almennt að gerast á markaðnum.

DSML markaðurinn sjálfur hreiður sig á milli BI og Cloud AI þróunarþjónustu.

Gartner MQ 2020 umsögn: Vélnám og gervigreindarkerfi

Uppáhalds tilvitnanir og hugtök fyrst:

  • „Leiðtogi er kannski ekki besti kosturinn“ — Markaðsleiðtogi er ekki endilega það sem þú þarft. Mjög áríðandi! Vegna skorts á virkum viðskiptavinum eru þeir alltaf að leita að „bestu“ lausninni, frekar en „viðeigandi“.
  • "Rekstrarvæðing líkans" - skammstafað sem MOPs. Og allir eiga erfitt með pugs! – (flott pug þema lætur líkanið virka).
  • "Minnibók umhverfi" er mikilvægt hugtak þar sem kóða, athugasemdir, gögn og niðurstöður koma saman. Þetta er mjög skýrt, efnilegt og getur dregið verulega úr magni HÍ kóða.
  • „Rætur í OpenSource“ - vel sagt - skjóta rótum í opnum hugbúnaði.
  • "Citizen Data Scientists" - svona auðveldir krakkar, svona lamarar, ekki sérfræðingar, sem þurfa sjónrænt umhverfi og alls kyns aukahluti. Þeir munu ekki kóða.
  • "Lýðræði" - oft notað til að þýða "gera aðgengilegt breiðara hópi fólks." Við getum sagt „lýðræðissinna gögnin“ í stað hins hættulega „frjálsa gögnin“ sem við notuðum áður. „Lýðræði“ er alltaf langur hali og allir söluaðilar hlaupa á eftir því. Tap á styrkleika þekkingar - ávinningur í aðgengi!
  • "Könnunargagnagreining - EDA" — athugun á þessum tiltæku úrræðum. Nokkur tölfræði. Smá sjónræn. Eitthvað sem allir gera að einhverju leyti. Vissi ekki að það væri til nafn á þessu
  • "Reproducibility" — hámarks varðveislu allra umhverfisþátta, inntaks og úttaks þannig að hægt sé að endurtaka tilraunina þegar hún hefur verið framkvæmd. Mikilvægasta hugtakið fyrir tilraunaprófsumhverfi!

Svo:

Alteryx

Flott viðmót, alveg eins og leikfang. Sveigjanleiki er auðvitað svolítið erfiður. Samkvæmt því, Citizen samfélag verkfræðinga um það sama með tchotchkes að spila. Greining er allt þitt í einni flösku. Minnti mig á flókið litrófsfylgnigagnagreiningu Coscad, sem var forritað á tíunda áratugnum.

Anaconda

Samfélag í kringum Python og R sérfræðinga. Opinn uppspretta er stór í samræmi við það. Það kom í ljós að samstarfsmenn mínir nota það allan tímann. En ég vissi það ekki.

DataBricks

Samanstendur af þremur opnum verkefnum - Spark verktaki hafa safnað helvítis fullt af peningum síðan 2013. Ég verð eiginlega að vitna í wiki:

„Í september 2013 tilkynnti Databricks að það hefði safnað 13.9 milljónum dala frá Andreessen Horowitz. Fyrirtækið safnaði 33 milljónum dala til viðbótar árið 2014, 60 milljónum dala árið 2016, 140 milljónum dala árið 2017, 250 milljónum dala árið 2019 (febrúar) og 400 milljóna dala árið 2019 (okt)“!!!

Sumt frábært fólk skar Spark. Ég veit það ekki, því miður!

Og verkefnin eru:

  • Delta vatnið - ACID on Spark var nýlega gefið út (það sem okkur dreymdi um með Elasticsearch) - breytir því í gagnagrunn: stíft skema, ACID, endurskoðun, útgáfur...
  • ML flæði — mælingar, pökkun, stjórnun og geymsla módel.
  • Kóala - Pandas DataFrame API á Spark - Pandas - Python API til að vinna með töflur og gögn almennt.

Þú getur skoðað Spark fyrir þá sem ekki vita eða hafa gleymt: tengill. Ég horfði á myndbönd með dæmum frá örlítið leiðinlegum en ítarlegum ráðgjöfum: DataBricks for Data Science (tengill) og fyrir Data Engineering (tengill).

Í stuttu máli, Databricks dregur út Spark. Sá sem vill nota Spark venjulega í skýinu tekur DataBricks hiklaust eins og til er ætlast 🙂 Spark er aðal aðgreiningarefnið hér.
Ég komst að því að Spark Streaming er ekki raunverulegur fölsaður rauntíma eða microbatching. Og ef þú þarft raunverulegan rauntíma, þá er það í Apache STORM. Allir segja og skrifa líka að Spark sé betri en MapReduce. Þetta er slagorðið.

DATAIKU

Flott hlutur frá enda til enda. Það er mikið af auglýsingum. Ég skil ekki hvernig það er frábrugðið Alteryx?

DataRobot

Paxata til undirbúnings gagna er sérstakt fyrirtæki sem Data Robots keypti í desember 2019. Við söfnuðum 20 MUSD og seldum. Allt á 7 árum.

Gagnagerð í Paxata, ekki Excel - sjá hér: tengill.
Það eru sjálfvirkar uppflettingar og tillögur um tengingar á milli tveggja gagnasafna. Frábær hlutur - til að skilja gögnin væri enn meiri áhersla lögð á textaupplýsingar (tengill).
Gagnaskrá er frábær skrá yfir gagnslaus „lifandi“ gagnasöfn.
Það er líka áhugavert hvernig möppur myndast í Paxata (tengill).

„Samkvæmt greiningarfyrirtækinu Æg, hugbúnaðurinn er gerður mögulegur með framförum í sjálfvirk greining, vél nám og NoSQL aðferðafræði við skyndiminni gagna.[15] Hugbúnaðurinn notar merkingartækni reiknirit til að skilja merkingu dálka gagnatöflu og mynsturgreiningarreiknirit til að finna hugsanlegar afritanir í gagnasetti.[15][7] Það notar einnig flokkun, textamynsturgreiningu og aðra tækni sem venjulega er að finna í samfélagsmiðlum og leitarhugbúnaði.

Aðalvara Data Robot er hér. Slagorð þeirra er frá Model til Enterprise Application! Mér fannst ráðgjöf fyrir olíuiðnaðinn í tengslum við kreppuna, en hún var mjög banal og óáhugaverð: tengill. Ég horfði á myndböndin þeirra á Mops eða MLops (tengill). Þetta er svo Frankenstein sett saman úr 6-7 kaupum á ýmsum vörum.

Auðvitað verður ljóst að stórt teymi gagnafræðinga verður að hafa einmitt slíkt umhverfi til að vinna með líkön, annars munu þeir framleiða mikið af þeim og senda aldrei neitt. Og í okkar olíu og gasi andstreymis veruleika, ef aðeins við gætum búið til eitt farsælt líkan, þá væri það frábær framfarir!

Ferlið sjálft minnti mjög á vinnuna með hönnunarkerfi í jarðfræði-jarðeðlisfræði svo dæmi séu tekin Petrel. Allir sem eru ekki of latir búa til og breyta módelum. Safnaðu gögnum inn í líkanið. Síðan gerðu þeir viðmiðunarlíkan og sendu það í framleiðslu! Á milli til dæmis jarðfræðilegs líkans og ML líkans má finna margt sameiginlegt.

Domino

Áhersla á opinn vettvang og samvinnu. Fyrirtækjanotendur eru teknir inn ókeypis. Gagnaverið þeirra er mjög svipað sharepoint. (Og nafnið smellur mjög af IBM). Allar tilraunir tengjast upprunalegu gagnasafninu. Hversu kunnuglegt er þetta :) Eins og í okkar venju - sum gögn voru dregin inn í líkanið, síðan var það hreinsað og sett í röð í líkaninu, og allt þetta býr nú þegar þarna í líkaninu og endarnir finnast ekki í upprunagögnunum .

Domino er með flott sýndargerð innviða. Ég setti vélina saman eins marga kjarna og þurfti á sekúndu og fór að telja. Hvernig það var gert er ekki alveg ljóst. Docker er alls staðar. Mikið frelsi! Hægt er að tengja hvaða vinnusvæði sem er af nýjustu útgáfum. Samhliða ræsingu tilrauna. Rekja og val á farsælum.

Sama og DataRobot - niðurstöðurnar eru birtar fyrir viðskiptanotendur í formi forrita. Fyrir sérstaklega hæfileikaríka „hagsmunaaðila“. Og einnig er fylgst með raunverulegri notkun líkananna. Allt fyrir Pugs!

Ég skil ekki alveg hvernig flóknar gerðir enda í framleiðslu. Einhvers konar API er til staðar til að fæða þá gögn og fá niðurstöður.

H2O

Driveless AI er mjög fyrirferðarlítið og leiðandi kerfi fyrir Supervised ML. Allt í einum kassa. Það er ekki alveg ljóst strax um bakenda.

Líkaninu er sjálfkrafa pakkað inn í REST netþjón eða Java app. Þetta er frábær hugmynd. Mikið hefur verið gert fyrir túlkanleika og skýringar. Túlkun og skýring á niðurstöðum líkansins (Hvað ætti í eðli sínu ekki að vera hægt að útskýra, annars getur maður reiknað það sama?).
Í fyrsta sinn, tilviksrannsókn um óskipulögð gögn og NLP. Hágæða byggingarmynd. Og almennt fannst mér myndirnar góðar.

Það er stór opinn uppspretta H2O ramma sem er ekki alveg skýr (sett af reikniritum/söfnum?). Þín eigin sjónræna fartölva án forritunar eins og Júpíter (tengill). Ég las líka um Pojo og Mojo - H2O módel vafin inn í Java. Sú fyrri er einföld, sú seinni með hagræðingu. H20 eru þeir einu(!) sem Gartner taldi upp textagreiningu og NLP sem styrkleika sína, sem og viðleitni þeirra varðandi skýringar. Það er mjög mikilvægt!

Á sama stað: mikil afköst, hagræðing og iðnaðarstaðall á sviði samþættingar við vélbúnað og ský.

Og veikleikinn er rökréttur - Driverles AI er veikt og þröngt miðað við opinn uppspretta þeirra. Gagnaundirbúningur er lélegur miðað við Paxata! Og þeir hunsa iðnaðargögn - straum, graf, land. Jæja, allt getur ekki bara verið gott.

KNÍÐUR

Mér líkaði við 6 mjög sérstakar, mjög áhugaverðar viðskiptatilvik á aðalsíðunni. Sterkur OpenSource.

Gartner lækkaði þá úr leiðtogum í hugsjónamenn. Að græða illa er gott merki fyrir notendur í ljósi þess að leiðtoginn er ekki alltaf besti kosturinn.

Lykilorðið, eins og í H2O, er aukið, sem þýðir að aðstoða fátæka borgara gagnafræðinga. Þetta er í fyrsta skipti sem einhver hefur verið gagnrýndur fyrir frammistöðu í umsögn! Áhugavert? Semsagt, það er svo mikið tölvuafl að frammistaða getur alls ekki verið kerfisbundið vandamál? Gartner hefur um þetta orð „Augmented“ sérstök grein, sem ekki náðist.
Og KNIME virðist vera sá fyrsti sem ekki er bandarískur í umsögninni! (Og hönnuðum okkar líkaði mjög vel við áfangasíðuna sína. Skrýtið fólk.

MathWorks

MatLab er gamall heiðursfélagi sem allir þekkja! Verkfærakassar fyrir öll svið lífsins og aðstæður. Eitthvað allt öðruvísi. Reyndar mikið og mikið og mikið af stærðfræði fyrir allt í lífinu!

Simulink viðbótarvara fyrir kerfishönnun. Ég gróf í verkfærakistum fyrir Digital Twins - ég skil ekkert í því, en hér mikið hefur verið skrifað. Fyrir olíuiðnaði. Almennt séð er þetta í grundvallaratriðum frábrugðin dýpt stærðfræði og verkfræði. Til að velja ákveðin stærðfræðiverkfærasett. Samkvæmt Gartner eru vandamál þeirra þau sömu og hjá snjöllum verkfræðingum - engin samvinna - allir grúska um í sinni eigin fyrirmynd, ekkert lýðræði, engin skýring.

RapidMiner

Ég hef rekist á og heyrt margt áður (ásamt Matlab) í samhengi við góðan opinn uppspretta. Ég pældi aðeins í TurboPrep eins og venjulega. Ég hef áhuga á hvernig á að fá hrein gögn úr óhreinum gögnum.

Aftur geturðu séð að fólkið er gott miðað við markaðsefni 2018 og hræðilega enskumælandi fólkið í kynningu.

Og fólk frá Dortmund síðan 2001 með sterkan þýskan bakgrunn)

Gartner MQ 2020 umsögn: Vélnám og gervigreindarkerfi
Ég skil samt ekki af síðunni hvað nákvæmlega er fáanlegt í opnum hugbúnaði - þú þarft að kafa dýpra. Góð myndbönd um uppsetningu og AutoML hugtök.

Það er ekkert sérstakt við RapidMiner Server bakendann heldur. Það verður líklega fyrirferðarlítið og virkar vel á úrvals út úr kassanum. Það er pakkað í Docker. Sameiginlegt umhverfi aðeins á RapidMiner þjóninum. Og svo er það Radoop, gögn frá Hadoop, að telja rím úr Spark in Studio workflow.

Eins og við var að búast færðu ungir heitir seljendur „seljendur röndótta prik“ þá niður. Gartner spáir hins vegar fyrir um velgengni þeirra í framtíðinni á Enterprise sviðinu. Þar er hægt að safna peningum. Þjóðverjarnir kunna að gera þetta, heilagt-heilagt :) Ekki minnast á SAP!!!

Þeir gera mikið fyrir borgarana! En af síðunni má sjá að Gartner segir að þeir séu að berjast við nýsköpun í sölu og séu ekki að berjast fyrir breidd umfjöllunar heldur arðsemi.

Var áfram SAS и Tibco dæmigerðir BI söluaðilar fyrir mig... Og báðir eru efstir, sem staðfestir trú mína á því að venjulegt DataScience sé rökrétt að vaxa
frá BI, en ekki frá skýjum og Hadoop innviðum. Frá viðskiptum, það er, en ekki frá upplýsingatækni. Eins og til dæmis í Gazpromneft: tengill,Þroskað DSML umhverfi vex upp úr sterkum BI starfsháttum. En kannski er það skrítið og hlutdrægt gagnvart MDM og öðru, hver veit.

SAS

Það er ekki mikið að segja. Aðeins augljósu hlutir.

TIBCO

Stefnan er lesin í innkaupalista á síðulangri Wiki síðu. Já, löng saga, en 28!!! Charles. Ég keypti BI Spotfire (2007) aftur í tækni-æsku minni. Og einnig skýrslur frá Jaspersoft (2014), þá allt að þremur framleiðendum spágreininga, Insightful (S-plus) (2008), Statistica (2017) og Alpine Data (2017), viðburðavinnslu og streymi Streambase System (2013), MDM Orchestra Networks (2018) og Snappy Data (2019) í minni pallur.

Halló Frankie!

Gartner MQ 2020 umsögn: Vélnám og gervigreindarkerfi

Heimild: www.habr.com

Bæta við athugasemd