Mapitio ya Gartner MQ 2020: Kujifunza kwa Mashine na Mifumo ya Akili Bandia

Haiwezekani kueleza kwa nini nilisoma hili. Nilikuwa na wakati tu na nilikuwa na nia ya jinsi soko linavyofanya kazi. Na hii tayari ni soko kamili kulingana na Gartner tangu 2018. Kuanzia 2014-2016 iliitwa uchanganuzi wa hali ya juu (mizizi katika BI), mnamo 2017 - Sayansi ya Takwimu (sijui jinsi ya kutafsiri hii kwa Kirusi). Kwa wale wanaopenda harakati za wachuuzi karibu na mraba, unaweza hapa tazama. Na nitazungumza juu ya mraba wa 2020, haswa kwa kuwa mabadiliko huko tangu 2019 ni ndogo: SAP ilihama na Altair ilinunua Datawatch.

Huu sio uchambuzi wa kimfumo au jedwali. Mtazamo wa mtu binafsi, pia kutoka kwa mtazamo wa geophysicist. Lakini mimi huwa na hamu ya kusoma Gartner MQ, wanaunda vidokezo kadhaa kikamilifu. Kwa hivyo hapa kuna mambo ambayo nilizingatia kiufundi, busara ya soko, na kifalsafa.

Hii si kwa ajili ya watu ambao wako ndani ya mada ya ML, lakini kwa watu ambao wanavutiwa na kile kinachotokea sokoni.

Soko la DSML lenyewe kimantiki hukaa kati ya BI na huduma za wasanidi wa Cloud AI.

Mapitio ya Gartner MQ 2020: Kujifunza kwa Mashine na Mifumo ya Akili Bandia

Nukuu na maneno unayopenda kwanza:

  • "Kiongozi hawezi kuwa chaguo bora" - Kiongozi wa soko sio lazima awe kile unachohitaji. Haraka sana! Kama matokeo ya ukosefu wa mteja anayefanya kazi, daima wanatafuta suluhisho "bora", badala ya "linalofaa".
  • "Uendeshaji wa mfano" - zilizofupishwa kama MOPs. Na kila mtu ana wakati mgumu na pugs! - (mandhari ya baridi ya pug hufanya kazi ya mfano).
  • "Mazingira ya daftari" ni dhana muhimu ambapo msimbo, maoni, data na matokeo huja pamoja. Hii ni wazi sana, inaahidi na inaweza kupunguza kwa kiasi kikubwa idadi ya msimbo wa UI.
  • "Mzizi katika OpenSource" - vizuri - inachukua mizizi katika chanzo wazi.
  • "Wanasayansi wa Takwimu za Wananchi" - dudes vile rahisi, lamers vile, si wataalam, ambao wanahitaji mazingira ya kuona na kila aina ya mambo ya msaidizi. Hawataweka msimbo.
  • "Demokrasia" - mara nyingi hutumika kumaanisha "kufanya kupatikana kwa anuwai ya watu." Tunaweza kusema "weka data kidemokrasia" badala ya "komboa data" hatari ambayo tulikuwa tukitumia. "Democratise" daima ni mkia mrefu na wachuuzi wote wanaifuata. Poteza kwa kiwango cha maarifa - pata ufikiaji!
  • "Uchambuzi wa Takwimu za Uchunguzi - EDA" - kuzingatia njia hizi zilizopo. Baadhi ya takwimu. Taswira kidogo. Kitu ambacho kila mtu hufanya kwa daraja moja au nyingine. Sikujua kuna jina la hii
  • "Uzalishaji tena" - Uhifadhi wa juu wa vigezo vyote vya mazingira, pembejeo na matokeo ili jaribio liweze kurudiwa mara moja likifanywa. Neno muhimu zaidi kwa mazingira ya majaribio!

Hivyo:

Alteryx

Kiolesura cha baridi, kama tu toy. Scalability, bila shaka, ni vigumu kidogo. Ipasavyo, jumuiya ya Citizen ya wahandisi karibu sawa na tchotchkes kucheza. Takwimu zote ni zako katika chupa moja. Imenikumbusha changamano cha uchanganuzi wa data ya uunganisho wa spectral Coscad, ambayo ilipangwa katika miaka ya 90.

Anaconda

Jumuiya inayozunguka wataalam wa Python na R. Chanzo wazi ni kikubwa ipasavyo. Ilibadilika kuwa wenzangu wanaitumia kila wakati. Lakini sikujua.

DataBricks

Inajumuisha miradi mitatu ya opensource - watengenezaji wa Spark wamechangisha pesa nyingi sana tangu 2013. Kwa kweli sina budi kunukuu wiki:

"Mnamo Septemba 2013, Databricks ilitangaza kuwa imekusanya $13.9 milioni kutoka kwa Andreessen Horowitz. Kampuni hiyo iliongeza dola milioni 33 mwaka 2014, $60 milioni mwaka 2016, $140 milioni mwaka 2017, $250 milioni mwaka 2019 (Feb) na $400 milioni mwaka 2019 (Okt)”!!!

Baadhi ya watu wakuu kukata Spark. Sijui, samahani!

Na miradi ni:

  • Delta Lake - ACID kwenye Spark ilitolewa hivi majuzi (kile tulichoota kuhusu Elasticsearch) - inaigeuza kuwa hifadhidata: schema ngumu, ACID, ukaguzi, matoleo...
  • Mtiririko wa ML - ufuatiliaji, ufungaji, usimamizi na uhifadhi wa mifano.
  • Koala - Pandas DataFrame API on Spark - Pandas - Python API ya kufanya kazi na meza na data kwa ujumla.

Unaweza kuangalia Spark kwa wale ambao hawajui au wamesahau: kiungo. Nilitazama video zilizo na mifano kutoka kwa vigogo vya kuchosha kidogo lakini vya kina: DataBricks for Data Science (kiungo) na kwa Uhandisi wa Data (kiungo).

Kwa kifupi, Databricks huchota Spark. Mtu yeyote anayetaka kutumia Spark kawaida kwenye wingu huchukua DataBricks bila kusita, kama ilivyokusudiwa πŸ™‚ Spark ndiye kitofautishi kikuu hapa.
Nilijifunza kuwa Utiririshaji wa Spark sio wakati halisi wa uwongo au kubandika kwa njia ndogo. Na ikiwa unahitaji Wakati Halisi halisi, iko katika Apache STORM. Kila mtu pia anasema na kuandika kwamba Spark ni bora kuliko MapReduce. Hii ndiyo kauli mbiu.

DATAIKU

Jambo la kupendeza la mwisho hadi mwisho. Kuna matangazo mengi. Sielewi ni tofauti gani na Alteryx?

DataRoboti

Paxata ya utayarishaji wa data ni kampuni tofauti ambayo ilinunuliwa na Data Robots mnamo Desemba 2019. Tulikusanya MUSD 20 na kuuza. Yote katika miaka 7.

Maandalizi ya data katika Paxata, sio Excel - tazama hapa: kiungo.
Kuna utafutaji otomatiki na mapendekezo ya viungio kati ya hifadhidata mbili. Jambo kubwa - kuelewa data, kungekuwa na msisitizo zaidi juu ya habari ya maandishi (kiungo).
Katalogi ya Data ni katalogi bora ya seti za data "moja kwa moja" zisizo na maana.
Inafurahisha pia jinsi saraka zinaundwa katika Paxata (kiungo).

"Kulingana na kampuni ya wachambuzi ovum, programu inawezekana kupitia maendeleo katika analytics predictive, mashine kujifunza na NoSQL mbinu ya kuhifadhi data.[15] Programu hutumia semantiki algoriti ili kuelewa maana ya safu wima za jedwali la data na algoriti za utambuzi wa muundo ili kupata uwezekano wa kurudia katika seti ya data.[15][7] Pia hutumia kuorodhesha, utambuzi wa muundo wa maandishi na teknolojia zingine zinazopatikana jadi kwenye media za kijamii na programu ya utaftaji.

Bidhaa kuu ya Data Robot ni hapa. Kauli mbiu yao ni kutoka Model hadi Enterprise Application! Nilipata ushauri kwa tasnia ya mafuta kuhusiana na mzozo huo, lakini ulikuwa wa marufuku sana na haukuvutia: kiungo. Nilitazama video zao kwenye Mops au MLops (kiungo) Hii ni Frankenstein kama hiyo iliyokusanyika kutoka kwa ununuzi wa 6-7 wa bidhaa mbalimbali.

Kwa kweli, inakuwa wazi kuwa timu kubwa ya Wanasayansi wa Takwimu lazima iwe na mazingira kama haya ya kufanya kazi na mifano, vinginevyo watazalisha nyingi na hawatawahi kupeleka chochote. Na katika ukweli wetu wa mafuta na gesi juu ya mkondo, ikiwa tu tunaweza kuunda mfano mmoja wa mafanikio, hiyo itakuwa maendeleo makubwa!

Mchakato yenyewe ulikuwa unawakumbusha sana kazi na mifumo ya kubuni katika jiolojia-jiofizikia, kwa mfano petrel. Kila mtu ambaye si mvivu sana hufanya na kurekebisha mifano. Kusanya data kwenye modeli. Kisha wakafanya modeli ya kumbukumbu na kuipeleka kwa uzalishaji! Kati ya, sema, mfano wa kijiolojia na mfano wa ML, unaweza kupata mengi kwa pamoja.

Domino

Msisitizo juu ya jukwaa wazi na ushirikiano. Watumiaji wa biashara wanakubaliwa bila malipo. Maabara yao ya Data ni sawa na sehemu ya hisa. (Na jina linavutia sana IBM). Majaribio yote yanaunganisha kwenye mkusanyiko wa data halisi. Hii inajulikanaje :) Kama ilivyo katika mazoezi yetu - data fulani ilivutwa kwenye mfano, kisha ikasafishwa na kuwekwa kwa mpangilio katika mfano, na yote haya tayari yanaishi hapo kwenye mfano na miisho haiwezi kupatikana kwenye data ya chanzo. .

Domino ina uboreshaji wa miundombinu mzuri. Nilikusanya mashine nyingi kama zinahitajika kwa sekunde moja na nikaenda kuhesabu. Jinsi ilifanyika haijulikani mara moja. Docker iko kila mahali. Uhuru mwingi! Nafasi zozote za kazi za matoleo mapya zaidi zinaweza kuunganishwa. Uzinduzi sambamba wa majaribio. Kufuatilia na kuchagua waliofanikiwa.

Sawa na DataRobot - matokeo yanachapishwa kwa watumiaji wa biashara kwa namna ya maombi. Kwa "wadau" wenye vipaji maalum. Na matumizi halisi ya mifano pia yanafuatiliwa. Kila kitu kwa Pugs!

Sielewi kikamilifu jinsi mifano tata inavyoishia katika uzalishaji. Aina fulani ya API hutolewa ili kuwalisha data na kupata matokeo.

H2O

AI isiyo na kiendeshi ni mfumo wa kuunganishwa sana na angavu kwa ML Inayosimamiwa. Kila kitu katika sanduku moja. Sio wazi kabisa mara moja kuhusu backend.

Muundo huo huwekwa kiotomatiki kwenye seva ya REST au Programu ya Java. Hili ni wazo zuri. Mengi yamefanywa kwa Ufasiri na Ufafanuzi. Ufafanuzi na maelezo ya matokeo ya mfano (Ni nini asili haipaswi kuelezewa, vinginevyo mtu anaweza kuhesabu sawa?).
Kwa mara ya kwanza, uchunguzi wa kesi kuhusu data isiyo na muundo na NLP. Picha ya usanifu wa hali ya juu. Na kwa ujumla nilipenda picha.

Kuna mfumo mkubwa wa wazi wa H2O ambao hauko wazi kabisa (seti ya algoriti/maktaba?). Laptop yako mwenyewe ya kuona bila programu kama Jupiter (kiungo) Nilisoma pia juu ya mifano ya Pojo na Mojo - H2O iliyofunikwa kwenye Java. Ya kwanza ni moja kwa moja, ya pili na uboreshaji. H20 ndio pekee(!) ambao Gartner aliorodhesha uchanganuzi wa maandishi na NLP kama nguvu zao, pamoja na juhudi zao kuhusu Ufafanuzi. Ni muhimu sana!

Katika sehemu moja: utendaji wa juu, uboreshaji na kiwango cha sekta katika uwanja wa ushirikiano na vifaa na mawingu.

Na udhaifu huo ni wa kimantiki - Driverles AI ni dhaifu na nyembamba ikilinganishwa na chanzo chao wazi. Utayarishaji wa data ni lelemama ukilinganisha na Paxata! Na wanapuuza data ya viwanda - mkondo, grafu, geo. Kweli, kila kitu hakiwezi kuwa nzuri tu.

KNIME

Nilipenda kesi 6 mahususi, za kuvutia sana za biashara kwenye ukurasa kuu. OpenSource Nguvu.

Gartner aliwashusha kutoka viongozi hadi wenye maono. Kupata pesa vibaya ni ishara nzuri kwa watumiaji, ikizingatiwa kuwa Kiongozi sio chaguo bora kila wakati.

Neno muhimu, kama katika H2O, limeongezwa, ambayo ina maana ya kusaidia wanasayansi maskini wa data ya raia. Hii ni mara ya kwanza kwa mtu kukosolewa kwa utendakazi katika ukaguzi! Inavutia? Hiyo ni, kuna nguvu nyingi za kompyuta ambazo utendaji hauwezi kuwa shida ya kimfumo hata kidogo? Gartner ana kuhusu neno hili "Imeongezwa" makala tofauti, ambayo haikuweza kufikiwa.
Na KNIME inaonekana kuwa mtu wa kwanza asiye Mmarekani katika ukaguzi! (Na wabunifu wetu walipenda sana ukurasa wao wa kutua. Watu wa ajabu.

MathWorks

MatLab ni rafiki wa zamani wa heshima anayejulikana kwa kila mtu! Sanduku za zana za maeneo yote ya maisha na hali. Kitu tofauti sana. Kwa kweli, kura na kura na kura ya hisabati kwa kila kitu katika maisha!

Bidhaa ya kuongeza ya Simulink kwa muundo wa mfumo. Nilichimba kwenye visanduku vya zana vya Mapacha Dijiti - sielewi chochote kuihusu, lakini hapa mengi yameandikwa. Kwa sekta ya mafuta. Kwa ujumla, hii ni bidhaa tofauti kabisa kutoka kwa kina cha hisabati na uhandisi. Ili kuchagua zana maalum za hisabati. Kulingana na Gartner, matatizo yao ni sawa na yale ya wahandisi mahiri - hakuna ushirikiano - kila mtu anazunguka kwa mtindo wake, hakuna demokrasia, hakuna ufafanuzi.

RapidMiner

Nimekutana na kusikia mengi hapo awali (pamoja na Matlab) katika muktadha wa chanzo kizuri wazi. Nilichimba kidogo kwenye TurboPrep kama kawaida. Ninavutiwa na jinsi ya kupata data safi kutoka kwa data chafu.

Tena unaweza kuona kwamba watu ni wazuri kulingana na nyenzo za uuzaji za 2018 na watu wabaya wanaozungumza Kiingereza kwenye onyesho la kipengele.

Na watu kutoka Dortmund tangu 2001 wenye asili dhabiti ya Kijerumani)

Mapitio ya Gartner MQ 2020: Kujifunza kwa Mashine na Mifumo ya Akili Bandia
Bado sielewi kutoka kwa wavuti ni nini hasa kinapatikana katika chanzo wazi - unahitaji kuchimba zaidi. Video nzuri kuhusu uwekaji na dhana za AutoML.

Hakuna kitu maalum kuhusu hali ya nyuma ya Seva ya RapidMiner pia. Labda itakuwa compact na kufanya kazi vizuri juu ya malipo nje ya boksi. Imewekwa kwenye Docker. Mazingira yaliyoshirikiwa kwenye seva ya RapidMiner pekee. Na kisha kuna Radoop, data kutoka Hadoop, kuhesabu mashairi kutoka Spark katika utiririshaji wa Studio.

Kama ilivyotarajiwa, wachuuzi wachanga wa moto "wauzaji wa vijiti vya mistari" walisogeza chini. Gartner, hata hivyo, anatabiri mafanikio yao ya baadaye katika nafasi ya Biashara. Unaweza kuongeza pesa huko. Wajerumani wanajua jinsi ya kufanya hivyo, mtakatifu-mtakatifu :) Usiseme SAP !!!

Wanafanya mengi kwa wananchi! Lakini kutoka kwa ukurasa unaweza kuona kwamba Gartner anasema kuwa wanajitahidi na uvumbuzi wa mauzo na hawapigani kwa upana wa chanjo, lakini kwa faida.

Kukaa SAS ΠΈ Tibco wachuuzi wa kawaida wa BI kwangu... Na zote mbili ziko juu kabisa, ambayo inathibitisha imani yangu kuwa DataScience ya kawaida inakua kimantiki.
kutoka kwa BI, na sio kutoka kwa mawingu na miundombinu ya Hadoop. Kutoka kwa biashara, yaani, na sio kutoka kwa IT. Kama katika Gazpromneft kwa mfano: kiungo,Mazingira yaliyokomaa ya DSML hukua kutokana na mazoea madhubuti ya BI. Lakini labda ni smacky na upendeleo kuelekea MDM na mambo mengine, ambaye anajua.

SAS

Hakuna mengi ya kusema. Mambo ya wazi tu.

TIBCO

Mkakati huo unasomwa katika orodha ya ununuzi kwenye ukurasa wa Wiki mrefu. Ndiyo, hadithi ndefu, lakini 28 !!! Charles. Nilinunua BI Spotfire (2007) katika ujana wangu wa teknolojia. Na pia kuripoti kutoka kwa Jaspersoft (2014), kisha wachuuzi watatu wa utabiri wa uchanganuzi Insightful (S-plus) (2008), Statistica (2017) na Alpine Data (2017), usindikaji wa hafla na utiririshaji wa Streambase System (2013), Orchestra ya MDM. Mitandao (2018) na Snappy Data (2019) jukwaa la kumbukumbu.

Habari Frankie!

Mapitio ya Gartner MQ 2020: Kujifunza kwa Mashine na Mifumo ya Akili Bandia

Chanzo: mapenzi.com

Kuongeza maoni