Gartner MQ 2020 Review. Machine Learning and Artificial Intelligence Platforms

Անհնար է բացատրել, թե ինչու եմ սա կարդացել։ Ես պարզապես ժամանակ ունեի և հետաքրքրվեցի, թե ինչպես է աշխատում շուկան: Եվ սա արդեն լիարժեք շուկա է ըստ Gartner-ի՝ սկսած 2018 թվականից։ 2014-2016 թվականներին այն կոչվում էր առաջադեմ վերլուծություն (արմատները BI-ում), 2017-ին՝ Տվյալների գիտություն (ես չգիտեմ, թե ինչպես դա թարգմանել ռուսերեն): Նրանց համար, ովքեր հետաքրքրված են հրապարակի շուրջ վաճառողների շարժումներով, կարող եք այստեղ նայել. Եվ ես կխոսեմ 2020 թվականի հրապարակի մասին, հատկապես, որ այնտեղ փոփոխությունները 2019 թվականից ի վեր նվազագույն են. SAP-ը հեռացավ, և Altair-ը գնեց Datawatch-ը:

Սա համակարգված վերլուծություն կամ աղյուսակ չէ։ Անհատական ​​հայացք՝ նաեւ երկրաֆիզիկոսի տեսանկյունից։ Բայց ինձ միշտ հետաքրքրում է Gartner MQ կարդալ, նրանք հիանալի ձևակերպում են որոշ կետեր։ Այսպիսով, ահա այն բաները, որոնց վրա ես ուշադրություն դարձրի և՛ տեխնիկապես, և՛ շուկայական, և՛ փիլիսոփայական:

Սա ոչ թե այն մարդկանց համար է, ովքեր խորացած են ML թեմայի մեջ, այլ այն մարդկանց համար, ովքեր հետաքրքրված են այն ամենով, ինչ ընդհանրապես տեղի է ունենում շուկայում:

DSML շուկան ինքնին տրամաբանորեն բույն է դնում BI-ի և Cloud AI-ի մշակողների ծառայությունների միջև:

Gartner MQ 2020 Review. Machine Learning and Artificial Intelligence Platforms

Նախ՝ սիրելի մեջբերումներն ու տերմինները.

  • «Առաջնորդը չի կարող լավագույն ընտրությունը լինել» — Շուկայի առաջատարը պարտադիր չէ այն, ինչ ձեզ հարկավոր է: Խիստ հրատապ! Ֆունկցիոնալ հաճախորդի բացակայության հետևանքով նրանք միշտ փնտրում են «լավագույն» լուծումը, այլ ոչ թե «հարմար»:
  • «Մոդելի գործառնականացում» - հապավումը որպես MOPs: Եվ բոլորն էլ դժվարանում են պագերի հետ: – (հիասքանչ պուգ թեման ստիպում է մոդելին աշխատել):
  • «Նոթբուքի միջավայր» կարևոր հասկացություն է, որտեղ ծածկագիրը, մեկնաբանությունները, տվյալները և արդյունքները միավորվում են: Սա շատ պարզ է, խոստումնալից և կարող է զգալիորեն նվազեցնել UI ծածկագրի քանակը:
  • «Արմատավորված OpenSource-ում» - լավ է ասված - արմատավորվում է բաց կոդով:
  • «Քաղաքացի տվյալների գիտնականներ» - այնքան հեշտ տղաներ, այնպիսի լամերներ, ոչ թե փորձագետներ, որոնց անհրաժեշտ է տեսողական միջավայր և ամենատարբեր օժանդակ բաներ: Նրանք չեն կոդավորվի:
  • «Ժողովրդավարություն» — հաճախ օգտագործվում է որպես «մատչելի դարձնել մարդկանց ավելի լայն շրջանակի համար»: Մենք կարող ենք ասել «ժողովրդավարացնել տվյալները» վտանգավոր «ազատել տվյալները» փոխարեն, որը մենք օգտագործում էինք: «Ժողովրդավարությունը» միշտ երկար պոչ է, և բոլոր վաճառողները վազում են դրա հետևից: Կորցրե՛ք գիտելիքի ինտենսիվության մեջ՝ ձեռք բերե՛ք մատչելիություն:
  • «Հետախուզական տվյալների վերլուծություն - EDA» — այս հասանելի միջոցների հաշվառում։ Որոշ վիճակագրություն. Մի փոքր վիզուալիզացիա. Մի բան, որ բոլորն անում են այս կամ այն ​​չափով։ Չգիտեի, որ սա անուն կա
  • «Վերարտադրելիություն» — շրջակա միջավայրի բոլոր պարամետրերի, մուտքերի և ելքերի առավելագույն պահպանում, որպեսզի փորձը հնարավոր լինի կրկնել մեկ անգամ: Փորձարարական թեստային միջավայրի ամենակարևոր տերմինը:

So.

Alteryx- ը

Թույն ինտերֆեյս, ինչպես խաղալիքը: Մասշտաբայնությունը, իհարկե, մի փոքր դժվար է: Ըստ այդմ, Քաղաքացի համայնքը ինժեներների շուրջ նույն tchotchkes խաղալ. Վերլուծությունը ձերն է մեկ շշով: Հիշեցրեց ինձ սպեկտրալ-կորելացիոն տվյալների վերլուծության համալիրը Կոսկադ, որը ծրագրավորվել է 90-ական թթ.

ANACONDA

Համայնք Python-ի և R-ի փորձագետների շուրջ: Բաց աղբյուրը համապատասխանաբար մեծ է: Պարզվեց, որ իմ գործընկերներն անընդհատ օգտագործում են այն։ Բայց ես չգիտեի.

DataBricks

Բաղկացած է երեք բաց կոդով նախագծերից. Spark-ի մշակողները հսկայական գումարներ են հավաքել 2013 թվականից ի վեր: Ես իսկապես պետք է մեջբերեմ վիքին.

«2013 թվականի սեպտեմբերին Databricks-ը հայտարարեց, որ 13.9 միլիոն դոլար է հավաքել Անդրեսսեն Հորովիցից: Ընկերությունը հավաքել է լրացուցիչ $33 միլիոն 2014-ին, $60 միլիոն 2016-ին, $140 միլիոն 2017-ին, $250 միլիոն 2019-ին (փետրվար) և $400 միլիոն 2019-ին (հոկտ.)»!!!

Որոշ մեծ մարդիկ կտրեցին Spark-ը: Չգիտեմ, կներեք։

Իսկ նախագծերն են.

  • Դելտա լիճ - Վերջերս թողարկվեց ACID on Spark-ը (ինչի մասին մենք երազում էինք Elasticsearch-ի հետ) - այն վերածում է տվյալների բազայի՝ կոշտ սխեմա, ACID, աուդիտ, տարբերակներ...
  • ML հոսք — մոդելների հետևում, փաթեթավորում, կառավարում և պահպանում:
  • Կոալաս - Pandas DataFrame API-ն Spark-ում - Pandas - Python API աղյուսակների և ընդհանրապես տվյալների հետ աշխատելու համար:

Դուք կարող եք տեսնել Spark-ը նրանց համար, ովքեր չգիտեն կամ մոռացել են. ՈՒղեցույց. Ես դիտեցի տեսանյութեր մի փոքր ձանձրալի, բայց մանրամասն խորհրդատվական փայտփորիկների օրինակներով. DataBricks for Data Science (ՈՒղեցույց) և տվյալների ճարտարագիտության համար (ՈՒղեցույց).

Մի խոսքով, Databricks-ը դուրս է հանում Spark-ը: Յուրաքանչյուր ոք, ով ցանկանում է սովորական կերպով օգտագործել Spark-ը ամպում, առանց վարանելու վերցնում է DataBricks-ը, ինչպես նախատեսված է: 🙂 Spark-ն այստեղ հիմնական տարբերակիչն է:
Ես իմացա, որ Spark Streaming-ը իրական կեղծ իրական ժամանակում կամ միկրոբաչինգ չէ: Եվ եթե իրական իրական ժամանակի կարիք ունեք, ապա դա Apache STORM-ում է: Բոլորն էլ ասում ու գրում են, որ Spark-ն ավելի լավն է, քան MapReduce-ը։ Սա է կարգախոսը.

DATAIKU

Սառը ծայրից ծայր բան: Գովազդները շատ են։ Ես չեմ հասկանում, թե ինչպես է այն տարբերվում Alteryx-ից:

DataRobot- ը

Paxata-ն տվյալների պատրաստման համար առանձին ընկերություն է, որը գնվել է Data Robots-ի կողմից 2019 թվականի դեկտեմբերին: Մենք հավաքեցինք 20 MUSD և վաճառեցինք: Բոլորը 7 տարում.

Տվյալների պատրաստում Paxata-ում, ոչ թե Excel-ում - տես այստեղ. ՈՒղեցույց.
Կան ավտոմատ որոնումներ և առաջարկներ երկու տվյալների հավաքածուների միջև միանալու համար: Հիանալի բան. տվյալները հասկանալու համար էլ ավելի մեծ շեշտադրում կարվի տեքստային տեղեկատվության վրա (ՈՒղեցույց).
Տվյալների կատալոգը անօգուտ «կենդանի» տվյալների հավաքածուների հիանալի կատալոգ է:
Հետաքրքիր է նաև, թե ինչպես են ձևավորվում դիրեկտորիաները Paxata-ում (ՈՒղեցույց).

«Ըստ վերլուծական ընկերության Ձու, ծրագրաշարը հնարավոր է դարձել առաջընթացի շնորհիվ կանխատեսելի վերլուծություն, Machine Learning եւ NoSQL- ը տվյալների քեշավորման մեթոդաբանություն:[15] Ծրագրաշարն օգտագործում է իմաստաբանական ալգորիթմներ՝ տվյալների աղյուսակի սյունակների իմաստը հասկանալու համար և օրինաչափությունների ճանաչման ալգորիթմներ՝ տվյալների հավաքածուում հնարավոր կրկնօրինակները գտնելու համար:[15][7] Այն նաև օգտագործում է ինդեքսավորում, տեքստի օրինաչափությունների ճանաչում և այլ տեխնոլոգիաներ, որոնք ավանդաբար հայտնաբերվում են սոցիալական լրատվամիջոցներում և որոնման ծրագրերում»:

Data Robot-ի հիմնական արտադրանքն է այստեղ. Նրանց կարգախոսն է՝ մոդելից մինչև ձեռնարկություն: Ես գտա նավթարդյունաբերության խորհրդատվություն ճգնաժամի հետ կապված, բայց դա շատ բանալ և անհետաքրքիր էր. ՈՒղեցույց. Ես դիտեցի նրանց տեսանյութերը Mops-ում կամ Mlops-ում (ՈՒղեցույց) Սա այսպիսի Ֆրանկենշտեյն է՝ հավաքված տարբեր ապրանքների 6-7 ձեռքբերումներից։

Իհարկե, պարզ է դառնում, որ տվյալների գիտնականների մեծ թիմը պետք է ունենա հենց այդպիսի միջավայր մոդելների հետ աշխատելու համար, հակառակ դեպքում նրանք կարտադրեն դրանցից շատերը և երբեք ոչինչ չեն տեղակայի: Եվ մեր նավթագազային իրականության մեջ, եթե միայն մենք կարողանայինք ստեղծել մեկ հաջող մոդել, դա մեծ առաջընթաց կլիներ:

Գործընթացն ինքնին շատ էր հիշեցնում, օրինակ, երկրաբանություն-երկրաֆիզիկայի նախագծային համակարգերի հետ աշխատանքը մրրկահավ. Բոլոր նրանք, ովքեր շատ ծույլ չեն, մոդելներ են պատրաստում և ձևափոխում։ Հավաքեք տվյալներ մոդելի մեջ: Այնուհետև նրանք պատրաստեցին տեղեկատու մոդել և ուղարկեցին այն արտադրության: Ասենք երկրաբանական մոդելի և ML մոդելի միջև դուք կարող եք շատ ընդհանրություններ գտնել:

Դոմինո

Շեշտը բաց հարթակի և համագործակցության վրա: Բիզնես օգտվողները ընդունվում են անվճար: Նրանց տվյալների լաբորատորիան շատ նման է sharepoint-ին: (Եվ անունը խիստ հոտ է գալիս IBM-ից): Բոլոր փորձերը կապված են սկզբնական տվյալների բազայի հետ: Սա որքան ծանոթ է :) Ինչպես մեր պրակտիկայում, որոշ տվյալներ քաշվեցին մոդելի մեջ, այնուհետև այն մաքրվեց և կարգի բերվեց մոդելի մեջ, և այս ամենը արդեն այնտեղ է ապրում մոդելում, և ծայրերը հնարավոր չէ գտնել սկզբնաղբյուրի տվյալների մեջ: .

Domino-ն ունի հիանալի ենթակառուցվածքի վիրտուալացում: Ես մեկ վայրկյանում հավաքեցի մեքենան այնքան միջուկ, որքան անհրաժեշտ էր և գնացի հաշվել: Թե ինչպես է դա արվել, անմիջապես պարզ չէ: Դոկերը ամենուր է: Շատ ազատություն: Վերջին տարբերակների ցանկացած աշխատանքային տարածք կարող է միացվել: Փորձերի զուգահեռ մեկնարկ. Հետևում և հաջողակների ընտրություն:

Նույնը, ինչ DataRobot - արդյունքները հրապարակվում են բիզնես օգտատերերի համար՝ հավելվածների տեսքով։ Հատկապես շնորհալի «շահագրգիռ կողմերի» համար: Իսկ մոդելների փաստացի օգտագործումը նույնպես վերահսկվում է։ Ամեն ինչ Pugs-ի համար:

Ես լիովին չեմ հասկանում, թե ինչպես են բարդ մոդելները հայտնվում արտադրության մեջ: Ինչ-որ API տրամադրվում է նրանց տվյալները կերակրելու և արդյունքներ ստանալու համար:

H2O

Driveless AI-ն շատ կոմպակտ և ինտուիտիվ համակարգ է վերահսկվող ML-ի համար: Ամեն ինչ մեկ տուփի մեջ։ Հետին պլանի մասին անմիջապես լիովին պարզ չէ:

Մոդելը ավտոմատ կերպով փաթեթավորվում է REST սերվերի կամ Java հավելվածի մեջ: Սա հիանալի գաղափար է: Շատ բան է արվել մեկնաբանելիության և բացատրելիության համար: Մոդելի արդյունքների մեկնաբանություն և բացատրություն (Ի՞նչն էապես չպետք է բացատրելի լինի, հակառակ դեպքում մարդը կարող է նույնը հաշվարկել):
Առաջին անգամ դեպքի ուսումնասիրություն չկառուցված տվյալների և NLP. Բարձրորակ ճարտարապետական ​​պատկեր։ Իսկ ընդհանրապես նկարները ինձ դուր եկան։

Կա մի մեծ բաց կոդով H2O շրջանակ, որը լիովին պարզ չէ (ալգորիթմների/գրադարանների մի շարք): Ձեր սեփական տեսողական նոութբուքը առանց Յուպիտերի նման ծրագրավորման (ՈՒղեցույց). Կարդացի նաև Pojo և Mojo - H2O մոդելների մասին, որոնք փաթաթված են Java-ով: Առաջինը պարզ է, երկրորդը՝ օպտիմալացումով: H20-ը միակն է (!), ում Gartner-ը նշել է տեքստային վերլուծությունը և NLP-ն որպես իրենց ուժեղ կողմերը, ինչպես նաև բացատրելիության հետ կապված իրենց ջանքերը: Դա շատ կարեւոր է!

Նույն տեղում՝ բարձր կատարողականություն, օպտիմիզացում և արդյունաբերության ստանդարտ՝ ապարատային և ամպերի հետ ինտեգրման ոլորտում:

Իսկ թուլությունը տրամաբանական է՝ Driverles AI-ն թույլ է և նեղ՝ համեմատած իրենց բաց կոդով։ Տվյալների պատրաստումը կաղ է՝ համեմատած Paxata-ի հետ: Եվ նրանք անտեսում են արդյունաբերական տվյալները՝ հոսք, գրաֆիկ, աշխարհագրություն։ Դե, ամեն ինչ չի կարող պարզապես լավ լինել:

ՔՆԻՄ

Ինձ դուր եկան գլխավոր էջի 6 շատ կոնկրետ, շատ հետաքրքիր բիզնես դեպքերը։ Ուժեղ OpenSource.

Gartner-ը նրանց իջեցրեց առաջնորդներից մինչև տեսլականներ: Վատ գումար վաստակելը լավ նշան է օգտատերերի համար, հաշվի առնելով, որ Առաջնորդը միշտ չէ, որ լավագույն ընտրությունն է:

Հիմնական բառը, ինչպես H2O-ում, ավելացված է, ինչը նշանակում է օգնել աղքատ քաղաքացիների տվյալների գիտնականներին: Սա առաջին դեպքն է, երբ ինչ-որ մեկին քննադատում են ակնարկների կատարման համար: Հետաքրքի՞ր է: Այսինքն՝ այնքան հաշվողական հզորություն կա, որ կատարումը ընդհանրապես համակարգային խնդիր չի՞ կարող լինել։ Gartner-ն ունի այս բառի մասին «Augmented» առանձին հոդված, որին չհաջողվեց հասնել։
Եվ KNIME-ը կարծես առաջին ոչ ամերիկացին է վերանայման մեջ: (Եվ մեր դիզայներներին շատ է դուր եկել իրենց վայրէջքի էջը։ Տարօրինակ մարդիկ։

MathWorks

MatLab-ը բոլորին հայտնի հին պատվավոր ընկեր է: Գործիքների տուփեր կյանքի բոլոր ոլորտների և իրավիճակների համար: Շատ տարբեր մի բան: Իրականում, շատ ու շատ ու շատ մաթեմատիկա ամեն ինչի համար կյանքում:

Simulink հավելյալ արտադրանք համակարգի նախագծման համար: Ես փորփրեցի թվային երկվորյակների համար նախատեսված գործիքների տուփերը, ես դրա մասին ոչինչ չեմ հասկանում, բայց այստեղ շատ է գրվել. Համար նավթարդյունաբերություն. Ընդհանուր առմամբ, սա սկզբունքորեն տարբեր արտադրանք է մաթեմատիկայի և ճարտարագիտության խորքերից: Ընտրելու հատուկ մաթեմատիկական գործիքակազմեր: Ըստ Gartner-ի, իրենց խնդիրները նույնն են, ինչ խելացի ինժեներների խնդիրները. չկա համագործակցություն. բոլորը ման գալիս են իրենց մոդելի շուրջ, չկա ժողովրդավարություն, չկա բացատրելիություն:

RapidMiner

Ես նախկինում շատ եմ հանդիպել և լսել (Մատլաբի հետ միասին) լավ բաց կոդով համատեքստում: Ես սովորականի պես մի փոքր փորեցի TurboPrep-ը: Ինձ հետաքրքրում է, թե ինչպես կարելի է մաքուր տվյալներ ստանալ կեղտոտ տվյալներից:

Կրկին դուք կարող եք տեսնել, որ մարդիկ լավն են՝ հիմնվելով 2018-ի մարքեթինգային նյութերի և ահավոր անգլերեն խոսող մարդկանց վրա խաղարկային ցուցադրության վրա:

Իսկ դորտմունդցիները 2001 թվականից՝ գերմանական ուժեղ ծագմամբ)

Gartner MQ 2020 Review. Machine Learning and Artificial Intelligence Platforms
Ես դեռ չեմ հասկանում կայքից, թե կոնկրետ ինչ է հասանելի բաց կոդով. պետք է ավելի խորը փորել: Լավ տեսանյութեր տեղակայման և AutoML հասկացությունների մասին:

Ոչ մի առանձնահատուկ բան չկա նաև RapidMiner Server-ի հետին մասում: Հավանաբար, այն կոմպակտ կլինի և լավ կաշխատի պրեմիումից դուրս: Այն փաթեթավորված է Docker-ում: Համօգտագործվող միջավայր միայն RapidMiner սերվերի վրա: Եվ հետո կա Radoop-ը, Hadoop-ի տվյալները, Spark-ի ոտանավորների հաշվառումը Studio-ում:

Ինչպես և սպասվում էր, երիտասարդ տաք վաճառողները «գծավոր ձողիկներ վաճառողները» տեղափոխեցին դրանք: Gartner-ը, սակայն, կանխատեսում է նրանց հետագա հաջողությունները Enterprise-ի տարածքում: Այնտեղ կարող եք գումար հավաքել։ Գերմանացիները դա գիտեն, սուրբ-սուրբ :) SAP-ը չասեք!!!

Նրանք շատ բան են անում քաղաքացիների համար։ Բայց էջից կարելի է տեսնել, որ Gartner-ն ասում է, որ իրենք պայքարում են վաճառքի նորարարության դեմ և պայքարում են ոչ թե ծածկույթի լայնության, այլ շահութաբերության համար։

Մնաց SAS и Tibco տիպիկ BI վաճառողներ ինձ համար... Եվ երկուսն էլ ամենավերևում են, ինչը հաստատում է իմ վստահությունը, որ նորմալ DataScience-ը տրամաբանորեն աճում է
BI-ից, և ոչ թե ամպերից և Hadoop ենթակառուցվածքներից: Բիզնեսից, այսինքն՝ ոչ ՏՏ-ից։ Ինչպես օրինակ Գազպրոմնեֆտում. ՈՒղեցույց, Հասուն DSML միջավայրը աճում է ուժեղ BI պրակտիկաներից: Բայց միգուցե դա խայտառակ և կողմնակալ է MDM-ի և այլ բաների նկատմամբ, ով գիտի:

SAS

Շատ բան չկա ասելու: Միայն ակնհայտ բաները.

ՏԻԲԿՈ

Ռազմավարությունը կարդացվում է գնումների ցուցակում, որը բաղկացած է էջից բաղկացած Վիքի էջում: Այո, երկար պատմություն, բայց 28!!! Չարլզ. Ես գնել եմ BI Spotfire (2007) դեռ իմ տեխնո-երիտասարդության տարիներին: Եվ նաև հաշվետվություններ Jaspersoft-ից (2014), այնուհետև երեք կանխատեսող վերլուծական վաճառողներից Insightful (S-plus) (2008), Statistica (2017) և Alpine Data (2017), իրադարձությունների մշակում և հոսք Streambase System (2013), MDM Orchestra: Networks (2018) և Snappy Data (2019) հիշողության հարթակ:

Բարև Ֆրենկի:

Gartner MQ 2020 Review. Machine Learning and Artificial Intelligence Platforms

Source: www.habr.com

Добавить комментарий