Recenzja Gartner MQ 2020: Platformy uczenia maszynowego i sztucznej inteligencji

Nie da się wytłumaczyć powodu, dla którego to przeczytałem. Po prostu miałem czas i zainteresowałem się tym, jak działa rynek. A to już jest pełnoprawny rynek według Gartnera od 2018 roku. W latach 2014-2016 nazywało się to analityką zaawansowaną (korzenie w BI), w 2017 roku Data Science (nie wiem, jak to przetłumaczyć na rosyjski). Dla zainteresowanych przemieszczaniem się sprzedawców po placu istnieje możliwość tutaj Patrzeć. A ja opowiem o kwadracie 2020, zwłaszcza, że ​​zmiany tam od 2019 roku są minimalne: SAP się wyprowadził, a Altair kupił Datawatch.

To nie jest analiza systematyczna ani tabela. Indywidualne spojrzenie, także z punktu widzenia geofizyka. Ale zawsze z ciekawością czytam Gartner MQ, niektóre kwestie formułują doskonale. Oto rzeczy, na które zwróciłem uwagę zarówno pod względem technicznym, rynkowym, jak i filozoficznym.

To nie jest pozycja dla osób, które są głęboko w temacie ML, ale dla osób, które interesują się tym, co ogólnie dzieje się na rynku.

Sam rynek DSML jest logicznie zagnieżdżony pomiędzy usługami programistycznymi BI i Cloud AI.

Recenzja Gartner MQ 2020: Platformy uczenia maszynowego i sztucznej inteligencji

Najpierw ulubione cytaty i terminy:

  • „Lider może nie być najlepszym wyborem” — Lider rynku niekoniecznie jest tym, czego potrzebujesz. Bardzo pilne! Konsekwencją braku funkcjonalnego klienta jest to, że zawsze szukają rozwiązania „najlepszego”, a nie „odpowiedniego”.
  • „Operacjonalizacja modelu” - w skrócie MOP. I każdemu jest ciężko z mopsami! – (fajny motyw mopsa sprawia, że ​​model działa).
  • „Środowisko notebooka” to ważna koncepcja, w której kod, komentarze, dane i wyniki łączą się. Jest to bardzo jasne, obiecujące i może znacznie zmniejszyć ilość kodu interfejsu użytkownika.
  • „Zakorzenione w OpenSource” – dobrze powiedziane – zakorzenia się w otwartym kodzie źródłowym.
  • „Naukowcy danych obywatelskich” - tacy wyluzowani kolesie, tacy lamerzy, a nie eksperci, którym potrzebne jest środowisko wizualne i wszelakie dodatkowe rzeczy. Nie będą kodować.
  • "Demokracja" — często używane w znaczeniu „udostępnić szerszemu gronu osób”. Możemy powiedzieć „demokratyzować dane” zamiast niebezpiecznego „uwolnić dane”, z którego zwykliśmy korzystać. „Demokratyzacja” to zawsze długi ogon i wszyscy dostawcy gonią za nim. Strać intensywność wiedzy - zyskaj na dostępności!
  • „Eksploracyjna analiza danych – EDA” — rozważenie dostępnych środków. Trochę statystyk. Mała wizualizacja. Coś, co każdy robi w takim czy innym stopniu. Nie wiedziałem, że jest na to nazwa
  • „Odtwarzalność” — maksymalne zachowanie wszystkich parametrów środowiskowych, wejść i wyjść, tak aby po przeprowadzeniu eksperymentu można było go powtórzyć. Najważniejszy termin określający eksperymentalne środowisko testowe!

Tak więc:

Alteryx

Fajny interfejs, zupełnie jak zabawka. Skalowalność jest oczywiście nieco trudna. W związku z tym społeczność inżynierów Citizen ma to samo z tchotchkes do grania. Analityka jest dostępna w jednej butelce. Przypomniało mi to o złożonej analizie danych opartej na korelacji widmowej Coscad, który został zaprogramowany w latach 90-tych.

anakonda

Społeczność wokół ekspertów Pythona i R. Open source jest odpowiednio duży. Okazało się, że moi koledzy używają go cały czas. Ale nie wiedziałem.

DataBrick

Składa się z trzech projektów open source - programiści Spark zebrali od 2013 roku piekielnie dużo pieniędzy. Naprawdę muszę zacytować wiki:

„We wrześniu 2013 roku firma Databricks ogłosiła, że ​​zebrała 13.9 miliona dolarów od Andreessena Horowitza. Firma zebrała dodatkowe 33 mln dolarów w 2014 r., 60 mln dolarów w 2016 r., 140 mln dolarów w 2017 r., 250 mln dolarów w 2019 r. (luty) i 400 mln dolarów w 2019 r. (październik)”!!!

Kilku wspaniałych ludzi odcięło Sparka. Nie wiem, przepraszam!

A projekty to:

  • Jezioro Delta - Niedawno wydano ACID na Sparku (o czym marzyliśmy w Elasticsearch) - zamienia go w bazę danych: sztywny schemat, ACID, audyt, wersje...
  • Przepływ ML — śledzenie, pakowanie, zarządzanie i przechowywanie modeli.
  • Koale - Pandas DataFrame API na platformie Spark - Pandas - Python API do ogólnej pracy z tabelami i danymi.

Możesz zajrzeć do Sparka dla tych, którzy nie wiedzą lub zapomnieli: łącze. Oglądałem filmy z przykładami nieco nudnych, ale szczegółowych konsultacji z dzięciołami: DataBricks for Data Science (łącze) oraz Inżynierii Danych (łącze).

Krótko mówiąc, Databricks wyciąga Spark. Każdy, kto chce normalnie korzystać ze Sparka w chmurze, bez wahania bierze DataBricks zgodnie z zamierzeniami 🙂 Spark jest tutaj głównym wyróżnikiem.
Dowiedziałem się, że Spark Streaming nie jest prawdziwym fałszywym czasem rzeczywistym ani mikrobatchingiem. A jeśli potrzebujesz prawdziwego czasu rzeczywistego, znajdziesz go w Apache STORM. Wszyscy też mówią i piszą, że Spark jest lepszy od MapReduce. To jest hasło.

DATAIKU

Fajna sprawa od początku do końca. Jest mnóstwo reklam. Nie rozumiem czym to się różni od Alteryxu?

DaneRobota

Paxata do przygotowania danych to osobna firma, która w grudniu 2019 roku została kupiona przez Data Robots. Zebraliśmy 20 mln USD i sprzedaliśmy. Wszystko w 7 lat.

Przygotowanie danych w Paxacie, a nie Excelu - zobacz tutaj: łącze.
Istnieją automatyczne wyszukiwania i propozycje połączeń między dwoma zbiorami danych. Świetna rzecz - aby zrozumieć dane, należałoby jeszcze większy nacisk położyć na informacje tekstowe (łącze).
Data Catalog to doskonały katalog bezużytecznych „żywych” zbiorów danych.
Ciekawe jest także to, jak w Paxacie powstają katalogi (łącze).

„Według firmy analitycznej Jajooprogramowanie jest możliwe dzięki postępom w analityka predykcyjna, uczenie maszynowe oraz NoSQL metodyka buforowania danych.[15] Oprogramowanie wykorzystuje semantyczny algorytmy do zrozumienia znaczenia kolumn tabeli danych i algorytmy rozpoznawania wzorców do wyszukiwania potencjalnych duplikatów w zbiorze danych.[15][7] Wykorzystuje także indeksowanie, rozpoznawanie wzorców tekstu i inne technologie tradycyjnie stosowane w mediach społecznościowych i oprogramowaniu do wyszukiwania”.

Głównym produktem Data Robot jest tutaj. Ich hasło brzmi: „Od modelu do aplikacji korporacyjnej”! Znalazłem doradztwo dla przemysłu naftowego w związku z kryzysem, ale było ono bardzo banalne i nieciekawe: łącze. Oglądałem ich filmy na Mops lub MLops (łącze). To taki Frankenstein złożony z 6-7 przejęć różnych produktów.

Oczywiście staje się jasne, że duży zespół Data Scientistów musi mieć właśnie takie środowisko do pracy z modelami, w przeciwnym razie wyprodukuje ich mnóstwo i nigdy niczego nie wdroży. A w naszej rzeczywistości związanej z wydobyciem ropy i gazu, gdybyśmy tylko mogli stworzyć jeden udany model, byłby to ogromny postęp!

Sam proces bardzo przypominał pracę z systemami projektowymi na przykład w geologii-geofizyce Petrel. Każdy, kto nie jest zbyt leniwy, robi i modyfikuje modele. Zbierz dane do modelu. Następnie wykonali model referencyjny i wysłali go do produkcji! Pomiędzy, powiedzmy, modelem geologicznym a modelem ML, można znaleźć wiele wspólnego.

Domino

Nacisk na otwartą platformę i współpracę. Użytkownicy biznesowi mają wstęp bezpłatny. Ich Data Lab jest bardzo podobne do Sharepointa. (A nazwa mocno trąci IBM). Wszystkie eksperymenty prowadzą do oryginalnego zbioru danych. Jakie to znajome :) Jak w naszej praktyce - część danych została wciągnięta do modelu, potem została oczyszczona i uporządkowana w modelu, a to wszystko już tam jest w modelu, a końcówek nie widać w danych źródłowych .

Domino ma fajną wirtualizację infrastruktury. W ciągu sekundy zmontowałem maszynę tyle rdzeni, ile potrzeba, i zabrałem się za liczenie. Jak tego dokonano, nie jest od razu jasne. Docker jest wszędzie. Dużo wolności! Można podłączyć dowolne obszary robocze najnowszych wersji. Równoległe rozpoczęcie eksperymentów. Śledzenie i selekcja udanych.

Podobnie jak DataRobot – wyniki publikowane są dla użytkowników biznesowych w formie aplikacji. Dla szczególnie uzdolnionych „interesariuszy”. Monitorowane jest również faktyczne wykorzystanie modeli. Wszystko dla Mopsów!

Nie do końca rozumiem, w jaki sposób złożone modele trafiają do produkcji. Dostępny jest jakiś rodzaj interfejsu API, który umożliwia dostarczanie im danych i uzyskiwanie wyników.

H2O

Driveless AI to bardzo kompaktowy i intuicyjny system dla nadzorowanego uczenia maszynowego. Wszystko w jednym pudełku. Nie jest od razu całkowicie jasne, co do backendu.

Model jest automatycznie pakowany do serwera REST lub aplikacji Java. To świetny pomysł. Wiele zrobiono w zakresie interpretowalności i wyjaśnialności. Interpretacja i wyjaśnienie wyników modelu (Co z natury nie powinno być wyjaśnione, w przeciwnym razie człowiek może to samo obliczyć?).
Po raz pierwszy studium przypadku dotyczące danych nieustrukturyzowanych i NLP. Wysokiej jakości obraz architektoniczny. I ogólnie zdjęcia mi się podobały.

Istnieje duża platforma H2O o otwartym kodzie źródłowym, która nie jest do końca jasna (zestaw algorytmów/bibliotek?). Twój własny laptop wizualny bez programowania jak Jupiter (łącze). Czytałem też o Pojo i Mojo - modele H2O opakowane w Javę. Pierwszy jest prosty, drugi z optymalizacją. H20 to jedyni(!), dla których Gartner jako swoje mocne strony wymienił analizę tekstu i NLP, a także wysiłki w zakresie wyjaśnialności. To jest bardzo ważne!

W tym samym miejscu: wysoka wydajność, optymalizacja i standard branżowy w zakresie integracji ze sprzętem i chmurami.

A ta słabość jest logiczna – AI Driverles jest słaba i wąska w porównaniu z ich otwartym oprogramowaniem. Przygotowanie danych jest kiepskie w porównaniu z Paxatą! I ignorują dane przemysłowe - strumień, wykres, geo. Cóż, nie wszystko może być po prostu dobre.

KNIME

Podobało mi się 6 bardzo konkretnych, bardzo interesujących przypadków biznesowych na stronie głównej. Silny OpenSource.

Gartner zdegradował ich z liderów do wizjonerów. Słabe zarabianie pieniędzy to dobry znak dla użytkowników, biorąc pod uwagę, że Lider nie zawsze jest najlepszym wyborem.

Słowo klucz, podobnie jak w przypadku H2O, jest „powiększone”, co oznacza pomoc biednym obywatelom zajmującym się analityką danych. To pierwszy raz, kiedy ktoś został skrytykowany za występ w recenzji! Ciekawy? To znaczy, że moc obliczeniowa jest tak duża, że ​​wydajność nie może w ogóle stanowić problemu systemowego? Gartner ma na myśli to słowo „rozszerzony” Osobny artykuł, do którego nie udało się dotrzeć.
A KNIME wydaje się być pierwszym nie-Amerykaninem w recenzji! (A naszym projektantom bardzo podobała się ich strona docelowa. Dziwni ludzie.

MathWorks

MatLab to stary, honorowy towarzysz, znany każdemu! Skrzynki narzędziowe do wszystkich dziedzin życia i sytuacji. Coś zupełnie innego. Tak naprawdę mnóstwo matematyki we wszystkim w życiu!

Produkt dodatkowy Simulink do projektowania systemów. Pogrzebałem w skrzynkach narzędziowych dla Digital Twins - nic z tego nie rozumiem, ale tutaj wiele napisano. Dla przemysł naftowy. Ogólnie rzecz biorąc, jest to zasadniczo odmienny produkt od głębin matematyki i inżynierii. Aby wybrać określone zestawy narzędzi matematycznych. Zdaniem Gartnera ich problemy są takie same jak inteligentnych inżynierów – żadnej współpracy – każdy szpera w swoim własnym modelu, nie ma demokracji, nie ma możliwości wytłumaczenia.

RapidMiner

Wiele już wcześniej spotkałem i słyszałem (wraz z Matlabem) w kontekście dobrego open source. Jak zwykle pogrzebałem trochę w TurboPrep. Interesuje mnie, jak uzyskać czyste dane z brudnych danych.

Znów widać, że ludzie są dobrzy, biorąc pod uwagę materiały marketingowe z 2018 r. i okropnie mówiących po angielsku ludzi w wersji demonstracyjnej.

Oraz ludzie z Dortmundu od 2001 roku z silnym niemieckim pochodzeniem)

Recenzja Gartner MQ 2020: Platformy uczenia maszynowego i sztucznej inteligencji
Nadal nie rozumiem z witryny, co dokładnie jest dostępne w otwartym kodzie źródłowym - musisz kopać głębiej. Dobre filmy na temat wdrażania i koncepcji AutoML.

Nie ma też nic specjalnego w backendie RapidMiner Server. Prawdopodobnie będzie kompaktowy i będzie dobrze działać na wersji premium po wyjęciu z pudełka. Jest spakowany w Dockerze. Środowisko współdzielone tylko na serwerze RapidMiner. A potem jest Radoop, dane z Hadoopa, liczenie rymów z Spark in Studio.

Zgodnie z oczekiwaniami młodzi sprzedawcy gorących „sprzedawców pasiastych patyków” przenieśli je w dół. Gartner przewiduje jednak ich przyszły sukces w przestrzeni Enterprise. Można tam zbierać pieniądze. Niemcy wiedzą jak to zrobić, święty-święty :) Nie wspominaj o SAP!!!

Robią wiele dla obywateli! Ale ze strony widać, że Gartner twierdzi, że zmaga się z innowacyjnością sprzedaży i nie walczy o szerokość zasięgu, ale o rentowność.

Pozostał SAS и Tibko dla mnie typowi dostawcy BI... I obaj są na samej górze, co utwierdza mnie w przekonaniu, że normalne DataScience logicznie rośnie
z BI, a nie z chmur i infrastruktur Hadoop. Czyli z biznesu, a nie z IT. Jak na przykład w Gazpromniefti: łącze,Dojrzałe środowisko DSML wyrasta z silnych praktyk BI. Ale może jest to tandetne i stronnicze w stosunku do MDM i innych rzeczy, kto wie.

SAS

Nie ma wiele do powiedzenia. Tylko rzeczy oczywiste.

TIBCO

Strategię można przeczytać na liście zakupów na stronie Wiki o długości jednej strony. Tak, długa historia, ale 28!!! Karol. Kupiłem BI Spotfire (2007) jeszcze w czasach techno-młodości. A także raporty od Jaspersoft (2014), a następnie aż trzech dostawców analityki predykcyjnej Insightful (S-plus) (2008), Statistica (2017) i Alpine Data (2017), przetwarzanie zdarzeń i strumieniowanie Streambase System (2013), MDM Orchestra Platforma in-memory Networks (2018) i Snappy Data (2019).

Witaj Frankie!

Recenzja Gartner MQ 2020: Platformy uczenia maszynowego i sztucznej inteligencji

Źródło: www.habr.com

Dodaj komentarz