Gartner MQ 2020 Review: Machine Learning and Artificial Intelligence Platforms

Είναι αδύνατο να εξηγήσω τον λόγο για τον οποίο το διάβασα αυτό. Απλώς είχα χρόνο και με ενδιέφερε πώς λειτουργεί η αγορά. Και αυτή είναι ήδη μια πλήρης αγορά σύμφωνα με τη Gartner από το 2018. Από το 2014-2016 ονομάστηκε προηγμένη ανάλυση (ρίζες στο BI), το 2017 - Επιστήμη δεδομένων (δεν ξέρω πώς να το μεταφράσω στα ρωσικά). Για όσους ενδιαφέρονται για τις μετακινήσεις των πωλητών γύρω από την πλατεία, μπορείτε εδώ Κοίτα. Και θα μιλήσω για το τετράγωνο του 2020, ειδικά επειδή οι αλλαγές εκεί από το 2019 είναι ελάχιστες: η SAP μετακόμισε και η Altair αγόρασε το Datawatch.

Δεν πρόκειται για συστηματική ανάλυση ή πίνακα. Μια ατομική άποψη, και από τη σκοπιά ενός γεωφυσικού. Αλλά είμαι πάντα περίεργος να διαβάσω το Gartner MQ, διατυπώνουν τέλεια κάποια σημεία. Εδώ είναι λοιπόν τα πράγματα στα οποία έδωσα προσοχή τόσο τεχνικά, αγοραία, όσο και φιλοσοφικά.

Αυτό δεν είναι για άτομα που ασχολούνται βαθιά με το θέμα της ML, αλλά για άτομα που ενδιαφέρονται για το τι συμβαίνει γενικά στην αγορά.

Η ίδια η αγορά DSML φωλιάζει λογικά ανάμεσα στις υπηρεσίες προγραμματιστών BI και Cloud AI.

Gartner MQ 2020 Review: Machine Learning and Artificial Intelligence Platforms

Αγαπημένα αποσπάσματα και όροι πρώτα:

  • "Ένας ηγέτης μπορεί να μην είναι η καλύτερη επιλογή" — Ένας ηγέτης της αγοράς δεν είναι απαραίτητα αυτό που χρειάζεστε. Πολύ επείγον! Ως συνέπεια της έλλειψης λειτουργικού πελάτη, αναζητούν πάντα την «καλύτερη» λύση, παρά την «κατάλληλη».
  • "Λειτουργικότητα μοντέλου" - συντομογραφία ως MOPs. Και όλοι δυσκολεύονται με τις πατημασιές! – (Το δροσερό θέμα της πατημασιάς κάνει το μοντέλο να λειτουργεί).
  • "Περιβάλλον σημειωματάριου" είναι μια σημαντική έννοια όπου ο κώδικας, τα σχόλια, τα δεδομένα και τα αποτελέσματα συνδυάζονται. Αυτό είναι πολύ σαφές, πολλά υποσχόμενο και μπορεί να μειώσει σημαντικά την ποσότητα του κώδικα διεπαφής χρήστη.
  • "Rooted in OpenSource" - καλά είπατε - ριζώνει σε ανοιχτό κώδικα.
  • «Επιστήμονες Δεδομένων Πολιτών» - τόσο εύκολοι μάγκες, τόσο λαμπεροί, όχι ειδικοί, που χρειάζονται ένα οπτικό περιβάλλον και κάθε είδους βοηθητικά πράγματα. Δεν θα κωδικοποιήσουν.
  • "Δημοκρατία" — χρησιμοποιείται συχνά για να σημαίνει «να διαθέσω σε ένα ευρύτερο φάσμα ανθρώπων». Μπορούμε να πούμε «εκδημοκρατισμός των δεδομένων» αντί για το επικίνδυνο «απελευθέρωση των δεδομένων» που χρησιμοποιούσαμε. Το "Δημοκρατισμός" είναι πάντα μια μακριά ουρά και όλοι οι πωλητές τρέχουν πίσω από αυτό. Απώλεια στην ένταση γνώσης - κέρδος στην προσβασιμότητα!
  • "Εξερευνητική Ανάλυση Δεδομένων - ΕΔΑ" — εξέταση αυτών των διαθέσιμων μέσων. Μερικά στατιστικά στοιχεία. Λίγη οπτικοποίηση. Κάτι που κάνει ο καθένας στον ένα ή τον άλλο βαθμό. Δεν ήξερα ότι υπήρχε όνομα για αυτό
  • "Αναπαραγωγιμότητα" — μέγιστη διατήρηση όλων των περιβαλλοντικών παραμέτρων, εισροών και εκροών, έτσι ώστε το πείραμα να μπορεί να επαναληφθεί μόλις πραγματοποιηθεί. Ο πιο σημαντικός όρος για ένα πειραματικό περιβάλλον δοκιμής!

Έτσι:

Alteryx

Cool interface, ακριβώς όπως ένα παιχνίδι. Η επεκτασιμότητα, φυσικά, είναι λίγο δύσκολη. Αντίστοιχα, η κοινότητα του Πολίτη των μηχανικών γύρω από το ίδιο με tchotchkes να παίξει. Τα Analytics είναι όλα δικά σας σε ένα μπουκάλι. Μου θύμισε ένα σύμπλεγμα ανάλυσης δεδομένων φασματικής συσχέτισης Coscad, που προγραμματίστηκε τη δεκαετία του '90.

ανακόνδας

Κοινότητα γύρω από τους ειδικούς Python και R. Ο ανοιχτός κώδικας είναι αναλόγως μεγάλος. Αποδείχθηκε ότι οι συνάδελφοί μου το χρησιμοποιούν συνεχώς. Αλλά δεν ήξερα.

DataBricks

Αποτελείται από τρία έργα ανοιχτού κώδικα - οι προγραμματιστές του Spark έχουν συγκεντρώσει πολλά χρήματα από το 2013. Πρέπει πραγματικά να παραθέσω το wiki:

«Τον Σεπτέμβριο του 2013, η Databricks ανακοίνωσε ότι είχε συγκεντρώσει 13.9 εκατομμύρια δολάρια από τον Andreessen Horowitz. Η εταιρεία συγκέντρωσε επιπλέον 33 εκατομμύρια δολάρια το 2014, 60 εκατομμύρια δολάρια το 2016, 140 εκατομμύρια δολάρια το 2017, 250 εκατομμύρια δολάρια το 2019 (Φεβρουάριος) και 400 εκατομμύρια δολάρια το 2019 (Οκτώβριος)»!!!

Κάποιοι σπουδαίοι άνθρωποι έκοψαν τον Spark. Δεν ξέρω, συγγνώμη!

Και τα έργα είναι:

  • Λίμνη Δέλτα - Το ACID on Spark κυκλοφόρησε πρόσφατα (αυτό που ονειρευόμασταν με το Elasticsearch) - το μετατρέπει σε βάση δεδομένων: άκαμπτο σχήμα, ACID, έλεγχος, εκδόσεις...
  • Ροή ML — παρακολούθηση, συσκευασία, διαχείριση και αποθήκευση μοντέλων.
  • Κοάλα - Pandas DataFrame API στο Spark - Pandas - Python API για εργασία με πίνακες και δεδομένα γενικότερα.

Μπορείτε να δείτε το Spark για όσους δεν ξέρουν ή το έχουν ξεχάσει: σύνδεσμος. Παρακολούθησα βίντεο με παραδείγματα από ελαφρώς βαρετούς αλλά λεπτομερείς συμβουλευτικούς δρυοκολάπτες: DataBricks for Data Science (σύνδεσμος) και για τη Μηχανική Δεδομένων (σύνδεσμος).

Εν ολίγοις, η Databricks βγάζει το Spark. Όποιος θέλει να χρησιμοποιεί το Spark κανονικά στο cloud παίρνει το DataBricks χωρίς δισταγμό, όπως επιδιώκεται 🙂 Το Spark είναι ο κύριος παράγοντας διαφοροποίησης εδώ.
Έμαθα ότι το Spark Streaming δεν είναι πραγματικό ψεύτικο realtime ή microbattching. Και αν χρειάζεστε πραγματικό πραγματικό χρόνο, είναι στο Apache STORM. Όλοι λένε και γράφουν επίσης ότι το Spark είναι καλύτερο από το MapReduce. Αυτό είναι το σύνθημα.

DATAIKU

Ωραίο πράγμα από άκρο σε άκρο. Υπάρχουν πολλές διαφημίσεις. Δεν καταλαβαίνω σε τι διαφέρει από το Alteryx;

DataRobot

Η Paxata για την προετοιμασία δεδομένων είναι μια ξεχωριστή εταιρεία που αγοράστηκε από την Data Robots τον Δεκέμβριο του 2019. Συγκεντρώσαμε 20 MUSD και πουλήσαμε. Όλα σε 7 χρόνια.

Προετοιμασία δεδομένων σε Paxata, όχι Excel - δείτε εδώ: σύνδεσμος.
Υπάρχουν αυτόματες αναζητήσεις και προτάσεις για ενώσεις μεταξύ δύο συνόλων δεδομένων. Ένα υπέροχο πράγμα - για να κατανοήσουμε τα δεδομένα, θα δίνεται ακόμη μεγαλύτερη έμφαση στις πληροφορίες κειμένου (σύνδεσμος).
Ο Κατάλογος Δεδομένων είναι ένας εξαιρετικός κατάλογος άχρηστων «ζωντανών» συνόλων δεδομένων.
Είναι επίσης ενδιαφέρον πώς σχηματίζονται οι κατάλογοι στα Paxata (σύνδεσμος).

«Σύμφωνα με την εταιρεία αναλυτών ωάριο, το λογισμικό καθίσταται δυνατό μέσω της προόδου στο αναλυτικές προβλέψεις, μάθηση μηχανής και την NoSQL μεθοδολογία προσωρινής αποθήκευσης δεδομένων.[15] Το λογισμικό χρησιμοποιεί σημασιολογικός αλγόριθμους για την κατανόηση της σημασίας των στηλών ενός πίνακα δεδομένων και αλγόριθμους αναγνώρισης προτύπων για την εύρεση πιθανών διπλότυπων σε ένα σύνολο δεδομένων.[15][7] Χρησιμοποιεί επίσης ευρετηρίαση, αναγνώριση προτύπων κειμένου και άλλες τεχνολογίες που παραδοσιακά βρίσκονται στα μέσα κοινωνικής δικτύωσης και στο λογισμικό αναζήτησης.»

Το κύριο προϊόν της Data Robot είναι εδώ. Το σλόγκαν τους είναι από Model to Enterprise Application! Βρήκα τη διαβούλευση για τη βιομηχανία πετρελαίου σε σχέση με την κρίση, αλλά ήταν πολύ κοινότοπο και χωρίς ενδιαφέρον: σύνδεσμος. Παρακολούθησα τα βίντεό τους σε Mops ή Mlops (σύνδεσμος). Αυτό είναι ένα τέτοιο Frankenstein συναρμολογημένο από 6-7 αποκτήσεις διαφόρων προϊόντων.

Φυσικά, γίνεται σαφές ότι μια μεγάλη ομάδα Επιστημόνων Δεδομένων πρέπει να έχει ένα τέτοιο περιβάλλον για να δουλεύει με μοντέλα, διαφορετικά θα παράγει πολλά από αυτά και δεν θα αναπτύξει ποτέ τίποτα. Και στην ανάντη πραγματικότητα μας για το πετρέλαιο και το φυσικό αέριο, αν μπορούσαμε να δημιουργήσουμε ένα επιτυχημένο μοντέλο, αυτό θα ήταν μεγάλη πρόοδος!

Η ίδια η διαδικασία θύμιζε πολύ τη δουλειά με τα συστήματα σχεδιασμού στη γεωλογία-γεωφυσική, για παράδειγμα Θαλασσοβάτης. Όλοι όσοι δεν είναι πολύ τεμπέληδες φτιάχνουν και τροποποιούν μοντέλα. Συλλέξτε δεδομένα στο μοντέλο. Μετά έφτιαξαν ένα μοντέλο αναφοράς και το έστειλαν στην παραγωγή! Μεταξύ, ας πούμε, ενός γεωλογικού μοντέλου και ενός μοντέλου ML, μπορείτε να βρείτε πολλά κοινά.

Ντόμινο

Έμφαση στην ανοιχτή πλατφόρμα και τη συνεργασία. Οι επαγγελματίες χρήστες γίνονται δεκτοί δωρεάν. Το εργαστήριο δεδομένων τους μοιάζει πολύ με το sharepoint. (Και το όνομα μυρίζει έντονα IBM). Όλα τα πειράματα συνδέονται με το αρχικό σύνολο δεδομένων. Πόσο οικείο είναι αυτό :) Όπως και στην πρακτική μας - κάποια δεδομένα σύρθηκαν στο μοντέλο, στη συνέχεια καθαρίστηκαν και μπήκαν σε τάξη στο μοντέλο και όλα αυτά ζουν ήδη εκεί στο μοντέλο και τα άκρα δεν μπορούν να βρεθούν στα δεδομένα πηγής .

Το Domino διαθέτει δροσερή εικονικοποίηση υποδομής. Συναρμολόγησα το μηχάνημα όσους πυρήνες χρειαζόταν σε ένα δευτερόλεπτο και πήγα να μετρήσω. Το πώς έγινε δεν είναι αμέσως σαφές. Το Docker είναι παντού. Πολλή ελευθερία! Μπορούν να συνδεθούν οποιοιδήποτε χώροι εργασίας των πιο πρόσφατων εκδόσεων. Παράλληλη έναρξη πειραμάτων. Παρακολούθηση και επιλογή των επιτυχημένων.

Το ίδιο με το DataRobot - τα αποτελέσματα δημοσιεύονται για επαγγελματίες χρήστες με τη μορφή εφαρμογών. Για ιδιαίτερα προικισμένους «ενδιαφερομένους». Και η πραγματική χρήση των μοντέλων παρακολουθείται επίσης. Τα πάντα για τα Pugs!

Δεν καταλαβαίνω πλήρως πόσο πολύπλοκα μοντέλα καταλήγουν στην παραγωγή. Παρέχεται κάποιο είδος API για την τροφοδότηση δεδομένων και τη λήψη αποτελεσμάτων.

H2O

Το Driveless AI είναι ένα πολύ συμπαγές και διαισθητικό σύστημα για εποπτευόμενη ML. Όλα σε ένα κουτί. Δεν είναι απολύτως σαφές αμέσως σχετικά με το backend.

Το μοντέλο συσκευάζεται αυτόματα σε διακομιστή REST ή εφαρμογή Java. Είναι θαυμάσια ιδέα. Πολλά έχουν γίνει για την Ερμηνευσιμότητα και την Επεξήγηση. Ερμηνεία και επεξήγηση των αποτελεσμάτων του μοντέλου (Τι εγγενώς δεν πρέπει να εξηγείται, διαφορετικά ένα άτομο μπορεί να υπολογίσει το ίδιο;).
Για πρώτη φορά, μια μελέτη περίπτωσης για μη δομημένα δεδομένα και NLP. Αρχιτεκτονική εικόνα υψηλής ποιότητας. Και γενικά μου άρεσαν οι φωτογραφίες.

Υπάρχει ένα μεγάλο πλαίσιο ανοιχτού κώδικα H2O που δεν είναι απολύτως σαφές (ένα σύνολο αλγορίθμων/βιβλιοθηκών;). Το δικό σας οπτικό φορητό υπολογιστή χωρίς προγραμματισμό όπως ο Jupiter (σύνδεσμος). Διάβασα επίσης για τα μοντέλα Pojo και Mojo - H2O τυλιγμένα σε Java. Το πρώτο είναι απλό, το δεύτερο με βελτιστοποίηση. Οι H20 είναι οι μόνοι(!) στους οποίους η Gartner απαρίθμησε την ανάλυση κειμένου και το NLP ως δυνατά σημεία, καθώς και τις προσπάθειές τους σχετικά με την Επεξήγηση. Είναι πολύ σημαντικό!

Στον ίδιο χώρο: υψηλές επιδόσεις, βελτιστοποίηση και βιομηχανικά πρότυπα στον τομέα της ενοποίησης με hardware και cloud.

Και η αδυναμία είναι λογική - η τεχνητή νοημοσύνη των προγραμμάτων οδήγησης είναι αδύναμη και περιορισμένη σε σύγκριση με τον ανοιχτό κώδικα τους. Η προετοιμασία δεδομένων είναι κουτσή σε σύγκριση με τα Paxata! Και αγνοούν τα βιομηχανικά δεδομένα - ροή, γράφημα, γεωγραφική θέση. Λοιπόν, όλα δεν μπορούν να είναι απλά καλά.

ΓΝΩΣΗ

Μου άρεσαν οι 6 πολύ συγκεκριμένες, πολύ ενδιαφέρουσες επαγγελματικές υποθέσεις στην κεντρική σελίδα. Ισχυρό OpenSource.

Η Gartner τους υποβάθμισε από ηγέτες σε οραματιστές. Η κακή απόκτηση χρημάτων είναι ένα καλό σημάδι για τους χρήστες, δεδομένου ότι το Leader δεν είναι πάντα η καλύτερη επιλογή.

Η λέξη-κλειδί, όπως και στο H2O, είναι επαυξημένη, που σημαίνει βοήθεια στους φτωχούς επιστήμονες δεδομένων πολιτών. Αυτή είναι η πρώτη φορά που κάποιος δέχεται κριτική για απόδοση σε μια κριτική! Ενδιαφέρων? Δηλαδή, υπάρχει τόση υπολογιστική ισχύς που η απόδοση δεν μπορεί να είναι καθόλου συστημικό πρόβλημα; Η Gartner έχει σχετικά με αυτή τη λέξη "Augmented" ξεχωριστό άρθρο, που δεν ήταν δυνατή η πρόσβαση.
Και ο KNIME φαίνεται να είναι ο πρώτος μη Αμερικανός στην κριτική! (Και στους σχεδιαστές μας άρεσε πολύ η σελίδα προορισμού τους. Παράξενοι άνθρωποι.

MathWorks

Το MatLab είναι ένας παλιός επίτιμος σύντροφος γνωστός σε όλους! Εργαλειοθήκες για όλους τους τομείς της ζωής και τις καταστάσεις. Κάτι πολύ διαφορετικό. Στην πραγματικότητα, πολλά, πολλά, πολλά μαθηματικά για τα πάντα στη ζωή!

Ένα πρόσθετο προϊόν Simulink για σχεδιασμό συστήματος. Έσκαψα σε εργαλειοθήκες για Digital Twins - δεν καταλαβαίνω τίποτα γι 'αυτό, αλλά εδώ έχουν γραφτεί πολλά. Για βιομηχανία πετρελαίου. Γενικά, αυτό είναι ένα θεμελιωδώς διαφορετικό προϊόν από τα βάθη των μαθηματικών και της μηχανικής. Για να επιλέξετε συγκεκριμένες εργαλειοθήκες μαθηματικών. Σύμφωνα με την Gartner, τα προβλήματά τους είναι ίδια με αυτά των έξυπνων μηχανικών - χωρίς συνεργασία - ο καθένας ψαχουλεύει γύρω του στο δικό του μοντέλο, χωρίς δημοκρατία, χωρίς εξηγησιμότητα.

RapidMiner

Έχω συναντήσει και ακούσει πολλά στο παρελθόν (μαζί με το Matlab) στο πλαίσιο του καλού ανοιχτού κώδικα. Έσκαψα λίγο στο TurboPrep ως συνήθως. Με ενδιαφέρει πώς να λάβω καθαρά δεδομένα από βρώμικα δεδομένα.

Και πάλι μπορείτε να δείτε ότι οι άνθρωποι είναι καλοί με βάση τα υλικά μάρκετινγκ του 2018 και τους τρομερούς αγγλόφωνους ανθρώπους στην επίδειξη χαρακτηριστικών.

Και άνθρωποι από το Ντόρτμουντ από το 2001 με ισχυρό γερμανικό υπόβαθρο)

Gartner MQ 2020 Review: Machine Learning and Artificial Intelligence Platforms
Εξακολουθώ να μην καταλαβαίνω από τον ιστότοπο τι ακριβώς είναι διαθέσιμο σε ανοιχτό κώδικα - πρέπει να σκάψετε βαθύτερα. Καλά βίντεο σχετικά με την ανάπτυξη και τις έννοιες AutoML.

Δεν υπάρχει τίποτα ιδιαίτερο ούτε στο backend του RapidMiner Server. Πιθανότατα θα είναι συμπαγές και θα λειτουργεί καλά σε premium out of box. Είναι συσκευασμένο σε Docker. Κοινόχρηστο περιβάλλον μόνο στον διακομιστή RapidMiner. Και μετά υπάρχει το Radoop, δεδομένα από το Hadoop, μετρώντας ρίμες από τη ροή εργασίας Spark στο Studio.

Όπως ήταν αναμενόμενο, νέοι καυτεροί πωλητές «πωλητές ριγέ ραβδιών» τους μετέφεραν κάτω. Η Gartner, ωστόσο, προβλέπει τη μελλοντική τους επιτυχία στον χώρο του Enterprise. Μπορείτε να συγκεντρώσετε χρήματα εκεί. Οι Γερμανοί το ξέρουν αυτό, άγια-άγια :) Μην το αναφέρεις το SAP!!!

Κάνουν πολλά για τους πολίτες! Αλλά από τη σελίδα μπορείτε να δείτε ότι η Gartner λέει ότι παλεύουν με την καινοτομία στις πωλήσεις και δεν αγωνίζονται για εύρος κάλυψης, αλλά για κερδοφορία.

Έμεινα SAS и Tibco τυπικοί προμηθευτές BI για μένα... Και οι δύο βρίσκονται στην κορυφή, γεγονός που επιβεβαιώνει την πεποίθησή μου ότι το κανονικό DataScience αναπτύσσεται λογικά
από BI, και όχι από cloud και υποδομές Hadoop. Από επιχειρήσεις δηλαδή και όχι από πληροφορική. Όπως στην Gazpromneft για παράδειγμα: σύνδεσμος,Ένα ώριμο περιβάλλον DSML αναπτύσσεται από ισχυρές πρακτικές BI. Αλλά ίσως είναι κακόγουστο και προκατειλημμένο προς το MDM και άλλα πράγματα, ποιος ξέρει.

SAS

Δεν υπάρχουν πολλά να πούμε. Μόνο τα αυτονόητα.

TIBCO

Η στρατηγική διαβάζεται σε μια λίστα αγορών σε μια σελίδα Wiki. Ναι, μεγάλη ιστορία, αλλά 28!!! Κάρολος. Αγόρασα το BI Spotfire (2007) στην τεχνολογική νεολαία μου. Και επίσης η αναφορά από Jaspersoft (2014), στη συνέχεια έως και τρεις προμηθευτές προγνωστικών αναλυτικών στοιχείων Insightful (S-plus) (2008), Statistica (2017) και Alpine Data (2017), επεξεργασία συμβάντων και ροή Streambase System (2013), MDM Orchestra Πλατφόρμα μνήμης Networks (2018) και Snappy Data (2019).

Γεια σου Φράνκι!

Gartner MQ 2020 Review: Machine Learning and Artificial Intelligence Platforms

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο