Το έργο Open Data Hub είναι μια ανοιχτή πλατφόρμα μηχανικής εκμάθησης που βασίζεται στο Red Hat OpenShift

Το μέλλον έφτασε και οι τεχνολογίες τεχνητής νοημοσύνης και μηχανικής μάθησης χρησιμοποιούνται ήδη με επιτυχία από τα αγαπημένα σας καταστήματα, μεταφορικές εταιρείες, ακόμη και φάρμες γαλοπούλας.

Το έργο Open Data Hub είναι μια ανοιχτή πλατφόρμα μηχανικής εκμάθησης που βασίζεται στο Red Hat OpenShift

Και αν κάτι υπάρχει, τότε υπάρχει ήδη κάτι για αυτό στο Διαδίκτυο... ένα ανοιχτό έργο! Δείτε πώς το Open Data Hub σάς βοηθά να κλιμακώσετε τις νέες τεχνολογίες και να αποφύγετε τις προκλήσεις εφαρμογής.

Με όλα τα πλεονεκτήματα της τεχνητής νοημοσύνης (AI) και της μηχανικής μάθησης (ML), οι οργανισμοί συχνά δυσκολεύονται να κλιμακώσουν αυτές τις τεχνολογίες. Τα κύρια προβλήματα σε αυτή την περίπτωση είναι συνήθως τα ακόλουθα:

  • Ανταλλαγή πληροφοριών και συνεργασία – είναι σχεδόν αδύνατο να ανταλλάσσετε πληροφορίες αβίαστα και να συνεργάζεστε σε γρήγορες επαναλήψεις.
  • Πρόσβαση δεδομένων – για κάθε εργασία πρέπει να δημιουργηθεί εκ νέου και χειροκίνητα, κάτι που απαιτεί πολύ χρόνο.
  • Πρόσβαση κατά παραγγελία – δεν υπάρχει τρόπος να αποκτήσετε πρόσβαση κατ' απαίτηση σε εργαλεία και πλατφόρμα μηχανικής εκμάθησης, καθώς και στην υπολογιστική υποδομή.
  • Παραγωγή – τα μοντέλα παραμένουν στο στάδιο του πρωτοτύπου και δεν χρησιμοποιούνται για βιομηχανική χρήση.
  • Παρακολουθήστε και εξηγήστε τα αποτελέσματα AI – η αναπαραγωγιμότητα, η παρακολούθηση και η επεξήγηση των αποτελεσμάτων AI/ML είναι δύσκολες.

Αν δεν αντιμετωπιστούν, αυτά τα προβλήματα επηρεάζουν αρνητικά την ταχύτητα, την αποτελεσματικότητα και την παραγωγικότητα των πολύτιμων επιστημόνων δεδομένων. Αυτό οδηγεί σε απογοήτευση, απογοήτευση από τη δουλειά τους και ως αποτέλεσμα, οι επιχειρηματικές προσδοκίες σχετικά με την AI/ML πάνε χαμένες.

Η ευθύνη για την επίλυση αυτών των προβλημάτων βαρύνει τους ειδικούς πληροφορικής, οι οποίοι πρέπει να παρέχουν στους αναλυτές δεδομένων - αυτό είναι σωστό, κάτι σαν το cloud. Πιο αναλυτικά, χρειαζόμαστε μια πλατφόρμα που να δίνει ελευθερία επιλογής και να έχει άνετη και εύκολη πρόσβαση. Ταυτόχρονα, είναι γρήγορο, εύκολα αναδιαμορφώσιμο, επεκτάσιμο κατά παραγγελία και ανθεκτικό σε αστοχίες. Η οικοδόμηση μιας τέτοιας πλατφόρμας σε τεχνολογίες ανοιχτού κώδικα βοηθά στην αποφυγή του κλειδώματος των προμηθευτών και στη διατήρηση ενός μακροπρόθεσμου στρατηγικού πλεονεκτήματος όσον αφορά τον έλεγχο του κόστους.

Πριν από μερικά χρόνια, κάτι παρόμοιο συνέβαινε στην ανάπτυξη εφαρμογών και οδήγησε στην εμφάνιση μικροϋπηρεσιών, υβριδικών cloud, αυτοματισμών πληροφορικής και ευέλικτων διαδικασιών. Για να αντιμετωπίσουν όλα αυτά, οι επαγγελματίες πληροφορικής έχουν στραφεί σε κοντέινερ, Kubernetes και ανοιχτά υβριδικά σύννεφα.

Αυτή η εμπειρία εφαρμόζεται τώρα για να απαντήσει στις προκλήσεις του Al. Αυτός είναι ο λόγος για τον οποίο οι επαγγελματίες πληροφορικής χτίζουν πλατφόρμες που βασίζονται σε κοντέινερ, επιτρέπουν τη δημιουργία υπηρεσιών AI/ML εντός ευέλικτων διαδικασιών, επιταχύνουν την καινοτομία και κατασκευάζονται με βλέμμα στο υβριδικό σύννεφο.

Το έργο Open Data Hub είναι μια ανοιχτή πλατφόρμα μηχανικής εκμάθησης που βασίζεται στο Red Hat OpenShift

Θα ξεκινήσουμε τη δημιουργία μιας τέτοιας πλατφόρμας με το Red Hat OpenShift, την πλατφόρμα Kubernetes με κοντέινερ για το υβριδικό σύννεφο, η οποία διαθέτει ένα ταχέως αναπτυσσόμενο οικοσύστημα λύσεων ML λογισμικού και υλικού (NVIDIA, H2O.ai, Starburst, PerceptiLabs, κ.λπ.). Ορισμένοι από τους πελάτες της Red Hat, όπως το BMW Group, η ExxonMobil και άλλοι, έχουν ήδη αναπτύξει αλυσίδες εργαλείων ML και διαδικασίες DevOps με εμπορευματοκιβώτια πάνω από την πλατφόρμα και το οικοσύστημά της για να φέρουν τις αρχιτεκτονικές τους ML στην παραγωγή και να επιταχύνουν το έργο των αναλυτών δεδομένων.

Ένας άλλος λόγος που ξεκινήσαμε το έργο Open Data Hub είναι να επιδείξουμε ένα παράδειγμα αρχιτεκτονικής που βασίζεται σε πολλά έργα λογισμικού ανοιχτού κώδικα και να δείξουμε πώς να εφαρμόσουμε ολόκληρο τον κύκλο ζωής μιας λύσης ML που βασίζεται στην πλατφόρμα OpenShift.

Open Data Hub Project

Αυτό είναι ένα έργο ανοιχτού κώδικα που αναπτύσσεται στην αντίστοιχη κοινότητα ανάπτυξης και υλοποιεί έναν πλήρη κύκλο λειτουργιών - από τη φόρτωση και τη μετατροπή αρχικών δεδομένων έως τη δημιουργία, την εκπαίδευση και τη διατήρηση ενός μοντέλου - κατά την επίλυση προβλημάτων AI / ML χρησιμοποιώντας κοντέινερ και Kubernetes στο OpenShift πλατφόρμα. Αυτό το έργο μπορεί να θεωρηθεί ως υλοποίηση αναφοράς, ένα παράδειγμα του τρόπου δημιουργίας μιας ανοιχτής λύσης AI/ML-as-a-service που βασίζεται στο OpenShift και σε σχετικά εργαλεία ανοιχτού κώδικα όπως το Tensorflow, το JupyterHub, το Spark και άλλα. Είναι σημαντικό να σημειωθεί ότι η ίδια η Red Hat χρησιμοποιεί αυτό το έργο για να παρέχει τις υπηρεσίες AI/ML της. Επιπλέον, το OpenShift ενσωματώνεται με βασικές λύσεις ML λογισμικού και υλικού από NVIDIA, Seldon, Starbust και άλλους προμηθευτές, διευκολύνοντας τη δημιουργία και τη λειτουργία των δικών σας συστημάτων μηχανικής εκμάθησης.

Το έργο Open Data Hub είναι μια ανοιχτή πλατφόρμα μηχανικής εκμάθησης που βασίζεται στο Red Hat OpenShift

Το έργο Open Data Hub επικεντρώνεται στις ακόλουθες κατηγορίες χρηστών και περιπτώσεις χρήσης:

  • Αναλυτής δεδομένων που χρειάζεται μια λύση για την υλοποίηση έργων ML, οργανωμένη σαν σύννεφο με λειτουργίες αυτοεξυπηρέτησης.
  • Αναλυτής δεδομένων που χρειάζεται μέγιστη επιλογή από τα πιο πρόσφατα εργαλεία και πλατφόρμες AI/ML ανοιχτού κώδικα.
  • Αναλυτής δεδομένων που χρειάζεται πρόσβαση σε πηγές δεδομένων όταν εκπαιδεύει μοντέλα.
  • Αναλυτής δεδομένων που χρειάζεται πρόσβαση σε υπολογιστικούς πόρους (CPU, GPU, μνήμη).
  • Αναλυτής δεδομένων που απαιτεί την ικανότητα να συνεργάζεται και να μοιράζεται εργασία με συναδέλφους, να λαμβάνει σχόλια και να κάνει βελτιώσεις στην ταχεία επανάληψη.
  • Ένας αναλυτής δεδομένων που θέλει να αλληλεπιδρά με προγραμματιστές (και αναπτύσσει ομάδες) έτσι ώστε τα μοντέλα ML και τα αποτελέσματα εργασίας του να βγαίνουν στην παραγωγή.
  • Μηχανικός δεδομένων που πρέπει να παρέχει σε έναν αναλυτή δεδομένων πρόσβαση σε μια ποικιλία πηγών δεδομένων, ενώ συμμορφώνεται με κανονιστικές απαιτήσεις και απαιτήσεις ασφαλείας.
  • Διαχειριστής/χειριστής συστήματος πληροφορικής που απαιτεί την ικανότητα να ελέγχει αβίαστα τον κύκλο ζωής (εγκατάσταση, διαμόρφωση, αναβάθμιση) εξαρτημάτων και τεχνολογιών ανοιχτού κώδικα. Χρειαζόμαστε επίσης κατάλληλα εργαλεία διαχείρισης και ποσοστώσεων.

Το έργο Open Data Hub συγκεντρώνει μια σειρά από εργαλεία ανοιχτού κώδικα για την υλοποίηση ενός πλήρους κύκλου λειτουργιών AI/ML. Το Jupyter Notebook χρησιμοποιείται εδώ ως το κύριο εργαλείο εργασίας για την ανάλυση δεδομένων. Η εργαλειοθήκη είναι ευρέως δημοφιλής μεταξύ των επιστημόνων δεδομένων σήμερα και το Open Data Hub τους επιτρέπει να δημιουργούν και να διαχειρίζονται εύκολα χώρους εργασίας Jupyter Notebook χρησιμοποιώντας το ενσωματωμένο JupyterHub. Εκτός από τη δημιουργία και εισαγωγή φορητών υπολογιστών Jupyter, το έργο Open Data Hub περιέχει επίσης έναν αριθμό έτοιμου σημειωματάριου με τη μορφή βιβλιοθήκης AI.

Αυτή η βιβλιοθήκη είναι μια συλλογή εξαρτημάτων μηχανικής εκμάθησης ανοιχτού κώδικα και λύσεων για κοινά σενάρια που απλοποιούν την ταχεία δημιουργία πρωτοτύπων. Το JupyterHub είναι ενσωματωμένο με το μοντέλο πρόσβασης RBAC του OpenShift, το οποίο σας επιτρέπει να χρησιμοποιείτε υπάρχοντες λογαριασμούς OpenShift και να εφαρμόζετε απλή σύνδεση. Επιπλέον, το JupyterHub προσφέρει μια φιλική προς το χρήστη διεπαφή χρήστη που ονομάζεται spawner, μέσω της οποίας ο χρήστης μπορεί εύκολα να διαμορφώσει την ποσότητα των υπολογιστικών πόρων (πυρήνες CPU, μνήμη, GPU) για το επιλεγμένο Notebook Jupyter.

Αφού ο αναλυτής δεδομένων δημιουργήσει και διαμορφώσει τον φορητό υπολογιστή, όλες οι υπόλοιπες ανησυχίες σχετικά με αυτό αντιμετωπίζονται από τον προγραμματιστή Kubernetes, ο οποίος αποτελεί μέρος του OpenShift. Οι χρήστες μπορούν μόνο να πραγματοποιήσουν τα πειράματά τους, να αποθηκεύσουν και να μοιραστούν τα αποτελέσματα της δουλειάς τους. Επιπλέον, οι προχωρημένοι χρήστες μπορούν να έχουν απευθείας πρόσβαση στο κέλυφος του OpenShift CLI απευθείας από τους φορητούς υπολογιστές Jupyter για να αξιοποιήσουν τα πρωτόγονα του Kubernetes, όπως τη λειτουργικότητα Job ή OpenShift, όπως το Tekton ή το Knative. Ή για αυτό μπορείτε να χρησιμοποιήσετε το βολικό GUI του OpenShift, το οποίο ονομάζεται "OpenShift web console".

Το έργο Open Data Hub είναι μια ανοιχτή πλατφόρμα μηχανικής εκμάθησης που βασίζεται στο Red Hat OpenShift

Το έργο Open Data Hub είναι μια ανοιχτή πλατφόρμα μηχανικής εκμάθησης που βασίζεται στο Red Hat OpenShift

Προχωρώντας στο επόμενο στάδιο, το Open Data Hub καθιστά δυνατή τη διαχείριση αγωγών δεδομένων. Για αυτό, χρησιμοποιείται ένα αντικείμενο Ceph, το οποίο παρέχεται ως αποθήκευση δεδομένων αντικειμένου συμβατή με S3. Το Apache Spark παρέχει ροή δεδομένων από εξωτερικές πηγές ή ενσωματωμένη αποθήκευση Ceph S3 και σας επιτρέπει επίσης να πραγματοποιείτε προκαταρκτικούς μετασχηματισμούς δεδομένων. Το Apache Kafka παρέχει προηγμένη διαχείριση αγωγών δεδομένων (όπου τα δεδομένα μπορούν να φορτωθούν πολλές φορές, καθώς και λειτουργίες μετασχηματισμού δεδομένων, ανάλυσης και διατήρησης).

Έτσι, ο αναλυτής δεδομένων είχε πρόσβαση στα δεδομένα και κατασκεύασε ένα μοντέλο. Τώρα έχει την επιθυμία να μοιραστεί τα αποτελέσματα που αποκτήθηκαν με συναδέλφους ή προγραμματιστές εφαρμογών και να τους παρέχει το μοντέλο του με βάση τις αρχές μιας υπηρεσίας. Αυτό απαιτεί έναν διακομιστή συμπερασμάτων και το Open Data Hub έχει έναν τέτοιο διακομιστή, που ονομάζεται Seldon και σας επιτρέπει να δημοσιεύσετε το μοντέλο ως υπηρεσία RESTful.

Σε κάποιο σημείο, υπάρχουν αρκετά τέτοια μοντέλα στον διακομιστή Seldon και υπάρχει ανάγκη παρακολούθησης του τρόπου χρήσης τους. Για να επιτευχθεί αυτό, το Open Data Hub προσφέρει μια συλλογή σχετικών μετρήσεων και μια μηχανή αναφοράς που βασίζεται στα ευρέως χρησιμοποιούμενα εργαλεία παρακολούθησης ανοιχτού κώδικα Prometheus και Grafana. Ως αποτέλεσμα, λαμβάνουμε σχόλια για την παρακολούθηση της χρήσης μοντέλων τεχνητής νοημοσύνης, ιδιαίτερα σε περιβάλλον παραγωγής.

Το έργο Open Data Hub είναι μια ανοιχτή πλατφόρμα μηχανικής εκμάθησης που βασίζεται στο Red Hat OpenShift

Με αυτόν τον τρόπο, το Open Data Hub παρέχει μια προσέγγιση που μοιάζει με σύννεφο σε όλο τον κύκλο ζωής του AI/ML, από την πρόσβαση και την προετοιμασία δεδομένων έως την εκπαίδευση και την παραγωγή μοντέλων.

Βάζοντας όλα μαζί

Τώρα τίθεται το ερώτημα πώς να οργανωθούν όλα αυτά για τον διαχειριστή του OpenShift. Και εδώ μπαίνει στο παιχνίδι ένας ειδικός χειριστής Kubernetes για έργα Open Data Hub.

Το έργο Open Data Hub είναι μια ανοιχτή πλατφόρμα μηχανικής εκμάθησης που βασίζεται στο Red Hat OpenShift

Αυτός ο χειριστής διαχειρίζεται την εγκατάσταση, τη διαμόρφωση και τον κύκλο ζωής του έργου Open Data Hub, συμπεριλαμβανομένης της ανάπτυξης των προαναφερθέντων εργαλείων όπως JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus και Grafana. Το έργο Open Data Hub μπορεί να βρεθεί στην κονσόλα ιστού OpenShift, στην ενότητα τελεστών κοινότητας. Έτσι, ο διαχειριστής του OpenShift μπορεί να καθορίσει ότι τα αντίστοιχα έργα OpenShift κατηγοριοποιούνται ως "Έργο Open Data Hub". Αυτό γίνεται μια φορά. Μετά από αυτό, ο αναλυτής δεδομένων συνδέεται στο χώρο του έργου του μέσω της κονσόλας Ιστού OpenShift και βλέπει ότι ο αντίστοιχος χειριστής Kubernetes είναι εγκατεστημένος και διαθέσιμος για τα έργα του. Στη συνέχεια, δημιουργεί μια παρουσία έργου Open Data Hub με ένα κλικ και έχει αμέσως πρόσβαση στα εργαλεία που περιγράφονται παραπάνω. Και όλα αυτά μπορούν να ρυθμιστούν σε λειτουργία υψηλής διαθεσιμότητας και ανοχής σφαλμάτων.

Το έργο Open Data Hub είναι μια ανοιχτή πλατφόρμα μηχανικής εκμάθησης που βασίζεται στο Red Hat OpenShift

Εάν θέλετε να δοκιμάσετε μόνοι σας το έργο Open Data Hub, ξεκινήστε με οδηγίες εγκατάστασης και εισαγωγικό σεμινάριο. Μπορείτε να βρείτε τεχνικές λεπτομέρειες της αρχιτεκτονικής Open Data Hub εδώ, σχέδια ανάπτυξης έργων – εδώ. Στο μέλλον, σκοπεύουμε να εφαρμόσουμε πρόσθετη ενοποίηση με το Kubeflow, να επιλύσουμε ορισμένα ζητήματα με τη ρύθμιση και την ασφάλεια των δεδομένων και επίσης να οργανώσουμε την ενοποίηση με συστήματα που βασίζονται σε κανόνες Drools και Optaplanner. Εκφράστε τη γνώμη σας και γίνετε συμμετέχων στο έργο Ανοίξτε το Data Hub είναι δυνατό στη σελίδα κοινότητα.

Για να ανακεφαλαιώσουμε: Οι σοβαρές προκλήσεις κλιμάκωσης εμποδίζουν τους οργανισμούς να αξιοποιήσουν πλήρως τις δυνατότητες της τεχνητής νοημοσύνης και της μηχανικής μάθησης. Το Red Hat OpenShift έχει χρησιμοποιηθεί από καιρό με επιτυχία για την επίλυση παρόμοιων προβλημάτων στη βιομηχανία λογισμικού. Το έργο Open Data Hub, που υλοποιείται στην κοινότητα ανάπτυξης ανοιχτού κώδικα, προσφέρει μια αρχιτεκτονική αναφοράς για την οργάνωση ενός πλήρους κύκλου λειτουργιών AI/ML με βάση το υβριδικό σύννεφο OpenShift. Έχουμε ένα σαφές και στοχαστικό σχέδιο για την ανάπτυξη αυτού του έργου και σκοπεύουμε να δημιουργήσουμε μια ενεργή και γόνιμη κοινότητα γύρω από αυτό για την ανάπτυξη ανοιχτών λύσεων AI στην πλατφόρμα OpenShift.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο