Il progetto Open Data Hub è una piattaforma aperta di machine learning basata su Red Hat OpenShift

Il futuro è arrivato e le tecnologie di intelligenza artificiale e apprendimento automatico vengono già utilizzate con successo dai tuoi negozi preferiti, dalle aziende di trasporto e persino dagli allevamenti di tacchini.

Il progetto Open Data Hub è una piattaforma aperta di machine learning basata su Red Hat OpenShift

E se qualcosa esiste, allora c'è già qualcosa in Internet... un progetto aperto! Scopri come Open Data Hub ti aiuta a scalare le nuove tecnologie ed evitare sfide di implementazione.

Con tutti i vantaggi dell’intelligenza artificiale (AI) e del machine learning (ML), le organizzazioni spesso hanno difficoltà a scalare queste tecnologie. I problemi principali in questo caso sono solitamente i seguenti:

  • Scambio di informazioni e cooperazione – è quasi impossibile scambiare informazioni senza sforzo e collaborare in iterazioni rapide.
  • Accesso ai dati – per ogni attività è necessario ricostruirlo manualmente, il che richiede molto tempo.
  • Accesso su richiesta – non è possibile ottenere l’accesso su richiesta agli strumenti e alla piattaforma di machine learning, nonché all’infrastruttura informatica.
  • Produzione – i modelli rimangono allo stadio di prototipo e non vengono portati all’uso industriale.
  • Tieni traccia e spiega i risultati dell'intelligenza artificiale – la riproducibilità, il tracciamento e la spiegazione dei risultati AI/ML sono difficili.

Se non affrontati, questi problemi hanno un impatto negativo sulla velocità, sull’efficienza e sulla produttività dei preziosi data scientist. Ciò porta alla loro frustrazione, delusione nel loro lavoro e, di conseguenza, le aspettative aziendali riguardo all’intelligenza artificiale/ML vanno sprecate.

La responsabilità di risolvere questi problemi ricade sugli specialisti IT, che devono fornire agli analisti di dati qualcosa di simile al cloud. Più in dettaglio, abbiamo bisogno di una piattaforma che dia libertà di scelta e abbia un accesso comodo e facile. Allo stesso tempo, è veloce, facilmente riconfigurabile, scalabile su richiesta e resistente ai guasti. Costruire una piattaforma di questo tipo su tecnologie open source aiuta a evitare il vincolo del fornitore e a mantenere un vantaggio strategico a lungo termine in termini di controllo dei costi.

Qualche anno fa, qualcosa di simile stava accadendo nello sviluppo di applicazioni e ha portato alla nascita di microservizi, cloud ibridi, automazione IT e processi agili. Per far fronte a tutto questo, i professionisti IT si sono rivolti ai container, a Kubernetes e ai cloud ibridi aperti.

Questa esperienza viene ora applicata per rispondere alle sfide di Al. Ecco perché i professionisti IT stanno costruendo piattaforme basate su container, che consentono la creazione di servizi AI/ML all'interno di processi agili, accelerano l'innovazione e sono costruite con un occhio rivolto al cloud ibrido.

Il progetto Open Data Hub è una piattaforma aperta di machine learning basata su Red Hat OpenShift

Inizieremo a costruire una piattaforma di questo tipo con Red Hat OpenShift, la nostra piattaforma Kubernetes containerizzata per il cloud ibrido, che dispone di un ecosistema in rapida crescita di soluzioni ML software e hardware (NVIDIA, H2O.ai, Starburst, PerceptiLabs, ecc.). Alcuni dei clienti di Red Hat, come BMW Group, ExxonMobil e altri, hanno già implementato toolchain ML containerizzate e processi DevOps sulla piattaforma e sul suo ecosistema per portare le loro architetture ML in produzione e accelerare il lavoro degli analisti di dati.

Un altro motivo per cui abbiamo lanciato il progetto Open Data Hub è quello di dimostrare un esempio di architettura basata su diversi progetti software open source e mostrare come implementare l'intero ciclo di vita di una soluzione ML basata sulla piattaforma OpenShift.

Progetto Open Data Hub

Si tratta di un progetto open source sviluppato all'interno della corrispondente comunità di sviluppo e implementa un ciclo completo di operazioni - dal caricamento e trasformazione dei dati iniziali alla generazione, formazione e mantenimento di un modello - durante la risoluzione di problemi AI/ML utilizzando contenitori e Kubernetes su OpenShift piattaforma. Questo progetto può essere considerato un'implementazione di riferimento, un esempio di come costruire una soluzione AI/ML-as-a-service aperta basata su OpenShift e relativi strumenti open source come Tensorflow, JupyterHub, Spark e altri. È importante notare che la stessa Red Hat utilizza questo progetto per fornire i propri servizi AI/ML. Inoltre, OpenShift si integra con le principali soluzioni software e hardware ML di NVIDIA, Seldon, Starbust e altri fornitori, semplificando la creazione e l'esecuzione dei propri sistemi di machine learning.

Il progetto Open Data Hub è una piattaforma aperta di machine learning basata su Red Hat OpenShift

Il progetto Open Data Hub è focalizzato sulle seguenti categorie di utenti e casi d'uso:

  • Analista di dati che necessita di una soluzione per l'implementazione di progetti ML, organizzata come un cloud con funzioni self-service.
  • Analista di dati che necessita della massima scelta tra gli strumenti e le piattaforme AI/ML open source più recenti.
  • Analista di dati che ha bisogno di accedere alle origini dati durante il training dei modelli.
  • Analista di dati che necessita di accesso alle risorse informatiche (CPU, GPU, memoria).
  • Analista di dati che richiede la capacità di collaborare e condividere il lavoro con i colleghi, ricevere feedback e apportare miglioramenti in una rapida iterazione.
  • Un analista di dati che desidera interagire con gli sviluppatori (e i team di sviluppo) in modo che i suoi modelli ML e i risultati del lavoro entrino in produzione.
  • Ingegnere dei dati che deve fornire a un analista di dati l'accesso a una varietà di origini dati rispettando i requisiti normativi e di sicurezza.
  • Amministratore/operatore di sistema IT che richiede la capacità di gestire senza sforzo il ciclo di vita (installazione, configurazione, aggiornamento) di componenti e tecnologie open source. Abbiamo bisogno anche di adeguati strumenti di gestione e di quote.

Il progetto Open Data Hub riunisce una gamma di strumenti open source per implementare un ciclo completo di operazioni AI/ML. Jupyter Notebook viene utilizzato qui come principale strumento di lavoro per l'analisi dei dati. Il toolkit è molto popolare oggi tra i data scientist e Open Data Hub consente loro di creare e gestire facilmente spazi di lavoro Jupyter Notebook utilizzando JupyterHub integrato. Oltre a creare e importare notebook Jupyter, il progetto Open Data Hub contiene anche una serie di notebook già pronti sotto forma di libreria AI.

Questa libreria è una raccolta di componenti e soluzioni di machine learning open source per scenari comuni che semplificano la prototipazione rapida. JupyterHub è integrato con il modello di accesso RBAC di OpenShift, che consente di utilizzare gli account OpenShift esistenti e implementare il Single Sign-On. Inoltre, JupyterHub offre un'interfaccia utente intuitiva chiamata spawner, attraverso la quale l'utente può facilmente configurare la quantità di risorse di calcolo (core CPU, memoria, GPU) per il notebook Jupyter selezionato.

Dopo che l'analista dei dati ha creato e configurato il laptop, tutte le altre preoccupazioni relative allo stesso vengono gestite dallo scheduler Kubernetes, che fa parte di OpenShift. Gli utenti possono solo effettuare i propri esperimenti, salvare e condividere i risultati del proprio lavoro. Inoltre, gli utenti avanzati possono accedere direttamente alla shell CLI di OpenShift direttamente dai notebook Jupyter per sfruttare le primitive Kubernetes come Job o funzionalità OpenShift come Tekton o Knative. Oppure puoi utilizzare la comoda GUI di OpenShift, chiamata "console web OpenShift".

Il progetto Open Data Hub è una piattaforma aperta di machine learning basata su Red Hat OpenShift

Il progetto Open Data Hub è una piattaforma aperta di machine learning basata su Red Hat OpenShift

Passando alla fase successiva, Open Data Hub consente di gestire pipeline di dati. A questo scopo viene utilizzato un oggetto Ceph, che viene fornito come archivio dati oggetto compatibile con S3. Apache Spark ti consente di eseguire lo streaming di dati da fonti esterne o dallo storage Ceph S3 integrato e ti consente anche di eseguire trasformazioni preliminari dei dati. Apache Kafka fornisce la gestione avanzata delle pipeline di dati (dove i dati possono essere caricati più volte, nonché operazioni di trasformazione, analisi e persistenza dei dati).

Pertanto, l'analista dei dati ha avuto accesso ai dati e ha creato un modello. Ora ha il desiderio di condividere i risultati ottenuti con colleghi o sviluppatori di applicazioni e fornire loro il suo modello sui principi di un servizio. Ciò richiede un server di inferenza e Open Data Hub dispone di tale server, si chiama Seldon e consente di pubblicare il modello come servizio RESTful.

Ad un certo punto, sul server Seldon sono presenti diversi modelli di questo tipo ed è necessario monitorare il modo in cui vengono utilizzati. Per raggiungere questo obiettivo, Open Data Hub offre una raccolta di parametri rilevanti e un motore di reporting basato sugli strumenti di monitoraggio open source ampiamente utilizzati Prometheus e Grafana. Di conseguenza, riceviamo feedback per monitorare l'utilizzo dei modelli di intelligenza artificiale, in particolare in un ambiente di produzione.

Il progetto Open Data Hub è una piattaforma aperta di machine learning basata su Red Hat OpenShift

In questo modo, Open Data Hub fornisce un approccio simile al cloud durante l'intero ciclo di vita AI/ML, dall'accesso e preparazione dei dati all'addestramento e alla produzione del modello.

Mettendo tutto insieme

Ora sorge la domanda su come organizzare tutto questo per l'amministratore di OpenShift. Ed è qui che entra in gioco uno speciale operatore Kubernetes per i progetti Open Data Hub.

Il progetto Open Data Hub è una piattaforma aperta di machine learning basata su Red Hat OpenShift

Questo operatore gestisce l'installazione, la configurazione e il ciclo di vita del progetto Open Data Hub, inclusa l'implementazione degli strumenti sopra menzionati come JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus e Grafana. Il progetto Open Data Hub è disponibile nella console web di OpenShift, nella sezione operatori della community. Pertanto, l'amministratore OpenShift può specificare che i progetti OpenShift corrispondenti siano classificati come "progetto Open Data Hub". Questo viene fatto una volta. Successivamente, l'analista di dati accede al suo spazio di progetto tramite la console web OpenShift e vede che l'operatore Kubernetes corrispondente è installato e disponibile per i suoi progetti. Crea quindi un'istanza di progetto Open Data Hub con un clic e ha immediatamente accesso agli strumenti sopra descritti. E tutto questo può essere configurato in modalità alta disponibilità e tolleranza ai guasti.

Il progetto Open Data Hub è una piattaforma aperta di machine learning basata su Red Hat OpenShift

Se desideri provare tu stesso il progetto Open Data Hub, inizia con istruzioni di installazione e tutorial introduttivo. È possibile trovare i dettagli tecnici dell'architettura Open Data Hub qui, piani di sviluppo del progetto – qui. In futuro, prevediamo di implementare un'ulteriore integrazione con Kubeflow, risolvere una serie di problemi relativi alla regolamentazione e alla sicurezza dei dati e organizzare anche l'integrazione con i sistemi basati su regole Drools e Optaplanner. Esprimi la tua opinione e diventa partecipe del progetto Apri Hub dati possibile nella pagina comunità.

Ricapitolando: gravi sfide di scalabilità impediscono alle organizzazioni di realizzare il pieno potenziale dell’intelligenza artificiale e dell’apprendimento automatico. Red Hat OpenShift viene utilizzato da tempo con successo per risolvere problemi simili nel settore del software. Il progetto Open Data Hub, implementato all'interno della comunità di sviluppo open source, offre un'architettura di riferimento per organizzare un ciclo completo di operazioni AI/ML basate sul cloud ibrido OpenShift. Abbiamo un piano chiaro e ponderato per lo sviluppo di questo progetto e siamo seriamente intenzionati a creare attorno ad esso una comunità attiva e fruttuosa per lo sviluppo di soluzioni IA aperte sulla piattaforma OpenShift.

Fonte: habr.com

Aggiungi un commento