El projecte Open Data Hub és una plataforma oberta d'aprenentatge automàtic basada en Red Hat OpenShift

El futur ha arribat, i les vostres botigues preferides, empreses de transport i fins i tot granges de galls dindis ja estan utilitzant amb èxit les tecnologies d'intel·ligència artificial i d'aprenentatge automàtic.

El projecte Open Data Hub és una plataforma oberta d'aprenentatge automàtic basada en Red Hat OpenShift

I si alguna cosa existeix, ja hi ha alguna cosa a Internet... un projecte obert! Descobriu com l'Open Data Hub us ajuda a escalar les noves tecnologies i evitar els reptes d'implementació.

Amb tots els avantatges de la intel·ligència artificial (IA) i l'aprenentatge automàtic (ML), les organitzacions sovint tenen dificultats per escalar aquestes tecnologies. Els principals problemes en aquest cas solen ser els següents:

  • Intercanvi d'informació i cooperació – és gairebé impossible intercanviar informació sense esforç i col·laborar en iteracions ràpides.
  • Accés a dades – per a cada tasca s'ha de construir de nou i manualment, la qual cosa requereix molt de temps.
  • Accés sota demanda – No hi ha manera d'obtenir accés sota demanda a les eines i la plataforma d'aprenentatge automàtic, així com a la infraestructura informàtica.
  • Producció – Els models romanen en l'etapa de prototip i no es porten a l'ús industrial.
  • Feu un seguiment i expliqueu els resultats de l'IA – La reproductibilitat, el seguiment i l'explicació dels resultats d'IA/ML són difícils.

Si no s'han resolt, aquests problemes afecten negativament la velocitat, l'eficiència i la productivitat dels científics de dades valuosos. Això comporta la seva frustració, la seva decepció en el seu treball i, com a resultat, les expectatives empresarials pel que fa a AI/ML es malgasten.

La responsabilitat de resoldre aquests problemes recau en els especialistes informàtics, que han de proporcionar als analistes de dades, així és, alguna cosa com el núvol. Amb més detall, necessitem una plataforma que ofereixi llibertat d'elecció i tingui un accés còmode i fàcil. Al mateix temps, és ràpid, fàcilment reconfigurable, escalable sota demanda i resistent als errors. Construir una plataforma d'aquest tipus amb tecnologies de codi obert ajuda a evitar el bloqueig del proveïdor i a mantenir un avantatge estratègic a llarg termini en termes de control de costos.

Fa uns anys, una cosa semblant estava passant en el desenvolupament d'aplicacions i va provocar l'aparició de microserveis, núvols híbrids, automatització informàtica i processos àgils. Per fer front a tot això, els professionals informàtics han recorregut als contenidors, Kubernetes i núvols híbrids oberts.

Aquesta experiència s'està aplicant ara per respondre als reptes d'Al. És per això que els professionals de TI estan construint plataformes basades en contenidors, que permeten la creació de serveis d'IA/ML dins de processos àgils, acceleren la innovació i es construeixen amb la mirada adreçada al núvol híbrid.

El projecte Open Data Hub és una plataforma oberta d'aprenentatge automàtic basada en Red Hat OpenShift

Començarem a construir aquesta plataforma amb Red Hat OpenShift, la nostra plataforma Kubernetes en contenidors per al núvol híbrid, que compta amb un ecosistema de solucions ML de programari i maquinari en ràpid creixement (NVIDIA, H2O.ai, Starburst, PerceptiLabs, etc.). Alguns dels clients de Red Hat, com BMW Group, ExxonMobil i altres, ja han desplegat cadenes d'eines ML en contenidors i processos DevOps a la plataforma i el seu ecosistema per portar les seves arquitectures ML a la producció i accelerar el treball dels analistes de dades.

Un altre motiu pel qual vam llançar el projecte Open Data Hub és per demostrar un exemple d'arquitectura basada en diversos projectes de programari de codi obert i mostrar com implementar tot el cicle de vida d'una solució de ML basada en la plataforma OpenShift.

Projecte Open Data Hub

Es tracta d'un projecte de codi obert que es desenvolupa dins de la comunitat de desenvolupament corresponent i implementa un cicle complet d'operacions, des de la càrrega i transformació de dades inicials fins a la generació, formació i manteniment d'un model, a l'hora de resoldre problemes d'IA/ML mitjançant contenidors i Kubernetes a l'OpenShift. plataforma. Aquest projecte es pot considerar una implementació de referència, un exemple de com crear una solució oberta d'AI/ML com a servei basada en OpenShift i eines de codi obert relacionades com Tensorflow, JupyterHub, Spark i altres. És important tenir en compte que Red Hat fa servir aquest projecte per oferir els seus serveis d'IA/ML. A més, OpenShift s'integra amb solucions clau de programari i maquinari ML de NVIDIA, Seldon, Starbust i altres proveïdors, cosa que facilita la creació i l'execució dels vostres propis sistemes d'aprenentatge automàtic.

El projecte Open Data Hub és una plataforma oberta d'aprenentatge automàtic basada en Red Hat OpenShift

El projecte Open Data Hub se centra en les següents categories d'usuaris i casos d'ús:

  • Analista de dades que necessita una solució per implementar projectes ML, organitzat com un núvol amb funcions d'autoservei.
  • Analista de dades que necessita la màxima opció de les últimes eines i plataformes d'IA/ML de codi obert.
  • Analista de dades que necessita accés a fonts de dades quan s'entrena models.
  • Analista de dades que necessita accés a recursos informàtics (CPU, GPU, memòria).
  • Analista de dades que requereix la capacitat de col·laborar i compartir el treball amb els companys, rebre comentaris i fer millores en iteració ràpida.
  • Un analista de dades que vol interactuar amb desenvolupadors (i equips de devops) perquè els seus models de ML i els seus resultats de treball entrin en producció.
  • Enginyer de dades que necessita proporcionar a un analista de dades accés a una varietat de fonts de dades tot complint els requisits reglamentaris i de seguretat.
  • Administrador/operador de sistemes informàtics que requereix la capacitat de controlar sense esforç el cicle de vida (instal·lació, configuració, actualització) de components i tecnologies de codi obert. També necessitem eines de gestió i quotes adequades.

El projecte Open Data Hub reuneix una sèrie d'eines de codi obert per implementar un cicle complet d'operacions d'IA/ML. Jupyter Notebook s'utilitza aquí com a principal eina de treball per a l'anàlisi de dades. El conjunt d'eines és molt popular entre els científics de dades d'avui, i l'Open Data Hub els permet crear i gestionar fàcilment espais de treball de Jupyter Notebook mitjançant el JupyterHub integrat. A més de crear i importar quaderns Jupyter, el projecte Open Data Hub també conté una sèrie de quaderns ja fets en forma de biblioteca d'IA.

Aquesta biblioteca és una col·lecció de components i solucions d'aprenentatge automàtic de codi obert per a escenaris comuns que simplifiquen la creació de prototips ràpids. JupyterHub està integrat amb el model d'accés RBAC d'OpenShift, que us permet utilitzar els comptes d'OpenShift existents i implementar l'inici de sessió únic. A més, JupyterHub ofereix una interfície d'usuari fàcil d'utilitzar anomenada spawner, mitjançant la qual l'usuari pot configurar fàcilment la quantitat de recursos informàtics (nuclis de CPU, memòria, GPU) per al portàtil Jupyter seleccionat.

Després que l'analista de dades hagi creat i configurat l'ordinador portàtil, el programador de Kubernetes, que forma part d'OpenShift, s'encarrega de totes les altres preocupacions al respecte. Els usuaris només poden dur a terme els seus experiments, guardar i compartir els resultats del seu treball. A més, els usuaris avançats poden accedir directament a l'intèrpret d'ordres CLI d'OpenShift directament des dels quaderns de Jupyter per aprofitar les primitives de Kubernetes, com ara la funcionalitat Job o OpenShift, com ara Tekton o Knative. O per a això podeu utilitzar la pràctica GUI d'OpenShift, que s'anomena "consola web OpenShift".

El projecte Open Data Hub és una plataforma oberta d'aprenentatge automàtic basada en Red Hat OpenShift

El projecte Open Data Hub és una plataforma oberta d'aprenentatge automàtic basada en Red Hat OpenShift

Passant a la següent etapa, l'Open Data Hub permet gestionar canalitzacions de dades. Per a això, s'utilitza un objecte Ceph, que es proporciona com a emmagatzematge de dades d'objectes compatible amb S3. Apache Spark us permet transmetre dades des de fonts externes o emmagatzematge Ceph S3 integrat, i també us permet realitzar transformacions preliminars de dades. Apache Kafka proporciona una gestió avançada de canalitzacions de dades (on les dades es poden carregar diverses vegades, així com operacions de transformació, anàlisi i persistència de dades).

Per tant, l'analista de dades va accedir a les dades i va crear un model. Ara té ganes de compartir els resultats obtinguts amb companys o desenvolupadors d'aplicacions, i oferir-los el seu model sobre els principis d'un servei. Això requereix un servidor d'inferència i l'Open Data Hub té un servidor d'aquest tipus, s'anomena Seldon i us permet publicar el model com a servei RESTful.

En algun moment, hi ha diversos models d'aquest tipus al servidor Seldon i cal controlar com s'utilitzen. Per aconseguir-ho, Open Data Hub ofereix una col·lecció de mètriques rellevants i un motor d'informes basat en les eines de monitorització de codi obert àmpliament utilitzades Prometheus i Grafana. Com a resultat, rebem comentaris per supervisar l'ús de models d'IA, especialment en un entorn de producció.

El projecte Open Data Hub és una plataforma oberta d'aprenentatge automàtic basada en Red Hat OpenShift

D'aquesta manera, Open Data Hub proporciona un enfocament semblant al núvol durant tot el cicle de vida d'AI/ML, des de l'accés a les dades i la preparació fins a la formació i la producció de models.

Tot plegat

Ara sorgeix la pregunta de com organitzar tot això per a l'administrador d'OpenShift. I aquí és on entra en joc un operador especial de Kubernetes per a projectes Open Data Hub.

El projecte Open Data Hub és una plataforma oberta d'aprenentatge automàtic basada en Red Hat OpenShift

Aquest operador gestiona la instal·lació, configuració i cicle de vida del projecte Open Data Hub, inclòs el desplegament de les eines esmentades com ara JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus i Grafana. El projecte Open Data Hub es pot trobar a la consola web d'OpenShift, a la secció d'operadors de la comunitat. Així, l'administrador d'OpenShift pot especificar que els projectes d'OpenShift corresponents es classifiquen com a "Projecte Open Data Hub". Això es fa una vegada. Després d'això, l'analista de dades inicia sessió al seu espai de projecte a través de la consola web d'OpenShift i veu que l'operador Kubernetes corresponent està instal·lat i disponible per als seus projectes. A continuació, crea una instància de projecte Open Data Hub amb un sol clic i immediatament té accés a les eines descrites anteriorment. I tot això es pot configurar en mode d'alta disponibilitat i tolerància a errors.

El projecte Open Data Hub és una plataforma oberta d'aprenentatge automàtic basada en Red Hat OpenShift

Si voleu provar el projecte Open Data Hub per vosaltres mateixos, comenceu per instruccions d'instal·lació i tutorial introductori. Es poden trobar detalls tècnics de l'arquitectura Open Data Hub aquí, plans de desenvolupament de projectes - aquí. En el futur, tenim previst implementar una integració addicional amb Kubeflow, resoldre una sèrie de problemes amb la regulació i la seguretat de les dades, i també organitzar la integració amb sistemes basats en regles Drools i Optaplanner. Expressa la teva opinió i participa en el projecte Centre de dades obertes possible a la pàgina comunitat.

Per recapitular: els seriosos reptes d'escala impedeixen a les organitzacions adonar-se de tot el potencial de la intel·ligència artificial i l'aprenentatge automàtic. Red Hat OpenShift s'ha utilitzat durant molt de temps amb èxit per resoldre problemes similars a la indústria del programari. El projecte Open Data Hub, implementat dins de la comunitat de desenvolupament de codi obert, ofereix una arquitectura de referència per organitzar un cicle complet d'operacions d'IA/ML basat en el núvol híbrid OpenShift. Tenim un pla clar i reflexiu per al desenvolupament d'aquest projecte, i ens preocupem seriosament de crear una comunitat activa i fructífera al seu voltant per desenvolupar solucions d'IA obertes a la plataforma OpenShift.

Font: www.habr.com

Afegeix comentari