El proyecto Open Data Hub es una plataforma abierta de aprendizaje automático basada en Red Hat OpenShift

El futuro ha llegado y las tecnologías de inteligencia artificial y aprendizaje automático ya están siendo utilizadas con éxito en sus tiendas favoritas, empresas de transporte e incluso granjas de pavos.

El proyecto Open Data Hub es una plataforma abierta de aprendizaje automático basada en Red Hat OpenShift

Y si algo existe, entonces ya hay algo al respecto en Internet... ¡un proyecto abierto! Vea cómo Open Data Hub le ayuda a escalar nuevas tecnologías y evitar desafíos de implementación.

Con todas las ventajas de la inteligencia artificial (IA) y el aprendizaje automático (ML), las organizaciones suelen tener dificultades para escalar estas tecnologías. Los principales problemas en este caso suelen ser los siguientes:

  • Intercambio de información y cooperación. – es casi imposible intercambiar información sin esfuerzo y colaborar en iteraciones rápidas.
  • Acceso a los datos – para cada tarea es necesario crearla de nuevo y manualmente, lo que lleva mucho tiempo.
  • Acceso bajo demanda – no hay forma de obtener acceso bajo demanda a las herramientas y plataformas de aprendizaje automático, así como a la infraestructura informática.
  • Producción – los modelos permanecen en la fase de prototipo y no se utilizan para uso industrial.
  • Realice un seguimiento y explique los resultados de la IA – la reproducibilidad, el seguimiento y la explicación de los resultados de IA/ML son difíciles.

Si no se abordan, estos problemas impactan negativamente la velocidad, la eficiencia y la productividad de los valiosos científicos de datos. Esto genera frustración, decepción en su trabajo y, como resultado, las expectativas comerciales con respecto a AI/ML se desperdician.

La responsabilidad de resolver estos problemas recae en los especialistas en TI, quienes deben proporcionar a los analistas de datos algo así como la nube. Más detalladamente, necesitamos una plataforma que brinde libertad de elección y tenga un acceso cómodo y fácil. Al mismo tiempo, es rápido, fácilmente reconfigurable, escalable bajo demanda y resistente a fallas. Construir una plataforma de este tipo con tecnologías de código abierto ayuda a evitar la dependencia de los proveedores y a mantener una ventaja estratégica a largo plazo en términos de control de costos.

Hace unos años, algo similar estaba sucediendo en el desarrollo de aplicaciones y propició el surgimiento de microservicios, nubes híbridas, automatización de TI y procesos ágiles. Para hacer frente a todo esto, los profesionales de TI han recurrido a contenedores, Kubernetes y nubes híbridas abiertas.

Esta experiencia se está aplicando ahora para responder a los desafíos de Al. Es por eso que los profesionales de TI están creando plataformas basadas en contenedores, que permiten la creación de servicios de IA/ML dentro de procesos ágiles, aceleran la innovación y están diseñadas con miras a la nube híbrida.

El proyecto Open Data Hub es una plataforma abierta de aprendizaje automático basada en Red Hat OpenShift

Comenzaremos a construir una plataforma de este tipo con Red Hat OpenShift, nuestra plataforma Kubernetes en contenedores para la nube híbrida, que tiene un ecosistema de rápido crecimiento de soluciones de aprendizaje automático de software y hardware (NVIDIA, H2O.ai, Starburst, PerceptiLabs, etc.). Algunos de los clientes de Red Hat, como BMW Group, ExxonMobil y otros, ya han implementado cadenas de herramientas de ML en contenedores y procesos DevOps sobre la plataforma y su ecosistema para llevar sus arquitecturas de ML a producción y acelerar el trabajo de los analistas de datos.

Otra razón por la que lanzamos el proyecto Open Data Hub es demostrar un ejemplo de una arquitectura basada en varios proyectos de software de código abierto y mostrar cómo implementar todo el ciclo de vida de una solución de aprendizaje automático basada en la plataforma OpenShift.

Proyecto Centro de Datos Abiertos

Este es un proyecto de código abierto que se desarrolla dentro de la comunidad de desarrollo correspondiente e implementa un ciclo completo de operaciones, desde cargar y transformar datos iniciales hasta generar, entrenar y mantener un modelo, al resolver problemas de AI/ML usando contenedores y Kubernetes en OpenShift. plataforma. Este proyecto puede considerarse una implementación de referencia, un ejemplo de cómo construir una solución abierta de IA/ML como servicio basada en OpenShift y herramientas de código abierto relacionadas, como Tensorflow, JupyterHub, Spark y otras. Es importante tener en cuenta que el propio Red Hat utiliza este proyecto para proporcionar sus servicios de IA/ML. Además, OpenShift se integra con soluciones clave de aprendizaje automático de software y hardware de NVIDIA, Seldon, Starbust y otros proveedores, lo que facilita la creación y ejecución de sus propios sistemas de aprendizaje automático.

El proyecto Open Data Hub es una plataforma abierta de aprendizaje automático basada en Red Hat OpenShift

El proyecto Open Data Hub se centra en las siguientes categorías de usuarios y casos de uso:

  • Analista de datos que necesita una solución para implementar proyectos de ML, organizado como una nube con funciones de autoservicio.
  • Analista de datos que necesita la máxima elección entre las últimas herramientas y plataformas de IA/ML de código abierto.
  • Analista de datos que necesita acceso a fuentes de datos al entrenar modelos.
  • Analista de datos que necesita acceso a recursos informáticos (CPU, GPU, memoria).
  • Analista de datos que requiere la capacidad de colaborar y compartir trabajo con colegas, recibir comentarios y realizar mejoras en iteraciones rápidas.
  • Un analista de datos que quiere interactuar con desarrolladores (y equipos de desarrollo) para que sus modelos de ML y los resultados de su trabajo entren en producción.
  • Ingeniero de datos que necesita proporcionar a un analista de datos acceso a una variedad de fuentes de datos mientras cumple con los requisitos normativos y de seguridad.
  • Administrador/operador de sistemas de TI que requiere la capacidad de controlar sin esfuerzo el ciclo de vida (instalación, configuración, actualización) de componentes y tecnologías de código abierto. También necesitamos herramientas adecuadas de gestión y cuotas.

El proyecto Open Data Hub reúne una gama de herramientas de código abierto para implementar un ciclo completo de operaciones de IA/ML. Jupyter Notebook se utiliza aquí como principal herramienta de trabajo para el análisis de datos. El conjunto de herramientas es muy popular entre los científicos de datos de hoy en día, y Open Data Hub les permite crear y administrar fácilmente espacios de trabajo de Jupyter Notebook utilizando el JupyterHub integrado. Además de crear e importar cuadernos de Jupyter, el proyecto Open Data Hub también contiene varios cuadernos listos para usar en forma de biblioteca de IA.

Esta biblioteca es una colección de componentes y soluciones de aprendizaje automático de código abierto para escenarios comunes que simplifican la creación rápida de prototipos. JupyterHub está integrado con el modelo de acceso RBAC de OpenShift, que le permite utilizar cuentas OpenShift existentes e implementar el inicio de sesión único. Además, JupyterHub ofrece una interfaz de usuario fácil de usar llamada spawner, a través de la cual el usuario puede configurar fácilmente la cantidad de recursos informáticos (núcleos de CPU, memoria, GPU) para el Jupyter Notebook seleccionado.

Después de que el analista de datos crea y configura la computadora portátil, el programador de Kubernetes, que forma parte de OpenShift, se ocupa de todas las demás inquietudes al respecto. Los usuarios sólo pueden realizar sus experimentos, guardar y compartir los resultados de su trabajo. Además, los usuarios avanzados pueden acceder directamente al shell CLI de OpenShift directamente desde los portátiles Jupyter para aprovechar las primitivas de Kubernetes, como Job o la funcionalidad OpenShift, como Tekton o Knative. O para ello puede utilizar la cómoda GUI de OpenShift, que se denomina “consola web de OpenShift”.

El proyecto Open Data Hub es una plataforma abierta de aprendizaje automático basada en Red Hat OpenShift

El proyecto Open Data Hub es una plataforma abierta de aprendizaje automático basada en Red Hat OpenShift

Pasando a la siguiente etapa, Open Data Hub permite gestionar los canales de datos. Para ello se utiliza un objeto Ceph, que se proporciona como almacenamiento de datos de objetos compatible con S3. Apache Spark le permite transmitir datos desde fuentes externas o almacenamiento Ceph S3 integrado y también le permite realizar transformaciones preliminares de datos. Apache Kafka proporciona gestión avanzada de canalizaciones de datos (donde los datos se pueden cargar varias veces, así como operaciones de persistencia, análisis y transformación de datos).

Entonces, el analista de datos accedió a los datos y construyó un modelo. Ahora desea compartir los resultados obtenidos con colegas o desarrolladores de aplicaciones y ofrecerles su modelo sobre los principios de un servicio. Esto requiere un servidor de inferencia, y Open Data Hub tiene dicho servidor, se llama Seldon y le permite publicar el modelo como un servicio RESTful.

En algún momento, existen varios modelos de este tipo en el servidor Seldon y es necesario controlar cómo se utilizan. Para lograr esto, Open Data Hub ofrece una colección de métricas relevantes y un motor de informes basado en las herramientas de monitoreo de código abierto ampliamente utilizadas Prometheus y Grafana. Como resultado, recibimos comentarios para monitorear el uso de modelos de IA, particularmente en un entorno de producción.

El proyecto Open Data Hub es una plataforma abierta de aprendizaje automático basada en Red Hat OpenShift

De esta manera, Open Data Hub proporciona un enfoque similar a la nube durante todo el ciclo de vida de AI/ML, desde el acceso y la preparación de datos hasta el entrenamiento y la producción de modelos.

Poniendo todo junto

Ahora surge la pregunta de cómo organizar todo esto para el administrador de OpenShift. Y aquí es donde entra en juego un operador de Kubernetes especial para proyectos Open Data Hub.

El proyecto Open Data Hub es una plataforma abierta de aprendizaje automático basada en Red Hat OpenShift

Este operador gestiona la instalación, configuración y ciclo de vida del proyecto Open Data Hub, incluido el despliegue de las herramientas antes mencionadas como JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus y Grafana. El proyecto Open Data Hub se puede encontrar en la consola web de OpenShift, en la sección de operadores de la comunidad. Por lo tanto, el administrador de OpenShift puede especificar que los proyectos de OpenShift correspondientes se clasifiquen como "proyecto Open Data Hub". Esto se hace una vez. Después de esto, el analista de datos inicia sesión en el espacio de su proyecto a través de la consola web de OpenShift y ve que el operador de Kubernetes correspondiente está instalado y disponible para sus proyectos. Luego crea una instancia de proyecto Open Data Hub con un clic e inmediatamente tiene acceso a las herramientas descritas anteriormente. Y todo esto se puede configurar en modo de alta disponibilidad y tolerancia a fallos.

El proyecto Open Data Hub es una plataforma abierta de aprendizaje automático basada en Red Hat OpenShift

Si desea probar el proyecto Open Data Hub usted mismo, comience con instrucciones de instalación y tutorial introductorio. Se pueden encontrar detalles técnicos de la arquitectura Open Data Hub aquí, planes de desarrollo de proyectos – aquí. En el futuro, planeamos implementar una integración adicional con Kubeflow, resolver una serie de problemas con la regulación y seguridad de los datos y también organizar la integración con los sistemas basados ​​​​en reglas Drools y Optaplanner. Expresa tu opinión y conviértete en partícipe del proyecto. Centro de datos abierto posible en la pagina comunidades.

En resumen: graves desafíos de escalamiento impiden que las organizaciones aprovechen todo el potencial de la inteligencia artificial y el aprendizaje automático. Red Hat OpenShift se ha utilizado con éxito durante mucho tiempo para resolver problemas similares en la industria del software. El proyecto Open Data Hub, implementado dentro de la comunidad de desarrollo de código abierto, ofrece una arquitectura de referencia para organizar un ciclo completo de operaciones de IA/ML basado en la nube híbrida OpenShift. Tenemos un plan claro y reflexivo para el desarrollo de este proyecto, y nos tomamos en serio la creación de una comunidad activa y fructífera en torno a él para desarrollar soluciones abiertas de IA en la plataforma OpenShift.

Fuente: habr.com

Añadir un comentario