O proxecto Open Data Hub é unha plataforma aberta de aprendizaxe automática baseada en Red Hat OpenShift

O futuro chegou e as túas tendas favoritas, empresas de transporte e mesmo granxas de pavos xa están a utilizar con éxito as tecnoloxías de intelixencia artificial e de aprendizaxe automática.

O proxecto Open Data Hub é unha plataforma aberta de aprendizaxe automática baseada en Red Hat OpenShift

E se algo existe, xa hai algo sobre iso en Internet... un proxecto aberto! Vexa como Open Data Hub che axuda a escalar as novas tecnoloxías e evitar retos de implementación.

Con todas as vantaxes da intelixencia artificial (IA) e da aprendizaxe automática (ML), as organizacións adoitan ter dificultades para escalar estas tecnoloxías. Os principais problemas neste caso adoitan ser os seguintes:

  • Intercambio de información e cooperación – é case imposible intercambiar información sen esforzo e colaborar en iteracións rápidas.
  • Acceso a datos – para cada tarefa é necesario construír de novo e manualmente, o que leva moito tempo.
  • Acceso baixo demanda – non hai xeito de acceder baixo demanda ás ferramentas e plataformas de aprendizaxe automática, así como á infraestrutura informática.
  • Produción – Os modelos permanecen na fase de prototipo e non se levan ao uso industrial.
  • Rastrexa e explica os resultados da IA – A reproducibilidade, o seguimento e a explicación dos resultados de IA/ML son difíciles.

Se non se abordan, estes problemas afectan negativamente a velocidade, a eficiencia e a produtividade dos valiosos científicos de datos. Isto leva á súa frustración, a decepción no seu traballo e, como resultado, as expectativas empresariais con respecto á IA/ML vanse desperdiciando.

A responsabilidade de resolver estes problemas recae nos especialistas en TI, que deben proporcionar aos analistas de datos algo así como a nube. Máis en detalle, necesitamos unha plataforma que ofreza liberdade de elección e teña un acceso cómodo e sinxelo. Ao mesmo tempo, é rápido, facilmente reconfigurable, escalable baixo demanda e resistente aos fallos. Construír unha plataforma deste tipo en tecnoloxías de código aberto axuda a evitar o bloqueo de provedores e a manter unha vantaxe estratéxica a longo prazo en termos de control de custos.

Hai uns anos, algo semellante estaba a suceder no desenvolvemento de aplicacións e provocou a aparición de microservizos, nubes híbridas, automatización informática e procesos áxiles. Para facer fronte a todo isto, os profesionais das TI recorreron aos contedores, Kubernetes e nubes híbridas abertas.

Esta experiencia aplícase agora para responder aos retos de Al. É por iso que os profesionais de TI están a construír plataformas baseadas en contedores, que permiten a creación de servizos de intelixencia artificial/ML dentro de procesos áxiles, aceleran a innovación e constrúense coa nube híbrida.

O proxecto Open Data Hub é unha plataforma aberta de aprendizaxe automática baseada en Red Hat OpenShift

Comezaremos a construír unha plataforma deste tipo con Red Hat OpenShift, a nosa plataforma Kubernetes en contedores para a nube híbrida, que conta cun ecosistema en rápido crecemento de solucións de ML de software e hardware (NVIDIA, H2O.ai, Starburst, PerceptiLabs, etc.). Algúns dos clientes de Red Hat, como BMW Group, ExxonMobil e outros, xa implantaron cadeas de ferramentas de ML en contedores e procesos DevOps enriba da plataforma e do seu ecosistema para levar as súas arquitecturas ML á produción e acelerar o traballo dos analistas de datos.

Outra razón pola que lanzamos o proxecto Open Data Hub é para demostrar un exemplo dunha arquitectura baseada en varios proxectos de software de código aberto e mostrar como implementar todo o ciclo de vida dunha solución de ML baseada na plataforma OpenShift.

Proxecto Open Data Hub

Este é un proxecto de código aberto que se desenvolve dentro da comunidade de desenvolvemento correspondente e que implementa un ciclo completo de operacións -desde a carga e transformación de datos iniciais ata a xeración, adestramento e mantemento dun modelo- á hora de resolver problemas de IA/ML utilizando contedores e Kubernetes no OpenShift. plataforma. Este proxecto pódese considerar unha implementación de referencia, un exemplo de como construír unha solución aberta de AI/ML-as-a-service baseada en OpenShift e ferramentas de código aberto relacionadas como Tensorflow, JupyterHub, Spark e outras. É importante ter en conta que a propia Red Hat usa este proxecto para ofrecer os seus servizos de IA/ML. Ademais, OpenShift intégrase con solucións ML de hardware e software clave de NVIDIA, Seldon, Starbust e outros provedores, o que facilita a creación e a execución dos seus propios sistemas de aprendizaxe automática.

O proxecto Open Data Hub é unha plataforma aberta de aprendizaxe automática baseada en Red Hat OpenShift

O proxecto Open Data Hub céntrase nas seguintes categorías de usuarios e casos de uso:

  • Analista de datos que precisa dunha solución para a implementación de proxectos de ML, organizados como unha nube con funcións de autoservizo.
  • Analista de datos que necesita a máxima elección entre as últimas ferramentas e plataformas de IA/ML de código aberto.
  • Analista de datos que necesita acceso a fontes de datos cando adestra modelos.
  • Analista de datos que precisa acceso a recursos informáticos (CPU, GPU, memoria).
  • Analista de datos que require a capacidade de colaborar e compartir o traballo cos compañeiros, recibir comentarios e facer melloras nunha iteración rápida.
  • Un analista de datos que quere interactuar con desenvolvedores (e equipos de devops) para que os seus modelos de ML e os seus resultados de traballo entren en produción.
  • Enxeñeiro de datos que precisa proporcionar a un analista de datos acceso a unha variedade de fontes de datos ao tempo que cumpre cos requisitos regulamentarios e de seguridade.
  • Administrador/operador de sistemas de TI que require a capacidade de controlar sen esforzo o ciclo de vida (instalación, configuración, actualización) de compoñentes e tecnoloxías de código aberto. Tamén necesitamos ferramentas de xestión e cotas adecuadas.

O proxecto Open Data Hub reúne unha serie de ferramentas de código aberto para implementar un ciclo completo de operacións de IA/ML. Jupyter Notebook úsase aquí como a principal ferramenta de traballo para a análise de datos. O conxunto de ferramentas é moi popular entre os científicos de datos hoxe en día, e Open Data Hub permítelles crear e xestionar facilmente espazos de traballo de Jupyter Notebook usando o JupyterHub integrado. Ademais de crear e importar cadernos Jupyter, o proxecto Open Data Hub tamén contén unha serie de cadernos preparados en forma de biblioteca de intelixencia artificial.

Esta biblioteca é unha colección de compoñentes e solucións de aprendizaxe automática de código aberto para escenarios comúns que simplifican a creación rápida de prototipos. JupyterHub está integrado co modelo de acceso RBAC de OpenShift, que che permite utilizar contas OpenShift existentes e implementar o inicio de sesión único. Ademais, JupyterHub ofrece unha interface de usuario amigable chamada spawner, a través da cal o usuario pode configurar facilmente a cantidade de recursos informáticos (núcleos de CPU, memoria, GPU) para o Jupyter Notebook seleccionado.

Despois de que o analista de datos cree e configure o portátil, o programador de Kubernetes, que forma parte de OpenShift, encárgase de todas as outras preocupacións sobre el. Os usuarios só poden realizar os seus experimentos, gardar e compartir os resultados do seu traballo. Ademais, os usuarios avanzados poden acceder directamente ao intérprete de comandos OpenShift CLI directamente desde os notebooks de Jupyter para aproveitar as primitivas de Kubernetes como as funcións Job ou OpenShift como Tekton ou Knative. Ou para iso pode usar a conveniente GUI de OpenShift, que se chama "consola web OpenShift".

O proxecto Open Data Hub é unha plataforma aberta de aprendizaxe automática baseada en Red Hat OpenShift

O proxecto Open Data Hub é unha plataforma aberta de aprendizaxe automática baseada en Red Hat OpenShift

Pasando á seguinte fase, Open Data Hub fai posible xestionar canalizacións de datos. Para iso, utilízase un obxecto Ceph, que se proporciona como almacenamento de datos de obxectos compatible con S3. Apache Spark permítelle transmitir datos desde fontes externas ou almacenamento Ceph S3 integrado, e tamén che permite realizar transformacións preliminares de datos. Apache Kafka ofrece xestión avanzada de canalizacións de datos (onde os datos poden cargarse varias veces, así como operacións de transformación, análise e persistencia de datos).

Entón, o analista de datos accedeu aos datos e construíu un modelo. Agora ten o desexo de compartir os resultados obtidos con compañeiros ou desenvolvedores de aplicacións, e proporcionarlles o seu modelo sobre os principios dun servizo. Isto require un servidor de inferencia, e Open Data Hub ten un servidor deste tipo, chámase Seldon e permítelle publicar o modelo como un servizo RESTful.

Nalgún momento, hai varios modelos deste tipo no servidor Seldon e hai que supervisar como se usan. Para conseguilo, Open Data Hub ofrece unha colección de métricas relevantes e un motor de informes baseado nas ferramentas de vixilancia de código aberto moi utilizadas Prometheus e Grafana. Como resultado, recibimos comentarios para supervisar o uso de modelos de IA, especialmente nun ambiente de produción.

O proxecto Open Data Hub é unha plataforma aberta de aprendizaxe automática baseada en Red Hat OpenShift

Deste xeito, Open Data Hub ofrece un enfoque similar á nube durante todo o ciclo de vida de AI/ML, desde o acceso aos datos e a preparación ata a formación e produción de modelos.

Poñer todo isto en conxunto

Agora xorde a pregunta de como organizar todo isto para o administrador de OpenShift. E aquí é onde entra en xogo un operador especial de Kubernetes para proxectos de Open Data Hub.

O proxecto Open Data Hub é unha plataforma aberta de aprendizaxe automática baseada en Red Hat OpenShift

Este operador xestiona a instalación, configuración e ciclo de vida do proxecto Open Data Hub, incluíndo o despregamento das mencionadas ferramentas como JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus e Grafana. O proxecto Open Data Hub pódese atopar na consola web de OpenShift, na sección de operadores da comunidade. Así, o administrador de OpenShift pode especificar que os correspondentes proxectos de OpenShift se clasifiquen como "proxecto Open Data Hub". Isto faise unha vez. Despois diso, o analista de datos inicia sesión no seu espazo de proxecto a través da consola web OpenShift e ve que o operador Kubernetes correspondente está instalado e dispoñible para os seus proxectos. A continuación, crea unha instancia de proxecto Open Data Hub cun só clic e inmediatamente ten acceso ás ferramentas descritas anteriormente. E todo isto pódese configurar en modo de alta dispoñibilidade e tolerancia a fallos.

O proxecto Open Data Hub é unha plataforma aberta de aprendizaxe automática baseada en Red Hat OpenShift

Se queres probar o proxecto Open Data Hub por ti mesmo, comeza instrucións de instalación e tutorial introductorio. Pódense atopar detalles técnicos da arquitectura Open Data Hub aquí, plans de desenvolvemento de proxectos - aquí. No futuro, pensamos implementar unha integración adicional con Kubeflow, resolver unha serie de problemas coa regulación e a seguridade de datos e tamén organizar a integración con sistemas baseados en regras Drools e Optaplanner. Expresa a túa opinión e fai parte do proxecto Centro de datos abertos posible na páxina comunidade.

Para recapitular: serios desafíos de escalado impiden ás organizacións realizar todo o potencial da intelixencia artificial e da aprendizaxe automática. Red Hat OpenShift utilizouse durante moito tempo con éxito para resolver problemas similares na industria do software. O proxecto Open Data Hub, implementado dentro da comunidade de desenvolvemento de código aberto, ofrece unha arquitectura de referencia para organizar un ciclo completo de operacións AI/ML baseadas na nube híbrida OpenShift. Temos un plan claro e reflexivo para o desenvolvemento deste proxecto, e tomamos en serio crear unha comunidade activa e fructífera ao seu redor para desenvolver solucións de IA abertas na plataforma OpenShift.

Fonte: www.habr.com

Engadir un comentario