Implementación de un sistema de aprendizaje automático para síntesis de imágenes basado en descripción de texto.

Se ha publicado una implementación abierta del sistema de aprendizaje automático DALL-E 2, propuesto por OpenAI, que permite sintetizar imágenes y pinturas realistas basadas en una descripción de texto en lenguaje natural, así como aplicar comandos en lenguaje natural para editar imágenes ( por ejemplo, agregar, eliminar o mover objetos en la imagen). Los modelos DALL-E 2 originales de OpenAI no están publicados, pero hay disponible un artículo que detalla el método. Basándose en la descripción existente, investigadores independientes han preparado una implementación alternativa escrita en Python, utilizando el marco Pytorch y distribuida bajo la licencia MIT.

Implementación de un sistema de aprendizaje automático para síntesis de imágenes basado en descripción de texto.Implementación de un sistema de aprendizaje automático para síntesis de imágenes basado en descripción de texto.

En comparación con la implementación publicada anteriormente de la primera generación de DALL-E, la nueva versión proporciona una coincidencia más precisa de la imagen con la descripción, permite un mayor fotorrealismo y permite generar imágenes en resoluciones más altas. El sistema requiere grandes recursos para entrenar el modelo; por ejemplo, entrenar la versión original de DALL-E 2 requiere entre 100 y 200 mil horas de computación en la GPU, es decir. alrededor de 2 a 4 semanas de cálculos con 256 GPU NVIDIA Tesla V100.

Implementación de un sistema de aprendizaje automático para síntesis de imágenes basado en descripción de texto.

El mismo autor también comenzó a desarrollar una versión ampliada, DALLE2 Video, destinada a sintetizar vídeo a partir de una descripción de texto. Por otra parte, cabe destacar el proyecto ru-dalle desarrollado por Sberbank, con una implementación abierta del DALL-E de primera generación, adaptado para reconocer descripciones en ruso.

Fuente: opennet.ru

Añadir un comentario