Implantación dun sistema de aprendizaxe automática para a síntese de imaxes baseado na descrición de textos

Publicouse unha implementación aberta do sistema de aprendizaxe automática DALL-E 2, proposta por OpenAI, que permite sintetizar imaxes e pinturas realistas a partir dunha descrición de texto en linguaxe natural, así como aplicar comandos en linguaxe natural para editar imaxes ( por exemplo, engadir, eliminar ou mover obxectos na imaxe). Os modelos DALL-E 2 orixinais de OpenAI non están publicados, pero hai dispoñible un documento que detalla o método. Baseándose na descrición existente, investigadores independentes prepararon unha implementación alternativa escrita en Python, utilizando o framework Pytorch e distribuída baixo a licenza MIT.

Implantación dun sistema de aprendizaxe automática para a síntese de imaxes baseado na descrición de textosImplantación dun sistema de aprendizaxe automática para a síntese de imaxes baseado na descrición de textos

En comparación coa implementación publicada anteriormente da primeira xeración de DALL-E, a nova versión proporciona unha coincidencia máis precisa da imaxe coa descrición, permite un maior fotorrealismo e permite xerar imaxes con resolucións máis altas. O sistema require grandes recursos para adestrar o modelo; por exemplo, adestrar a versión orixinal de DALL-E 2 require 100-200 mil horas de computación na GPU, é dicir. preto de 2-4 semanas de cálculos con 256 GPU NVIDIA Tesla V100.

Implantación dun sistema de aprendizaxe automática para a síntese de imaxes baseado na descrición de textos

O mesmo autor tamén comezou a desenvolver unha versión ampliada - DALLE2 Video, destinada a sintetizar vídeo a partir dunha descrición de texto. Por separado, podemos sinalar o proxecto ru-dalle desenvolvido por Sberbank, cunha implementación aberta da primeira xeración DALL-E, adaptada para recoñecer descricións en ruso.

Fonte: opennet.ru

Engadir un comentario