Implementação de um sistema de aprendizado de máquina para síntese de imagens baseado em descrição de texto

Foi publicada uma implementação aberta do sistema de aprendizado de máquina DALL-E 2, proposto pela OpenAI, que permite sintetizar imagens e pinturas realistas com base em uma descrição de texto em linguagem natural, bem como aplicar comandos em linguagem natural para editar imagens ( por exemplo, adicionar, excluir ou mover objetos na imagem). Os modelos DALL-E 2 originais da OpenAI não foram publicados, mas um artigo detalhando o método está disponível. Com base na descrição existente, pesquisadores independentes prepararam uma implementação alternativa escrita em Python, usando a estrutura Pytorch e distribuída sob a licença do MIT.

Implementação de um sistema de aprendizado de máquina para síntese de imagens baseado em descrição de textoImplementação de um sistema de aprendizado de máquina para síntese de imagens baseado em descrição de texto

Em comparação com a implementação publicada anteriormente da primeira geração do DALL-E, a nova versão proporciona uma correspondência mais precisa da imagem com a descrição, permite maior fotorrealismo e possibilita a geração de imagens em resoluções mais altas. O sistema requer grandes recursos para treinar o modelo, por exemplo, treinar a versão original do DALL-E 2 requer 100-200 mil horas de computação na GPU, ou seja, cerca de 2 a 4 semanas de cálculos com 256 GPUs NVIDIA Tesla V100.

Implementação de um sistema de aprendizado de máquina para síntese de imagens baseado em descrição de texto

O mesmo autor também iniciou o desenvolvimento de uma versão estendida - DALLE2 Video, destinada a sintetizar vídeo a partir de uma descrição textual. Separadamente, podemos destacar o projeto ru-dalle desenvolvido pelo Sberbank, com implementação aberta da primeira geração DALL-E, adaptada para reconhecimento de descrições em russo.

Fonte: opennet.ru

Adicionar um comentário