Foi publicada uma implementação aberta do sistema de aprendizado de máquina DALL-E 2, proposto pela OpenAI, que permite sintetizar imagens e pinturas realistas com base em uma descrição de texto em linguagem natural, bem como aplicar comandos em linguagem natural para editar imagens ( por exemplo, adicionar, excluir ou mover objetos na imagem). Os modelos DALL-E 2 originais da OpenAI não foram publicados, mas um artigo detalhando o método está disponível. Com base na descrição existente, pesquisadores independentes prepararam uma implementação alternativa escrita em Python, usando a estrutura Pytorch e distribuída sob a licença do MIT.
Em comparação com a implementação publicada anteriormente da primeira geração do DALL-E, a nova versão proporciona uma correspondência mais precisa da imagem com a descrição, permite maior fotorrealismo e possibilita a geração de imagens em resoluções mais altas. O sistema requer grandes recursos para treinar o modelo, por exemplo, treinar a versão original do DALL-E 2 requer 100-200 mil horas de computação na GPU, ou seja, cerca de 2 a 4 semanas de cálculos com 256 GPUs NVIDIA Tesla V100.
O mesmo autor também iniciou o desenvolvimento de uma versão estendida - DALLE2 Video, destinada a sintetizar vídeo a partir de uma descrição textual. Separadamente, podemos destacar o projeto ru-dalle desenvolvido pelo Sberbank, com implementação aberta da primeira geração DALL-E, adaptada para reconhecimento de descrições em russo.
Fonte: opennet.ru