Implementació d'un sistema d'aprenentatge automàtic per a la síntesi d'imatges basat en la descripció del text

S'ha publicat una implementació oberta del sistema d'aprenentatge automàtic DALL-E 2, proposat per OpenAI, que permet sintetitzar imatges i pintures realistes a partir d'una descripció de text en llenguatge natural, així com aplicar ordres en llenguatge natural per editar imatges ( per exemple, afegir, suprimir o moure objectes a la imatge). Els models DALL-E 2 originals d'OpenAI no es publiquen, però hi ha disponible un document que detalla el mètode. A partir de la descripció existent, investigadors independents han preparat una implementació alternativa escrita en Python, utilitzant el marc Pytorch i distribuïda sota la llicència MIT.

Implementació d'un sistema d'aprenentatge automàtic per a la síntesi d'imatges basat en la descripció del textImplementació d'un sistema d'aprenentatge automàtic per a la síntesi d'imatges basat en la descripció del text

En comparació amb la implementació publicada anteriorment de la primera generació de DALL-E, la nova versió proporciona una coincidència més precisa de la imatge amb la descripció, permet un major fotorealisme i permet generar imatges amb resolucions més altes. El sistema requereix grans recursos per entrenar el model; per exemple, entrenar la versió original de DALL-E 2 requereix entre 100 i 200 mil hores d'informàtica a la GPU, és a dir. unes 2-4 setmanes de càlculs amb 256 GPU NVIDIA Tesla V100.

Implementació d'un sistema d'aprenentatge automàtic per a la síntesi d'imatges basat en la descripció del text

El mateix autor també va començar a desenvolupar una versió ampliada: DALLE2 Video, destinada a sintetitzar vídeo a partir d'una descripció de text. Per separat, podem destacar el projecte ru-dalle desenvolupat per Sberbank, amb una implementació oberta de la primera generació DALL-E, adaptada per reconèixer descripcions en rus.

Font: opennet.ru

Afegeix comentari