S'ha publicat una implementació oberta del sistema d'aprenentatge automàtic DALL-E 2, proposat per OpenAI, que permet sintetitzar imatges i pintures realistes a partir d'una descripció de text en llenguatge natural, així com aplicar ordres en llenguatge natural per editar imatges ( per exemple, afegir, suprimir o moure objectes a la imatge). Els models DALL-E 2 originals d'OpenAI no es publiquen, però hi ha disponible un document que detalla el mètode. A partir de la descripció existent, investigadors independents han preparat una implementació alternativa escrita en Python, utilitzant el marc Pytorch i distribuïda sota la llicència MIT.
En comparació amb la implementació publicada anteriorment de la primera generació de DALL-E, la nova versió proporciona una coincidència més precisa de la imatge amb la descripció, permet un major fotorealisme i permet generar imatges amb resolucions més altes. El sistema requereix grans recursos per entrenar el model; per exemple, entrenar la versió original de DALL-E 2 requereix entre 100 i 200 mil hores d'informàtica a la GPU, és a dir. unes 2-4 setmanes de càlculs amb 256 GPU NVIDIA Tesla V100.
El mateix autor també va començar a desenvolupar una versió ampliada: DALLE2 Video, destinada a sintetitzar vídeo a partir d'una descripció de text. Per separat, podem destacar el projecte ru-dalle desenvolupat per Sberbank, amb una implementació oberta de la primera generació DALL-E, adaptada per reconèixer descripcions en rus.
Font: opennet.ru