Implémentation d'un système d'apprentissage automatique pour la synthèse d'images basé sur la description textuelle

Une implémentation ouverte du système d'apprentissage automatique DALL-E 2, proposé par OpenAI, a été publiée et permet de synthétiser des images et des peintures réalistes basées sur une description textuelle en langage naturel, ainsi que d'appliquer des commandes en langage naturel pour éditer des images ( par exemple, ajouter, supprimer ou déplacer des objets dans l'image). Les modèles DALL-E 2 originaux d'OpenAI ne sont pas publiés, mais un article détaillant la méthode est disponible. Sur la base de la description existante, des chercheurs indépendants ont préparé une implémentation alternative écrite en Python, utilisant le framework Pytorch et distribuée sous licence MIT.

Implémentation d'un système d'apprentissage automatique pour la synthèse d'images basé sur la description textuelleImplémentation d'un système d'apprentissage automatique pour la synthèse d'images basé sur la description textuelle

Par rapport à la mise en œuvre précédemment publiée de la première génération de DALL-E, la nouvelle version offre une correspondance plus précise de l'image à la description, permet un plus grand photoréalisme et permet de générer des images dans des résolutions plus élevées. Le système nécessite d'importantes ressources pour entraîner le modèle ; par exemple, l'entraînement de la version originale de DALL-E 2 nécessite 100 à 200 2 heures de calcul sur le GPU, c'est-à-dire environ 4 à 256 semaines de calculs avec 100 GPU NVIDIA Tesla VXNUMX.

Implémentation d'un système d'apprentissage automatique pour la synthèse d'images basé sur la description textuelle

Le même auteur a également commencé à développer une version étendue - DALLE2 Video, destinée à synthétiser une vidéo à partir d'une description textuelle. Par ailleurs, on peut noter le projet ru-dalle développé par la Sberbank, avec une implémentation ouverte du DALL-E de première génération, adapté pour reconnaître les descriptions en russe.

Source: opennet.ru

Ajouter un commentaire