Systèmes d'apprentissage automatique pour la synthèse d'images et la réduction du bruit dans les photos de nuit

Stability AI a publié des modèles prêts à l'emploi pour le système d'apprentissage automatique Stable Diffusion, capable de synthétiser et de modifier des images sur la base d'une description textuelle en langage naturel. Les modèles sont sous licence Creative ML OpenRAIL-M permissive pour un usage commercial. Pour entraîner le système, un cluster de 4000 100 GPU NVIDIA A1 Ezra-5 et une collection LAION-5.85B, comprenant XNUMX milliards d'images avec des descriptions textuelles, ont été utilisés. Auparavant, le code des outils permettant de former un réseau de neurones et de générer des images était open source sous licence MIT.

La disponibilité d'un modèle prêt à l'emploi et une configuration système assez modeste qui permet de démarrer des expériences sur un PC avec des GPU standards ont conduit à l'émergence d'un certain nombre de projets connexes :

  • inversion textuelle (code) - un module complémentaire qui vous permet de synthétiser des images avec un caractère, un objet ou un style donné. Dans la diffusion stable originale, les objets dans les images synthétisées sont aléatoires et incontrôlables. Le module complémentaire proposé vous permet d'ajouter vos propres objets visuels, de les lier à des mots-clés et de les utiliser en synthèse.

    Par exemple, dans Stable Diffusion standard, vous pouvez demander au système de générer une image avec un « chat dans un bateau ». De plus, vous pouvez clarifier les caractéristiques du chat et du bateau, mais il est imprévisible quel chat et quel bateau seront synthétisés. L'inversion textuelle vous permet d'entraîner le système sur une image de votre chat ou de votre bateau et de synthétiser l'image avec un chat ou un bateau spécifique. De la même manière, il peut également remplacer des éléments d'image par certains objets, donner un exemple de style visuel pour la synthèse et spécifier des concepts (par exemple, parmi toute la variété des médecins, vous pouvez utiliser une sélection plus précise et de haute qualité dans le style souhaité).

    Systèmes d'apprentissage automatique pour la synthèse d'images et la réduction du bruit dans les photos de nuit

  • stable-diffusion-animation - création d'images animées (en mouvement) basées sur l'interpolation entre les images générées dans Stable Diffusion.
  • stable_diffusion.openvino (code) - un portage de Stable Diffusion, qui utilise uniquement le CPU pour les calculs, ce qui permet d'expérimenter sur des systèmes sans GPU puissants. Nécessite un processeur pris en charge dans la bibliothèque OpenVINO. Officiellement, OpenVINO fournit des plugins pour les processeurs Intel avec les extensions AVX2, AVX-512, AVX512_BF16 et SSE, ainsi que pour les cartes Raspberry Pi 4 Model B, Apple Mac mini et NVIDIA Jetson Nano. Officieusement, il est possible d'utiliser OpenVINO sur les processeurs AMD Ryzen.
  • sdamd est un port pour les GPU AMD.
  • Une première implémentation de la synthèse vidéo.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - interfaces graphiques pour générer des images à l'aide de Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - interfaces Web pour la synthèse d'images utilisant Stable Diffusion.
  • Plugins pour intégrer Stable Diffusion avec GIMP, Figma, Blender et Photoshop.

Par ailleurs, on peut noter la publication par Google du code du système d'apprentissage automatique RawNeRF (RAW Neural Radiance Fields), qui permet, à partir des données de plusieurs images RAW, d'améliorer la qualité des images très bruitées prises dans l'obscurité et dans faible éclairage. En plus d'éliminer le bruit, les outils développés par le projet permettent d'augmenter les détails, d'éliminer les reflets, de synthétiser le HDR et de modifier l'éclairage général des photographies, ainsi que de recréer la position tridimensionnelle des objets à l'aide de plusieurs photographies sous des angles différents, changez le point de vue, manipulez la mise au point et générez des images animées.

Systèmes d'apprentissage automatique pour la synthèse d'images et la réduction du bruit dans les photos de nuit
Systèmes d'apprentissage automatique pour la synthèse d'images et la réduction du bruit dans les photos de nuit


Source: opennet.ru

Ajouter un commentaire