Implementazione di un sistema di machine learning per la sintesi di immagini basata sulla descrizione testuale

È stata pubblicata un'implementazione aperta del sistema di apprendimento automatico DALL-E 2, proposto da OpenAI, che consente di sintetizzare immagini e dipinti realistici basati su una descrizione testuale in linguaggio naturale, nonché di applicare comandi in linguaggio naturale per modificare immagini ( ad esempio aggiungere, eliminare o spostare oggetti nell'immagine). I modelli DALL-E 2 originali di OpenAI non sono pubblicati, ma è disponibile un documento che descrive in dettaglio il metodo. Sulla base della descrizione esistente, ricercatori indipendenti hanno preparato un'implementazione alternativa scritta in Python, utilizzando il framework Pytorch e distribuita sotto la licenza MIT.

Implementazione di un sistema di machine learning per la sintesi di immagini basata sulla descrizione testualeImplementazione di un sistema di machine learning per la sintesi di immagini basata sulla descrizione testuale

Rispetto all'implementazione precedentemente pubblicata della prima generazione di DALL-E, la nuova versione fornisce una corrispondenza più accurata dell'immagine alla descrizione, consente un maggiore fotorealismo e rende possibile generare immagini con risoluzioni più elevate. Il sistema richiede grandi risorse per addestrare il modello; ad esempio, addestrare la versione originale di DALL-E 2 richiede 100-200 mila ore di calcolo sulla GPU, ovvero circa 2-4 settimane di calcoli con 256 GPU NVIDIA Tesla V100.

Implementazione di un sistema di machine learning per la sintesi di immagini basata sulla descrizione testuale

Lo stesso autore ha iniziato anche a sviluppare una versione estesa - DALLE2 Video, volta a sintetizzare il video da una descrizione testuale. Separatamente, possiamo notare il progetto ru-dalle sviluppato da Sberbank, con un'implementazione aperta della prima generazione DALL-E, adattata per riconoscere le descrizioni in russo.

Fonte: opennet.ru

Aggiungi un commento