È stata pubblicata un'implementazione aperta del sistema di apprendimento automatico DALL-E 2, proposto da OpenAI, che consente di sintetizzare immagini e dipinti realistici basati su una descrizione testuale in linguaggio naturale, nonché di applicare comandi in linguaggio naturale per modificare immagini ( ad esempio aggiungere, eliminare o spostare oggetti nell'immagine). I modelli DALL-E 2 originali di OpenAI non sono pubblicati, ma è disponibile un documento che descrive in dettaglio il metodo. Sulla base della descrizione esistente, ricercatori indipendenti hanno preparato un'implementazione alternativa scritta in Python, utilizzando il framework Pytorch e distribuita sotto la licenza MIT.
Rispetto all'implementazione precedentemente pubblicata della prima generazione di DALL-E, la nuova versione fornisce una corrispondenza più accurata dell'immagine alla descrizione, consente un maggiore fotorealismo e rende possibile generare immagini con risoluzioni più elevate. Il sistema richiede grandi risorse per addestrare il modello; ad esempio, addestrare la versione originale di DALL-E 2 richiede 100-200 mila ore di calcolo sulla GPU, ovvero circa 2-4 settimane di calcoli con 256 GPU NVIDIA Tesla V100.
Lo stesso autore ha iniziato anche a sviluppare una versione estesa - DALLE2 Video, volta a sintetizzare il video da una descrizione testuale. Separatamente, possiamo notare il progetto ru-dalle sviluppato da Sberbank, con un'implementazione aperta della prima generazione DALL-E, adattata per riconoscere le descrizioni in russo.
Fonte: opennet.ru