Implementazione di un sistema di machine learning per a sintesi di l'imaghjini basatu nantu à a descrizzione di testu

Una implementazione aperta di u sistema di apprendimentu automaticu DALL-E 2, prupostu da OpenAI, hè stata publicata è permette di sintetizà l'imaghjini realistichi è dipinti basati nantu à una descrizzione di testu in lingua naturale, è ancu applicà cumandamenti in lingua naturale per edità l'imaghjini ( per esempiu, aghjunghje, sguassà o move l'uggetti in l'imaghjini). I mudelli originali DALL-E 2 d'OpenAI ùn sò micca publicati, ma un documentu chì detalla u metudu hè dispunibule. Basatu nantu à a descrizzione esistente, circadori indipendenti anu preparatu una implementazione alternativa scritta in Python, utilizendu u framework Pytorch è distribuitu sottu a licenza MIT.

Implementazione di un sistema di machine learning per a sintesi di l'imaghjini basatu nantu à a descrizzione di testuImplementazione di un sistema di machine learning per a sintesi di l'imaghjini basatu nantu à a descrizzione di testu

In cunfrontu cù l'implementazione publicata prima di a prima generazione di DALL-E, a nova versione furnisce una corrispondenza più precisa di l'imaghjina à a descrizzione, permette un fotorealismu più grande è permette di generà imaghjini in risoluzioni più altu. U sistema necessita di grandi risorse per furmà u mudellu; per esempiu, a furmazione di a versione originale di DALL-E 2 richiede 100-200 mila ore di computing nantu à a GPU, i.e. circa 2-4 settimane di calculi cù 256 GPU NVIDIA Tesla V100.

Implementazione di un sistema di machine learning per a sintesi di l'imaghjini basatu nantu à a descrizzione di testu

U stessu autore hà ancu cuminciatu à sviluppà una versione estesa - DALLE2 Video, destinata à sintetizà video da una descrizzione di testu. Separatamente, pudemu nutà u prughjettu ru-dalle sviluppatu da Sberbank, cù una implementazione aperta di a prima generazione DALL-E, adattatu per ricunnosce e descrizioni in russo.

Source: opennet.ru

Add a comment