Testuaren deskribapenean oinarritutako irudiak sintesirako ikaskuntza automatikoko sistema bat ezartzea

OpenAIk proposatutako DALL-E 2 ikaskuntza automatikoko sistemaren inplementazio irekia argitaratu da eta irudi eta margo errealistak sintetizatzeko aukera ematen du hizkuntza naturaleko testu-deskribapen batean oinarrituta, baita irudiak editatzeko hizkuntza naturaleko komandoak aplikatzeko ere ( adibidez, gehitu, ezabatu edo mugitu irudiko objektuak). OpenAI-ren jatorrizko DALL-E 2 ereduak ez dira argitaratzen, baina metodoa zehazten duen papera eskuragarri dago. Dauden deskribapenean oinarrituta, ikertzaile independenteek Python-en idatzitako inplementazio alternatibo bat prestatu dute, Pytorch esparrua erabiliz eta MIT lizentziapean banatuta.

Testuaren deskribapenean oinarritutako irudiak sintesirako ikaskuntza automatikoko sistema bat ezartzeaTestuaren deskribapenean oinarritutako irudiak sintesirako ikaskuntza automatikoko sistema bat ezartzea

DALL-E-ren lehen belaunaldiaren aurretik argitaratutako inplementazioarekin alderatuta, bertsio berriak irudia deskribapenarekin bat etortzea zehatzagoa eskaintzen du, fotorrealismo handiagoa ahalbidetzen du eta bereizmen handiagoko irudiak sortzea ahalbidetzen du. Sistemak baliabide handiak behar ditu eredua entrenatzeko; adibidez, DALL-E 2-ren jatorrizko bertsioa entrenatzeak 100-200 mila orduko informatika behar du GPUan, hau da. 2-4 aste inguruko kalkuluak 256 NVIDIA Tesla V100 GPUrekin.

Testuaren deskribapenean oinarritutako irudiak sintesirako ikaskuntza automatikoko sistema bat ezartzea

Egile bera bertsio hedatua garatzen hasi zen - DALLE2 Video, testu-deskribapen batetik bideoa sintetizatzera zuzendua. Bereiz, Sberbankek garatutako ru-dalle proiektua nabarmendu dezakegu, lehen belaunaldiko DALL-Eren inplementazio irekiarekin, errusierazko deskribapenak ezagutzeko egokitua.

Iturria: opennet.ru

Gehitu iruzkin berria