Gweithredu system ddysgu peiriant ar gyfer synthesis delwedd yn seiliedig ar ddisgrifiad testun

Mae gweithrediad agored o'r system dysgu peiriant DALL-E 2, a gynigir gan OpenAI, wedi'i gyhoeddi ac mae'n caniatΓ‘u ichi syntheseiddio delweddau a phaentiadau realistig yn seiliedig ar ddisgrifiad testun mewn iaith naturiol, yn ogystal Γ’ chymhwyso gorchmynion mewn iaith naturiol i olygu delweddau ( er enghraifft, ychwanegu, dileu neu symud gwrthrychau yn y ddelwedd ). Ni chyhoeddir modelau DALL-E 2 gwreiddiol OpenAI, ond mae papur yn manylu ar y dull ar gael. Yn seiliedig ar y disgrifiad presennol, mae ymchwilwyr annibynnol wedi paratoi gweithrediad amgen a ysgrifennwyd yn Python, gan ddefnyddio fframwaith Pytorch a'i ddosbarthu o dan drwydded MIT.

Gweithredu system ddysgu peiriant ar gyfer synthesis delwedd yn seiliedig ar ddisgrifiad testunGweithredu system ddysgu peiriant ar gyfer synthesis delwedd yn seiliedig ar ddisgrifiad testun

O'i gymharu Γ’ gweithrediad y genhedlaeth gyntaf o DALL-E a gyhoeddwyd yn flaenorol, mae'r fersiwn newydd yn darparu cyfatebiaeth fwy cywir o'r ddelwedd i'r disgrifiad, yn caniatΓ‘u ar gyfer mwy o ffotorealaeth ac yn ei gwneud hi'n bosibl cynhyrchu delweddau mewn cydraniad uwch. Mae angen adnoddau mawr ar y system i hyfforddi'r model; er enghraifft, mae hyfforddi'r fersiwn wreiddiol o DALL-E 2 yn gofyn am 100-200 mil o oriau o gyfrifiadura ar y GPU, h.y. tua 2-4 wythnos o gyfrifiadau gyda 256 NVIDIA Tesla V100 GPUs.

Gweithredu system ddysgu peiriant ar gyfer synthesis delwedd yn seiliedig ar ddisgrifiad testun

Dechreuodd yr un awdur hefyd ddatblygu fersiwn estynedig - DALLE2 Video, gyda'r nod o syntheseiddio fideo o ddisgrifiad testun. Ar wahΓ’n, gallwn nodi'r prosiect ru-dalle a ddatblygwyd gan Sberbank, gyda gweithrediad agored o'r genhedlaeth gyntaf DALL-E, wedi'i addasu ar gyfer cydnabod disgrifiadau yn Rwsieg.

Ffynhonnell: opennet.ru

Ychwanegu sylw