Mae gweithrediad agored o'r system dysgu peiriant DALL-E 2, a gynigir gan OpenAI, wedi'i gyhoeddi ac mae'n caniatΓ‘u ichi syntheseiddio delweddau a phaentiadau realistig yn seiliedig ar ddisgrifiad testun mewn iaith naturiol, yn ogystal Γ’ chymhwyso gorchmynion mewn iaith naturiol i olygu delweddau ( er enghraifft, ychwanegu, dileu neu symud gwrthrychau yn y ddelwedd ). Ni chyhoeddir modelau DALL-E 2 gwreiddiol OpenAI, ond mae papur yn manylu ar y dull ar gael. Yn seiliedig ar y disgrifiad presennol, mae ymchwilwyr annibynnol wedi paratoi gweithrediad amgen a ysgrifennwyd yn Python, gan ddefnyddio fframwaith Pytorch a'i ddosbarthu o dan drwydded MIT.
O'i gymharu Γ’ gweithrediad y genhedlaeth gyntaf o DALL-E a gyhoeddwyd yn flaenorol, mae'r fersiwn newydd yn darparu cyfatebiaeth fwy cywir o'r ddelwedd i'r disgrifiad, yn caniatΓ‘u ar gyfer mwy o ffotorealaeth ac yn ei gwneud hi'n bosibl cynhyrchu delweddau mewn cydraniad uwch. Mae angen adnoddau mawr ar y system i hyfforddi'r model; er enghraifft, mae hyfforddi'r fersiwn wreiddiol o DALL-E 2 yn gofyn am 100-200 mil o oriau o gyfrifiadura ar y GPU, h.y. tua 2-4 wythnos o gyfrifiadau gyda 256 NVIDIA Tesla V100 GPUs.
Dechreuodd yr un awdur hefyd ddatblygu fersiwn estynedig - DALLE2 Video, gyda'r nod o syntheseiddio fideo o ddisgrifiad testun. Ar wahΓ’n, gallwn nodi'r prosiect ru-dalle a ddatblygwyd gan Sberbank, gyda gweithrediad agored o'r genhedlaeth gyntaf DALL-E, wedi'i addasu ar gyfer cydnabod disgrifiadau yn Rwsieg.
Ffynhonnell: opennet.ru