Pagpapatupad ng isang machine learning system para sa synthesis ng imahe batay sa paglalarawan ng teksto

Ang isang bukas na pagpapatupad ng machine learning system na DALL-E 2, na iminungkahi ng OpenAI, ay nai-publish at nagbibigay-daan sa iyong mag-synthesize ng mga makatotohanang larawan at mga painting batay sa isang paglalarawan ng teksto sa natural na wika, pati na rin maglapat ng mga command sa natural na wika upang mag-edit ng mga larawan ( halimbawa, magdagdag, magtanggal o maglipat ng mga bagay sa larawan ). Ang mga orihinal na modelo ng DALL-E 2 ng OpenAI ay hindi nai-publish, ngunit isang papel na nagdedetalye ng pamamaraan ay magagamit. Batay sa umiiral na paglalarawan, naghanda ang mga independyenteng mananaliksik ng alternatibong pagpapatupad na nakasulat sa Python, gamit ang Pytorch framework at ipinamahagi sa ilalim ng lisensya ng MIT.

Pagpapatupad ng isang machine learning system para sa synthesis ng imahe batay sa paglalarawan ng tekstoPagpapatupad ng isang machine learning system para sa synthesis ng imahe batay sa paglalarawan ng teksto

Kung ikukumpara sa naunang nai-publish na pagpapatupad ng unang henerasyong DALL-E, ang bagong bersyon ay nagbibigay ng mas tumpak na tugma ng larawan sa paglalarawan, nagbibigay-daan para sa mas malawak na photorealism at ginagawang posible na makabuo ng mga larawan sa mas matataas na resolution. Ang sistema ay nangangailangan ng malalaking mapagkukunan upang sanayin ang modelo, halimbawa, ang pagsasanay sa orihinal na bersyon ng DALL-E 2 ay nangangailangan ng 100-200 libong oras ng pag-compute sa GPU, i.e. humigit-kumulang 2-4 na linggo ng mga kalkulasyon na may 256 NVIDIA Tesla V100 GPU.

Pagpapatupad ng isang machine learning system para sa synthesis ng imahe batay sa paglalarawan ng teksto

Ang parehong may-akda ay nagsimula ring bumuo ng isang pinahabang bersyon - DALLE2 Video, na naglalayong mag-synthesize ng video mula sa isang paglalarawan ng teksto. Hiwalay, mapapansin natin ang proyektong ru-dalle na binuo ng Sberbank, na may bukas na pagpapatupad ng unang henerasyong DALL-E, na inangkop para sa pagkilala sa mga paglalarawan sa Russian.

Pinagmulan: opennet.ru

Magdagdag ng komento