Мәтінді сипаттауға негізделген кескін синтезі үшін машиналық оқыту жүйесін енгізу

OpenAI ұсынған DALL-E 2 машиналық оқыту жүйесінің ашық нұсқасы жарияланды және табиғи тілдегі мәтіндік сипаттама негізінде шынайы кескіндер мен кескіндемелерді синтездеуге, сондай-ақ кескіндерді өңдеу үшін табиғи тілдегі пәрмендерді қолдануға мүмкіндік береді ( мысалы, суреттегі нысандарды қосу, жою немесе жылжыту ). OpenAI түпнұсқа DALL-E 2 үлгілері жарияланбаған, бірақ әдісті егжей-тегжейлі сипаттайтын қағаз бар. Қолданыстағы сипаттамаға сүйене отырып, тәуелсіз зерттеушілер Pytorch құрылымын қолдана отырып, Python тілінде жазылған және MIT лицензиясы бойынша таратылатын балама енгізуді дайындады.

Мәтінді сипаттауға негізделген кескін синтезі үшін машиналық оқыту жүйесін енгізуМәтінді сипаттауға негізделген кескін синтезі үшін машиналық оқыту жүйесін енгізу

Бұрын жарияланған DALL-E бірінші буынының іске асырылуымен салыстырғанда, жаңа нұсқа суреттің сипаттамаға дәл сәйкестігін қамтамасыз етеді, үлкен фотореализмге мүмкіндік береді және жоғары ажыратымдылықтағы кескіндерді жасауға мүмкіндік береді. Жүйе модельді оқыту үшін үлкен ресурстарды қажет етеді, мысалы, DALL-E 2 түпнұсқа нұсқасын үйрету GPU-да 100-200 мың сағат есептеуді қажет етеді, яғни. 2 NVIDIA Tesla V4 графикалық процессорларымен шамамен 256-100 апталық есептеулер.

Мәтінді сипаттауға негізделген кескін синтезі үшін машиналық оқыту жүйесін енгізу

Сол автор сонымен қатар кеңейтілген нұсқасын әзірлеуді бастады - мәтіндік сипаттамадан бейнені синтездеуге бағытталған DALLE2 Video. Сбербанк әзірлеген, орыс тіліндегі сипаттамаларды тануға бейімделген бірінші буындағы DALL-E ашық іске асырылған ru-dalle жобасын бөлек атап өтуге болады.

Ақпарат көзі: opennet.ru

пікір қалдыру