Татбиқи системаи омӯзиши мошинсозӣ барои синтези тасвир дар асоси тавсифи матн

Татбиқи кушодаи системаи омӯзиши мошини DALL-E 2, ки аз ҷониби OpenAI пешниҳод шудааст, нашр шудааст ва ба шумо имкон медиҳад, ки тасвирҳо ва расмҳои воқеиро дар асоси тавсифи матн бо забони табиӣ синтез кунед ва инчунин фармонҳоро бо забони табиӣ таҳрир кардани тасвирҳо истифода баред ( масалан, объектҳоро дар тасвир илова кунед, нест кунед ё интиқол диҳед). Моделҳои аслии DALL-E 2-и OpenAI нашр нашудаанд, аммо коғаз дар бораи ин усул дастрас аст. Дар асоси тавсифи мавҷуда, муҳаққиқони мустақил як амали алтернативии дар Python навишташударо бо истифода аз чаҳорчӯбаи Pytorch омода кардаанд ва таҳти иҷозатномаи MIT паҳн карда шудаанд.

Татбиқи системаи омӯзиши мошинсозӣ барои синтези тасвир дар асоси тавсифи матнТатбиқи системаи омӯзиши мошинсозӣ барои синтези тасвир дар асоси тавсифи матн

Дар муқоиса бо татбиқи қаблан нашршудаи насли якуми DALL-E, версияи нав мувофиқати дақиқи тасвирро бо тавсиф таъмин мекунад, фотореализми бештарро фароҳам меорад ва имкон медиҳад, ки тасвирҳо дар қарорҳои баландтар тавлид карда шаванд. Система барои таълими модел захираҳои калонро талаб мекунад, масалан, омӯзиши версияи аслии DALL-E 2 100-200 ҳазор соат ҳисобкуниро дар GPU талаб мекунад, яъне. тақрибан 2-4 ҳафтаи ҳисобҳо бо 256 NVIDIA Tesla V100 GPU.

Татбиқи системаи омӯзиши мошинсозӣ барои синтези тасвир дар асоси тавсифи матн

Ҳамон муаллиф инчунин ба таҳияи версияи васеъ - DALLE2 Video, ки барои синтез кардани видео аз тавсифи матн нигаронида шудааст, оғоз кард. Алоҳида, мо метавонем лоиҳаи ру-даллеро, ки аз ҷониби Сбербанк таҳия шудааст, бо татбиқи кушоди насли якуми DALL-E, ки барои шинохти тавсифҳо бо забони русӣ мутобиқ карда шудааст, қайд кардан мумкин аст.

Манбаъ: opennet.ru

Илова Эзоҳ