Mətnin təsviri əsasında təsvirin sintezi üçün maşın öyrənmə sisteminin tətbiqi

OpenAI tərəfindən təklif olunan DALL-E 2 maşın öyrənmə sisteminin açıq tətbiqi nəşr olundu və təbii dildə mətn təsviri əsasında real təsvirləri və rəsmləri sintez etməyə, eləcə də şəkilləri redaktə etmək üçün təbii dildə əmrlər tətbiq etməyə imkan verir ( məsələn, şəkildəki obyektləri əlavə etmək, silmək və ya köçürmək ). OpenAI-nin orijinal DALL-E 2 modelləri dərc edilmir, lakin metodu təfərrüatlandıran bir məqalə mövcuddur. Mövcud təsvirə əsaslanaraq, müstəqil tədqiqatçılar Pytorch çərçivəsini istifadə edərək, Python-da yazılmış və MIT lisenziyası altında yayılmış alternativ bir tətbiq hazırladılar.

Mətnin təsviri əsasında təsvirin sintezi üçün maşın öyrənmə sisteminin tətbiqiMətnin təsviri əsasında təsvirin sintezi üçün maşın öyrənmə sisteminin tətbiqi

Birinci nəsil DALL-E-nin əvvəllər dərc edilmiş tətbiqi ilə müqayisədə, yeni versiya təsvirin təsvirə daha dəqiq uyğunlaşdırılmasını təmin edir, daha böyük fotorealizmə imkan verir və daha yüksək rezolyusiyada təsvirlər yaratmağa imkan verir. Modeli öyrətmək üçün sistem böyük resurslar tələb edir, məsələn, DALL-E 2-nin orijinal versiyasının hazırlanması GPU-da 100-200 min saat hesablama tələb edir, yəni. 2 NVIDIA Tesla V4 GPU ilə təxminən 256-100 həftəlik hesablamalar.

Mətnin təsviri əsasında təsvirin sintezi üçün maşın öyrənmə sisteminin tətbiqi

Eyni müəllif mətn təsvirindən video sintez etməyə yönəlmiş genişləndirilmiş versiyanı - DALLE2 Videonu da hazırlamağa başladı. Ayrı-ayrılıqda, rus dilində təsvirləri tanımaq üçün uyğunlaşdırılmış birinci nəsil DALL-E-nin açıq tətbiqi ilə Sberbank tərəfindən hazırlanmış ru-dalle layihəsini qeyd edə bilərik.

Mənbə: opennet.ru

Добавить комментарий