Utekelezaji wa mfumo wa mashine ya kujifunza kwa usanisi wa picha kulingana na maelezo ya maandishi

Utekelezaji wazi wa mfumo wa kujifunza kwa mashine wa DALL-E 2, uliopendekezwa na OpenAI, umechapishwa na hukuruhusu kusasisha picha na picha halisi kulingana na maelezo ya maandishi katika lugha asilia, na pia kutumia amri katika lugha asilia ili kuhariri picha ( kwa mfano, ongeza, futa au sogeza vitu kwenye picha ). Miundo ya awali ya OpenAI ya DALL-E 2 haijachapishwa, lakini karatasi inayoelezea mbinu hiyo inapatikana. Kulingana na maelezo yaliyopo, watafiti huru wameandaa utekelezaji mbadala ulioandikwa kwa Python, kwa kutumia mfumo wa Pytorch na kusambazwa chini ya leseni ya MIT.

Utekelezaji wa mfumo wa mashine ya kujifunza kwa usanisi wa picha kulingana na maelezo ya maandishiUtekelezaji wa mfumo wa mashine ya kujifunza kwa usanisi wa picha kulingana na maelezo ya maandishi

Ikilinganishwa na utekelezaji uliochapishwa hapo awali wa kizazi cha kwanza cha DALL-E, toleo jipya hutoa mechi sahihi zaidi ya picha kwa maelezo, inaruhusu photorealism kubwa na inafanya uwezekano wa kuzalisha picha katika maazimio ya juu. Mfumo unahitaji rasilimali kubwa ili kufundisha mfano; kwa mfano, mafunzo ya toleo la awali la DALL-E 2 inahitaji saa 100-200 elfu za kompyuta kwenye GPU, i.e. takriban wiki 2-4 za hesabu na 256 NVIDIA Tesla V100 GPUs.

Utekelezaji wa mfumo wa mashine ya kujifunza kwa usanisi wa picha kulingana na maelezo ya maandishi

Mwandishi huyo huyo pia alianza kutengeneza toleo la kupanuliwa - Video ya DALLE2, inayolenga kuunganisha video kutoka kwa maelezo ya maandishi. Kwa kando, tunaweza kutambua mradi wa ru-dalle uliotengenezwa na Sberbank, na utekelezaji wazi wa kizazi cha kwanza cha DALL-E, kilichorekebishwa kwa kutambua maelezo kwa Kirusi.

Chanzo: opennet.ru

Kuongeza maoni