Рэалізацыя сістэмы машыннага навучання для сінтэзу малюнкаў па тэкставым апісанні

Апублікавана адкрытая рэалізацыя сістэмы машыннага навучання DALL-E 2, прапанаванай кампаніяй OpenAI і якая дазваляе сінтэзаваць рэалістычныя выявы і карціны на падставе тэкставага апісання на натуральнай мове, а таксама прымяняць каманды на натуральнай мове для рэдагавання малюнкаў (напрыклад, дадаваць, выдаляць або перамяшчаць аб'екты на малюнку ). Зыходныя мадэлі DALL-E 2 ад кампаніі OpenAI не публікуюцца, але даступны артыкул з падрабязным апісаннем метаду. На аснове наяўнага апісання незалежнымі даследчыкамі падрыхтавана альтэрнатыўная рэалізацыя, напісаная на мове Python, якая выкарыстоўвае фрэймворк Pytorch і распаўсюджваецца пад ліцэнзіяй MIT.

Рэалізацыя сістэмы машыннага навучання для сінтэзу малюнкаў па тэкставым апісанніРэалізацыя сістэмы машыннага навучання для сінтэзу малюнкаў па тэкставым апісанні

У параўнанні з раней апублікаванай рэалізацыяй першага пакалення DALL-E, новы варыянт забяспечвае больш дакладную адпаведнасць выявы апісанню, дазваляе дамагчыся большага фотарэалізму і дае магчымасць фармаваць малюнкі ў больш высокіх дазволах. Сістэма патрабуе вялікіх рэсурсаў для навучання мадэлі, напрыклад, на навучанне зыходнага варыянту DALL-E2 неабходна 100-200 тысяч гадзін вылічэнняў на GPU, г.зн. каля 2-4 тыдняў вылічэнняў пры наяўнасці 256 GPU NVIDIA Tesla V100.

Рэалізацыя сістэмы машыннага навучання для сінтэзу малюнкаў па тэкставым апісанні

Тым жа аўтарам таксама пачалася распрацоўка пашыранага варыянту – DALLE2 Video, накіраванага на сінтэз відэа па тэкставым апісанні. Асобна можна адзначыць праект ru-dalle, які развіваецца Ашчадбанкам, з адкрытай рэалізацыяй першага пакалення DALL-E, адаптаванай для распазнання апісанняў на рускай мове.

Крыніца: opennet.ru

Дадаць каментар