Mašininio mokymosi sistemos, skirtos vaizdų sintezei, remiantis teksto aprašymu, įgyvendinimas

Paskelbtas atviras „OpenAI“ pasiūlytas mašininio mokymosi sistemos DALL-E 2 įgyvendinimas, leidžiantis sintetinti tikroviškus vaizdus ir paveikslus pagal teksto aprašymą natūralia kalba, taip pat taikyti komandas natūralia kalba vaizdams redaguoti ( pavyzdžiui, pridėti, ištrinti arba perkelti objektus paveikslėlyje ). Originalūs „OpenAI“ DALL-E 2 modeliai neskelbiami, tačiau yra dokumentas, kuriame išsamiai aprašomas metodas. Remdamiesi esamu aprašymu, nepriklausomi mokslininkai parengė alternatyvų įgyvendinimą, parašytą Python, naudodami Pytorch sistemą ir platinamą pagal MIT licenciją.

Mašininio mokymosi sistemos, skirtos vaizdų sintezei, remiantis teksto aprašymu, įgyvendinimasMašininio mokymosi sistemos, skirtos vaizdų sintezei, remiantis teksto aprašymu, įgyvendinimas

Palyginti su anksčiau paskelbtu pirmosios kartos DALL-E įgyvendinimu, naujoji versija suteikia tikslesnį vaizdo atitikimą aprašymui, suteikia daugiau fotorealizmo ir leidžia generuoti didesnės raiškos vaizdus. Sistema reikalauja didelių resursų modeliui apmokyti, pavyzdžiui, mokant originalią DALL-E 2 versiją, reikia 100-200 tūkstančių valandų skaičiuoti GPU, t.y. apie 2-4 savaites skaičiavimai su 256 NVIDIA Tesla V100 GPU.

Mašininio mokymosi sistemos, skirtos vaizdų sintezei, remiantis teksto aprašymu, įgyvendinimas

Tas pats autorius taip pat pradėjo kurti išplėstinę versiją – DALLE2 Video, skirtą vaizdo įrašui sintetinti iš tekstinio aprašymo. Atskirai galime atkreipti dėmesį į „Sberbank“ sukurtą projektą „ru-dalle“, kuriame atvirai įdiegtas pirmosios kartos DALL-E, pritaikytas atpažinti aprašymus rusų kalba.

Šaltinis: opennet.ru

Добавить комментарий