🥇Mašininio mokymosi sistemos, skirtos vaizdo sintezei, remiantis teksto aprašymu, įdiegimas

Paskelbtas atviras „OpenAI“ pasiūlytas mašininio mokymosi sistemos DALL-E 2 įgyvendinimas, leidžiantis sintetinti tikroviškus vaizdus ir paveikslus pagal teksto aprašymą natūralia kalba, taip pat taikyti komandas natūralia kalba vaizdams redaguoti ( pavyzdžiui, pridėti, ištrinti arba perkelti objektus paveikslėlyje ). Originalūs „OpenAI“ DALL-E 2 modeliai neskelbiami, tačiau yra dokumentas, kuriame išsamiai aprašomas metodas. Remdamiesi esamu aprašymu, nepriklausomi mokslininkai parengė alternatyvų įgyvendinimą, parašytą Python, naudodami Pytorch sistemą ir platinamą pagal MIT licenciją.

Palyginti su anksčiau paskelbtu pirmosios kartos DALL-E įgyvendinimu, naujoji versija suteikia tikslesnį vaizdo atitikimą aprašymui, suteikia daugiau fotorealizmo ir leidžia generuoti didesnės raiškos vaizdus. Sistema reikalauja didelių resursų modeliui apmokyti, pavyzdžiui, mokant originalią DALL-E 2 versiją, reikia 100-200 tūkstančių valandų skaičiuoti GPU, t.y. apie 2-4 savaites skaičiavimai su 256 NVIDIA Tesla V100 GPU.

Tas pats autorius taip pat pradėjo kurti išplėstinę versiją – DALLE2 Video, skirtą vaizdo įrašui sintetinti iš tekstinio aprašymo. Atskirai galime atkreipti dėmesį į „Sberbank“ sukurtą projektą „ru-dalle“, kuriame atvirai įdiegtas pirmosios kartos DALL-E, pritaikytas atpažinti aprašymus rusų kalba.

Šaltinis: opennet.ru

Mašininio mokymosi sistemos, skirtos vaizdų sintezei, remiantis teksto aprašymu, įgyvendinimas

Добавить комментарий Atšaukti atsakymą