基于文本描述的图像合成机器学习系统的实现

OpenAI 提出的机器学习系统 DALL-E 2 的开放实现已经发布,它允许您根据自然语言的文本描述合成逼真的图像和绘画,以及应用自然语言的命令来编辑图像(例如,添加、删除或移动图像中的对象)。 OpenAI 的原始 DALL-E 2 模型尚未发布,但有一篇详细介绍该方法的论文。根据现有的描述,独立研究人员准备了一种用 Python 编写的替代实现,使用 Pytorch 框架并在 MIT 许可下分发。

基于文本描述的图像合成机器学习系统的实现基于文本描述的图像合成机器学习系统的实现

与之前发布的第一代 DALL-E 实现相比,新版本提供了图像与描述的更准确匹配,实现了更高的照片真实感,并可以生成更高分辨率的图像。该系统需要大量资源来训练模型;例如,训练原始版本的 DALL-E 2 需要在 GPU 上进行 100-200 万小时的计算,即使用 2 个 NVIDIA Tesla V4 GPU 进行大约 256-100 周的计算。

基于文本描述的图像合成机器学习系统的实现

该作者还开始开发一个扩展版本 - DALLE2 Video,旨在从文本描述合成视频。另外,我们可以注意到 Sberbank 开发的 ru-dalle 项目,该项目开放实施第一代 DALL-E,适用于识别俄语描述。

来源: opennet.ru

添加评论