微软研究人员创建了一个能够生成图像说明的人工智能系统,在许多情况下,该系统比人类的描述更准确。 这一突破标志着微软致力于让其产品和服务具有包容性并可供所有用户使用的承诺的一个重要里程碑。
“图像描述是计算机视觉的主要功能之一,它使广泛的服务成为可能,”黄学东(
新型号现已通过计算机视觉向消费者提供:
自动描述可帮助用户访问任何图像的重要内容,无论是搜索结果中返回的照片还是演示文稿的插图。
“在网页和文档上使用描述图像内容的标题(所谓的替代或替代文本)对于盲人或视障人士来说尤其重要,”Saqib Sheikh 说(
例如,他的团队正在应用程序中为盲人和视障人士使用改进的图像描述功能。
“理想情况下,每个人都应该在文档、网络、社交网络上的所有图像中添加替代文本,因为这可以让盲人访问内容并参与对话。 但是,可惜的是,人们并不这样做,”酋长说道。 “但是,有一些应用程序使用图像描述功能在丢失时添加替代文本。”
微软雷蒙德实验室研究总经理王立阮领导的研究团队取得并超越了人类的成果。 照片:丹·德龙。
新对象的描述
“描述图像是计算机视觉的主要任务之一,这需要人工智能系统来理解和描述图像中呈现的主要内容或动作,”王立阮解释道(
她说:“你需要了解正在发生的事情,弄清楚物体和动作之间的关系,然后用人类可读的语言用句子来总结和描述这一切。”
王先生领导的研究团队在对标
通常,图像描述系统是在包含图像以及这些图像的文本描述的数据集(即签名图像集)上进行训练的。
“nocaps 测试表明系统能够很好地描述训练数据中未发现的新对象,”Wang 说。
为了解决这个问题,微软团队在包含文字标记图像的大型数据集上预训练了一个大型人工智能模型,每个图像都映射到图像中的特定对象。
带有文字标签而不是完整标题的图像集的创建效率更高,使 Wang 的团队能够将大量数据输入到他们的模型中。 这种方法为模型提供了团队所说的视觉词汇。
黄解释说,使用视觉词汇的预学习方法类似于让孩子准备阅读:首先使用图画书,将单个单词与图像相关联,例如在苹果的照片下写上“苹果”一张猫的照片下面写着“猫”字。
“这种视觉词汇的预训练本质上是训练系统所需的初始教育。 这就是我们尝试开发一种运动记忆的方法,”黄说。
然后使用包含标记图像的数据集对预训练模型进行细化。 在这个训练阶段,模型学习造句子。 如果出现包含新物体的图像,AI系统会使用视觉词典创建准确的描述。
“为了在测试期间处理新对象,系统集成了在预训练和随后的细化过程中学到的知识,”王说。
根据结果
更快过渡到工作环境
除此之外,与另一个行业基准相比,新的图像描述系统的性能是 2015 年以来 Microsoft 产品和服务中使用的模型的两倍。
考虑到微软产品和服务的所有用户将从这一改进中获得的好处,黄加快了将新模型集成到Azure工作环境中的速度。
“我们正在将这种颠覆性的人工智能技术引入 Azure,作为服务更广泛客户的平台,”他说。 “这不仅仅是研究上的突破。 将这一突破融入 Azure 生产环境所花费的时间也是一个突破。”
黄补充说,实现类人结果延续了微软认知智能系统中已经确立的趋势。
“过去五年,我们在五个主要领域取得了类人的成果:语音识别、机器翻译、回答问题、机器阅读和文本理解,以及 2020 年,尽管有 COVID-19,但在图像描述方面”胡安说。
通过主题
- 访问该网站
Azure 认知服务 了解有关计算机视觉的更多信息(计算机视觉 ) - 阅读文章
历史性成就 - 微软研究人员在自动语音识别方面达到人类水平
比较系统之前和现在使用AI给出的图像描述结果
照片由盖蒂图片社提供。 先前的描述:一个男人在切菜板上准备热狗的特写镜头。 新描述:一个男人制作面包。
照片由盖蒂图片社提供。 上一篇描述: 一个男人坐在夕阳下。 新描述:海滩上的篝火。
照片由盖蒂图片社提供。 先前描述:一个穿着蓝色衬衫的男人。 新描述:几个人戴着外科口罩。
照片由盖蒂图片社提供。 上一篇: 一个人踩着滑板飞上墙。 新描述:棒球运动员接球。
来源: habr.com