微软在 Azure AI 中的最新技术可以描述图像和人


微软研究人员创建了一个能够生成图像说明的人工智能系统,在许多情况下,该系统比人类的描述更准确。 这一突破标志着微软致力于让其产品和服务具有包容性并可供所有用户使用的承诺的一个重要里程碑。

“图像描述是计算机视觉的主要功能之一,它使广泛的服务成为可能,”黄学东(黄学东),华盛顿州雷德蒙德的 Microsoft 技术官兼 Azure AI 认知服务首席技术官。

新型号现已通过计算机视觉向消费者提供: Azure 认知服务,它是 Azure AI 的一部分,允许开发人员使用此功能来提高其服务的可用性。 它还包含在 Seeing AI 应用程序中,并将于今年晚些时候在适用于 Windows 和 Mac 的 Microsoft Word 和 Outlook,以及适用于 Windows、Mac 和网络的 PowerPoint 中提供。

自动描述可帮助用户访问任何图像的重要内容,无论是搜索结果中返回的照片还是演示文稿的插图。

“在网页和文档上使用描述图像内容的标题(所谓的替代或替代文本)对于盲人或视障人士来说尤其重要,”Saqib Sheikh 说(萨吉布·谢赫(Saqib Shaikh)),微软雷德蒙德人工智能平台小组的软件经理。

例如,他的团队正在应用程序中为盲人和视障人士使用改进的图像描述功能。 看到AI,它可以识别相机正在捕捉的内容并讲述它。 该应用程序使用生成的标题来描述照片,包括社交媒体上的照片。

“理想情况下,每个人都应该在文档、网络、社交网络上的所有图像中添加替代文本,因为这可以让盲人访问内容并参与对话。 但是,可惜的是,人们并不这样做,”酋长说道。 “但是,有一些应用程序使用图像描述功能在丢失时添加替代文本。”
  
微软在 Azure AI 中的最新技术可以描述图像和人

微软雷蒙德实验室研究总经理王立阮领导的研究团队取得并超越了人类的成果。 照片:丹·德龙。

新对象的描述

“描述图像是计算机视觉的主要任务之一,这需要人工智能系统来理解和描述图像中呈现的主要内容或动作,”王立阮解释道(王丽娟),微软雷蒙德实验室研究总经理。

她说:“你需要了解正在发生的事情,弄清楚物体和动作之间的关系,然后用人类可读的语言用句子来总结和描述这一切。”

王先生领导的研究团队在对标 无上限 (新颖的大规模物体描述,对新物体的大规模描述)取得了与人类相当的结果,并且超越了人类。 通过此测试,您可以评估人工智能系统生成未包含在模型训练数据集中的所描绘对象的描述的效果。

通常,图像描述系统是在包含图像以及这些图像的文本描述的数据集(即签名图像集)上进行训练的。

“nocaps 测试表明系统能够很好地描述训练数据中未发现的新对象,”Wang 说。

为了解决这个问题,微软团队在包含文字标记图像的大型数据集上预训练了一个大型人工智能模型,每个图像都映射到图像中的特定对象。

带有文字标签而不是完整标题的图像集的创建效率更高,使 Wang 的团队能够将大量数据输入到他们的模型中。 这种方法为模型提供了团队所说的视觉词汇。

黄解释说,使用视觉词汇的预学习方法类似于让孩子准备阅读:首先使用图画书,将单个单词与图像相关联,例如在苹果的照片下写上“苹果”一张猫的照片下面写着“猫”字。

“这种视觉词汇的预训练本质上是训练系统所需的初始教育。 这就是我们尝试开发一种运动记忆的方法,”黄说。

然后使用包含标记图像的数据集对预训练模型进行细化。 在这个训练阶段,模型学习造句子。 如果出现包含新物体的图像,AI系统会使用视觉词典创建准确的描述。

“为了在测试期间处理新对象,系统集成了在预训练和随后的细化过程中学到的知识,”王说。
根据结果 研究,在 nocaps 测试中进行评估时,人工智能系统对相同图像产生的描述比人类更有意义、更准确。

更快过渡到工作环境 

除此之外,与另一个行业基准相比,新的图像描述系统的性能是 2015 年以来 Microsoft 产品和服务中使用的模型的两倍。

考虑到微软产品和服务的所有用户将从这一改进中获得的好处,黄加快了将新模型集成到Azure工作环境中的速度。

“我们正在将这种颠覆性的人工智能技术引入 Azure,作为服务更广泛客户的平台,”他说。 “这不仅仅是研究上的突破。 将这一突破融入 Azure 生产环境所花费的时间也是一个突破。”

黄补充说,实现类人结果延续了微软认知智能系统中已经确立的趋势。

“过去五年,我们在五个主要领域取得了类人的成果:语音识别、机器翻译、回答问题、机器阅读和文本理解,以及 2020 年,尽管有 COVID-19,但在图像描述方面”胡安说。

通过主题

比较系统之前和现在使用AI给出的图像描述结果

微软在 Azure AI 中的最新技术可以描述图像和人

照片由盖蒂图片社提供。 先前的描述:一个男人在切菜板上准备热狗的特写镜头。 新描述:一个男人制作面包。

微软在 Azure AI 中的最新技术可以描述图像和人

照片由盖蒂图片社提供。 上一篇描述: 一个男人坐在夕阳下。 新描述:海滩上的篝火。

微软在 Azure AI 中的最新技术可以描述图像和人

照片由盖蒂图片社提供。 先前描述:一个穿着蓝色衬衫的男人。 新描述:几个人戴着外科口罩。

微软在 Azure AI 中的最新技术可以描述图像和人

照片由盖蒂图片社提供。 上一篇: 一个人踩着滑板飞上墙。 新描述:棒球运动员接球。

来源: habr.com

添加评论