12 个新的 Azure 人工智能媒体服务

Microsoft 的使命是帮助地球上的每个人和组织取得更大成就。 媒体行业是实现这一使命的一个很好的例子。 我们生活在一个以更多方式、在更多设备上创建和消费更多内容的时代。 在 IBC 2019 上,我们分享了我们正在研究的最新创新以及它们如何帮助改变您的媒体体验。
12 个新的 Azure 人工智能媒体服务
详情下切!

此页面已打开 我们的网站。

视频索引器现在支持动画和多语言内容

去年,我们在 IBC 上屡获殊荣 Azure 媒体服务视频索引器,今年情况变得更好了。 视频索引器自动从媒体文件中提取信息和元数据,例如口语、面孔、情感、主题和品牌,您无需成为机器学习专家即可使用它。

我们的最新产品包括两个备受追捧的差异化功能的预览——动画字符识别和多语言语音转录——以及视频索引器中现有模型的一些补充。

动画人物识别

12 个新的 Azure 人工智能媒体服务
动画内容是最流行的内容类型之一,但设计用于识别人脸的标准计算机视觉模型不能很好地配合它,特别是当内容包含没有人类面部特征的角色时。 新的预览版本将视频索引器与微软的Azure自定义视觉服务相结合,提供了一组新的模型,可以自动检测和分组动画角色,并使用集成的自定义视觉模型轻松标记和识别它们。

这些模型被集成到一个管道中,允许任何人在没有任何机器学习知识的情况下使用该服务。 结果可通过无代码视频索引器门户或通过 REST API 获得,以便快速集成到您自己的应用程序中。

我们构建这些模型是为了与动画角色以及一些提供真实动画内容进行培训和测试的消费者一起工作。 数据提供商之一、维亚康姆国际媒体网络公司工作室技术和后期制作高级总监安迪·古特里奇 (Andy Gutteridge) 很好地总结了新功能的价值:“添加强大的人工智能驱动的动画内容发现将允许我们能够从我们的库内容中快速有效地查找和编录角色元数据。

最重要的是,它将使我们的创意团队能够立即找到他们需要的内容,最大限度地减少管理媒体的时间,让他们能够专注于创造力。”

您可以开始熟悉动画角色识别 文档页.

多种语言内容的识别和转录

一些媒体资源,例如新闻、编年史和采访,包含人们讲不同语言的录音。 大多数现有的语音转文本功能需要提前指定音频识别语言,这使得转录多语言视频变得困难。

我们针对各种类型内容的新自动口语语言识别功能使用机器学习技术来识别媒体资产中发现的语言。 一旦检测到,每个语言片段会自动以适当的语言进行转录过程,然后所有片段被组合成一个多语言转录文件。

12 个新的 Azure 人工智能媒体服务

生成的文字记录可作为视频索引器的 JSON 输出的一部分和字幕文件使用。 输出文字记录还与 Azure 搜索集成,使您可以立即搜索视频中的不同语言片段。 此外,使用视频索引器门户时可以使用多语言转录,因此您可以随着时间的推移查看转录和识别的语言,或者跳转到视频中每种语言的特定位置,并在视频播放时将多语言转录作为字幕查看。 您还可以通过门户和 API 将收到的文本翻译成 54 种可用语言中的任何一种。

详细了解新的多语言内容识别功能及其在视频索引器中的使用方式 阅读文档.

其他更新和改进的模型

我们还向视频索引器添加了新模型并改进了现有模型,包括下文所述的模型。

提取与人和地点相关的实体

我们扩展了现有的品牌发现能力,将众所周知的名称和地点包括在内,例如巴黎的埃菲尔铁塔和伦敦的大本钟。 当它们出现在生成的文字记录中或使用光学字符识别 (OCR) 的屏幕上时,就会添加相关信息。 借助这项新功能,您可以搜索视频中出现的所有人物、地点和品牌,并查看有关它们的详细信息,包括时间段、描述以及指向 Bing 搜索引擎的链接以获取更多信息。

12 个新的 Azure 人工智能媒体服务

编辑器的帧检测模型

此新功能在 JSON 详细信息中附加到各个帧的元数据中添加了一组“标签”,以表示其编辑类型(例如,广角镜头、中景镜头、特写、极端特写、两个镜头、多人) 、室外、室内等)。 在编辑剪辑和预告片的视频时,或者在出于艺术目的寻找特定的镜头风格时,这些镜头类型特征非常有用。

12 个新的 Azure 人工智能媒体服务
了解更多 视频索引器中的帧类型检测。

增强的 IPTC 映射粒度

我们的主题检测模型根据转录、光学字符识别 (OCR) 和检测到的名人来确定视频的主题,即使主题没有明确指定。 我们将这些检测到的主题映射到四个分类区域:Wikipedia、Bing、IPTC 和 IAB。 这一增强功能使我们能够纳入二级 IPTC 分类。
利用这些改进就像重新索引当前的视频索引器库一样简单。

新的直播功能

在 Azure 媒体服务预览中,我们还提供了两项用于直播的新功能。

AI 驱动的实时转录将直播提升到新的水平

使用 Azure 媒体服务进行直播,现在可以接收输出流,其中除了音频和视频内容之外,还包括自动生成的文本轨道。 该文本是使用基于人工智能的实时音频转录创建的。 在语音到文本转换之前和之后应用自定义技术以改善结果。 文本轨道以 IMSC1、TTML 或 WebVTT 封装,具体取决于是否以 DASH、HLS CMAF 或 HLS TS 形式提供。

24/7 OTT 通道的实时线路编码

使用我们的 v3 API,您可以创建、管理和广播 OTT(OTT)频道,并使用所有其他 Azure 媒体服务功能,例如直播视频点播(VOD,视频点播)、打包和数字版权管理( DRM,数字版权管理)。
要查看这些功能的预览版本,请访问 Azure 媒体服务社区.

12 个新的 Azure 人工智能媒体服务

新的包生成功能

支持音频描述轨道

除了常规音频信号之外,通过广播频道广播的内容通常还具有音轨,其中对屏幕上发生的情况进行口头解释。 这使得视障观众更容易观看节目,特别是当内容主要是视觉时。 新的 音频描述功能 允许您将其中一个音轨注释为音频描述轨道(AD,音频描述),从而允许玩家将 AD 轨道提供给观众。

插入 ID3 元数据

为了向客户端播放器发出插入广告或自定义元数据事件的信号,广播公司通常使用嵌入在视频中的定时元数据。 除了 SCTE-35 信令模式外,我们现在还支持 ID3v2和其他自定义方案,由应用程序开发人员定义供客户端应用程序使用。

Microsoft Azure 合作伙伴展示端到端解决方案

Bitmovin 推出适用于 Microsoft Azure 的 Bitmovin 视频编码和 Bitmovin 视频播放器。 客户现在可以利用 Azure 中的这些编码和播出解决方案,并受益于高级功能,例如三阶段编码、AV1/VC 编解码器支持、多语言字幕以及用于 QoS、广告和视频跟踪的预集成视频分析。

永恒的 在 Azure 上展示其用户生命周期管理平台。 作为收入和客户生命周期管理解决方案的领先提供商,Evergent 使用 Azure AI 在客户生命周期的关键点创建有针对性的服务包和优惠,帮助优质娱乐提供商提高客户获取和保留率。

Haivision 将展示其基于云的智能媒体路由服务 SRT Hub,该服务可帮助客户利用以下方式转变端到端工作流程 Azure 数据框边缘 并利用来自 Avid、Telestream、Wowza、Cinegy 和 Make.tv 的 Hublets 转变工作流程。

SES 在 Azure 平台上为其卫星和托管媒体服务客户开发了一套广播级媒体服务。 SES 将演示完全托管的播放服务解决方案,包括主播放、本地化播放、广告发现和替换,以及 Azure 上的高质量实时 24x7 多通道编码。

同步字 在 Azure 上提供方便的云工具和签名自动化技术。 这些产品将使媒体组织能够更轻松地自动将字幕(包括外语字幕)添加到 Azure 上的直播和离线视频工作流程中。
国际公司 塔塔埃尔克斯一家技术服务公司已将其 OTT SaaS 平台 TEPlay 集成到 Azure 媒体服务中,以从云端提供 OTT 内容。 Tata Elxsi 还将其 Falcon Eye 体验质量 (QoE) 监控解决方案引入 Microsoft Azure,为决策提供分析和指标。

Verizon Media 正在将其流媒体平台作为测试版在 Azure 上提供。 Verizon Media Platform 是一种企业级托管 OTT 解决方案,包括 DRM、广告插入、一对一个性化会话、动态内容替换和视频交付。 该集成简化了工作流程、全球支持和规模,并释放了 Azure 中的一些独特功能。

来源: habr.com

添加评论