Microsoft 的使命是帮助地球上的每个人和组织取得更大成就。 媒体行业是实现这一使命的一个很好的例子。 我们生活在一个以更多方式、在更多设备上创建和消费更多内容的时代。 在 IBC 2019 上,我们分享了我们正在研究的最新创新以及它们如何帮助改变您的媒体体验。
详情下切!
此页面已打开
视频索引器现在支持动画和多语言内容
去年,我们在 IBC 上屡获殊荣
我们的最新产品包括两个备受追捧的差异化功能的预览——动画字符识别和多语言语音转录——以及视频索引器中现有模型的一些补充。
动画人物识别
动画内容是最流行的内容类型之一,但设计用于识别人脸的标准计算机视觉模型不能很好地配合它,特别是当内容包含没有人类面部特征的角色时。 新的预览版本将视频索引器与微软的Azure自定义视觉服务相结合,提供了一组新的模型,可以自动检测和分组动画角色,并使用集成的自定义视觉模型轻松标记和识别它们。
这些模型被集成到一个管道中,允许任何人在没有任何机器学习知识的情况下使用该服务。 结果可通过无代码视频索引器门户或通过 REST API 获得,以便快速集成到您自己的应用程序中。
我们构建这些模型是为了与动画角色以及一些提供真实动画内容进行培训和测试的消费者一起工作。 数据提供商之一、维亚康姆国际媒体网络公司工作室技术和后期制作高级总监安迪·古特里奇 (Andy Gutteridge) 很好地总结了新功能的价值:“添加强大的人工智能驱动的动画内容发现将允许我们能够从我们的库内容中快速有效地查找和编录角色元数据。
最重要的是,它将使我们的创意团队能够立即找到他们需要的内容,最大限度地减少管理媒体的时间,让他们能够专注于创造力。”
您可以开始熟悉动画角色识别
多种语言内容的识别和转录
一些媒体资源,例如新闻、编年史和采访,包含人们讲不同语言的录音。 大多数现有的语音转文本功能需要提前指定音频识别语言,这使得转录多语言视频变得困难。
我们针对各种类型内容的新自动口语语言识别功能使用机器学习技术来识别媒体资产中发现的语言。 一旦检测到,每个语言片段会自动以适当的语言进行转录过程,然后所有片段被组合成一个多语言转录文件。
生成的文字记录可作为视频索引器的 JSON 输出的一部分和字幕文件使用。 输出文字记录还与 Azure 搜索集成,使您可以立即搜索视频中的不同语言片段。 此外,使用视频索引器门户时可以使用多语言转录,因此您可以随着时间的推移查看转录和识别的语言,或者跳转到视频中每种语言的特定位置,并在视频播放时将多语言转录作为字幕查看。 您还可以通过门户和 API 将收到的文本翻译成 54 种可用语言中的任何一种。
详细了解新的多语言内容识别功能及其在视频索引器中的使用方式
其他更新和改进的模型
我们还向视频索引器添加了新模型并改进了现有模型,包括下文所述的模型。
提取与人和地点相关的实体
我们扩展了现有的品牌发现能力,将众所周知的名称和地点包括在内,例如巴黎的埃菲尔铁塔和伦敦的大本钟。 当它们出现在生成的文字记录中或使用光学字符识别 (OCR) 的屏幕上时,就会添加相关信息。 借助这项新功能,您可以搜索视频中出现的所有人物、地点和品牌,并查看有关它们的详细信息,包括时间段、描述以及指向 Bing 搜索引擎的链接以获取更多信息。
编辑器的帧检测模型
此新功能在 JSON 详细信息中附加到各个帧的元数据中添加了一组“标签”,以表示其编辑类型(例如,广角镜头、中景镜头、特写、极端特写、两个镜头、多人) 、室外、室内等)。 在编辑剪辑和预告片的视频时,或者在出于艺术目的寻找特定的镜头风格时,这些镜头类型特征非常有用。
增强的 IPTC 映射粒度
我们的主题检测模型根据转录、光学字符识别 (OCR) 和检测到的名人来确定视频的主题,即使主题没有明确指定。 我们将这些检测到的主题映射到四个分类区域:Wikipedia、Bing、IPTC 和 IAB。 这一增强功能使我们能够纳入二级 IPTC 分类。
利用这些改进就像重新索引当前的视频索引器库一样简单。
新的直播功能
在 Azure 媒体服务预览中,我们还提供了两项用于直播的新功能。
AI 驱动的实时转录将直播提升到新的水平
使用 Azure 媒体服务进行直播,现在可以接收输出流,其中除了音频和视频内容之外,还包括自动生成的文本轨道。 该文本是使用基于人工智能的实时音频转录创建的。 在语音到文本转换之前和之后应用自定义技术以改善结果。 文本轨道以 IMSC1、TTML 或 WebVTT 封装,具体取决于是否以 DASH、HLS CMAF 或 HLS TS 形式提供。
24/7 OTT 通道的实时线路编码
使用我们的 v3 API,您可以创建、管理和广播 OTT(OTT)频道,并使用所有其他 Azure 媒体服务功能,例如直播视频点播(VOD,视频点播)、打包和数字版权管理( DRM,数字版权管理)。
要查看这些功能的预览版本,请访问
新的包生成功能
支持音频描述轨道
除了常规音频信号之外,通过广播频道广播的内容通常还具有音轨,其中对屏幕上发生的情况进行口头解释。 这使得视障观众更容易观看节目,特别是当内容主要是视觉时。 新的
插入 ID3 元数据
为了向客户端播放器发出插入广告或自定义元数据事件的信号,广播公司通常使用嵌入在视频中的定时元数据。 除了 SCTE-35 信令模式外,我们现在还支持
Microsoft Azure 合作伙伴展示端到端解决方案
国际公司
来源: habr.com