12 個新的 Azure 人工智慧媒體服務

Microsoft 的使命是幫助地球上的每個人和組織取得更大成就。 媒體產業是實現這項使命的一個很好的例子。 我們生活在一個以更多方式、在更多設備上創建和消費更多內容的時代。 在 IBC 2019 上,我們分享了我們正在研究的最新創新以及它們如何幫助改變您的媒體體驗。
12 個新的 Azure 人工智慧媒體服務
詳情下切!

此頁面已開啟 我們的網站。

視訊索引器現在支援動畫和多語言內容

去年,我們在 IBC 上屢獲殊榮 Azure 媒體服務影片索引器,今年情況變得更好了。 視訊索引器會自動從媒體檔案中提取資訊和元數據,例如口語、臉孔、情緒、主題和品牌,您無需成為機器學習專家即可使用它。

我們的最新產品包括兩個備受追捧的差異化功能的預覽——動畫字符識別和多語言語音轉錄——以及視頻索引器中現有模型的一些補充。

動畫人物識別

12 個新的 Azure 人工智慧媒體服務
動畫內容是最受歡迎的內容類型之一,但設計用於識別人臉的標準電腦視覺模型不能很好地配合它,特別是當內容包含沒有人類面部特徵的角色時。 新的預覽版本將視訊索引器與微軟的Azure自訂視覺服務相結合,提供了一組新的模型,可以自動偵測和分組動畫角色,並使用整合的自訂視覺模型輕鬆標記和識別它們。

這些模型被整合到一個管道中,允許任何人在沒有任何機器學習知識的情況下使用該服務。 結果可透過無程式碼視訊索引器入口網站或透過 REST API 取得,以便快速整合到您自己的應用程式中。

我們建立這些模型是為了與動畫角色以及一些提供真實動畫內容進行培訓和測試的消費者一起使用。 數據提供者之一、維亞康姆國際媒體網路公司工作室技術和後製高級總監安迪·古特里奇(Andy Gutteridge) 很好地總結了新功能的價值:「增加強大的人工智慧驅動的動畫內容發現將允許我們能夠從我們的庫內容中快速有效地找到和編錄角色元資料。

最重要的是,它將使我們的創意團隊能夠立即找到他們需要的內容,最大限度地減少管理媒體的時間,讓他們能夠專注於創造力。”

您可以開始熟悉動畫角色識別 文件頁.

多種語言內容的辨識與轉錄

一些媒體資源,例如新聞、編年史和採訪,包含人們講不同語言的錄音。 大多數現有的語音轉文字功能需要事先指定音訊辨識語言,這使得轉錄多語言視訊變得困難。

我們針對各種類型內容的新自動口語識別功能使用機器學習技術來識別媒體資產中發現的語言。 一旦偵測到,每個語言片段會自動以適當的語言進行轉錄過程,然後所有片段被組合成一個多語言轉錄檔案。

12 個新的 Azure 人工智慧媒體服務

產生的文字記錄可作為視訊索引器的 JSON 輸出的一部分和字幕檔案使用。 輸出文字記錄還與 Azure 搜尋集成,可讓您立即搜尋影片中的不同語言片段。 此外,使用視訊索引器入口網站時可以使用多語言轉錄,因此您可以隨著時間的推移查看轉錄和識別的語言,或跳到影片中每種語言的特定位置,並在影片播放時將多語言轉錄作為字幕查看。 您也可以透過入口網站和 API 將收到的文字翻譯成 54 種可用語言中的任何一種。

詳細了解新的多語言內容識別功能及其在影片索引器中的使用方式 閱讀文件.

其他更新和改進的模型

我們也為視訊索引器新增了新模型並改進了現有模型,包括下文所述的模型。

提取與人和地點相關的實體

我們擴展了現有的品牌發現能力,將眾所周知的名稱和地點包括在內,例如巴黎的艾菲爾鐵塔和倫敦的大笨鐘。 當它們出現在產生的文字記錄中或使用光學字元辨識 (OCR) 的螢幕上時,就會新增相關資訊。 借助這項新功能,您可以搜尋影片中出現的所有人物、地點和品牌,並查看有關它們的詳細信息,包括時間段、描述以及指向 Bing 搜尋引擎的連結以獲取更多資訊。

12 個新的 Azure 人工智慧媒體服務

編輯器的幀檢測模型

此新功能在 JSON 詳細資訊中附加到各個幀的元資料中添加了一組“標籤”,以表示其編輯類型(例如,廣角鏡頭、中景鏡頭、特寫、極端特寫、兩個鏡頭、多人) 、室外、室內等)。 在編輯剪輯和預告片的影片時,或者在出於藝術目的尋找特定的鏡頭風格時,這些鏡頭類型特徵非常有用。

12 個新的 Azure 人工智慧媒體服務
了解更多 視訊索引器中的幀類型檢測。

增強的 IPTC 映射粒度

我們的主題檢測模型根據轉錄、光學字元辨識 (OCR) 和檢測到的名人來確定影片的主題,即使主題沒有明確指定。 我們將這些偵測到的主題對應到四個分類區域:Wikipedia、Bing、IPTC 和 IAB。 這項增強功能使我們能夠納入二級 IPTC 分類。
利用這些改進就像重新索引當前的視訊索引器庫一樣簡單。

新的直播功能

在 Azure 媒體服務預覽中,我們還提供了兩個用於直播的新功能。

AI 驅動的即時轉錄將直播提升到新的水平

使用 Azure 媒體服務進行直播,現在可以接收輸出串流,其中除了音訊和視訊內容之外,還包括自動生成的文字軌道。 該文本是使用基於人工智慧的即時音訊轉錄創建的。 在語音到文字轉換之前和之後應用自訂技術以改善結果。 文字軌道以 IMSC1、TTML 或 WebVTT 封裝,取決於是否以 DASH、HLS CMAF 或 HLS TS 形式提供。

24/7 OTT 通道的即時線路編碼

使用我們的 v3 API,您可以建立、管理和廣播 OTT(OTT)頻道,並使用所有其他 Azure 媒體服務功能,例如直播視訊點播(VOD,視訊點播)、打包和數位版權管理( DRM,數位版權管理)。
要查看這些功能的預覽版本,請訪問 Azure 媒體服務社群.

12 個新的 Azure 人工智慧媒體服務

新的包生成功能

支援音頻描述軌道

除了常規音訊訊號之外,透過廣播頻道廣播的內容通常還具有音軌,其中對螢幕上發生的情況進行口頭解釋。 這使得視障觀眾更容易觀看節目,特別是當內容主要是視覺時。 新的 音訊描述功能 允許您將其中一個音軌註釋為音訊描述軌道(AD,音訊描述),從而允許玩家將 AD 軌道提供給觀眾。

插入 ID3 元數據

為了向客戶端播放器發出插入廣告或自訂元資料事件的訊號,廣播公司通常使用嵌入在影片中的定時元資料。 除了 SCTE-35 訊號模式外,我們現在還支持 ID3v2和其他自訂方案,由應用程式開發人員定義供客戶端應用程式使用。

Microsoft Azure 合作夥伴展示端對端解決方案

Bitmovin 推出適用於 Microsoft Azure 的 Bitmovin 視訊編碼和 Bitmovin 視訊播放器。 客戶現在可以利用Azure 中的這些編碼和播出解決方案,並受益於高級功能,例如三階段編碼、AV1/VC 編解碼器支援、多語言字幕以及用於QoS、廣告和視頻跟踪的預集成視頻分析。

恆進 在 Azure 上展示其使用者生命週期管理平台。 作為收入和客戶生命週期管理解決方案的領先供應商,Evergent 使用 Azure AI 在客戶生命週期的關鍵點創建有針對性的服務包和優惠,幫助優質娛樂供應商提高客戶獲取和保留率。

Haivision 將展示其基於雲端的智慧型媒體路由服務 SRT Hub,該服務可協助客戶利用以下方式轉變端到端工作流程 Azure 數據框邊緣 並利用來自 Avid、Telestream、Wowza、Cinegy 和 Make.tv 的 Hublets 轉變工作流程。

SES 在 Azure 平台上為其衛星和託管媒體服務客戶開發了一套廣播級媒體服務。 SES 將示範完全託管的播放服務解決方案,包括主播放、在地化播放、廣告發現和替換,以及 Azure 上的高品質即時 24x7 多通道編碼。

同步字 在 Azure 上提供方便的雲端工具和簽章自動化技術。 這些產品將使媒體組織能夠更輕鬆地自動將字幕(包括外語字幕)添加到 Azure 上的直播和離線視訊工作流程中。
國際公司 塔塔埃爾克斯一家技術服務公司已將其 OTT SaaS 平台 TEPlay 整合到 Azure 媒體服務中,以從雲端提供 OTT 內容。 Tata Elxsi 也將其 Falcon Eye 體驗品質 (QoE) 監控解決方案引入 Microsoft Azure,為決策提供分析和指標。

Verizon Media 正在將其串流媒體平台作為測試版在 Azure 上提供。 Verizon Media Platform 是一種企業級託管 OTT 解決方案,包括 DRM、廣告插入、一對一個性化會話、動態內容替換和視訊交付。 此整合簡化了工作流程、全球支援和規模,並釋放了 Azure 中的一些獨特功能。

來源: www.habr.com

添加評論