Microsoft 的使命是幫助地球上的每個人和組織取得更大成就。 媒體產業是實現這項使命的一個很好的例子。 我們生活在一個以更多方式、在更多設備上創建和消費更多內容的時代。 在 IBC 2019 上,我們分享了我們正在研究的最新創新以及它們如何幫助改變您的媒體體驗。
詳情下切!
此頁面已開啟
視訊索引器現在支援動畫和多語言內容
去年,我們在 IBC 上屢獲殊榮
我們的最新產品包括兩個備受追捧的差異化功能的預覽——動畫字符識別和多語言語音轉錄——以及視頻索引器中現有模型的一些補充。
動畫人物識別
動畫內容是最受歡迎的內容類型之一,但設計用於識別人臉的標準電腦視覺模型不能很好地配合它,特別是當內容包含沒有人類面部特徵的角色時。 新的預覽版本將視訊索引器與微軟的Azure自訂視覺服務相結合,提供了一組新的模型,可以自動偵測和分組動畫角色,並使用整合的自訂視覺模型輕鬆標記和識別它們。
這些模型被整合到一個管道中,允許任何人在沒有任何機器學習知識的情況下使用該服務。 結果可透過無程式碼視訊索引器入口網站或透過 REST API 取得,以便快速整合到您自己的應用程式中。
我們建立這些模型是為了與動畫角色以及一些提供真實動畫內容進行培訓和測試的消費者一起使用。 數據提供者之一、維亞康姆國際媒體網路公司工作室技術和後製高級總監安迪·古特里奇(Andy Gutteridge) 很好地總結了新功能的價值:「增加強大的人工智慧驅動的動畫內容發現將允許我們能夠從我們的庫內容中快速有效地找到和編錄角色元資料。
最重要的是,它將使我們的創意團隊能夠立即找到他們需要的內容,最大限度地減少管理媒體的時間,讓他們能夠專注於創造力。”
您可以開始熟悉動畫角色識別
多種語言內容的辨識與轉錄
一些媒體資源,例如新聞、編年史和採訪,包含人們講不同語言的錄音。 大多數現有的語音轉文字功能需要事先指定音訊辨識語言,這使得轉錄多語言視訊變得困難。
我們針對各種類型內容的新自動口語識別功能使用機器學習技術來識別媒體資產中發現的語言。 一旦偵測到,每個語言片段會自動以適當的語言進行轉錄過程,然後所有片段被組合成一個多語言轉錄檔案。
產生的文字記錄可作為視訊索引器的 JSON 輸出的一部分和字幕檔案使用。 輸出文字記錄還與 Azure 搜尋集成,可讓您立即搜尋影片中的不同語言片段。 此外,使用視訊索引器入口網站時可以使用多語言轉錄,因此您可以隨著時間的推移查看轉錄和識別的語言,或跳到影片中每種語言的特定位置,並在影片播放時將多語言轉錄作為字幕查看。 您也可以透過入口網站和 API 將收到的文字翻譯成 54 種可用語言中的任何一種。
詳細了解新的多語言內容識別功能及其在影片索引器中的使用方式
其他更新和改進的模型
我們也為視訊索引器新增了新模型並改進了現有模型,包括下文所述的模型。
提取與人和地點相關的實體
我們擴展了現有的品牌發現能力,將眾所周知的名稱和地點包括在內,例如巴黎的艾菲爾鐵塔和倫敦的大笨鐘。 當它們出現在產生的文字記錄中或使用光學字元辨識 (OCR) 的螢幕上時,就會新增相關資訊。 借助這項新功能,您可以搜尋影片中出現的所有人物、地點和品牌,並查看有關它們的詳細信息,包括時間段、描述以及指向 Bing 搜尋引擎的連結以獲取更多資訊。
編輯器的幀檢測模型
此新功能在 JSON 詳細資訊中附加到各個幀的元資料中添加了一組“標籤”,以表示其編輯類型(例如,廣角鏡頭、中景鏡頭、特寫、極端特寫、兩個鏡頭、多人) 、室外、室內等)。 在編輯剪輯和預告片的影片時,或者在出於藝術目的尋找特定的鏡頭風格時,這些鏡頭類型特徵非常有用。
增強的 IPTC 映射粒度
我們的主題檢測模型根據轉錄、光學字元辨識 (OCR) 和檢測到的名人來確定影片的主題,即使主題沒有明確指定。 我們將這些偵測到的主題對應到四個分類區域:Wikipedia、Bing、IPTC 和 IAB。 這項增強功能使我們能夠納入二級 IPTC 分類。
利用這些改進就像重新索引當前的視訊索引器庫一樣簡單。
新的直播功能
在 Azure 媒體服務預覽中,我們還提供了兩個用於直播的新功能。
AI 驅動的即時轉錄將直播提升到新的水平
使用 Azure 媒體服務進行直播,現在可以接收輸出串流,其中除了音訊和視訊內容之外,還包括自動生成的文字軌道。 該文本是使用基於人工智慧的即時音訊轉錄創建的。 在語音到文字轉換之前和之後應用自訂技術以改善結果。 文字軌道以 IMSC1、TTML 或 WebVTT 封裝,取決於是否以 DASH、HLS CMAF 或 HLS TS 形式提供。
24/7 OTT 通道的即時線路編碼
使用我們的 v3 API,您可以建立、管理和廣播 OTT(OTT)頻道,並使用所有其他 Azure 媒體服務功能,例如直播視訊點播(VOD,視訊點播)、打包和數位版權管理( DRM,數位版權管理)。
要查看這些功能的預覽版本,請訪問
新的包生成功能
支援音頻描述軌道
除了常規音訊訊號之外,透過廣播頻道廣播的內容通常還具有音軌,其中對螢幕上發生的情況進行口頭解釋。 這使得視障觀眾更容易觀看節目,特別是當內容主要是視覺時。 新的
插入 ID3 元數據
為了向客戶端播放器發出插入廣告或自訂元資料事件的訊號,廣播公司通常使用嵌入在影片中的定時元資料。 除了 SCTE-35 訊號模式外,我們現在還支持
Microsoft Azure 合作夥伴展示端對端解決方案
國際公司
來源: www.habr.com