亞馬遜發布了一個用於理解 51 種語言語音的資料集

Amazon 根據 CC BY 4.0 授權發布了「MASSIVE」(用於插槽填充、意圖分類和虛擬助理評估的多語言 Amazon SLURP)資料集、機器學習系統模型以及用於訓練您自己的模型的工具,可用於理解自然語言訊息(NLU,自然語言理解)。 該集包括為 51 種語言準備的超過 XNUMX 萬條帶註釋和分類的文本話語。

SLURP 集合最初適用於英語,後來被用作構建 MASSIVE 集合的參考,並使用專業翻譯人員將其本地化為其他 50 種語言。 Alexa 的自然語言理解 (NLU) 技術首先將語音轉換為文本,然後將多個 NLU 模型應用於文本,分析關鍵字的存在,以確定使用者問題的本質。

創建和發布該集合的目標之一是使語音助理能夠同時處理多種語言的訊息,並鼓勵第三方開發人員創建擴展語音助理功能的應用程式和服務。 為了吸引開發人員的注意力,亞馬遜發起了一項競賽,以使用已發布的資料集創建最佳通用模型。

目前,語音助理僅支援幾種語言,並使用與特定語言相關的機器學習模型。 MASSIVE 計畫旨在透過創建能夠解析和處理不同語言資訊的通用模型和機器學習系統來消除這一缺點。

來源: opennet.ru

添加評論