Whisper語音辨識與翻譯系統代碼已開放

開發人工智慧領域公共專案的 OpenAI 專案發布了與 Whisper 語音辨識系統相關的進展。 據稱,對於英語語音,該系統提供了接近人類識別的自動識別可靠性和準確性。 基於 PyTorch 框架的參考實作程式碼和一組已經訓練好的模型已可供使用。 該代碼在 MIT 許可證下開放。

為了訓練該模型,使用了 680 萬小時的語音數據,這些數據是從涵蓋不同語言和主題領域的多個集合中收集的。 訓練涉及的語音資料中約有1/3是英語以外的語言。 所提出的系統可以正確處理重音發音、背景噪音和技術術語的使用等情況。 除了將語音轉錄為文字之外,該系統還可以將任何語言的語音翻譯為英語,並偵測音訊串流中語音的出現。

這些模型由兩種表示形式組成:英語模型和多語言模型,該模型還支援俄語、烏克蘭語和白俄羅斯語。 反過來,每個表示又分為 5 個選項,模型中涵蓋的參數大小和數量各不相同。 尺寸越大,辨識的準確率和品質越高,但對GPU顯存大小的要求也越高,效能也越低。 例如,最小選項包含 39 萬個參數,需要 1 GB 記憶體;最大選項包含 1550 億個參數,需要 10 GB 記憶體。 最小選項比最大選項快 32 倍。

Whisper語音辨識與翻譯系統代碼已開放

該系統採用 Transformer 神經網路架構,其中包括相互交互的編碼器和解碼器。 音訊被分解為 30 秒的區塊,這些區塊被轉換為 log-Mel 頻譜圖並發送到編碼器。 編碼器的輸出被發送到解碼器,解碼器預測與特殊標記混合的文本表示,這些標記允許在通用模型中解決諸如語言檢測、解釋短語發音的時間順序、語音轉錄等問題。不同的語言,並翻譯成英文。

來源: opennet.ru

添加評論