該集還
DeepSpeech 比傳統系統簡單得多,同時在存在外來噪聲的情況下提供更高質量的識別。 該開發不使用傳統的聲學模型和音素概念,而是使用基於神經網絡的經過良好優化的機器學習系統,無需開發單獨的組件來對各種偏差進行建模,例如噪聲、迴聲和語音特徵.
這種方法的缺點是,為了獲得高質量的神經網絡識別和訓練,DeepSpeech 引擎需要在真實條件下由不同語音和存在自然噪聲的情況下口述的大量異構數據。
此類數據的收集由在 Mozilla 中創建的項目執行
Common Voice 項目的最終目標是積累 10 小時的典型人類語音短語各種發音的錄音,這將達到可接受的識別錯誤水平。 在目前的形式下,項目參與者已經口述了總計 4.3 小時,其中 3.5 小時已經過測試。 在為 DeepSpeech 訓練英語語言的最終模型時,使用了 3816 小時的演講,此外還包括來自 LibriSpeech、Fisher 和 Switchboard 項目的 Common Voice 數據,還包括大約 1700 小時的轉錄廣播節目錄音。
使用提供下載的現成英語語言模型時,DeepSpeech 的識別錯誤水平在測試集評估時為 7.5%
DeepSpeech 由兩個子系統組成——聲學模型和解碼器。 聲學模型使用深度機器學習方法來計算某些符號出現在輸入聲音中的概率。 解碼器使用束搜索算法將符號概率數據轉換為文本表示。
主要的
- 提出了一種新的流解碼器,它提供更高的響應能力並且不依賴於處理後的音頻數據的大小。 因此,新版本的 DeepSpeech 能夠將識別延遲減少到 260 毫秒,比以前快 73%,並允許您在即時語音識別解決方案中使用 DeepSpeech。
- 已對 API 進行更改,並已完成統一函數名稱的工作。 已添加功能以獲取有關同步的額外元數據,不僅允許接收文本表示作為輸出,還允許跟踪單個字符和句子與音頻流中某個位置的綁定。
- 對使用庫的支持已添加到學習模塊的工具包中
銅DNN 優化循環神經網絡 (RNN) 的工作,這使得模型訓練性能顯著提高(大約兩倍)成為可能,但需要更改違反與先前準備的模型的兼容性的代碼。 - TensorFlow 版本的最低要求已從 1.13.1 提高到 1.14.0。 添加了對 TensorFlow Lite 輕量級版本的支持,將 DeepSpeech 包大小從 98 MB 減少到 3.7 MB。 為了在嵌入式和移動設備上使用,模型的打包文件大小也從 188 MB 減小到 47 MB(模型訓練後使用量化方法進行壓縮)。
- 語言模型已被翻譯成不同格式的數據結構,允許您在加載時將文件映射到內存中。 對舊格式的支持已停止。
- 更改了加載語言模型文件的方式,減少了內存消耗,減少了模型創建後處理第一個請求的延遲。 DeepSpeech 現在在運行時消耗的內存減少了 22 倍,啟動速度提高了 500 倍。
- 在語言模型中過濾了稀有詞。 用於訓練模型的文本中最流行的單詞總數已減少到 500 個。 清理使語言模型的大小從 1800MB 減少到 900MB 成為可能,而對識別錯誤的水平幾乎沒有影響。
- 添加了對各種的支持
技術員 為訓練中使用的聲音數據創建額外的變化(增強)(例如,添加到包含失真或噪聲的選項集中)。 - 添加了一個帶有綁定的庫,用於與基於 .NET 平台的應用程序集成。
- 重新設計的文檔,現在收集在一個單獨的站點上
deepspeech.readthedocs.io .
來源: opennet.ru