新版Silero語音合成系統

Silero 文字轉語音神經網路語音合成系統的新公開版本現已推出。 該專案的主要目標是創建一個現代化的、高品質的語音合成系統,該系統不亞於企業的商業解決方案,並且每個人都可以使用而無需使用昂貴的伺服器設備。

這些模型是在 GNU AGPL 授權下分發的,但開發該專案的公司並沒有透露訓練模型的機制。 要運行,您可以使用 PyTorch 和支援 ONNX 格式的框架。 Silero 中的語音合成是基於使用經過深度修改的現代神經網路演算法和數位訊號處理方法。

值得注意的是,現代語音合成神經網路解決方案的主要問題是它們通常只能在付費雲端解決方案中提供,而公共產品對硬體要求高、品質較低或不完整且可供使用產品。 例如,要在綜合模式(即不用於模型訓練)下順利運行一種新流行的端對端綜合架構 VITS,需要具有超過 16 GB VRAM 的顯示卡。

與當前趨勢相反,Silero 解決方案甚至可以在具有 AVX1 指令的英特爾處理器的 86 x2 執行緒上成功運行。 在 4 個處理器執行緒上,合成可讓您在 30 kHz 合成模式下每秒合成 60 到 8 秒,在 24 kHz 模式下合成 - 15-20 秒,在 48 kHz 模式下合成 - 大約 10 秒。

新 Silero 版本的主要特點:

  • 模型大小減少了 2 倍,達到 50 MB;
  • 模特兒知道如何暫停;
  • 提供 4 種高品質俄語語音(以及無限數量的隨機語音)。 發音範例;
  • 這些模型的速度提高了 10 倍,例如,在 24 kHz 模式下,它們允許您在 20 個處理器執行緒上每秒合成長達 4 秒的音訊;
  • 一種語言的所有語音選項都打包到一個模型中;
  • 模型可以接受整段文字作為輸入,支援 SSML 標籤;
  • 合成同時以三種取樣頻率進行工作,可供選擇 - 8、24 和 48 kHz;
  • 「孩子的問題」解決了:不穩定、漏詞;
  • 增加了標誌來控制重音符號的自動放置和字母“е”的放置。

目前,對於合成的最新版本,公開了 4 個俄語語音,但在不久的將來,將發布下一個版本,並進行以下更改:

  • 合成率將再提高2-4倍;
  • 將更新獨聯體語言的綜合模型:卡爾梅克語、韃靼語、烏茲別克語和烏克蘭語;
  • 將添加歐洲語言的模型;
  • 將添加印度語言的模型;
  • 將添加英語模型。

Silero 合成中固有的一些系統故障:

  • 與 RHVoice 等更傳統的合成解決方案不同,Silero 合成沒有 SAPI 整合、易於安裝的用戶端或 Windows 和 Android 整合;
  • 雖然速度對於此類解決方案來說是前所未有的高,但可能不足以在弱處理器上進行高品質的即時合成;
  • 自動重音解決方案不處理同形異義詞(如 castle 和 castle 等單字),並且仍然會出錯,但這將在未來的版本中得到糾正;
  • 目前版本的綜合不適用於沒有 AVX2 指令的處理器(或者您需要專門更改 PyTorch 設定),因為模型內的模組之一是量化的;
  • 目前版本的綜合本質上只有一個 PyTorch 依賴項;所有填充都是「硬連線」在模型和 JIT 套件內。 模型的原始碼以及從其他語言的 PyTorch 用戶端運行模型的程式碼未公開;
  • 適用於行動平台的 Libtorch 比 ONNX 執行時間體積大得多,但此車型的 ONNX 版本尚未提供。

來源: opennet.ru

添加評論