Vosk ライブラリのロシア語音声認識の新しいモデル

Vosk ライブラリの開発者は、ロシア語音声認識の新しいモデル、サーバー vosk-model-ru-0.22 およびモバイル Vosk-model-small-ru-0.22 を公開しました。 このモデルでは、新しい音声データと新しいニューラル ネットワーク アーキテクチャが使用されており、認識精度が 10 ~ 20% 向上しています。 コードとデータは、Apache 2.0 ライセンスに基づいて配布されます。

重要な変更点:

  • 音声スピーカーで収集された新しいデータにより、遠くから話された音声コマンドの認識が大幅に向上しました。
  • 新しい音声抽出スキームにより、広帯域録音の認識精度が大幅に向上しました。 同時に電話認識の精度も向上しました。
  • 辞書拡張パッケージを使用すると、複雑な技術記録の認識をカスタマイズできます。

最高の精度を得るには、Wax バージョンを 0.3.32 に更新することをお勧めします。 Vosk の新機能、Unity、Nativescript、Jigasi との統合にも興味があるかもしれません。 カザフ語とウクライナ語を認識するためのモデル。 サーバー モデルの動作には、最新のプロセッサと 8 GB のメモリが必要です。 モバイル モデルは電話および RaspberryPi 3+ で使用できます。

出所: オープンネット.ru

コメントを追加します