Mozilla が DeepSpeech 0.6 音声認識エンジンを発表

から提出された Mozillaが開発した音声認識エンジンのリリース ディープスピーチ 0.6、同じ名前の音声認識アーキテクチャを実装します。 提案した 百度の研究者。 実装は TensorFlow 機械学習フレームワークを使用して Python で書かれており、 によって配布 無料ライセンスMPL 2.0の下で。 Linux、Android、macOS、Windowsをサポートします。 LePotato、Raspberry Pi 3、Raspberry Pi 4 ボードでエンジンを使用するのに十分なパフォーマンスです。

セットも 提供された 訓練されたモデル、 コマンドラインから認識するためのサウンドファイルとツール。 プログラムに音声認識機能を組み込むために、Python、NodeJS、C++、.NET 用のすぐに使用できるモジュールが提供されています (サードパーティの開発者は、 さび и Go)。 完成したモデルは英語のみで提供されますが、ご要望に応じて他の言語でも提供されます。 添付 説明書 を使用して自分でシステムをトレーニングできます 音声データCommon Voice プロジェクトによって収集されました。

DeepSpeech は従来のシステムよりもはるかにシンプルであり、同時に外来ノイズの存在下でも高品質の認識を提供します。 この開発では、従来の音響モデルや音素の概念を使用せず、代わりにニューラル ネットワークに基づいて十分に最適化された機械学習システムを使用します。これにより、ノイズ、エコー、音声特徴などのさまざまな逸脱をモデル化するための個別のコンポーネントを開発する必要がなくなります。 。

このアプローチの欠点は、ニューラル ネットワークの高品質の認識とトレーニングを得るために、DeepSpeech エンジンが実際の状況でさまざまな音声や自然ノイズの存在下で指示された大量の異種データを必要とすることです。
このようなデータの収集は、Mozilla で作成されたプロジェクトによって実行されます。 一般的な声、780 時間使用可能な検証済みのデータセットを提供します。 英語, ドイツ語で325時間、フランス語で173時間、ロシア語で27時間。

Common Voice プロジェクトの最終目標は、人間の典型的な音声フレーズのさまざまな発音の録音を 10 時間蓄積し、許容可能なレベルの認識エラーを達成することです。 現在の形式では、プロジェクト参加者はすでに合計 4.3 千時間の指示を出しており、そのうち 3.5 千時間はテストされています。 DeepSpeech 用の英語の最終モデルをトレーニングする際には、LibriSpeech、Fisher、Switchboard プロジェクトからのデータをカバーする Common Voice に加えて、3816 時間の音声が使用され、約 1700 時間のラジオ番組録音の文字起こしも含まれています。

ダウンロード用に提供されている既製の英語モデルを使用する場合、テスト セットで評価した場合、DeepSpeech の認識エラーのレベルは 7.5% です。 Libriスピーチ。 比較のために、人間の認識における誤り率 概算 5.83%です。

DeepSpeech は、音響モデルとデコーダの XNUMX つのサブシステムで構成されています。 音響モデルは、深層機械学習手法を使用して、入力サウンドに特定のシンボルが存在する確率を計算します。 デコーダは、ビーム検索アルゴリズムを使用して、シンボル確率データをテキスト表現に変換します。

メイン イノベーション DeepSpeech 0.6 (0.6 ブランチには下位互換性がなく、コードとモデルを更新する必要があります):

  • 処理される音声データのサイズに依存せず、応答性が高い新しいストリーミング デコーダを提案します。 その結果、DeepSpeech の新しいバージョンでは認識遅延を 260 ミリ秒に短縮することができ、これは以前より 73% 高速になり、オンザフライ音声認識ソリューションで DeepSpeech を使用できるようになりました。
  • API に変更が加えられ、関数名を統一する作業が行われました。 同期に関する追加のメタデータを取得する関数が追加され、テキスト表現を出力として受け取るだけでなく、個々の文字や文章とオーディオ ストリーム内の位置とのバインディングを追跡できるようになりました。
  • ライブラリの使用のサポートが学習モジュールのツールキットに追加されました CuDNN リカレント ニューラル ネットワーク (RNN) を使用した作業を最適化することで、モデル トレーニングのパフォーマンスの大幅な (約 XNUMX 倍) 向上を達成できましたが、以前に準備されたモデルとの互換性に違反するコードの変更が必要でした。
  • TensorFlow バージョンの最小要件が 1.13.1 から 1.14.0 に引き上げられました。 TensorFlow Lite 軽量版のサポートが追加され、DeepSpeech パッケージのサイズが 98 MB から 3.7 MB に削減されました。 組み込みデバイスやモバイルデバイスで使用するために、モデルを含むパックされたファイルのサイズも 188 MB から 47 MB​​ に削減されました (モデルのトレーニング後の圧縮には量子化方法が使用されました)。
  • 言語モデルは、ロード時にファイルをメモリにマップできるように、別の形式のデータ構造に変換されています。 古い形式のサポートは終了しました。
  • 言語モデルを使用してファイルをロードするモードが変更され、メモリ消費量が削減され、モデル作成後の最初のリクエストの処理における遅延が削減されました。 DeepSpeech は、実行中のメモリ消費量が 22 倍少なくなり、起動が 500 倍速くなりました。

    Mozilla が DeepSpeech 0.6 音声認識エンジンを発表

  • まれな単語は言語モデルでフィルタリングされました。 総単語数は、モデルのトレーニングに使用されるテキスト内で最もよく使われる単語の 500 語に削減されました。 クリーニングにより、認識エラーのレベルにほとんど影響を与えることなく、言語モデルのサイズを 1800MB から 900MB に削減することができました。
  • さまざまなサポートを追加 技術者 トレーニングで使用されるサウンド データの追加バリエーション (拡張) を作成します (たとえば、歪みやノイズを含むオプションのセットに追加します)。
  • .NET プラットフォームに基づくアプリケーションと統合するためのバインディングを備えたライブラリを追加しました。
  • ドキュメントが再設計され、別のサイトに収集されるようになりました。 deepspeech.readthedocs.io.

出所: オープンネット.ru

コメントを追加します