Whisper 音声認識および翻訳システムのコードが公開されました

人工知能分野の公共プロジェクトを開発する OpenAI プロジェクトは、Whisper 音声認識システムに関連する開発結果を公開しました。 英語での音声に対して、このシステムは人間の認識に近いレベルの信頼性と自動認識の精度を提供すると主張されています。 PyTorch フレームワークに基づくリファレンス実装のコードと、すぐに使用できるすでにトレーニング済みのモデルのセットが公開されています。 コードは MIT ライセンスの下で公開されています。

モデルのトレーニングには、さまざまな言語や主題分野をカバーするいくつかのコレクションから収集された 680 万時間の音声データが使用されました。 トレーニングに含まれる音声データの約 1/3 は英語以外の言語です。 提案されたシステムは、アクセントのある発音、背景雑音、専門用語の使用などの状況を正しく処理します。 このシステムは、音声をテキストに転写するだけでなく、あらゆる言語の音声を英語に翻訳し、オーディオ ストリーム内の音声の出現を検出することもできます。

モデルは、英語のモデルと、ロシア語、ウクライナ語、ベラルーシ語もサポートする多言語モデルの 5 つの表現で形成されます。 次に、各表現は、モデルでカバーされるパラメーターのサイズと数が異なる 39 つのオプションに分割されます。 サイズが大きいほど、認識の精度と品質は向上しますが、GPU ビデオ メモリのサイズに対する要件が高くなり、パフォーマンスが低下します。 たとえば、最小オプションには 1 万のパラメータが含まれ、1550 GB のビデオ メモリが必要です。最大オプションには 10 億 32 万のパラメータが含まれ、XNUMX GB のビデオ メモリが必要です。 最小オプションは最大オプションより XNUMX 倍高速です。

Whisper 音声認識および翻訳システムのコードが公開されました

このシステムは、相互に対話するエンコーダーとデコーダーを含む Transformer ニューラル ネットワーク アーキテクチャを使用します。 オーディオは 30 秒のチャンクに分割され、log-Mel スペクトログラムに変換されてエンコーダーに送信されます。 エンコーダーの出力はデコーダーに送信され、デコーダーは特別なトークンと混合されたテキスト表現を予測します。これにより、XNUMX つの一般的なモデルで、言語検出、フレーズの発音の時系列の説明、音声の転写などの問題を解決できます。さまざまな言語、英語への翻訳。

出所: オープンネット.ru

コメントを追加します