Facebookが200言語をサポートする機械翻訳モデルを公開

Facebook (ロシア連邦で禁止されている) は、英語への中間翻訳をバイパスして、テキストをある言語から別の言語に直接翻訳するための普遍的な機械学習モデルを作成することを目的とした NLLB (No Language Left Behind) プロジェクトの開発結果を公開しました。提案されたモデルは、アフリカやオーストラリアの人々の珍しい言語を含む 200 以上の言語をカバーしています。このプロジェクトの最終目標は、話す言語に関係なく、あらゆる人々にコミュニケーション手段を提供することです。

このモデルはクリエイティブ コモンズ BY-NC 4.0 ライセンスに基づいてライセンスされており、帰属を明示し、ライセンスを維持し、非営利目的でのみ使用することを条件として、コピー、再配布、カスタマイズ、派生作品が許可されています。モデルを操作するためのツールは、MIT ライセンスに基づいて提供されます。 NLLB モデルを使用して開発を促進するために、研究者への助成金として 200 万ドルを割り当てることが決定されました。

提案されたモデル、モデルの品質のテストと評価に使用されるアプリケーションのコード (FLORES-200、NLLB-MD、Toxicity-200)、LASER3 ライブラリに基づくモデルとエンコーダーのトレーニング用のコードを使用してプロジェクトの作成を簡素化するため (言語に依存しない SEntence)は、さらにオープン ソースです。最終モデルは、完全版と短縮版の XNUMX つのバージョンで提供されます。短縮バージョンは必要なリソースが少なく、テストや研究プロジェクトでの使用に適しています。

機械学習システムに基づく他の翻訳システムとは異なり、Facebook のソリューションは、200 言語すべてに XNUMX つの一般的なモデルを提供し、すべての言語をカバーし、言語ごとに個別のモデルを使用する必要がない点で注目に値します。翻訳は、英語への中間翻訳を行わずに、ソース言語からターゲット言語へ直接実行されます。ユニバーサル翻訳システムを作成するために、使用されている言語を決定できるようにする LID モデル (Language IDentification) がさらに提案されています。それらの。システムは、情報がどの言語で提供されているかを自動的に認識し、それをユーザーの言語に翻訳します。

翻訳は、サポートされている 200 言語のいずれかの間で、あらゆる方向にサポートされます。あらゆる言語間の翻訳の品質を確認するために、FLORES-200 参照テスト セットが用意されました。このテスト セットでは、NLLB-200 モデルを使用した場合、翻訳品質の点で、以前に提案された機械学習ベースの研究システムよりも平均 44% 優れていることが示されました。機械翻訳と標準的な人間による翻訳を比較する BLEU メトリクス。希少なアフリカ言語とインドの方言では、品質の優位性は 70% に達します。専用に用意されたデモサイトで翻訳の品質を視覚的に評価することが可能です。

出所: オープンネット.ru

コメントを追加します