Amazon、51言語の音声を理解するためのデータセットを公開

Amazon は、CC BY 4.0 ライセンスに基づいて、「MASSIVE」(スロット充填、インテント分類、および仮想アシスタント評価用の多言語 Amazon SLURP)データセット、機械学習システム用のモデル、および目的に使用できる独自のモデルをトレーニングするためのツールを公開しました。自然言語に関する情報を理解する (NLU、自然言語理解)。このセットには、51 の言語向けに用意された XNUMX 万を超える注釈付きの分類されたテキスト発話が含まれています。

SLURP コレクションは、もともと英語で利用可能でしたが、MASSIVE セットを構築するためのリファレンスとして使用され、プロの翻訳者を使用して他の 50 の言語にローカライズされました。 Alexa の自然言語理解 (NLU) テクノロジーは、まず音声をテキストに変換し、次に複数の NLU モデルをテキストに適用してキーワードの存在を分析し、ユーザーの質問の本質を判断します。

このセットを作成および公開する目的の XNUMX つは、音声アシスタントを複数の言語の情報を同時に処理できるようにすることと、サードパーティの開発者が音声アシスタントの機能を拡張するアプリケーションやサービスを作成することを奨励することです。開発者の注目を集めるために、Amazon は公開されたデータセットを使用して最高の汎用モデルを作成するコンテストを開始しました。

現在、音声アシスタントは少数の言語のみをサポートしており、特定の言語に関連付けられた機械学習モデルを使用しています。 MASSIVE プロジェクトは、さまざまな言語で情報を解析および処理できる汎用モデルと機械学習システムを作成することで、この欠点を解消することを目的としています。

出所: オープンネット.ru

コメントを追加します