Azure AI における Microsoft の最新テクノロジーは人物だけでなく画像も表現します


マイクロソフトの研究者は、多くの場合、人間が作成した説明よりも正確な画像キャプションを生成できる人工知能システムを開発しました。 この画期的な出来事は、自社の製品とサービスを包括的ですべてのユーザーがアクセスできるようにするという Microsoft の取り組みにおける大きなマイルストーンとなりました。

「画像の説明はコンピュータ ビジョンの主要な機能の XNUMX つであり、これにより幅広いサービスが可能になります」と Xuedong Huang 氏は述べています (黄学東) は、ワシントン州レドモンドにある Microsoft 技術責任者および Azure AI Cognitive Services の CTO です。

新しいモデルは現在、Computer Vision を通じて消費者に提供されています。 Azure コグニティブ サービスこれは Azure AI の一部であり、開発者はこの機能を使用してサービスの可用性を向上させることができます。 これは Seeing AI アプリにも含まれており、今年後半には Windows および Mac 用の Microsoft Word および Outlook、さらに Windows、Mac および Web 上の PowerPoint でも利用できるようになる予定です。

自動ディスクリプションを使用すると、検索結果で返された写真であっても、プレゼンテーション用のイラストであっても、ユーザーはあらゆる画像の重要なコンテンツにアクセスできます。

「ウェブページや文書上の画像の内容を説明するキャプション(いわゆる代替テキストまたは代替テキスト)の使用は、目の見えない人や視覚障害のある人にとって特に重要です」とサーキブ・シェイク氏は述べています(サキブ・シェイク)、レドモンドの Microsoft AI プラットフォーム グループのソフトウェア マネージャー。

たとえば、彼のチームは視覚障害者向けのアプリで改良された画像説明機能を使用しています。 AIを見る、カメラが捉えているものを認識し、それについて伝えます。 このアプリは、生成されたキャプションを使用して、ソーシャル メディアなどの写真を説明します。

「理想的には、文書、ウェブ、ソーシャル ネットワーク上のすべての画像に代替テキストを誰もが追加する必要があります。これにより、視覚障害者がコンテンツにアクセスして会話に参加できるようになります。 しかし、残念なことに、人々はそうしません」とシェイクは言います。 「ただし、画像の説明機能を使用して、画像が欠落している場合に代替テキストを追加するアプリがいくつかあります。」
  
Azure AI における Microsoft の最新テクノロジーは人物だけでなく画像も表現します

マイクロソフトのレドモンド研究所の研究部長であるリルアン ワン氏は、人間の成果を達成し、それを超える研究チームを率いました。 写真:ダン・デロング。

新しいオブジェクトの説明

「画像の記述は、コンピューター ビジョンの主なタスクの XNUMX つであり、画像に表示される主要なコンテンツやアクションを理解し、記述する人工知能システムが必要です」と Liruan Wang 氏は説明しました。王麗娟)、マイクロソフトのレドモンド研究所の研究部長。

「何が起こっているのかを理解し、物体と動作の間にどのような関係があるのか​​を理解し、それをすべて人間が読める言語で文章に要約して説明する必要があります」と彼女は言いました。

ワン氏は研究チームを率い、ベンチマークを行った。 ノーキャップ (大規模な新しいオブジェクトのキャプション、新しいオブジェクトの大規模な説明)は、人間の結果と同等の結果を達成し、それを超えました。 このテストにより、モデルがトレーニングされたデータセットに含まれていない描画オブジェクトの記述を AI システムがどの程度適切に生成するかを評価できます。

通常、画像記述システムは、画像のテキスト記述を伴う画像を含むデータ セット、つまり署名された画像のセットでトレーニングされます。

「nocaps テストは、トレーニング データに見つからない新しいオブジェクトをシステムがどの程度うまく記述できるかを示します」と Wang 氏は言います。

この問題を解決するために、Microsoft チームは、単語タグ付きの画像を含む大規模なデータセットで大規模な AI モデルを事前トレーニングしました。各画像は画像内の特定のオブジェクトに関連付けられています。

完全なキャプションの代わりに単語タグを含む画像セットは作成がより効率的であるため、Wang 氏のチームは大量のデータをモデルにフィードすることができます。 このアプローチにより、チームが視覚的語彙と呼ぶものがモデルに与えられました。

Huang氏が説明したように、視覚的な語彙を使用した事前学習アプローチは、子供たちに読書の準備をさせることに似ています。まず、個々の単語が画像と関連付けられている絵本が使用されます。たとえば、リンゴの写真の下には「リンゴ」と書かれています。猫の写真の下には「猫」という文字があります。

「視覚的な語彙を使用したこの事前トレーニングは、本質的には、システムをトレーニングするために必要な初期教育です。 これが私たちが一種の運動記憶を開発しようとする方法です」とフアン氏は語った。

事前トレーニングされたモデルは、ラベル付き画像を含むデータセットを使用して洗練されます。 トレーニングのこの段階では、モデルは文の作り方を学習します。 新しいオブジェクトを含む画像が表示された場合、AI システムはビジュアル辞書を使用して正確な説明を作成します。

「テスト中に新しいオブジェクトを扱うために、システムは事前トレーニングとその後の改良中に学習した内容を統合します」とワン氏は言います。
Согласнорезультатам 研究nocaps テストで評価すると、AI システムは同じ画像に対して人間が行うよりも意味のある正確な説明を生成しました。

作業環境へのより迅速な移行 

とりわけ、新しい画像記述システムは、別の業界ベンチマークと比較した場合、2015 年以降 Microsoft 製品およびサービスで使用されているモデルの XNUMX 倍優れています。

Microsoft 製品とサービスのすべてのユーザーがこの改善によって得られるメリットを考慮して、Huang 氏は新しいモデルの Azure 作業環境への統合を加速しました。

「私たちはこの破壊的な AI テクノロジーを、より幅広い顧客にサービスを提供するプラットフォームとして Azure に導入しています」と彼は言いました。 「そして、これは単に研究における画期的な進歩ではありません。 この画期的な進歩を Azure 運用環境に組み込むのにかかった時間も画期的でした。」

Huang 氏は、人間のような結果を達成することは、Microsoft の認知知能システムですでに確立されている傾向を継続していると付け加えました。

「過去 2020 年間にわたり、私たちは音声認識、機械翻訳、質問への回答、機械読解とテキスト理解の 19 つの主要分野で人間のような結果を達成してきました。そして XNUMX 年には、新型コロナウイルス感染症 (COVID-XNUMX) にもかかわらず、画像の説明で人間と同等の結果を達成しました。とフアンは言いました。

トピック別

AIを使用してシステムが以前と現在の画像を記述した結果を比較します

Azure AI における Microsoft の最新テクノロジーは人物だけでなく画像も表現します

写真提供:ゲッティイメージズ。 前の説明: まな板の上でホットドッグを準備している男性の接写。 新しい説明: 男がパンを作ります。

Azure AI における Microsoft の最新テクノロジーは人物だけでなく画像も表現します

写真提供:ゲッティイメージズ。 前の説明: 男は日没時に座っています。 新しい説明: ビーチでの焚き火。

Azure AI における Microsoft の最新テクノロジーは人物だけでなく画像も表現します

写真提供:ゲッティイメージズ。 前の説明: 青いシャツを着た男性。 新しい説明: サージカルマスクを着用した数人の人々。

Azure AI における Microsoft の最新テクノロジーは人物だけでなく画像も表現します

写真提供:ゲッティイメージズ。 前の説明: スケートボードに乗った男性が壁を飛び越えます。 新しい説明: 野球選手がボールをキャッチします。

出所: habr.com

コメントを追加します