Amazon、文書認識のクラウドサービスを開始

複数のドキュメントから情報を迅速かつ自動的に抽出する必要がありますか? また、スキャンや写真の形でも保存されますか? アマゾン ウェブ サービス (AWS) の顧客であれば幸運です。 Amazonは、へのアクセスの開始を発表しました テクストラクトは、機械学習を使用して、一般的な電子形式の表、テキスト フォーム、およびテキストのページ全体を分析するクラウドベースのフルマネージド サービスです。 今のところ、Textract は一部の AWS リージョン、具体的には米国東部 (オハイオとバージニア北部)、米国西部 (オレゴン)、欧州 (アイルランド) でのみ利用可能ですが、来年 Textract は誰でも利用できるようになる予定です。

Amazon、文書認識のクラウドサービスを開始

Amazon によると、Textract は従来の光学式文字認識システムよりも大幅に効率的です。 Amazon S3 バケットに保存されているファイルから、その情報が表示されるコンテキストに基づいてフィールドやテーブルの内容を抽出できます。たとえば、納税申告書の名前や社会保障番号、写真撮影された領収書の合計を自動的に強調表示します。 Amazon が指摘しているように、 プレスリリース, Textract は、スキャン、PDF、写真などの画像形式をサポートしており、金融サービス、保険、ヘルスケアに固有の文書内のコンテキストを効果的に処理します。

Textract は、結果を JSON 形式で保存し、ページ番号、セクション、フォーム ラベル、データ型の注釈を付け、オプションでデータベースや分析サービス (Amazon Elasticsearch Service、Amazon DynamoDB、Amazon Athena、Amazon Comprehend などの機械学習製品など) と統合します。 、後処理には Amazon Comprehend Medical、Amazon Translate、Amazon SageMaker を使用します。 あるいは、会計および監査のコンプライアンス目的で、またはドキュメント アーカイブのインテリジェントな検索をサポートするために、抽出されたデータをサードパーティのクラウド サービスに直接転送することもできます。 Amazon によれば、Textract は数百万ページのさまざまなドキュメントを「わずか数時間」で「正確に」処理できるという。

グローブ アンド メール、英国国立気象局、プライスウォーターハウスクーパース、非営利マネージドケア組織ヘルスファースト、ロボットプロセスオートメーション企業の UiPath、Ripcord、Blue Prism など、数多くの AWS 顧客がすでに Textract を使用しています。 住宅ローン業界に透明性をもたらすことを目指すスタートアップ企業 Candor は、Textract を使用して銀行取引明細書、給与明細、さまざまな税務書類などの文書からデータを抽出し、顧客のローン承認プロセスを迅速化しています。

「Amazon Textract の強みは、高度な機械学習を必要とせずに、事実上あらゆるドキュメントからテキストと構造化データを正確に抽出できることです」と Amazon Machine Learning 担当副社長の Swami Sivasubramanian 氏は述べています。 「他の AWS サービスとの統合に加えて、Amazon Textract を中心に成長する大規模なコミュニティにより、お客様はファイル コレクションから真の価値を獲得し、より効率的に作業し、セキュリティ コンプライアンスを向上させ、データ入力を自動化し、ビジネス上の意思決定を迅速化することができます。」

以下では、re:Invent 2018 カンファレンスでの Textract のプレゼンテーションを英語で見ることができます。



出所: 3dnews.ru

コメントを追加します