複数のドキュメントから情報を迅速かつ自動的に抽出する必要がありますか? また、スキャンや写真の形でも保存されますか? アマゾン ウェブ サービス (AWS) の顧客であれば幸運です。 Amazonは、へのアクセスの開始を発表しました
Amazon によると、Textract は従来の光学式文字認識システムよりも大幅に効率的です。 Amazon S3 バケットに保存されているファイルから、その情報が表示されるコンテキストに基づいてフィールドやテーブルの内容を抽出できます。たとえば、納税申告書の名前や社会保障番号、写真撮影された領収書の合計を自動的に強調表示します。 Amazon が指摘しているように、
Textract は、結果を JSON 形式で保存し、ページ番号、セクション、フォーム ラベル、データ型の注釈を付け、オプションでデータベースや分析サービス (Amazon Elasticsearch Service、Amazon DynamoDB、Amazon Athena、Amazon Comprehend などの機械学習製品など) と統合します。 、後処理には Amazon Comprehend Medical、Amazon Translate、Amazon SageMaker を使用します。 あるいは、会計および監査のコンプライアンス目的で、またはドキュメント アーカイブのインテリジェントな検索をサポートするために、抽出されたデータをサードパーティのクラウド サービスに直接転送することもできます。 Amazon によれば、Textract は数百万ページのさまざまなドキュメントを「わずか数時間」で「正確に」処理できるという。
グローブ アンド メール、英国国立気象局、プライスウォーターハウスクーパース、非営利マネージドケア組織ヘルスファースト、ロボットプロセスオートメーション企業の UiPath、Ripcord、Blue Prism など、数多くの AWS 顧客がすでに Textract を使用しています。 住宅ローン業界に透明性をもたらすことを目指すスタートアップ企業 Candor は、Textract を使用して銀行取引明細書、給与明細、さまざまな税務書類などの文書からデータを抽出し、顧客のローン承認プロセスを迅速化しています。
「Amazon Textract の強みは、高度な機械学習を必要とせずに、事実上あらゆるドキュメントからテキストと構造化データを正確に抽出できることです」と Amazon Machine Learning 担当副社長の Swami Sivasubramanian 氏は述べています。 「他の AWS サービスとの統合に加えて、Amazon Textract を中心に成長する大規模なコミュニティにより、お客様はファイル コレクションから真の価値を獲得し、より効率的に作業し、セキュリティ コンプライアンスを向上させ、データ入力を自動化し、ビジネス上の意思決定を迅速化することができます。」
以下では、re:Invent 2018 カンファレンスでの Textract のプレゼンテーションを英語で見ることができます。
出所: 3dnews.ru