亚马逊推出文档识别云服务

您是否需要快速自动地从多个文档中提取信息? 它们也以扫描或照片的形式存储吗? 如果您是 Amazon Web Services (AWS) 客户,那么您很幸运。 亚马逊宣布开放访问 文字练习,一种基于云的完全托管服务,使用机器学习来分析流行电子格式的表格、文本表单和整页文本。 目前,它仅在选定的 AWS 区域提供,特别是美国东部(俄亥俄州和弗吉尼亚北部)、美国西部(俄勒冈州)和欧盟(爱尔兰),但明年 Textract 将向所有人提供。

亚马逊推出文档识别云服务

据亚马逊称,Textract 比传统的光学字符识别系统效率更高。 它可以根据信息呈现的上下文从存储在 Amazon S3 存储桶中的文件中提取字段和表格的内容,例如自动突出显示纳税表格上的姓名和社会安全号码或拍照收据上的总计。 正如亚马逊指出的 新闻稿, Textract 支持扫描、PDF 和照片等图像格式,并有效地处理特定于金融服务、保险和医疗保健的文档中的上下文。

Textract 以 JSON 格式存储结果,用页码、部分、表单标签和数据类型进行注释,并可选择与数据库和分析服务集成,例如 Amazon Elasticsearch Service、Amazon DynamoDB、Amazon Athena 和机器学习产品(例如 Amazon Comprehend) 、Amazon Comprehend Medical、Amazon Translate 和 Amazon SageMaker 用于后处理。 或者,提取的数据可以直接传输到第三方云服务,用于会计和审计合规性目的或支持文档档案的智能搜索。 据亚马逊称,Textract 可以在“短短几个小时”内“准确”处理数百万页的不同文档。

许多 AWS 客户已经在使用 Textract,包括《环球邮报》、英国国家气象局、普华永道、非营利管理医疗组织 Healthfirst 以及机器人流程自动化公司 UiPath、Ripcord 和 Blue Prism。 Candor 是一家旨在提高抵押贷款行业透明度的初创公司,它使用 Textract 从银行对账单、工资单和各种税务文件等文件中提取数据,以加快客户的贷款审批流程。

“Amazon Textract 的强大之处在于,它可以从几乎任何文档中准确提取文本和结构化数据,而无需高级机器学习,”Amazon 机器学习副总裁 Swami Sivasubramanian 说道。 “除了与其他 AWS 服务集成之外,围绕 Amazon Textract 发展的大型社区还使我们的客户能够从其文件集合中获得真正的价值、更高效地工作、提高安全合规性、自动化数据输入并加速业务决策。”

您可以在下面观看 Textract 在 re:Invent 2018 会议上的英文演讲。



来源: 3dnews.ru

添加评论