Amazon lanza un servicio de reconocimiento de documentos basado en la nube

¿Necesita extraer información de forma rápida y automática de varios documentos? ¿Y se almacenan, además, en forma de escaneos o fotografías? Tiene suerte si es cliente de Amazon Web Services (AWS). Amazon anunció la apertura del acceso a Textracto, un servicio totalmente administrado y basado en la nube que utiliza el aprendizaje automático para analizar tablas, formularios de texto y páginas enteras de texto en formatos electrónicos populares. Por ahora, solo estará disponible en regiones selectas de AWS, específicamente el este de EE. UU. (Ohio y el norte de Virginia), el oeste de EE. UU. (Oregón) y la UE (Irlanda), y Textract se hará público el próximo año.

Amazon lanza un servicio de reconocimiento de documentos basado en la nube

Según Amazon, Textract es significativamente más eficiente que los sistemas de reconocimiento óptico de caracteres convencionales. A partir de archivos almacenados en un bucket de Amazon S3, puede extraer el contenido de campos y tablas, teniendo en cuenta el contexto en el que se presenta esta información, por ejemplo, el sistema resalta automáticamente los nombres y números de seguro social en los formularios de impuestos o los totales. de recibos fotografiados. Como señala Amazon en comunicado de prensa, Textract admite formatos de imagen como escaneos, PDF y fotos, y funciona de manera eficiente con contexto en documentos específicos de servicios financieros, seguros y atención médica.

Textract guarda los resultados en formato JSON anotados con números de página, secciones, etiquetas de formulario y tipos de datos, y se integra opcionalmente con servicios de análisis y bases de datos como Amazon Elasticsearch Service, Amazon DynamoDB, Amazon Athena y productos de aprendizaje automático, como Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate y Amazon SageMaker para el posprocesamiento. Alternativamente, los datos extraídos se pueden transferir directamente a servicios en la nube de terceros para fines de cumplimiento de contabilidad y auditoría o para respaldar búsquedas inteligentes en archivos de documentos. Según Amazon, Textract puede procesar "con precisión" millones de páginas de diferentes documentos en "solo unas pocas horas".

Muchos clientes de AWS ya usan Textract, incluidos Globe and Mail, el Servicio Meteorológico Nacional del Reino Unido, PricewaterhouseCoopers, Healthfirst, una organización de atención administrada sin fines de lucro, y las empresas de automatización de procesos robóticos UiPath, Ripcord y Blue Prism. Candor, una startup que tiene como objetivo brindar transparencia a la industria hipotecaria, utiliza Textract para extraer datos de documentos como extractos bancarios, talones de pago y varios documentos fiscales para acelerar el proceso de aprobación de préstamos para sus clientes.

“El poder de Amazon Textract es que extrae con precisión datos textuales y estructurados de prácticamente cualquier documento sin necesidad de un aprendizaje automático previo”, dijo Swami Sivasubramanian, vicepresidente de Amazon Machine Learning. "Además de integrarse con otros servicios de AWS, la gran comunidad que crece en torno a Amazon Textract permite a nuestros clientes obtener un valor real de sus colecciones de archivos, trabajar de manera más eficiente, mejorar el cumplimiento de la seguridad, automatizar la entrada de datos y acelerar las decisiones comerciales".

A continuación puede ver la presentación de Textract en re:Invent 2018 en inglés.



Fuente: 3dnews.ru

Añadir un comentario