Amazon lance un service de reconnaissance de documents basé sur le cloud

Avez-vous besoin d'extraire rapidement et automatiquement des informations de plusieurs documents ? Et sont-ils, de plus, stockés sous forme de scans ou de photographies ? Vous avez de la chance si vous êtes un client Amazon Web Services (AWS). Amazon a annoncé l'ouverture de l'accès à Extrait, un service basé sur le cloud et entièrement géré qui utilise l'apprentissage automatique pour analyser des tableaux, des formulaires de texte et des pages entières de texte dans des formats électroniques populaires. Pour l'instant, il ne sera disponible que dans certaines régions AWS, en particulier les États-Unis Est (Ohio et Virginie du Nord), les États-Unis Ouest (Oregon) et l'UE (Irlande), Textract devenant public l'année prochaine.

Amazon lance un service de reconnaissance de documents basé sur le cloud

Selon Amazon, Textract est nettement plus efficace que les systèmes conventionnels de reconnaissance optique de caractères. A partir de fichiers stockés dans un bucket Amazon S3, il peut extraire le contenu des champs et des tables, en tenant compte du contexte dans lequel ces informations sont présentées, par exemple, le système met automatiquement en évidence les noms et les numéros de sécurité sociale sur les formulaires fiscaux ou les totaux de reçus photographiés. Comme le note Amazon dans communiqué de presse, Textract prend en charge les formats d'image tels que les numérisations, les PDF et les photos, et fonctionne efficacement avec le contexte dans les documents spécifiques aux services financiers, aux assurances et aux soins de santé.

Textract enregistre les résultats au format JSON annotés avec des numéros de page, des sections, des étiquettes de formulaire et des types de données, et s'intègre éventuellement à des services de base de données et d'analyse tels qu'Amazon Elasticsearch Service, Amazon DynamoDB, Amazon Athena et des produits d'apprentissage automatique, tels qu'Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate et Amazon SageMaker pour le post-traitement. Alternativement, les données extraites peuvent être transférées directement vers des services cloud tiers à des fins de conformité comptable et d'audit ou pour prendre en charge des recherches intelligentes dans les archives de documents. Selon Amazon, Textract peut traiter "avec précision" des millions de pages de documents différents en "quelques heures seulement".

De nombreux clients AWS utilisent déjà Textract, notamment Globe and Mail, le service météorologique national du Royaume-Uni, PricewaterhouseCoopers, Healthfirst, une organisation de soins gérés à but non lucratif, et les sociétés d'automatisation des processus robotiques UiPath, Ripcord et Blue Prism. Candor, une startup qui vise à apporter de la transparence au secteur hypothécaire, utilise Textract pour extraire des données de documents tels que des relevés bancaires, des fiches de paie et divers documents fiscaux afin d'accélérer le processus d'approbation des prêts pour ses clients.

"La puissance d'Amazon Textract réside dans le fait qu'il extrait avec précision des données textuelles et structurées de pratiquement n'importe quel document sans avoir besoin d'un apprentissage automatique préalable", a déclaré Swami Sivasubramanian, vice-président d'Amazon Machine Learning. « En plus de l'intégration avec d'autres services AWS, la grande communauté qui se développe autour d'Amazon Textract permet à nos clients de tirer une valeur réelle de leurs collections de fichiers, de travailler plus efficacement, d'améliorer la conformité en matière de sécurité, d'automatiser la saisie des données et d'accélérer les décisions commerciales.

Ci-dessous, vous pouvez regarder la présentation de Textract à re:Invent 2018 en anglais.



Source: 3dnews.ru

Ajouter un commentaire