Amazon spouští cloudovou službu rozpoznávání dokumentů

Potřebujete rychle a automaticky extrahovat informace z více dokumentů? A jsou navíc uloženy ve formě skenů nebo fotografií? Pokud jste zákazníkem Amazon Web Services (AWS), máte štěstí. Amazon oznámil otevření přístupu k Textový výpis, cloudová a plně spravovaná služba, která využívá strojové učení k analýze tabulek, textových formulářů a celých stránek textu v oblíbených elektronických formátech. Prozatím bude k dispozici pouze ve vybraných regionech AWS, konkrétně na východě USA (Ohio a Severní Virginie), západě USA (Oregon) a EU (Irsko), přičemž Textract bude zveřejněn příští rok.

Amazon spouští cloudovou službu rozpoznávání dokumentů

Podle Amazonu je Textract výrazně efektivnější než běžné systémy optického rozpoznávání znaků. Ze souborů uložených v bucketu Amazon S3 dokáže extrahovat obsah polí a tabulek, přičemž bere v úvahu kontext, ve kterém jsou tyto informace prezentovány, například systém automaticky zvýrazní jména a rodná čísla na daňových formulářích nebo součty. vyfotografovaných účtenek. Jak poznamenává Amazon tisková zpráva, Textract podporuje obrazové formáty, jako jsou skeny, PDF a fotografie, a efektivně pracuje s kontextem v dokumentech specifických pro finanční služby, pojištění a zdravotnictví.

Textract ukládá výsledky ve formátu JSON anotované čísly stránek, oddíly, štítky formulářů a datovými typy a volitelně se integruje s databázovými a analytickými službami, jako je Amazon Elasticsearch Service, Amazon DynamoDB, Amazon Athena, a produkty strojového učení, jako je Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate a Amazon SageMaker pro následné zpracování. Alternativně lze extrahovaná data přenést přímo do cloudových služeb třetích stran pro účely účetnictví a auditu souladu nebo pro podporu inteligentního vyhledávání v archivech dokumentů. Podle Amazonu dokáže Textract „přesně“ zpracovat miliony stránek různých dokumentů za „jen pár hodin“.

Mnoho zákazníků AWS již používá Textract, včetně Globe and Mail, britské národní meteorologické služby, PricewaterhouseCoopers, Healthfirst, neziskové organizace spravované péče, a společností pro automatizaci robotických procesů UiPath, Ripcord a Blue Prism. Candor, startup, který si klade za cíl vnést transparentnost do hypotečního průmyslu, využívá Textract k získávání dat z dokumentů, jako jsou bankovní výpisy, výplatní pásky a různé daňové doklady, aby urychlil proces schvalování úvěrů pro své klienty.

„Síla Amazon Textract spočívá v tom, že přesně extrahuje textová a strukturovaná data z prakticky jakéhokoli dokumentu bez nutnosti předchozího strojového učení,“ řekl Swami Sivasubramanian, viceprezident Amazon Machine Learning. "Kromě integrace s dalšími službami AWS umožňuje velká komunita rostoucí kolem Amazon Textract našim zákazníkům získat skutečnou hodnotu z jejich sbírek souborů, pracovat efektivněji, zlepšit dodržování bezpečnostních předpisů, automatizovat zadávání dat a urychlit obchodní rozhodnutí."

Níže si můžete prohlédnout prezentaci Textractu na re:Invent 2018 v angličtině.



Zdroj: 3dnews.ru

Přidat komentář