Amazon spúšťa cloudovú službu na rozpoznávanie dokumentov

Potrebujete rýchlo a automaticky extrahovať informácie z viacerých dokumentov? A sú uložené aj vo forme skenov alebo fotografií? Ak ste zákazníkom Amazon Web Services (AWS), máte šťastie. Amazon oznámil otvorenie prístupu k Textract, cloudová a plne spravovaná služba, ktorá využíva strojové učenie na analýzu tabuliek, textových formulárov a celých stránok textu v populárnych elektronických formátoch. Zatiaľ bude k dispozícii iba vo vybraných regiónoch AWS, konkrétne na východe USA (Ohio a Severná Virgínia), na západe USA (Oregon) a EÚ (Írsko), no budúci rok bude Textract dostupný pre všetkých.

Amazon spúšťa cloudovú službu na rozpoznávanie dokumentov

Podľa Amazonu je Textract podstatne efektívnejší ako bežné optické systémy na rozpoznávanie znakov. Zo súborov uložených vo vedre Amazon S3 dokáže extrahovať obsah polí a tabuliek na základe kontextu, v ktorom sú tieto informácie prezentované, ako je automatické zvýraznenie mien a rodných čísel na daňových formulároch alebo súčty na fotografovaných účtenkách. Ako poznamenáva Amazon tlačová správa, Textract podporuje obrazové formáty, ako sú skeny, PDF a fotografie, a efektívne pracuje s kontextom v dokumentoch špecifických pre finančné služby, poistenie a zdravotnú starostlivosť.

Textract ukladá výsledky vo formáte JSON, s poznámkami s číslami strán, sekciami, menovkami formulárov a typmi údajov a voliteľne sa integruje s databázovými a analytickými službami, ako sú Amazon Elasticsearch Service, Amazon DynamoDB, Amazon Athena a produkty strojového učenia. ako Amazon Comprehend , Amazon Comprehend Medical, Amazon Translate a Amazon SageMaker pre následné spracovanie. Alternatívne možno extrahované údaje preniesť priamo do cloudových služieb tretích strán na účely účtovníctva a auditu súladu alebo na podporu inteligentného vyhľadávania v archívoch dokumentov. Podľa Amazonu dokáže Textract „presne“ spracovať milióny strán rôznych dokumentov za „len pár hodín“.

Mnoho zákazníkov AWS už používa Textract, vrátane Globe and Mail, britskej národnej meteorologickej služby, PricewaterhouseCoopers, neziskovej organizácie riadenej starostlivosti Healthfirst a spoločností na automatizáciu robotických procesov UiPath, Ripcord a Blue Prism. Candor, startup, ktorého cieľom je priniesť transparentnosť do hypotekárneho priemyslu, využíva Textract na extrakciu údajov z dokumentov, ako sú bankové výpisy, výplatné pásky a rôzne daňové doklady, aby svojim zákazníkom urýchlil proces schvaľovania pôžičiek.

„Sila Amazon Textract spočíva v tom, že presne extrahuje text a štruktúrované údaje z prakticky akéhokoľvek dokumentu bez potreby pokročilého strojového učenia,“ povedal Swami Sivasubramanian, viceprezident Amazon Machine Learning. „Okrem integrácie s inými službami AWS umožňuje veľká komunita rastúca okolo Amazon Textract našim zákazníkom získať skutočnú hodnotu z kolekcií súborov, pracovať efektívnejšie, zlepšiť súlad s bezpečnosťou, automatizovať zadávanie údajov a urýchliť obchodné rozhodnutia.“

Nižšie si môžete pozrieť prezentáciu Textractu na konferencii re:Invent 2018 v angličtine.



Zdroj: 3dnews.ru

Pridať komentár