Amazon pokreće uslugu za prepoznavanje dokumenata zasnovanu na oblaku

Trebate li brzo i automatski izdvojiti informacije iz više dokumenata? I jesu li oni, osim toga, pohranjeni u obliku skenova ili fotografija? Imate sreće ako ste korisnik Amazon Web Services (AWS). Amazon je najavio otvaranje pristupa Textract, usluga zasnovana na oblaku i potpuno upravljana usluga koja koristi mašinsko učenje za analizu tabela, tekstualnih obrazaca i čitavih stranica teksta u popularnim elektronskim formatima. Za sada će biti dostupan samo u odabranim AWS regijama, konkretno na istoku SAD-a (Ohio i Sjeverna Virginija), zapadu SAD-a (Oregon) i EU (Irska), a Textract će biti dostupan sljedeće godine.

Amazon pokreće uslugu za prepoznavanje dokumenata zasnovanu na oblaku

Prema Amazonu, Textract je znatno efikasniji od konvencionalnih optičkih sistema za prepoznavanje znakova. Iz datoteka pohranjenih u Amazon S3 bucket, može izdvojiti sadržaj polja i tabela, uzimajući u obzir kontekst u kojem su te informacije predstavljene, na primjer, sistem automatski ističe imena i brojeve socijalnog osiguranja na poreskim obrascima ili ukupnim iznosima fotografisanih računa. Kako Amazon napominje u saopštenje za javnost, Textract podržava formate slika kao što su skenirani dokumenti, PDF-ovi i fotografije i efikasno radi sa kontekstom u dokumentima specifičnim za finansijske usluge, osiguranje i zdravstvenu zaštitu.

Textract sprema rezultate u JSON formatu označene brojevima stranica, odjeljcima, oznakama obrazaca i tipovima podataka, te se opciono integrira s bazama podataka i analitičkim uslugama kao što su Amazon Elasticsearch Service, Amazon DynamoDB, Amazon Athena i proizvodima za strojno učenje, kao što je Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate i Amazon SageMaker za naknadnu obradu. Alternativno, izdvojeni podaci mogu se prenijeti direktno na usluge u oblaku trećih strana za potrebe računovodstva i revizije usklađenosti ili za podršku pametnim pretragama u arhivama dokumenata. Prema Amazonu, Textract može "precizno" obraditi milione stranica različitih dokumenata u "samo nekoliko sati".

Mnogi korisnici AWS-a već koriste Textract, uključujući Globe and Mail, Nacionalnu meteorološku službu Velike Britanije, PricewaterhouseCoopers, Healthfirst, neprofitnu organizaciju za njegu kojom se upravlja, i kompanije za automatizaciju robotskih procesa UiPath, Ripcord i Blue Prism. Candor, startup koji ima za cilj da unese transparentnost u industriju hipotekarnih kredita, koristi Textract za izdvajanje podataka iz dokumenata kao što su bankovni izvodi, platni listovi i različiti porezni dokumenti kako bi ubrzao proces odobravanja kredita za svoje klijente.

“Moć Amazon Textract-a je u tome što precizno izdvaja tekstualne i strukturirane podatke iz gotovo bilo kojeg dokumenta bez potrebe za prethodnim mašinskim učenjem”, rekao je Swami Sivasubramanian, potpredsjednik Amazon Machine Learning. "Pored integracije sa drugim AWS uslugama, velika zajednica koja raste oko Amazon Textract-a omogućava našim klijentima da izvuku stvarnu vrijednost iz svojih kolekcija datoteka, rade efikasnije, poboljšaju usklađenost s sigurnošću, automatiziraju unos podataka i ubrzaju poslovne odluke."

U nastavku možete pogledati prezentaciju Textract-a na re:Invent 2018 na engleskom jeziku.



izvor: 3dnews.ru

Dodajte komentar