Amazon запускае хмарны сэрвіс для распазнання дакументаў

Вам трэба хутка і аўтаматычна атрымаць інфармацыю са мноства дакументаў? А яны, да таго ж, захоўваюцца ў выглядзе сканаў ці фатаграфій? Вам пашанцавала, калі вы кліент Amazon Web Services (AWS). Amazon абвясціла аб адкрыцці доступу да Тэкст, хмарнага і цалкам кіраванага сэрвісу, які выкарыстоўвае машыннае навучанне для аналізу табліц, тэкставых формаў і цэлых старонак тэксту ў папулярных электронных фарматах. Пакуль што ён будзе даступны толькі ў некаторых рэгіёнах AWS, у прыватнасці ва ўсходняй частцы ЗША (Агаё і Паўночная Вірджынія), на захадзе ЗША (у штаце Арэгон) і ў ЕС (Ірландыя), а ў наступным годзе Textract стане даступны для ўсіх жадаючых.

Amazon запускае хмарны сэрвіс для распазнання дакументаў

Як сцвярджае Amazon, Textract значна больш эфектыўны, чым звычайныя аптычныя сістэмы распазнання сімвалаў. З файлаў, якія захоўваюцца ў кошыку Amazon S3, ён можа атрымаць змесціва палёў і табліц з улікам кантэксту, у якім прадстаўлена гэтая інфармацыя, напрыклад, сістэма аўтаматычна вылучае імёны і нумары сацыяльнага страхавання ў падатковых формах або выніковыя сумы па сфатаграфаваным квітанцыям. Як адзначае Amazon у прэс-рэлізе, Textract падтрымлівае такія фарматы малюнкаў, як сканы, PDF-файлы і фатаграфіі, а таксама эфектыўна працуе з кантэкстам у дакументах спецыфічных для фінансавых паслуг, страхавання і аховы здароўя.

Textract захоўвае вынікі ў фармаце JSON, забяспечанага анатацыямі з нумарамі старонак, раздзеламі, пазнакамі формаў і тыпамі дадзеных, і пры жаданні інтэгруецца з сэрвісамі баз дадзеных і аналітыкі, такімі як Amazon Elasticsearch Service, Amazon DynamoDB, Amazon Athena, і прадуктамі для машыннага навучання, такімі як Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate і Amazon SageMaker, для постапрацоўкі. У якасці альтэрнатывы вынятыя дадзеныя могуць быць перададзены непасрэдна ў іншыя хмарныя сэрвісы для мэт забеспячэння адпаведнасці ў бухгалтарскім уліку і аўдыце або для падтрымкі інтэлектуальнага пошуку ў архівах дакументаў. Як сцвярджае Amazon, Textract можа "сапраўды" апрацаваць мільёны старонак розных дакументаў за "усяго некалькі гадзін".

Мноства кліентаў AWS ужо выкарыстоўваюць Textract, уключаючы Globe and Mail, нацыянальную метэаралагічную службу Вялікабрытаніі, PricewaterhouseCoopers, некамерцыйную арганізацыю кіраванай медыцынскай дапамогі Healthfirst і кампаніі па аўтаматызацыі рабатызаваных працэсаў UiPath, Ripcord і Blue Prism. Candor, стартап, мэтай якога з'яўляецца прыўнесці празрыстасць у іпатэчную галіну, выкарыстоўвае Textract, каб здабываць дадзеныя з такіх дакументаў, як банкаўскія выпіскі, плацежныя квітанцыі і розныя падатковыя дакументы, каб паскорыць працэс ухвалення крэдыту для сваіх кліентаў.

"Моц Amazon Textract заключаецца ў тым, што ён сапраўды здабывае тэкставыя і структураваныя дадзеныя практычна з любога дакумента без неабходнасці папярэдняга машыннага навучання", – распавядае віцэ-прэзідэнт Amazon Machine Learning Свамі Сивасубраманян (Swami Sivasubramanian). "У дадатак да інтэграцыі з іншымі сэрвісамі AWS, вялікая супольнасць, якая развіваецца вакол Amazon Textract, дазваляе нашым кліентам атрымліваць рэальную карысць ад сваіх калекцый файлаў, працаваць больш эфектыўна, паляпшаць адпаведнасць патрабаванням бяспекі, аўтаматызаваць увод дадзеных і паскараць прыняцце бізнес-рашэнняў".

Ніжэй вы можаце паглядзець прэзентацыю Textract на канферэнцыі re:Invent 2018 на англійскай мове.



Крыніца: 3dnews.ru

Дадаць каментар