Você precisa extrair informações de vários documentos de forma rápida e automática? E também são armazenados na forma de digitalizações ou fotografias? Você está com sorte se for cliente da Amazon Web Services (AWS). Amazon anunciou a abertura do acesso a
Segundo a Amazon, o Textract é significativamente mais eficiente do que os sistemas convencionais de reconhecimento óptico de caracteres. A partir de arquivos armazenados em um bucket do Amazon S3, ele pode extrair o conteúdo de campos e tabelas com base no contexto em que essas informações são apresentadas, como destacar automaticamente nomes e números de previdência social em formulários fiscais ou totais em recibos fotografados. Como a Amazon observa em
O Textract armazena resultados no formato JSON, anotados com números de página, seções, rótulos de formulário e tipos de dados e, opcionalmente, integra-se a bancos de dados e serviços de análise, como Amazon Elasticsearch Service, Amazon DynamoDB, Amazon Athena e produtos de machine learning, como Amazon Comprehend. , Amazon Comprehend Medical, Amazon Translate e Amazon SageMaker para pós-processamento. Alternativamente, os dados extraídos podem ser transferidos diretamente para serviços em nuvem de terceiros para fins de conformidade de contabilidade e auditoria ou para apoiar pesquisas inteligentes de arquivos de documentos. De acordo com a Amazon, o Textract pode processar “com precisão” milhões de páginas de documentos diferentes em “apenas algumas horas”.
Vários clientes da AWS já usam o Textract, incluindo Globe and Mail, o National Weather Service do Reino Unido, PricewaterhouseCoopers, a organização sem fins lucrativos de assistência gerenciada Healthfirst e as empresas de automação de processos robóticos UiPath, Ripcord e Blue Prism. A Candor, startup que visa trazer transparência ao setor hipotecário, usa o Textract para extrair dados de documentos como extratos bancários, recibos de pagamento e diversos documentos fiscais para agilizar o processo de aprovação de empréstimos para seus clientes.
“O poder do Amazon Textract é que ele extrai com precisão texto e dados estruturados de praticamente qualquer documento, sem a necessidade de aprendizado de máquina avançado”, disse Swami Sivasubramanian, vice-presidente de Amazon Machine Learning. “Além da integração com outros serviços da AWS, a grande comunidade que cresce em torno do Amazon Textract permite que nossos clientes obtenham valor real de suas coleções de arquivos, trabalhem com mais eficiência, melhorem a conformidade de segurança, automatizem a entrada de dados e acelerem as decisões de negócios.”
Abaixo você pode assistir à apresentação do Textract na conferência re:Invent 2018 em inglês.
Fonte: 3dnews.ru