Amazon запускає хмарний сервіс для розпізнавання документів

Вам потрібно швидко і автоматично отримати інформацію з багатьох документів? А вони, до того ж, зберігаються у вигляді сканів чи фотографій? Вам пощастило, якщо ви є клієнтом Amazon Web Services (AWS). Amazon оголосила про відкриття доступу до Текстакт, хмарного та повністю керованого сервісу, який використовує машинне навчання для аналізу таблиць, текстових форм та цілих сторінок тексту у популярних електронних форматах. Поки що він буде доступний лише в деяких регіонах AWS, зокрема у східній частині США (Огайо та Північна Вірджинія), на заході США (в штаті Орегон) та ЄС (Ірландія), а наступного року Textract стане доступним для всіх бажаючих.

Amazon запускає хмарний сервіс для розпізнавання документів

Як стверджує Amazon, Textract значно ефективніший, ніж звичайні оптичні системи розпізнавання символів. З файлів, що зберігаються в кошику Amazon S3, він може отримати вміст полів і таблиць з урахуванням контексту, в якому представлена ​​ця інформація, наприклад, система автоматично виділяє імена та номери соціального страхування в податкових формах або підсумкові суми за сфотографованими квитанціями. Як зазначає Amazon в прес-релізі, Textract підтримує такі формати зображень, як скани, PDF-файли та фотографії, а також ефективно працює з контекстом у документах специфічних для фінансових послуг, страхування та охорони здоров'я.

Textract зберігає результати у форматі JSON, з анотаціями з номерами сторінок, розділами, мітками форм і типами даних, і при бажанні інтегрується з сервісами баз даних та аналітики, такими як Amazon Elasticsearch Service, Amazon DynamoDB, Amazon Athena, та продуктами для машинного навчання, такими як Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate та Amazon SageMaker для постобробки. В якості альтернативи вилучені дані можуть бути передані безпосередньо в сторонні хмарні сервіси для забезпечення відповідності в бухгалтерському обліку та аудиті або для підтримки інтелектуального пошуку в архівах документів. Як стверджує Amazon, Textract може "точно" обробити мільйони сторінок різних документів за "всього кілька годин".

Багато клієнтів AWS вже використовують Textract, включаючи Globe and Mail, національну метеорологічну службу Великобританії, PricewaterhouseCoopers, некомерційну організацію керованої медичної допомоги Healthfirst та компанії з автоматизації роботизованих процесів UiPath, Ripcord та Blue Prism. Candor, стартап, метою якого є привнести прозорість до іпотечної галузі, використовує Textract, щоб витягувати дані з таких документів, як банківські виписки, платіжні квитанції та різні податкові документи, щоб прискорити процес схвалення кредиту для своїх клієнтів.

"Потужність Amazon Textract полягає в тому, що він точно витягує текстові та структуровані дані практично з будь-якого документа без необхідності попереднього машинного навчання", - розповідає віце-президент Amazon Machine Learning Свамі Сівасубраманян (Swami Sivasubramanian). "На додаток до інтеграції з іншими сервісами AWS, велика спільнота, що розвивається навколо Amazon Textract, дозволяє нашим клієнтам отримувати реальну користь від своїх колекцій файлів, працювати більш ефективно, покращувати відповідність вимогам безпеки, автоматизувати введення даних та прискорювати прийняття бізнес-рішень".

Нижче ви можете переглянути презентацію Textract на конференції re:Invent 2018 англійською мовою.



Джерело: 3dnews.ru

Додати коментар або відгук