Вам потрібно швидко і автоматично отримати інформацію з багатьох документів? А вони, до того ж, зберігаються у вигляді сканів чи фотографій? Вам пощастило, якщо ви є клієнтом Amazon Web Services (AWS). Amazon оголосила про відкриття доступу до
Як стверджує Amazon, Textract значно ефективніший, ніж звичайні оптичні системи розпізнавання символів. З файлів, що зберігаються в кошику Amazon S3, він може отримати вміст полів і таблиць з урахуванням контексту, в якому представлена ця інформація, наприклад, система автоматично виділяє імена та номери соціального страхування в податкових формах або підсумкові суми за сфотографованими квитанціями. Як зазначає Amazon в
Textract зберігає результати у форматі JSON, з анотаціями з номерами сторінок, розділами, мітками форм і типами даних, і при бажанні інтегрується з сервісами баз даних та аналітики, такими як Amazon Elasticsearch Service, Amazon DynamoDB, Amazon Athena, та продуктами для машинного навчання, такими як Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate та Amazon SageMaker для постобробки. В якості альтернативи вилучені дані можуть бути передані безпосередньо в сторонні хмарні сервіси для забезпечення відповідності в бухгалтерському обліку та аудиті або для підтримки інтелектуального пошуку в архівах документів. Як стверджує Amazon, Textract може "точно" обробити мільйони сторінок різних документів за "всього кілька годин".
Багато клієнтів AWS вже використовують Textract, включаючи Globe and Mail, національну метеорологічну службу Великобританії, PricewaterhouseCoopers, некомерційну організацію керованої медичної допомоги Healthfirst та компанії з автоматизації роботизованих процесів UiPath, Ripcord та Blue Prism. Candor, стартап, метою якого є привнести прозорість до іпотечної галузі, використовує Textract, щоб витягувати дані з таких документів, як банківські виписки, платіжні квитанції та різні податкові документи, щоб прискорити процес схвалення кредиту для своїх клієнтів.
"Потужність Amazon Textract полягає в тому, що він точно витягує текстові та структуровані дані практично з будь-якого документа без необхідності попереднього машинного навчання", - розповідає віце-президент Amazon Machine Learning Свамі Сівасубраманян (Swami Sivasubramanian). "На додаток до інтеграції з іншими сервісами AWS, велика спільнота, що розвивається навколо Amazon Textract, дозволяє нашим клієнтам отримувати реальну користь від своїх колекцій файлів, працювати більш ефективно, покращувати відповідність вимогам безпеки, автоматизувати введення даних та прискорювати прийняття бізнес-рішень".
Нижче ви можете переглянути презентацію Textract на конференції re:Invent 2018 англійською мовою.
Джерело: 3dnews.ru