मजकूर ओळख प्रणालीचे प्रकाशन टेसरॅक्ट 5.1

Tesseract 5.1 ऑप्टिकल मजकूर ओळख प्रणालीचे प्रकाशन प्रकाशित केले गेले आहे, रशियन, कझाक, बेलारशियन आणि युक्रेनियनसह 8 पेक्षा जास्त भाषांमध्ये UTF-100 वर्ण आणि मजकूर ओळखण्यास समर्थन देते. परिणाम साध्या मजकूरात किंवा HTML (hOCR), ALTO (XML), PDF आणि TSV फॉरमॅटमध्ये जतन केला जाऊ शकतो. ही प्रणाली मूळतः 1985-1995 मध्ये हेवलेट पॅकार्ड प्रयोगशाळेत तयार करण्यात आली होती; 2005 मध्ये, कोड अपाचे परवान्याअंतर्गत उघडण्यात आला आणि Google कर्मचार्‍यांच्या सहभागाने पुढे विकसित करण्यात आला. प्रकल्पाचा स्त्रोत कोड Apache 2.0 लायसन्स अंतर्गत वितरित केला जातो.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, NEON или SSE4.1.

Tesseract 5.1 मधील प्रमुख सुधारणा:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • सुधारित बिल्ड सिस्टम.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

स्त्रोत: opennet.ru

एक टिप्पणी जोडा