Izdanje Tesseract 5.2 sistema za prepoznavanje teksta

Objavljeno je izdanje Tesseract 5.2 optičkog sistema za prepoznavanje teksta, koji podržava prepoznavanje UTF-8 znakova i tekstova na više od 100 jezika, uključujući ruski, kazahstanski, bjeloruski i ukrajinski. Rezultat se može sačuvati u običnom tekstu ili u HTML (hOCR), ALTO (XML), PDF i TSV formatima. Sistem je prvobitno kreiran 1985-1995 u laboratoriji Hewlett Packard, a 2005. godine kod je otvoren pod licencom Apache i dalje je razvijen uz učešće Google zaposlenih. Izvorni kod projekta se distribuira pod licencom Apache 2.0.

Tesseract uključuje uslužni program za konzolu i biblioteku libtesseract za ugrađivanje OCR funkcionalnosti u druge aplikacije. GUI sučelja treće strane koji podržavaju Tesseract uključuju gImageReader, VietOCR i YAGF. Nude se dva motora za prepoznavanje: klasični koji prepoznaje tekst na nivou pojedinačnih znakovnih obrazaca i novi zasnovan na korišćenju sistema mašinskog učenja zasnovanog na LSTM rekurentnoj neuronskoj mreži, optimizovan za prepoznavanje čitavih nizova i omogućava značajno povećanje tačnosti. Gotovi obučeni modeli objavljeni su za 123 jezika. Za optimizaciju performansi, nude se moduli koji koriste OpenMP i SIMD instrukcije AVX2, AVX, AVX512F, NEON ili SSE4.1.

Glavna poboljšanja u Tesseractu 5.2:

  • Добавлены оптимизации, реализованные с использованием инструкций Intel AVX512F.
  • В C API реализована функция для инициализации tesseract с загрузкой из памяти модели машинного обучения.
  • Добавлен параметр invert_threshold, определяющий уровень инвертирования текстовых строк. По умолчанию выставлено значение 0.7. Для отключения инвертирования следует выставить значение 0.
  • Налажена обработка очень больших документов на 32-разрядных хостах.
  • Осуществлён переход с использования функций std::regex на std::string.
  • Улучшены сборочные сценарии для Autotools, CMake и систем непрерывной интеграции.

    izvor: opennet.ru

Dodajte komentar