Rilaxx tas-sistema ta' rikonoxximent tat-test Tesseract 5.1

Ir-rilaxx tas-sistema ta 'rikonoxximent tat-test Tesseract 5.1 ottiku ġie ppubblikat, li jappoġġja r-rikonoxximent ta' karattri UTF-8 u testi f'aktar minn 100 lingwa, inklużi r-Russu, il-Każakistan, il-Belarus u l-Ukrajna. Ir-riżultat jista' jiġi ffrankat f'test sempliċi jew f'formati HTML (hOCR), ALTO (XML), PDF u TSV. Is-sistema inħolqot oriġinarjament fl-1985-1995 fil-laboratorju Hewlett Packard; fl-2005, il-kodiċi nfetaħ taħt il-liċenzja Apache u ġie żviluppat aktar bil-parteċipazzjoni tal-impjegati ta 'Google. Il-kodiċi tas-sors tal-proġett huwa mqassam taħt il-liċenzja Apache 2.0.

Tesseract jinkludi utilità tal-console u l-librerija libtesseract għall-inkorporazzjoni tal-funzjonalità tal-OCR f'applikazzjonijiet oħra. Interfaces GUI ta 'partijiet terzi li jappoġġjaw Tesseract jinkludu gImageReader, VietOCR u YAGF. Huma offruti żewġ magni ta’ rikonoxximent: waħda klassika li tagħraf it-test fil-livell ta’ mudelli ta’ karattri individwali, u waħda ġdida bbażata fuq l-użu ta’ sistema ta’ tagħlim tal-magni bbażata fuq netwerk newrali rikorrenti LSTM, ottimizzata biex tagħraf kordi sħaħ u tippermetti żieda sinifikanti fl-eżattezza. Mudelli mħarrġa lesti ġew ippubblikati għal 123 lingwa. Biex tiġi ottimizzata l-prestazzjoni, huma offruti moduli li jużaw struzzjonijiet OpenMP u SIMD AVX2, AVX, NEON jew SSE4.1.

Titjib kbir f'Tesseract 5.1:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • Sistema ta 'bini mtejba.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

Sors: opennet.ru

Żid kumment