Rilaxx tas-sistema ta' rikonoxximent tat-test Tesseract 5.2

Ir-rilaxx tas-sistema ta 'rikonoxximent tat-test Tesseract 5.2 ottiku ġie ppubblikat, li jappoġġja r-rikonoxximent ta' karattri UTF-8 u testi f'aktar minn 100 lingwa, inklużi r-Russu, il-Każakistan, il-Belarus u l-Ukrajna. Ir-riżultat jista' jiġi ffrankat f'test sempliċi jew f'formati HTML (hOCR), ALTO (XML), PDF u TSV. Is-sistema inħolqot oriġinarjament fl-1985-1995 fil-laboratorju Hewlett Packard; fl-2005, il-kodiċi nfetaħ taħt il-liċenzja Apache u ġie żviluppat aktar bil-parteċipazzjoni tal-impjegati ta 'Google. Il-kodiċi tas-sors tal-proġett huwa mqassam taħt il-liċenzja Apache 2.0.

Tesseract jinkludi utilità tal-console u l-librerija libtesseract għall-inkorporazzjoni tal-funzjonalità tal-OCR f'applikazzjonijiet oħra. Interfaces GUI ta 'partijiet terzi li jappoġġjaw Tesseract jinkludu gImageReader, VietOCR u YAGF. Huma offruti żewġ magni ta’ rikonoxximent: waħda klassika li tagħraf it-test fil-livell ta’ mudelli ta’ karattri individwali, u waħda ġdida bbażata fuq l-użu ta’ sistema ta’ tagħlim tal-magni bbażata fuq netwerk newrali rikorrenti LSTM, ottimizzata biex tagħraf kordi sħaħ u tippermetti żieda sinifikanti fl-eżattezza. Mudelli mħarrġa lesti ġew ippubblikati għal 123 lingwa. Biex tiġi ottimizzata l-prestazzjoni, huma offruti moduli li jużaw struzzjonijiet OpenMP u SIMD AVX2, AVX, AVX512F, NEON jew SSE4.1.

Titjib kbir f'Tesseract 5.2:

  • Добавлены оптимизации, реализованные с использованием инструкций Intel AVX512F.
  • В C API реализована функция для инициализации tesseract с загрузкой из памяти модели машинного обучения.
  • Добавлен параметр invert_threshold, определяющий уровень инвертирования текстовых строк. По умолчанию выставлено значение 0.7. Для отключения инвертирования следует выставить значение 0.
  • Налажена обработка очень больших документов на 32-разрядных хостах.
  • Осуществлён переход с использования функций std::regex на std::string.
  • Улучшены сборочные сценарии для Autotools, CMake и систем непрерывной интеграции.

    Sors: opennet.ru

Żid kumment