Ir-rilaxx tas-sistema ta 'rikonoxximent tat-test Tesseract 5.2 ottiku ġie ppubblikat, li jappoġġja r-rikonoxximent ta' karattri UTF-8 u testi f'aktar minn 100 lingwa, inklużi r-Russu, il-Każakistan, il-Belarus u l-Ukrajna. Ir-riżultat jista' jiġi ffrankat f'test sempliċi jew f'formati HTML (hOCR), ALTO (XML), PDF u TSV. Is-sistema inħolqot oriġinarjament fl-1985-1995 fil-laboratorju Hewlett Packard; fl-2005, il-kodiċi nfetaħ taħt il-liċenzja Apache u ġie żviluppat aktar bil-parteċipazzjoni tal-impjegati ta 'Google. Il-kodiċi tas-sors tal-proġett huwa mqassam taħt il-liċenzja Apache 2.0.
Tesseract jinkludi utilità tal-console u l-librerija libtesseract għall-inkorporazzjoni tal-funzjonalità tal-OCR f'applikazzjonijiet oħra. Interfaces GUI ta 'partijiet terzi li jappoġġjaw Tesseract jinkludu gImageReader, VietOCR u YAGF. Huma offruti żewġ magni ta’ rikonoxximent: waħda klassika li tagħraf it-test fil-livell ta’ mudelli ta’ karattri individwali, u waħda ġdida bbażata fuq l-użu ta’ sistema ta’ tagħlim tal-magni bbażata fuq netwerk newrali rikorrenti LSTM, ottimizzata biex tagħraf kordi sħaħ u tippermetti żieda sinifikanti fl-eżattezza. Mudelli mħarrġa lesti ġew ippubblikati għal 123 lingwa. Biex tiġi ottimizzata l-prestazzjoni, huma offruti moduli li jużaw struzzjonijiet OpenMP u SIMD AVX2, AVX, AVX512F, NEON jew SSE4.1.
Titjib kbir f'Tesseract 5.2:
- Добавлены оптимизации, реализованные с использованием инструкций Intel AVX512F.
- В C API реализована функция для инициализации tesseract с загрузкой из памяти модели машинного обучения.
- Добавлен параметр invert_threshold, определяющий уровень инвертирования текстовых строк. По умолчанию выставлено значение 0.7. Для отключения инвертирования следует выставить значение 0.
- Налажена обработка очень больших документов на 32-разрядных хостах.
- Осуществлён переход с использования функций std::regex на std::string.
- Улучшены сборочные сценарии для Autotools, CMake и систем непрерывной интеграции.
Sors: opennet.ru