Tesseract 5.1光學文字辨識系統發布,支援識別俄語、哈薩克語、白俄羅斯語、烏克蘭語等8多種語言的UTF-100字元和文字。 結果可以純文字或 HTML (hOCR)、ALTO (XML)、PDF 和 TSV 格式儲存。 該系統最初於1985-1995年在惠普實驗室創建;2005年,程式碼在Apache許可下開放,並在Google員工的參與下進一步開發。 該專案的源代碼在 Apache 2.0 許可證下分發。
Tesseract 包括一個控制台實用程式和 libtesseract 函式庫,用於將 OCR 功能嵌入到其他應用程式中。 支援 Tesseract 的第三方 GUI 介麵包括 gImageReader、VietOCR 和 YAGF。 提供了兩種識別引擎:一種經典的識別引擎在單一字元模式層級上識別文本,另一種是基於使用基於LSTM 循環神經網路的機器學習系統的新識別引擎,該系統針對識別整個字串進行了優化,並允許準確度顯著提高。 已發布 123 種語言的現成訓練模型。 為了優化效能,提供了使用 OpenMP 和 SIMD 指令 AVX2、AVX、NEON 或 SSE4.1 的模組。
Tesseract 5.1的主要改進:
- Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
- Добавлен новый параметр curl_timeout lkz curl_easy_setop.
- 改進的建置系統。
- Проведена работа по удалению неиспользуемого кода
- Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.
來源: opennet.ru