發布文字辨識系統Tesseract 5.2

Tesseract 5.2光學文字辨識系統發布,支援識別俄語、哈薩克語、白俄羅斯語、烏克蘭語等8多種語言的UTF-100字元和文字。 結果可以純文字或 HTML (hOCR)、ALTO (XML)、PDF 和 TSV 格式儲存。 該系統最初於1985-1995年在惠普實驗室創建;2005年,程式碼在Apache許可下開放,並在Google員工的參與下進一步開發。 該專案的源代碼在 Apache 2.0 許可證下分發。

Tesseract 包括一個控制台實用程式和 libtesseract 函式庫,用於將 OCR 功能嵌入到其他應用程式中。 支援 Tesseract 的第三方 GUI 介麵包括 gImageReader、VietOCR 和 YAGF。 提供了兩種識別引擎:一種經典的識別引擎在單一字元模式層級上識別文本,另一種是基於使用基於LSTM 循環神經網路的機器學習系統的新識別引擎,該系統針對識別整個字串進行了優化,並允許準確度顯著提高。 已發布 123 種語言的現成訓練模型。 為了優化效能,提供了使用 OpenMP 和 SIMD 指令 AVX2、AVX、AVX512F、NEON 或 SSE4.1 的模組。

Tesseract 5.2的主要改進:

  • 新增了使用 Intel AVX512F 指令實現的最佳化。
  • C API 實作了一個函數,用於透過從記憶體載入機器學習模型來初始化 tesseract。
  • 新增了 invert_threshold 參數,該參數確定文字字串的反轉等級。 預設值為 0.7。 若要停用反轉,請將值設為 0。
  • 改進了 32 位元主機上超大文件的處理。
  • 已從使用 std::regex 函數轉換為使用 std::string。
  • 改進了 Autotools、CMake 和持續整合系統的建置腳本。

    來源: opennet.ru

添加評論