發布文字辨識系統Tesseract 5.0

Tesseract 4.1光學文字辨識系統發布,支援識別俄語、哈薩克語、白俄羅斯語、烏克蘭語等8多種語言的UTF-100字元和文字。 結果可以純文字或 HTML (hOCR)、ALTO (XML)、PDF 和 TSV 格式儲存。 該系統最初於1985-1995年在惠普實驗室創建;2005年,程式碼在Apache許可下開放,並在Google員工的參與下進一步開發。 該專案的源代碼在 Apache 2.0 許可證下分發。

Tesseract 包括一個控制台實用程式和 libtesseract 函式庫,用於將 OCR 功能嵌入到其他應用程式中。 支援 Tesseract 的第三方 GUI 介麵包括 gImageReader、VietOCR 和 YAGF。 提供了兩種識別引擎:一種經典的識別引擎在單一字元模式層級上識別文本,另一種是基於使用基於LSTM 循環神經網路的機器學習系統的新識別引擎,該系統針對識別整個字串進行了優化,並允許準確度顯著提高。 已發布 123 種語言的現成訓練模型。 為了優化效能,提供了使用 OpenMP 和 SIMD 指令 AVX2、AVX、NEON 或 SSE4.1 的模組。

Tesseract 5.0的主要改進:

  • 版本號的重大變更是由於 API 所做的更改破壞了相容性。 特別是,公開可用的 libtesseract API 不再依賴專有的 GenericVector 和 STRING 資料類型,而是支援 std::string 和 std::vector。
  • 源文本樹已被重新組織。 公共頭檔已移至 include/tesseract 目錄。
  • 記憶體管理已重新設計,所有 malloc 和 free 呼叫均已替換為 C++ 程式碼。 程式碼的整體現代化已經完成。
  • 新增了針對 ARM 和 ARM64 架構的最佳化;使用 ARM NEON 指令來加速運算。 已經進行了所有架構通用的效能最佳化。
  • 基於浮點計算的訓練模型和文字辨識的新模式已經實現。 新模式提供更高的效能和更低的記憶體消耗。 在 LSTM 引擎中,預設啟用 float32 快速模式。
  • 已轉換為使用 NFC(規範化形式規範)形式進行 Unicode 規範化。
  • 新增了配置日誌詳細資訊的選項(--loglevel)。
  • 基於Autotools的建置系統已重新設計並切換為以非遞歸模式建置。
  • Git 中的「master」分支已重新命名為「main」。
  • 增加了對基於 M1 晶片的 macOS 和 Apple 系統新版本的支援。

    來源: opennet.ru

添加評論