發布文字辨識系統Tesseract 4.1

準備好的 發佈光學文字辨識系統 超立方體4.1,支援識別 8 多種語言的 UTF-100 字元和文本,包括俄語、哈薩克語、白俄羅斯語和烏克蘭語。 結果可以純文字或 HTML (hOCR)、ALTO (XML)、PDF 和 TSV 格式儲存。 該系統最初於1985-1995年在惠普實驗室創建;2005年,程式碼在Apache許可下開放,並在Google員工的參與下進一步開發。 專案來源 傳播 在 Apache 2.0 下獲得許可。

Tesseract 包括一個控制台實用程式和 libtesseract 函式庫,用於將 OCR 功能嵌入到其他應用程式中。 來自支援 Tesseract 的第三方 圖形使用者介面 你可以注意到 gImageReader, 越南OCR и YAGF。 提供了兩種識別引擎:一種經典的識別引擎在單一字元模式層級上識別文本,另一種是基於使用基於LSTM 循環神經網路的機器學習系統的新識別引擎,該系統針對識別整個字串進行了優化,並允許準確度顯著提高。 現成的訓練模型已發布 123 種語言。 為了優化效能,提供了使用 OpenMP 和 AVX2、AVX 或 SSE4.1 SIMD 指令的模組。

主要的 改進 在超立方體 4.1 中:

  • 新增了以 XML 格式輸出的功能 (分析版面配置和文字物件)。 要使用此格式,您應該以“tessaract image_name alto output_dir”運行應用程式;
  • 新增渲染模組LSTMBox和WordStrBox,簡化引擎訓練;
  • 新增了對 hOCR (HTML) 輸出中的偽圖形的支援;
  • 新增了用Python編寫的替代腳本,用於訓練基於機器學習的引擎;
  • 使用 AVX、AVX2 和 SSE 指令進行擴充優化;
  • 預設情況下禁用 OpenMP 支持,原因是 проблем 具有生產力;
  • LSTM引擎增加了對白名單和黑名單的支援;
  • 改進了基於 Cmake 的建置腳本。

來源: opennet.ru

添加評論