發布文字辨識系統Tesseract 5.5.0

Tesseract 5.5.0光學文本識別系統已經發布,支援Unicode和100多種語言的文本識別,包括俄語、哈薩克語、白俄羅斯語和烏克蘭語。結果可以純文字或 HTML (hOCR)、ALTO (XML)、PDF 和 TSV 格式儲存。該系統最初於1985-1995年在惠普實驗室創建;2005年,程式碼在Apache許可下開放,並在Google員工的參與下進一步開發。該專案的源代碼在 Apache 2.0 許可證下分發。

Tesseract 包括一個控制台實用程式和 libtesseract 函式庫,用於將 OCR 功能嵌入到其他應用程式中。支援 Tesseract 的第三方 GUI 介麵包括 gImageReader、VietOCR 和 YAGF。提供了兩種識別引擎:一種經典的識別引擎在單一字元模式層級上識別文本,另一種是基於使用基於LSTM 循環神經網路的機器學習系統的新識別引擎,該系統針對識別整個字串進行了優化,並允許準確率顯著提高。已發布 123 種語言的現成訓練模型。為了優化效能,提供了使用 OpenMP 和 SIMD 指令 AVX2、AVX、AVX512F、NEON 或 SSE4.1 的模組。

主要改進:

  • 增加了對RISC-V V向量擴展的支持,在此基礎上準備了針對RISC-V處理器系統的彙編優化。
  • 以 hOCR 格式記錄結果時,參數 ocrp_dir 和 ocrp_lang 在建立的檔案中設定。
  • 更新了程式碼以偵測可用的語言模型。
  • 改進了用於生成 hOCR 檔案的程式碼,並移除了平台上的檔案名稱轉換。 Windows.
  • 允許在“--oem”和“-psm”選項中指定字元值。
  • 程式碼已用 std::filesystem::exists() 方法取代了 access 和 _access 函式。 tprintf 函數已被使用 tesserr 流取代。
  • 對 Tensorflow 機器學習平台的支援已被刪除,該平台曾一度實現,但從未用於運行 AI 識別模型。
  • 改進的平台安裝程序 Windows.
  • googletest 子模組已更新至版本 1.15.2。

來源: opennet.ru

為具有 DDoS 保護、VPS VDS 服務器的站點購買可靠的主機 🔥 購買具備 DDoS 防護的可靠網站寄存服務,包括 VPS 和 VDS 伺服器 | ProHoster