發布文字辨識系統Tesseract 5.1

Tesseract 5.1光學文字辨識系統發布,支援識別俄語、哈薩克語、白俄羅斯語、烏克蘭語等8多種語言的UTF-100字元和文字。 結果可以純文字或 HTML (hOCR)、ALTO (XML)、PDF 和 TSV 格式儲存。 該系統最初於1985-1995年在惠普實驗室創建;2005年,程式碼在Apache許可下開放,並在Google員工的參與下進一步開發。 該專案的源代碼在 Apache 2.0 許可證下分發。

Tesseract 包括一個控制台實用程式和 libtesseract 函式庫,用於將 OCR 功能嵌入到其他應用程式中。 支援 Tesseract 的第三方 GUI 介麵包括 gImageReader、VietOCR 和 YAGF。 提供了兩種識別引擎:一種經典的識別引擎在單一字元模式層級上識別文本,另一種是基於使用基於LSTM 循環神經網路的機器學習系統的新識別引擎,該系統針對識別整個字串進行了優化,並允許準確度顯著提高。 已發布 123 種語言的現成訓練模型。 為了優化效能,提供了使用 OpenMP 和 SIMD 指令 AVX2、AVX、NEON 或 SSE4.1 的模組。

Tesseract 5.1的主要改進:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • 改進的建置系統。
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

來源: opennet.ru

添加評論