发布文本识别系统Tesseract 5.1

Tesseract 5.1光学文本识别系统发布,支持识别俄语、哈萨克语、白俄罗斯语、乌克兰语等8多种语言的UTF-100字符和文本。 结果可以纯文本或 HTML (hOCR)、ALTO (XML)、PDF 和 TSV 格式保存。 该系统最初于1985-1995年在惠普实验室创建;2005年,代码在Apache许可下开放,并在谷歌员工的参与下进一步开发。 该项目的源代码在 Apache 2.0 许可证下分发。

Tesseract 包括一个控制台实用程序和 libtesseract 库,用于将 OCR 功能嵌入到其他应用程序中。 支持 Tesseract 的第三方 GUI 界面包括 gImageReader、VietOCR 和 YAGF。 提供了两种识别引擎:一种经典的识别引擎在单个字符模式级别上识别文本,另一种是基于使用基于 LSTM 循环神经网络的机器学习系统的新识别引擎,该系统针对识别整个字符串进行了优化,并允许准确度显着提高。 已发布 123 种语言的现成训练模型。 为了优化性能,提供了使用 OpenMP 和 SIMD 指令 AVX2、AVX、NEON 或 SSE4.1 的模块。

Tesseract 5.1 的主要改进:

  • 已实现以 ALTO、hOCR 和文本格式输出时处理带有图像和线条的区域的功能。
  • 添加了新参数curl_timeout lkz curl_easy_setop。
  • 改进的构建系统。
  • 已完成删除未使用代码的工作
  • 修复了因 PageIterator::Orientation 类中空指针处理不正确而导致的崩溃。

来源: opennet.ru

添加评论