发布文本识别系统Tesseract 4.1

准备好了 发布光学文本识别系统 立方体 4.1,支持识别 8 多种语言的 UTF-100 字符和文本,包括俄语、哈萨克语、白俄罗斯语和乌克兰语。 结果可以纯文本或 HTML (hOCR)、ALTO (XML)、PDF 和 TSV 格式保存。 该系统最初于1985-1995年在惠普实验室创建;2005年,代码在Apache许可下开放,并在谷歌员工的参与下进一步开发。 项目来源 传播 在 Apache 2.0 下获得许可。

Tesseract 包括一个控制台实用程序和 libtesseract 库,用于将 OCR 功能嵌入到其他应用程序中。 来自支持 Tesseract 的第三方 图形用户界面 你可以注意 图像阅读器, 越南OCR и 雅格。 提供了两种识别引擎:一种经典的识别引擎在单个字符模式级别上识别文本,另一种是基于使用基于 LSTM 循环神经网络的机器学习系统的新识别引擎,该系统针对识别整个字符串进行了优化,并允许准确率显着提高。 现成的训练模型已发布 123种语言。 为了优化性能,提供了使用 OpenMP 和 AVX2、AVX 或 SSE4.1 SIMD 指令的模块。

改进 在超立方体 4.1 中:

  • 添加了以 XML 格式输出的功能 (分析布局和文本对象)。 要使用此格式,您应该以“tessaract image_name alto output_dir”运行应用程序;
  • 新增渲染模块LSTMBox和WordStrBox,简化引擎训练;
  • 添加了对 hOCR (HTML) 输出中的伪图形的支持;
  • 添加了用Python编写的替代脚本,用于训练基于机器学习的引擎;
  • 使用 AVX、AVX2 和 SSE 指令进行扩展优化;
  • 默认情况下禁用 OpenMP 支持,因为 问题 具有生产力;
  • LSTM引擎增加了对白名单和黑名单的支持;
  • 改进了基于 Cmake 的构建脚本。

来源: opennet.ru

添加评论