Tesseract 5.1光学文本识别系统发布,支持识别俄语、哈萨克语、白俄罗斯语、乌克兰语等8多种语言的UTF-100字符和文本。 结果可以纯文本或 HTML (hOCR)、ALTO (XML)、PDF 和 TSV 格式保存。 该系统最初于1985-1995年在惠普实验室创建;2005年,代码在Apache许可下开放,并在谷歌员工的参与下进一步开发。 该项目的源代码在 Apache 2.0 许可证下分发。
Tesseract 包含一个命令行实用程序和 libtesseract 库,用于将文本识别功能嵌入到其他应用程序中。支持 Tesseract 的第三方 GUI 界面包括 gImageReader、VietOCR 和 YAGF。它提供两种识别引擎:一种是经典引擎,用于识别单个字符模式的文本;另一种是基于机器学习系统的新引擎,该系统采用 LSTM 循环神经网络,针对识别整个字符串进行了优化,并显著提高了识别准确率。Tesseract 提供 123 种语言的即用型训练模型。为了优化性能,Tesseract 还提供使用 OpenMP 和 AVX2、AVX、NEON 或 SSE4.1 SIMD 指令的模块。
Tesseract 5.1 的主要改进:
- 已经实现了在以 ALTO、hOCR 和文本格式输出时处理包含图像和线条的区域的功能。
- 添加了新参数 curl_timeout lkz curl_easy_setop。
- 改进的构建系统。
- 已开展工作以删除未使用的代码。
- 修复了由于 PageIterator::Orientation 类中对空指针处理不当而导致的崩溃问题。
来源: opennet.ru
