🥇文本识别系统Tesseract 5.1发布

Tesseract 5.1光学文本识别系统发布，支持识别俄语、哈萨克语、白俄罗斯语、乌克兰语等8多种语言的UTF-100字符和文本。结果可以纯文本或 HTML (hOCR)、ALTO (XML)、PDF 和 TSV 格式保存。该系统最初于1985-1995年在惠普实验室创建；2005年，代码在Apache许可下开放，并在谷歌员工的参与下进一步开发。该项目的源代码在 Apache 2.0 许可证下分发。

Tesseract 包含一个命令行实用程序和 libtesseract 库，用于将文本识别功能嵌入到其他应用程序中。支持 Tesseract 的第三方 GUI 界面包括 gImageReader、VietOCR 和 YAGF。它提供两种识别引擎：一种是经典引擎，用于识别单个字符模式的文本；另一种是基于机器学习系统的新引擎，该系统采用 LSTM 循环神经网络，针对识别整个字符串进行了优化，并显著提高了识别准确率。Tesseract 提供 123 种语言的即用型训练模型。为了优化性能，Tesseract 还提供使用 OpenMP 和 AVX2、AVX、NEON 或 SSE4.1 SIMD 指令的模块。

Tesseract 5.1 的主要改进：

已经实现了在以 ALTO、hOCR 和文本格式输出时处理包含图像和线条的区域的功能。
添加了新参数 curl_timeout lkz curl_easy_setop。
改进的构建系统。
已开展工作以删除未使用的代码。
修复了由于 PageIterator::Orientation 类中对空指针处理不当而导致的崩溃问题。

来源： opennet.ru

发布文本识别系统Tesseract 5.1

ProHoster