テキスト認識システム Tesseract 5.2 をリリース

Tesseract 5.2 光学式テキスト認識システムのリリースが公開され、UTF-8 文字と、ロシア語、カザフ語、ベラルーシ語、ウクライナ語を含む 100 以上の言語のテキストの認識がサポートされます。 結果はプレーンテキスト、または HTML (hOCR)、ALTO (XML)、PDF、TSV 形式で保存できます。 このシステムはもともと 1985 年から 1995 年にかけてヒューレット パッカードの研究所で作成されましたが、2005 年にコードは Apache ライセンスに基づいて公開され、Google 従業員の参加によりさらに開発されました。 プロジェクトのソース コードは、Apache 2.0 ライセンスに基づいて配布されます。

Tesseract には、OCR 機能を他のアプリケーションに埋め込むためのコンソール ユーティリティと libtesseract ライブラリが含まれています。 Tesseract をサポートするサードパーティの GUI インターフェイスには、gImageReader、VietOCR、YAGF などがあります。 123 つの認識エンジンが提供されています。2 つは個々の文字パターンのレベルでテキストを認識する従来の認識エンジン、もう 512 つは LSTM リカレント ニューラル ネットワークに基づく機械学習システムの使用に基づいた新しい認識エンジンで、文字列全体を認識し、精度が大幅に向上します。既製のトレーニング済みモデルが 4.1 言語向けに公開されています。パフォーマンスを最適化するために、OpenMP および SIMD 命令 AVXXNUMX、AVX、AVXXNUMXF、NEON または SSEXNUMX を使用するモジュールが提供されています。

Tesseract 5.2 の主な改善点:

  • Добавлены оптимизации, реализованные с использованием инструкций Intel AVX512F.
  • В C API реализована функция для инициализации tesseract с загрузкой из памяти модели машинного обучения.
  • Добавлен параметр invert_threshold, определяющий уровень инвертирования текстовых строк. По умолчанию выставлено значение 0.7. Для отключения инвертирования следует выставить значение 0.
  • Налажена обработка очень больших документов на 32-разрядных хостах.
  • Осуществлён переход с использования функций std::regex на std::string.
  • Улучшены сборочные сценарии для Autotools, CMake и систем непрерывной интеграции.

    出所: オープンネット.ru

コメントを追加します