テキスト認識システム Tesseract 5.0 をリリース

Tesseract 4.1 光学式テキスト認識システムのリリースが公開され、UTF-8 文字と、ロシア語、カザフ語、ベラルーシ語、ウクライナ語を含む 100 以上の言語のテキストの認識がサポートされます。 結果はプレーンテキスト、または HTML (hOCR)、ALTO (XML)、PDF、TSV 形式で保存できます。 このシステムはもともと 1985 年から 1995 年にかけてヒューレット パッカードの研究所で作成されましたが、2005 年にコードは Apache ライセンスに基づいて公開され、Google 従業員の参加によりさらに開発されました。 プロジェクトのソース コードは、Apache 2.0 ライセンスに基づいて配布されます。

Tesseract には、OCR 機能を他のアプリケーションに埋め込むためのコンソール ユーティリティと libtesseract ライブラリが含まれています。 Tesseract をサポートするサードパーティの GUI インターフェイスには、gImageReader、VietOCR、YAGF などがあります。 123 つの認識エンジンが提供されています。2 つは個々の文字パターンのレベルでテキストを認識する従来の認識エンジン、もう 4.1 つは LSTM リカレント ニューラル ネットワークに基づく機械学習システムの使用に基づく新しい認識エンジンで、文字列全体を認識し、精度が大幅に向上します。 既製のトレーニング済みモデルが XNUMX 言語向けに公開されています。 パフォーマンスを最適化するために、OpenMP および SIMD 命令 AVXXNUMX、AVX、NEON、または SSEXNUMX を使用するモジュールが提供されています。

Tesseract 5.0 の主な改善点:

  • バージョン番号の大幅な変更は、互換性を損なう API への変更が原因です。 特に、公開されている libtesseract API は、独自の GenericVector および STRING データ型に関連付けられなくなり、std::string および std::vector が使用されるようになりました。
  • ソーステキストツリーが再編成されました。 パブリックヘッダーファイルは include/tesseract ディレクトリに移動されました。
  • メモリ管理が再設計され、すべての malloc および free 呼び出しが C++ コードに置き換えられました。 コードの全体的な最新化が行われました。
  • ARM および ARM64 アーキテクチャ向けの最適化が追加され、計算を高速化するために ARM NEON 命令が使用されます。 すべてのアーキテクチャに共通のパフォーマンスの最適化が実行されました。
  • 浮動小数点計算の使用に基づいたモデルのトレーニングとテキスト認識のための新しいモードが実装されました。 新しいモードは、より高いパフォーマンスとより低いメモリ消費量を提供します。 LSTM エンジンでは、float32 高速モードがデフォルトで有効になっています。
  • NFC (Normalization Form Canonical) フォームを使用した Unicode 正規化の使用に移行しました。
  • ログの詳細を構成するオプション (--loglevel) を追加しました。
  • Autotools に基づくビルド システムが再設計され、非再帰モードでビルドするように切り替えられました。
  • Git の「master」ブランチの名前が「main」に変更されました。
  • M1 チップに基づく macOS および Apple システムの新しいリリースのサポートが追加されました。

    出所: オープンネット.ru

コメントを追加します