テキスト認識システム Tesseract 5.1 をリリース

Tesseract 5.1 光学式テキスト認識システムのリリースが公開され、UTF-8 文字と、ロシア語、カザフ語、ベラルーシ語、ウクライナ語を含む 100 以上の言語のテキストの認識がサポートされます。 結果はプレーンテキスト、または HTML (hOCR)、ALTO (XML)、PDF、TSV 形式で保存できます。 このシステムはもともと 1985 年から 1995 年にかけてヒューレット パッカードの研究所で作成されましたが、2005 年にコードは Apache ライセンスに基づいて公開され、Google 従業員の参加によりさらに開発されました。 プロジェクトのソース コードは、Apache 2.0 ライセンスに基づいて配布されます。

Tesseract には、OCR 機能を他のアプリケーションに埋め込むためのコンソール ユーティリティと libtesseract ライブラリが含まれています。 Tesseract をサポートするサードパーティの GUI インターフェイスには、gImageReader、VietOCR、YAGF などがあります。 123 つの認識エンジンが提供されています。2 つは個々の文字パターンのレベルでテキストを認識する従来の認識エンジン、もう 4.1 つは LSTM リカレント ニューラル ネットワークに基づく機械学習システムの使用に基づく新しい認識エンジンで、文字列全体を認識し、精度が大幅に向上します。 既製のトレーニング済みモデルが XNUMX 言語向けに公開されています。 パフォーマンスを最適化するために、OpenMP および SIMD 命令 AVXXNUMX、AVX、NEON、または SSEXNUMX を使用するモジュールが提供されています。

Tesseract 5.1 の主な改善点:

  • ALTO、hOCR、テキスト形式で出力する際に​​、画像や線が入った領域を処理する機能が実装されました。
  • 新しいパラメータcurl_timeout lkzcurl_easy_setopを追加しました。
  • ビルドシステムの改善。
  • 未使用のコードを削除する作業が行われました
  • PageIterator::Orientation クラスでの null ポインターの誤った処理によって引き起こされるクラッシュを修正しました。

出所: オープンネット.ru

コメントを追加します