テキスト認識システム Tesseract 5.3.4 をリリース

Tesseract 5.3.4 光学式テキスト認識システムのリリースが公開され、UTF-8 文字と、ロシア語、カザフ語、ベラルーシ語、ウクライナ語を含む 100 以上の言語のテキストの認識がサポートされます。 結果はプレーンテキスト、または HTML (hOCR)、ALTO (XML)、PDF、TSV 形式で保存できます。 このシステムはもともと 1985 年から 1995 年にかけてヒューレット パッカードの研究所で作成されましたが、2005 年にコードは Apache ライセンスに基づいて公開され、Google 従業員の参加によりさらに開発されました。 プロジェクトのソース コードは、Apache 2.0 ライセンスに基づいて配布されます。

Tesseract には、OCR 機能を他のアプリケーションに埋め込むためのコンソール ユーティリティと libtesseract ライブラリが含まれています。 Tesseract をサポートするサードパーティの GUI インターフェイスには、gImageReader、VietOCR、YAGF などがあります。 123 つの認識エンジンが提供されています。2 つは個々の文字パターンのレベルでテキストを認識する従来の認識エンジン、もう 512 つは LSTM リカレント ニューラル ネットワークに基づく機械学習システムの使用に基づいた新しい認識エンジンで、文字列全体を認識し、精度が大幅に向上します。既製のトレーニング済みモデルが 4.1 言語向けに公開されています。パフォーマンスを最適化するために、OpenMP および SIMD 命令 AVXXNUMX、AVX、AVXXNUMXF、NEON または SSEXNUMX を使用するモジュールが提供されています。

主な改善点:

  • libcurl ライブラリを使用したファイルのダウンロードによる URL による画像認識が向上しました。ロード時に、User-Agent ヘッダーが設定されます。 Cookie ファイルを使用するための新しいパラメータcurl_cookiefileを追加しました。
  • ScrollView サーバーは、優先プロトコルとして TCP を使用します。
  • 「combine_tessdata -d」コマンドを使用すると、出力は stderr ではなく stdout に提供されます。
  • autoconf と Clang を使用する場合のビルドの問題を修正しました。

出所: オープンネット.ru

コメントを追加します