光学式テキスト認識システム Tesseract 5.5.0 のリリースが公開され、Unicode と、ロシア語、カザフ語、ベラルーシ語、ウクライナ語を含む 100 以上の言語のテキスト認識がサポートされています。結果はプレーンテキスト、または HTML (hOCR)、ALTO (XML)、PDF、TSV 形式で保存できます。このシステムはもともと 1985 年から 1995 年に Hewlett Packard の研究所で作成され、2005 年にコードが Apache ライセンスに基づいて公開され、Google 従業員の参加によりさらに開発されました。プロジェクトのソース コードは、Apache 2.0 ライセンスに基づいて配布されます。
Tesseract には、OCR 機能を他のアプリケーションに埋め込むためのコンソール ユーティリティと libtesseract ライブラリが含まれています。 Tesseract をサポートするサードパーティの GUI インターフェイスには、gImageReader、VietOCR、YAGF などがあります。 123 つの認識エンジンが提供されています。2 つは個々の文字パターンのレベルでテキストを認識する従来の認識エンジン、もう 512 つは LSTM リカレント ニューラル ネットワークに基づく機械学習システムの使用に基づく新しい認識エンジンで、文字列全体を認識し、精度が大幅に向上します。既製のトレーニング済みモデルが 4.1 言語向けに公開されています。パフォーマンスを最適化するために、OpenMP および SIMD 命令 AVXXNUMX、AVX、AVXXNUMXF、NEON、または SSEXNUMX を使用するモジュールが提供されています。
主な改善点:
- RISC-V V ベクトル拡張のサポートが追加されました。これに基づいて、RISC-V プロセッサを備えたシステムのアセンブリ最適化が準備されました。
- 結果を hOCR 形式で記録する場合、作成されたファイルにパラメータ ocrp_dir および ocrp_lang が設定されます。
- 利用可能な言語モデルを検出するためにコードを更新しました。
- hOCRファイル生成のためのコードを改善し、プラットフォーム上でのファイル名変換を削除しました。 Windows.
- 「--oem」および「-psm」オプションで文字値を指定できます。
- このコードでは、access 関数と _access 関数が std::filesystem::exists() メソッドに置き換えられています。 tprintf 関数は、tesserr ストリームを使用することによって置き換えられました。
- Tensorflow 機械学習プラットフォームのサポートは、かつて実装されていましたが、AI 認識モデルの実行には使用されませんでしたが、削除されました。
- プラットフォームのインストーラーを改善しました Windows.
- googletest サブモジュールがバージョン 1.15.2 に更新されました。
出所: オープンネット.ru
