テキスト認識システム Tesseract 4.1 をリリース

準備 光学式文字認識システムを発売 テッセラクト 4.1、ロシア語、カザフ語、ベラルーシ語、ウクライナ語を含む 8 以上の言語の UTF-100 文字とテキストの認識をサポートしています。 結果はプレーンテキスト、または HTML (hOCR)、ALTO (XML)、PDF、TSV 形式で保存できます。 このシステムはもともと 1985 年から 1995 年にかけてヒューレット パッカードの研究所で作成されましたが、2005 年にコードは Apache ライセンスに基づいて公開され、Google 従業員の参加によりさらに開発されました。 プロジェクトソース 広める Apache 2.0 に基づいてライセンスされています。

Tesseract には、OCR 機能を他のアプリケーションに埋め込むためのコンソール ユーティリティと libtesseract ライブラリが含まれています。 Tesseract をサポートするサードパーティからの提供 GUIインターフェース あなたは注意することができます gImageReader, VietOCR и YAGF。 XNUMX つの認識エンジンが提供されています。XNUMX つは個々の文字パターンのレベルでテキストを認識する従来の認識エンジン、もう XNUMX つは LSTM リカレント ニューラル ネットワークに基づく機械学習システムの使用に基づいた新しい認識エンジンで、文字列全体を認識し、精度が大幅に向上します。 既製のトレーニング済みモデルが公開されています 123言語。 パフォーマンスを最適化するために、OpenMP および AVX2、AVX、または SSE4.1 SIMD 命令を使用するモジュールが提供されています。

メイン 改善 Tesseract 4.1 では:

  • XML形式で出力する機能を追加しました HIGH (分析されたレイアウトとテキスト オブジェクト)。 この形式を使用するには、アプリケーションを「tessaract image_name alto Output_dir」として実行する必要があります。
  • 新しいレンダリング モジュール LSTMBox と WordStrBox を追加し、エンジンのトレーニングを簡素化しました。
  • hOCR (HTML) 出力での擬似グラフィックのサポートを追加しました。
  • 機械学習に基づいてエンジンをトレーニングするために Python で書かれた代替スクリプトを追加しました。
  • AVX、AVX2、SSE 命令を使用した拡張された最適化。
  • OpenMP サポートはデフォルトでは無効になっています。 проблем 生産性とともに。
  • LSTM エンジンにホワイト リストとブラック リストのサポートが追加されました。
  • Cmake に基づいてビルド スクリプトが改善されました。

出所: オープンネット.ru

コメントを追加します