Veröffentlichung des Texterkennungssystems Tesseract 5.3.4

Die Veröffentlichung des optischen Texterkennungssystems Tesseract 5.3.4 wurde veröffentlicht, das die Erkennung von UTF-8-Zeichen und -Texten in mehr als 100 Sprachen unterstützt, darunter Russisch, Kasachisch, Weißrussisch und Ukrainisch. Das Ergebnis kann sowohl im Klartext als auch in den Formaten HTML (hOCR), ALTO (XML), PDF und TSV gespeichert werden. Ursprünglich wurde das System 1985-1995 im Labor von Hewlett Packard erstellt, 2005 wurde der Code unter der Apache-Lizenz geöffnet und unter Beteiligung von Google-Mitarbeitern weiterentwickelt. Die Quelltexte des Projekts werden unter der Apache 2.0-Lizenz vertrieben.

Tesseract enthält ein Konsolendienstprogramm und die Bibliothek libtesseract zum Einbetten der OCR-Funktionalität in andere Anwendungen. Zu den GUI-Schnittstellen von Drittanbietern, die Tesseract unterstützen, gehören gImageReader, VietOCR und YAGF. Es werden zwei Erkennungs-Engines angeboten: eine klassische, die Text auf der Ebene einzelner Zeichenmuster erkennt, und eine neue, die auf der Verwendung eines maschinellen Lernsystems basiert, das auf einem wiederkehrenden neuronalen LSTM-Netzwerk basiert und für die Erkennung ganzer Zeichenfolgen optimiert ist deutliche Steigerung der Genauigkeit. Für 123 Sprachen wurden vorgefertigte trainierte Modelle veröffentlicht. Zur Leistungsoptimierung werden Module mit OpenMP- und SIMD-Befehlen AVX2, AVX, AVX512F, NEON oder SSE4.1 angeboten.

Wichtigste Verbesserungen:

  • Verbesserte Bilderkennung per URL mit Datei-Download mithilfe der libcurl-Bibliothek. Beim Laden wird der User-Agent-Header gesetzt. Neuer Parameter „curl_cookiefile“ für die Verwendung einer Cookie-Datei hinzugefügt.
  • Der ScrollView-Server verwendet TCP als bevorzugtes Protokoll.
  • Bei Verwendung des Befehls „combine_tessdata -d“ erfolgt die Ausgabe an stdout statt an stderr.
  • Build-Probleme bei Verwendung von Autoconf und Clang behoben.

Source: opennet.ru

Kommentar hinzufügen