Veröffentlichung des Texterkennungssystems Tesseract 5.1

Die Veröffentlichung des optischen Texterkennungssystems Tesseract 5.1 wurde veröffentlicht, das die Erkennung von UTF-8-Zeichen und -Texten in mehr als 100 Sprachen unterstützt, darunter Russisch, Kasachisch, Weißrussisch und Ukrainisch. Das Ergebnis kann sowohl im Klartext als auch in den Formaten HTML (hOCR), ALTO (XML), PDF und TSV gespeichert werden. Ursprünglich wurde das System 1985-1995 im Labor von Hewlett Packard erstellt, 2005 wurde der Code unter der Apache-Lizenz geöffnet und unter Beteiligung von Google-Mitarbeitern weiterentwickelt. Die Quelltexte des Projekts werden unter der Apache 2.0-Lizenz vertrieben.

Tesseract enthält ein Konsolendienstprogramm und die Bibliothek libtesseract zum Einbetten der OCR-Funktionalität in andere Anwendungen. Zu den Tesseract-unterstützenden GUIs von Drittanbietern gehören gImageReader, VietOCR und YAGF. Es werden zwei Erkennungs-Engines vorgeschlagen: eine klassische, die Text auf der Ebene einzelner Zeichenmuster erkennt, und eine neue, die auf der Verwendung eines maschinellen Lernsystems basiert, das auf einem wiederkehrenden neuronalen Netzwerk LSTM basiert, das für die Erkennung ganzer Zeilen optimiert ist und eine ermöglicht deutliche Steigerung der Genauigkeit. Für 123 Sprachen wurden fertig trainierte Modelle veröffentlicht. Zur Leistungsoptimierung werden Module angeboten, die die OpenMP- und SIMD-Anweisungen AVX2, AVX, NEON oder SSE4.1 nutzen.

Wichtige Verbesserungen in Tesseract 5.1:

  • Die Möglichkeit, Flächen mit Bildern und Linien bei der Ausgabe in den Formaten ALTO, hOCR und Text zu verarbeiten, wurde implementiert.
  • Neuer Parameter „curl_timeout“ lkz „curl_easy_setop“ hinzugefügt.
  • Verbessertes Build-System.
  • Es wurden Arbeiten durchgeführt, um nicht verwendeten Code zu entfernen
  • Abstürze behoben, die durch falsche Behandlung von Nullzeigern in der PageIterator::Orientation-Klasse verursacht wurden.

Source: opennet.ru

Kommentar hinzufügen