Veröffentlichung des Texterkennungssystems Tesseract 4.1

Vorbereitet Veröffentlichung eines optischen Texterkennungssystems Tesserakt 4.1, unterstützt die Erkennung von UTF-8-Zeichen und -Texten in mehr als 100 Sprachen, darunter Russisch, Kasachisch, Weißrussisch und Ukrainisch. Das Ergebnis kann im Klartext oder in den Formaten HTML (hOCR), ALTO (XML), PDF und TSV gespeichert werden. Das System wurde ursprünglich 1985-1995 im Hewlett Packard-Labor erstellt; 2005 wurde der Code unter der Apache-Lizenz geöffnet und unter Beteiligung von Google-Mitarbeitern weiterentwickelt. Projektquellen Ausbreitung lizenziert unter Apache 2.0.

Tesseract enthält ein Konsolendienstprogramm und die Bibliothek libtesseract zum Einbetten der OCR-Funktionalität in andere Anwendungen. Von Dritten, die Tesseract unterstützen GUI-Schnittstellen kannst du merken gImageReader, VietOCR и YAGF. Es werden zwei Erkennungs-Engines angeboten: eine klassische, die Text auf der Ebene einzelner Zeichenmuster erkennt, und eine neue, die auf der Verwendung eines maschinellen Lernsystems basiert, das auf einem wiederkehrenden neuronalen LSTM-Netzwerk basiert und für die Erkennung ganzer Zeichenfolgen optimiert ist deutliche Steigerung der Genauigkeit. Es werden fertige trainierte Modelle veröffentlicht 123 Sprachen. Zur Leistungsoptimierung werden Module mit OpenMP- und AVX2-, AVX- oder SSE4.1-SIMD-Anweisungen angeboten.

Haupt- Verbesserungen in Tesseract 4.1:

  • Möglichkeit zur Ausgabe im XML-Format hinzugefügt HOCH (Analysiertes Layout und Textobjekt). Um dieses Format zu verwenden, sollten Sie die Anwendung als „tessaract image_name alto output_dir“ ausführen;
  • Neue Rendering-Module LSTMBox und WordStrBox hinzugefügt, um das Engine-Training zu vereinfachen;
  • Unterstützung für Pseudografiken in der hOCR-Ausgabe (HTML) hinzugefügt;
  • In Python geschriebene alternative Skripte zum Trainieren der Engine basierend auf maschinellem Lernen hinzugefügt.
  • Erweiterte Optimierungen mit AVX-, AVX2- und SSE-Anweisungen;
  • Die OpenMP-Unterstützung ist aufgrund von standardmäßig deaktiviert проблем mit Produktivität;
  • Unterstützung für White- und Blacklists in der LSTM-Engine hinzugefügt;
  • Verbesserte Build-Skripte basierend auf Cmake.

Source: opennet.ru

Kommentar hinzufügen