Uitgave van het tekstherkenningssysteem Tesseract 5.2

De release van het Tesseract 5.2 optische tekstherkenningssysteem is gepubliceerd, dat de herkenning van UTF-8-tekens en teksten in meer dan 100 talen ondersteunt, waaronder Russisch, Kazachs, Wit-Russisch en Oekraïens. Het resultaat kan worden opgeslagen in platte tekst of in de formaten HTML (hOCR), ALTO (XML), PDF en TSV. Het systeem werd oorspronkelijk gemaakt in 1985-1995 in het Hewlett Packard-laboratorium; in 2005 werd de code geopend onder de Apache-licentie en verder ontwikkeld met medewerking van Google-medewerkers. De broncode van het project wordt gedistribueerd onder de Apache 2.0-licentie.

Tesseract bevat een consolehulpprogramma en de libtesseract-bibliotheek voor het inbedden van OCR-functionaliteit in andere applicaties. GUI-interfaces van derden die Tesseract ondersteunen, zijn onder meer gImageReader, VietOCR en YAGF. Er worden twee herkenningsengines aangeboden: een klassieke die tekst herkent op het niveau van individuele tekenpatronen, en een nieuwe die gebaseerd is op het gebruik van een machinaal leersysteem gebaseerd op een LSTM terugkerend neuraal netwerk, geoptimaliseerd voor het herkennen van hele tekenreeksen en het mogelijk maken van een aanzienlijke toename van de nauwkeurigheid. Er zijn kant-en-klare getrainde modellen gepubliceerd voor 123 talen. Om de prestaties te optimaliseren, worden modules aangeboden die gebruik maken van OpenMP- en SIMD-instructies AVX2, AVX, AVX512F, NEON of SSE4.1.

Belangrijke verbeteringen in Tesseract 5.2:

  • Er zijn optimalisaties toegevoegd die zijn geïmplementeerd met behulp van Intel AVX512F-instructies.
  • De C API implementeert een functie om tesseract te initialiseren door een machine learning-model uit het geheugen te laden.
  • De parameter invert_threshold is toegevoegd, die het niveau van inversie van tekstreeksen bepaalt. De standaardwaarde is 0.7. Om de inversie uit te schakelen, stelt u de waarde in op 0.
  • Verbeterde verwerking van zeer grote documenten op 32-bits hosts.
  • De overgang is gemaakt van het gebruik van std::regex-functies naar std::string.
  • Verbeterde build-scripts voor Autotools, CMake en continue integratiesystemen.

    Bron: opennet.ru

Voeg een reactie