Uitgave van het tekstherkenningssysteem Tesseract 5.3.4

De release van het Tesseract 5.3.4 optische tekstherkenningssysteem is gepubliceerd, dat de herkenning van UTF-8-tekens en teksten in meer dan 100 talen ondersteunt, waaronder Russisch, Kazachs, Wit-Russisch en Oekraïens. Het resultaat kan worden opgeslagen in platte tekst of in de formaten HTML (hOCR), ALTO (XML), PDF en TSV. Het systeem werd oorspronkelijk gemaakt in 1985-1995 in het Hewlett Packard-laboratorium; in 2005 werd de code geopend onder de Apache-licentie en verder ontwikkeld met medewerking van Google-medewerkers. De broncode van het project wordt gedistribueerd onder de Apache 2.0-licentie.

Tesseract bevat een consolehulpprogramma en de libtesseract-bibliotheek voor het inbedden van OCR-functionaliteit in andere applicaties. GUI-interfaces van derden die Tesseract ondersteunen, zijn onder meer gImageReader, VietOCR en YAGF. Er worden twee herkenningsengines aangeboden: een klassieke die tekst herkent op het niveau van individuele tekenpatronen, en een nieuwe die gebaseerd is op het gebruik van een machinaal leersysteem gebaseerd op een LSTM terugkerend neuraal netwerk, geoptimaliseerd voor het herkennen van hele tekenreeksen en het mogelijk maken van een aanzienlijke toename van de nauwkeurigheid. Er zijn kant-en-klare getrainde modellen gepubliceerd voor 123 talen. Om de prestaties te optimaliseren, worden modules aangeboden die gebruik maken van OpenMP- en SIMD-instructies AVX2, AVX, AVX512F, NEON of SSE4.1.

Belangrijkste verbeteringen:

  • Verbeterde beeldherkenning via URL bij het downloaden van bestanden met behulp van de libcurl-bibliotheek. Bij het laden wordt de User-Agent-header ingesteld. Nieuwe parameter curl_cookiefile toegevoegd voor het gebruik van een cookiebestand.
  • De ScrollView-server gebruikt TCP als voorkeursprotocol.
  • Wanneer u de opdracht "combine_tessdata -d" gebruikt, wordt uitvoer geleverd aan stdout in plaats van stderr.
  • Er zijn buildproblemen opgelost bij het gebruik van autoconf en clang.

Bron: opennet.ru

Voeg een reactie