Uitgave van het tekstherkenningssysteem Tesseract 5.1

De release van het Tesseract 5.1 optische tekstherkenningssysteem is gepubliceerd, dat de herkenning van UTF-8-tekens en teksten in meer dan 100 talen ondersteunt, waaronder Russisch, Kazachs, Wit-Russisch en Oekraïens. Het resultaat kan worden opgeslagen in platte tekst of in de formaten HTML (hOCR), ALTO (XML), PDF en TSV. Het systeem werd oorspronkelijk gemaakt in 1985-1995 in het Hewlett Packard-laboratorium; in 2005 werd de code geopend onder de Apache-licentie en verder ontwikkeld met medewerking van Google-medewerkers. De broncode van het project wordt gedistribueerd onder de Apache 2.0-licentie.

Tesseract bevat een consolehulpprogramma en de libtesseract-bibliotheek voor het inbedden van OCR-functionaliteit in andere applicaties. GUI-interfaces van derden die Tesseract ondersteunen, zijn onder meer gImageReader, VietOCR en YAGF. Er worden twee herkenningsengines aangeboden: een klassieke die tekst herkent op het niveau van individuele tekenpatronen, en een nieuwe die gebaseerd is op het gebruik van een machinaal leersysteem gebaseerd op een LSTM terugkerend neuraal netwerk, geoptimaliseerd voor het herkennen van hele tekenreeksen en het mogelijk maken van een aanzienlijke toename van de nauwkeurigheid. Er zijn kant-en-klare getrainde modellen gepubliceerd voor 123 talen. Om de prestaties te optimaliseren, worden modules aangeboden die gebruik maken van OpenMP- en SIMD-instructies AVX2, AVX, NEON of SSE4.1.

Belangrijke verbeteringen in Tesseract 5.1:

  • De mogelijkheid om gebieden met afbeeldingen en lijnen te verwerken bij uitvoer in ALTO-, hOCR- en tekstformaten is geïmplementeerd.
  • Nieuwe parameter curl_timeout lkz curl_easy_setop toegevoegd.
  • Verbeterd bouwsysteem.
  • Er is gewerkt aan het verwijderen van ongebruikte code
  • Vaste crashes veroorzaakt door onjuiste afhandeling van nulaanwijzers in de PageIterator::Orientation-klasse.

Bron: opennet.ru

Voeg een reactie