De release van het Tesseract 5.1 optische tekstherkenningssysteem is gepubliceerd, dat de herkenning van UTF-8-tekens en teksten in meer dan 100 talen ondersteunt, waaronder Russisch, Kazachs, Wit-Russisch en Oekraïens. Het resultaat kan worden opgeslagen in platte tekst of in de formaten HTML (hOCR), ALTO (XML), PDF en TSV. Het systeem werd oorspronkelijk gemaakt in 1985-1995 in het Hewlett Packard-laboratorium; in 2005 werd de code geopend onder de Apache-licentie en verder ontwikkeld met medewerking van Google-medewerkers. De broncode van het project wordt gedistribueerd onder de Apache 2.0-licentie.
Tesseract bevat een opdrachtregelprogramma en de libtesseract-bibliotheek waarmee u tekstherkenningsfunctionaliteit in andere toepassingen kunt integreren. GUI-interfaces van derden die Tesseract ondersteunen, zijn onder andere gImageReader, VietOCR en YAGF. Er worden twee herkenningsengines voorgesteld: een klassieke engine die tekst herkent op het niveau van individuele tekensjablonen en een nieuwe engine die gebruikmaakt van een machine learning-systeem op basis van het terugkerende neurale netwerk LSTM. Dit systeem is geoptimaliseerd voor het herkennen van hele regels en zorgt voor een aanzienlijk hogere nauwkeurigheid. Er zijn kant-en-klare, getrainde modellen gepubliceerd voor 123 talen. Om de prestaties te optimaliseren, worden modules aangeboden die gebruikmaken van OpenMP- en SIMD-instructies AVX2, AVX, NEON of SSE4.1.
Belangrijke verbeteringen in Tesseract 5.1 zijn:
- De mogelijkheid om gebieden te verwerken met afbeeldingen en lijnen bij uitvoer in ALTO-, hOCR- en tekstformaten is geïmplementeerd.
- Nieuwe parameter curl_timeout lkz curl_easy_setop toegevoegd.
- Verbeterd bouwsysteem.
- Er is gewerkt aan het verwijderen van ongebruikte code
- Crashes opgelost die werden veroorzaakt door onjuiste verwerking van null-pointers in de PageIterator::Orientation-klasse.
Bron: opennet.ru
