Uitgave van het tekstherkenningssysteem Tesseract 4.1

Voorbereid introductie van optisch tekstherkenningssysteem Tesseract 4.1, ter ondersteuning van de herkenning van UTF-8-tekens en -teksten in meer dan 100 talen, waaronder Russisch, Kazachs, Wit-Russisch en Oekraïens. Het resultaat kan worden opgeslagen in platte tekst of in de formaten HTML (hOCR), ALTO (XML), PDF en TSV. Het systeem werd oorspronkelijk in 1985-1995 gemaakt in het laboratorium van Hewlett Packard; in 2005 werd de code geopend onder de Apache-licentie en verder ontwikkeld met medewerking van Google-medewerkers. Projectbronnen worden verspreid gelicentieerd onder Apache 2.0.

Tesseract bevat een consolehulpprogramma en de libtesseract-bibliotheek voor het inbedden van OCR-functionaliteit in andere applicaties. Van derde partijen die Tesseract ondersteunen GUI-interfaces je kunt opmerken gImageReader, VietOCR и YAGF. Er worden twee herkenningsengines aangeboden: een klassieke die tekst herkent op het niveau van individuele tekenpatronen, en een nieuwe die gebaseerd is op het gebruik van een machinaal leersysteem gebaseerd op een LSTM terugkerend neuraal netwerk, geoptimaliseerd voor het herkennen van hele tekenreeksen en het mogelijk maken van een aanzienlijke toename van de nauwkeurigheid. Er worden kant-en-klare getrainde modellen gepubliceerd 123 talen. Om de prestaties te optimaliseren, worden modules aangeboden die gebruik maken van OpenMP en AVX2, AVX of SSE4.1 SIMD-instructies.

De belangrijkste verbeteringen in Tesseract 4.1:

  • De mogelijkheid toegevoegd om uit te voeren in XML-formaat HOOG (Geanalyseerde lay-out en tekstobject). Om dit formaat te gebruiken, moet u de applicatie uitvoeren als “tessaract image_name alto output_dir”;
  • Nieuwe weergavemodules LSTMBox en WordStrBox toegevoegd, waardoor engine-training wordt vereenvoudigd;
  • Ondersteuning toegevoegd voor pseudografische afbeeldingen in hOCR (HTML)-uitvoer;
  • Alternatieve scripts toegevoegd, geschreven in Python, voor het trainen van de engine op basis van machinaal leren;
  • Uitgebreide optimalisaties met behulp van AVX-, AVX2- en SSE-instructies;
  • OpenMP-ondersteuning is standaard uitgeschakeld vanwege problemen met productiviteit;
  • Ondersteuning toegevoegd voor witte en zwarte lijsten in de LSTM-engine;
  • Verbeterde build-scripts gebaseerd op Cmake.

Bron: opennet.ru

Voeg een reactie