Sortie du système de reconnaissance de texte Tesseract 5.1

La version du système de reconnaissance optique de texte Tesseract 5.1 a été publiée, prenant en charge la reconnaissance des caractères et des textes UTF-8 dans plus de 100 langues, dont le russe, le kazakh, le biélorusse et l'ukrainien. Le résultat peut être enregistré en texte brut ou aux formats HTML (hOCR), ALTO (XML), PDF et TSV. Le système a été créé à l'origine en 1985-1995 dans le laboratoire Hewlett Packard ; en 2005, le code a été ouvert sous licence Apache et a été développé avec la participation des employés de Google. Le code source du projet est distribué sous la licence Apache 2.0.

Tesseract comprend un utilitaire de console et la bibliothèque libtesseract pour intégrer la fonctionnalité OCR dans d'autres applications. Les interfaces GUI tierces prenant en charge Tesseract incluent gImageReader, VietOCR et YAGF. Deux moteurs de reconnaissance sont proposés : un classique qui reconnaît le texte au niveau des modèles de caractères individuels, et un nouveau basé sur l'utilisation d'un système d'apprentissage automatique basé sur un réseau neuronal récurrent LSTM, optimisé pour reconnaître des chaînes entières et permettant une augmentation significative de la précision. Des modèles formés prêts à l’emploi ont été publiés pour 123 langues. Pour optimiser les performances, des modules utilisant les instructions OpenMP et SIMD AVX2, AVX, NEON ou SSE4.1 sont proposés.

Améliorations majeures de Tesseract 5.1 :

  • La possibilité de traiter des zones avec des images et des lignes lors de la sortie aux formats ALTO, hOCR et texte a été implémentée.
  • Ajout d'un nouveau paramètre curl_timeout lkz curl_easy_setop.
  • Système de construction amélioré.
  • Un travail a été effectué pour supprimer le code inutilisé
  • Correction de plantages causés par une gestion incorrecte des pointeurs nuls dans la classe PageIterator :: Orientation.

Source: opennet.ru

Ajouter un commentaire