Sortie du système de reconnaissance de texte Tesseract 4.1

Préparé lancement d'un système de reconnaissance optique de texte Tesseract 4.1, prenant en charge la reconnaissance des caractères et des textes UTF-8 dans plus de 100 langues, dont le russe, le kazakh, le biélorusse et l'ukrainien. Le résultat peut être enregistré en texte brut ou aux formats HTML (hOCR), ALTO (XML), PDF et TSV. Le système a été créé à l'origine en 1985-1995 dans le laboratoire Hewlett Packard ; en 2005, le code a été ouvert sous licence Apache et a été développé avec la participation des employés de Google. Sources du projet propagé sous licence Apache 2.0.

Tesseract comprend un utilitaire de console et la bibliothèque libtesseract pour intégrer la fonctionnalité OCR dans d'autres applications. De tiers qui soutiennent Tesseract Interfaces graphiques tu peux noter gImageReader, VietOCR и YAGF. Deux moteurs de reconnaissance sont proposés : un classique qui reconnaît le texte au niveau des modèles de caractères individuels, et un nouveau basé sur l'utilisation d'un système d'apprentissage automatique basé sur un réseau neuronal récurrent LSTM, optimisé pour reconnaître des chaînes entières et permettant une augmentation significative de la précision. Des modèles formés prêts à l'emploi sont publiés pour 123 langues. Pour optimiser les performances, des modules utilisant les instructions OpenMP et AVX2, AVX ou SSE4.1 SIMD sont proposés.

principal améliorations dans Tesseract 4.1 :

  • Ajout de la possibilité de sortir au format XML HAUT (Mise en page analysée et objet texte). Pour utiliser ce format, vous devez exécuter l'application en tant que « tessaract image_name alto output_dir » ;
  • Ajout de nouveaux modules de rendu LSTMBox et WordStrBox, simplifiant la formation du moteur ;
  • Ajout de la prise en charge des pseudographies dans la sortie hOCR (HTML) ;
  • Ajout de scripts alternatifs écrits en Python pour entraîner le moteur basé sur l'apprentissage automatique ;
  • Optimisations étendues à l'aide des instructions AVX, AVX2 et SSE ;
  • La prise en charge d'OpenMP est désactivée par défaut en raison de проблем avec productivité;
  • Ajout de la prise en charge des listes blanches et noires dans le moteur LSTM ;
  • Scripts de construction améliorés basés sur Cmake.

Source: opennet.ru

Ajouter un commentaire