Κυκλοφορία του συστήματος αναγνώρισης κειμένου Tesseract 5.1

Δημοσιεύτηκε η κυκλοφορία του συστήματος οπτικής αναγνώρισης κειμένου Tesseract 5.1, το οποίο υποστηρίζει την αναγνώριση χαρακτήρων και κειμένων UTF-8 σε περισσότερες από 100 γλώσσες, συμπεριλαμβανομένων των Ρωσικών, Καζακικών, Λευκορωσικών και Ουκρανικών. Το αποτέλεσμα μπορεί να αποθηκευτεί σε απλό κείμενο ή σε μορφές HTML (hOCR), ALTO (XML), PDF και TSV. Το σύστημα δημιουργήθηκε αρχικά το 1985-1995 στο εργαστήριο Hewlett Packard· το 2005, ο κώδικας άνοιξε με την άδεια Apache και αναπτύχθηκε περαιτέρω με τη συμμετοχή υπαλλήλων της Google. Ο πηγαίος κώδικας του έργου διανέμεται με την άδεια Apache 2.0.

Το Tesseract περιλαμβάνει ένα βοηθητικό πρόγραμμα κονσόλας και τη βιβλιοθήκη libtesseract για την ενσωμάτωση της λειτουργικότητας OCR σε άλλες εφαρμογές. Οι διεπαφές GUI τρίτων που υποστηρίζουν το Tesseract περιλαμβάνουν το gImageReader, το VietOCR και το YAGF. Προσφέρονται δύο μηχανές αναγνώρισης: μια κλασική που αναγνωρίζει κείμενο σε επίπεδο μεμονωμένων μοτίβων χαρακτήρων και μια νέα που βασίζεται στη χρήση ενός συστήματος μηχανικής εκμάθησης που βασίζεται σε ένα επαναλαμβανόμενο νευρωνικό δίκτυο LSTM, βελτιστοποιημένο για την αναγνώριση ολόκληρων συμβολοσειρών και επιτρέπει σημαντική αύξηση της ακρίβειας. Έχουν εκδοθεί έτοιμα εκπαιδευμένα μοντέλα για 123 γλώσσες. Για βελτιστοποίηση της απόδοσης, προσφέρονται μονάδες που χρησιμοποιούν οδηγίες OpenMP και SIMD AVX2, AVX, NEON ή SSE4.1.

Σημαντικές βελτιώσεις στο Tesseract 5.1:

  • Έχει υλοποιηθεί η δυνατότητα επεξεργασίας περιοχών με εικόνες και γραμμές κατά την έξοδο σε μορφές ALTO, hOCR και κειμένου.
  • Προστέθηκε νέα παράμετρος curl_timeout lkz curl_easy_setop.
  • Βελτιωμένο σύστημα κατασκευής.
  • Έγινε εργασία για την αφαίρεση του αχρησιμοποίητου κώδικα
  • Διορθώθηκαν σφάλματα που προκλήθηκαν από εσφαλμένο χειρισμό μηδενικών δεικτών στην κλάση PageIterator::Orientation.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο