Κυκλοφορία του συστήματος αναγνώρισης κειμένου Tesseract 5.3.4

Δημοσιεύτηκε η κυκλοφορία του συστήματος οπτικής αναγνώρισης κειμένου Tesseract 5.3.4, το οποίο υποστηρίζει την αναγνώριση χαρακτήρων και κειμένων UTF-8 σε περισσότερες από 100 γλώσσες, συμπεριλαμβανομένων των Ρωσικών, Καζακικών, Λευκορωσικών και Ουκρανικών. Το αποτέλεσμα μπορεί να αποθηκευτεί σε απλό κείμενο ή σε μορφές HTML (hOCR), ALTO (XML), PDF και TSV. Το σύστημα δημιουργήθηκε αρχικά το 1985-1995 στο εργαστήριο Hewlett Packard· το 2005, ο κώδικας άνοιξε με την άδεια Apache και αναπτύχθηκε περαιτέρω με τη συμμετοχή υπαλλήλων της Google. Ο πηγαίος κώδικας του έργου διανέμεται με την άδεια Apache 2.0.

Το Tesseract περιλαμβάνει ένα βοηθητικό πρόγραμμα κονσόλας και τη βιβλιοθήκη libtesseract για την ενσωμάτωση της λειτουργικότητας OCR σε άλλες εφαρμογές. Οι διεπαφές GUI τρίτων που υποστηρίζουν το Tesseract περιλαμβάνουν το gImageReader, το VietOCR και το YAGF. Προσφέρονται δύο μηχανές αναγνώρισης: μια κλασική που αναγνωρίζει κείμενο σε επίπεδο μεμονωμένων μοτίβων χαρακτήρων και μια νέα που βασίζεται στη χρήση ενός συστήματος μηχανικής μάθησης που βασίζεται σε ένα επαναλαμβανόμενο νευρωνικό δίκτυο LSTM, βελτιστοποιημένο για την αναγνώριση ολόκληρων συμβολοσειρών και επιτρέπει σημαντική αύξηση της ακρίβειας. Έχουν εκδοθεί έτοιμα εκπαιδευμένα μοντέλα για 123 γλώσσες. Για βελτιστοποίηση της απόδοσης, προσφέρονται μονάδες που χρησιμοποιούν οδηγίες OpenMP και SIMD AVX2, AVX, AVX512F, NEON ή SSE4.1.

Βασικές βελτιώσεις:

  • Βελτιωμένη αναγνώριση εικόνας από τη διεύθυνση URL με λήψη αρχείου χρησιμοποιώντας τη βιβλιοθήκη libcurl. Κατά τη φόρτωση, ορίζεται η κεφαλίδα User-Agent. Προστέθηκε νέα παράμετρος curl_cookiefile για χρήση αρχείου cookie.
  • Ο διακομιστής ScrollView χρησιμοποιεί το TCP ως πρωτόκολλο που προτιμά.
  • Όταν χρησιμοποιείτε την εντολή "combine_tessdata -d", παρέχεται έξοδος στο stdout αντί για το stderr.
  • Διορθώθηκαν τα προβλήματα κατασκευής κατά τη χρήση της αυτόματης ρύθμισης και του κουδουνίσματος.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο