Κυκλοφορία του συστήματος αναγνώρισης κειμένου Tesseract 5.0

Δημοσιεύτηκε η κυκλοφορία του συστήματος οπτικής αναγνώρισης κειμένου Tesseract 4.1, το οποίο υποστηρίζει την αναγνώριση χαρακτήρων και κειμένων UTF-8 σε περισσότερες από 100 γλώσσες, συμπεριλαμβανομένων των Ρωσικών, Καζακικών, Λευκορωσικών και Ουκρανικών. Το αποτέλεσμα μπορεί να αποθηκευτεί σε απλό κείμενο ή σε μορφές HTML (hOCR), ALTO (XML), PDF και TSV. Το σύστημα δημιουργήθηκε αρχικά το 1985-1995 στο εργαστήριο Hewlett Packard· το 2005, ο κώδικας άνοιξε με την άδεια Apache και αναπτύχθηκε περαιτέρω με τη συμμετοχή υπαλλήλων της Google. Ο πηγαίος κώδικας του έργου διανέμεται με την άδεια Apache 2.0.

Το Tesseract περιλαμβάνει ένα βοηθητικό πρόγραμμα κονσόλας και τη βιβλιοθήκη libtesseract για την ενσωμάτωση της λειτουργικότητας OCR σε άλλες εφαρμογές. Οι διεπαφές GUI τρίτων που υποστηρίζουν το Tesseract περιλαμβάνουν το gImageReader, το VietOCR και το YAGF. Προσφέρονται δύο μηχανές αναγνώρισης: μια κλασική που αναγνωρίζει κείμενο σε επίπεδο μεμονωμένων μοτίβων χαρακτήρων και μια νέα που βασίζεται στη χρήση ενός συστήματος μηχανικής εκμάθησης που βασίζεται σε ένα επαναλαμβανόμενο νευρωνικό δίκτυο LSTM, βελτιστοποιημένο για την αναγνώριση ολόκληρων συμβολοσειρών και επιτρέπει σημαντική αύξηση της ακρίβειας. Έχουν εκδοθεί έτοιμα εκπαιδευμένα μοντέλα για 123 γλώσσες. Για βελτιστοποίηση της απόδοσης, προσφέρονται μονάδες που χρησιμοποιούν οδηγίες OpenMP και SIMD AVX2, AVX, NEON ή SSE4.1.

Σημαντικές βελτιώσεις στο Tesseract 5.0:

  • Μια σημαντική αλλαγή στον αριθμό έκδοσης οφείλεται σε αλλαγές που έγιναν στο API που διακόπτουν τη συμβατότητα. Συγκεκριμένα, το δημοσίως διαθέσιμο API libtesseract δεν είναι πλέον συνδεδεμένο με τους ιδιόκτητους τύπους δεδομένων GenericVector και STRING, υπέρ των std::string και std::vector.
  • Το δέντρο κειμένου προέλευσης έχει αναδιοργανωθεί. Τα δημόσια αρχεία κεφαλίδας έχουν μετακινηθεί στον κατάλογο include/tesseract.
  • Η διαχείριση μνήμης έχει επανασχεδιαστεί, όλες οι malloc και οι δωρεάν κλήσεις έχουν αντικατασταθεί με κωδικό C++. Πραγματοποιήθηκε γενικός εκσυγχρονισμός του κώδικα.
  • Προστέθηκαν βελτιστοποιήσεις για αρχιτεκτονικές ARM και ARM64. Οι οδηγίες ARM NEON χρησιμοποιούνται για την επιτάχυνση των υπολογισμών. Έχει πραγματοποιηθεί βελτιστοποίηση απόδοσης κοινή για όλες τις αρχιτεκτονικές.
  • Έχουν εφαρμοστεί νέοι τρόποι για μοντέλα εκπαίδευσης και αναγνώριση κειμένου με βάση τη χρήση υπολογισμών κινητής υποδιαστολής. Οι νέες λειτουργίες προσφέρουν υψηλότερη απόδοση και χαμηλότερη κατανάλωση μνήμης. Στον κινητήρα LSTM, η γρήγορη λειτουργία float32 είναι ενεργοποιημένη από προεπιλογή.
  • Έχει γίνει μια μετάβαση στη χρήση της κανονικοποίησης Unicode χρησιμοποιώντας τη φόρμα NFC (Normalization Form Canonical).
  • Προστέθηκε μια επιλογή για τη διαμόρφωση των λεπτομερειών καταγραφής (--loglevel).
  • Το σύστημα κατασκευής που βασίζεται στο Autotools έχει επανασχεδιαστεί και έχει μετατραπεί σε build σε μη αναδρομική λειτουργία.
  • Ο κλάδος "κύριος" στο Git έχει μετονομαστεί σε "κύριο".
  • Προστέθηκε υποστήριξη για νέες εκδόσεις συστημάτων macOS και Apple που βασίζονται στο τσιπ M1.

    Πηγή: opennet.ru

Προσθέστε ένα σχόλιο