Verëffentlechung vum Texterkennungssystem Tesseract 5.1

D'Verëffentlechung vum Tesseract 5.1 opteschen Texterkennungssystem gouf publizéiert, ënnerstëtzt d'Unerkennung vun UTF-8 Charakteren an Texter a méi wéi 100 Sproochen, dorënner Russesch, Kasachesch, Wäissrussland an Ukrainesch. D'Resultat kann am Einfachen Text oder an HTML (hOCR), ALTO (XML), PDF an TSV Formater gespäichert ginn. De System gouf ursprénglech am 1985-1995 am Laboratoire vun Hewlett Packard erstallt; 2005 gouf de Code ënner der Apache Lizenz opgemaach a gouf weider entwéckelt mat der Participatioun vu Google Mataarbechter. De Quellcode vum Projet gëtt ënner der Apache 2.0 Lizenz verdeelt.

Tesseract enthält e Konsol Utility an d'libtesseract Bibliothéik fir OCR Funktionalitéit an aner Uwendungen z'integréieren. Drëtt Partei GUI Interfaces déi Tesseract ënnerstëtzen enthalen gImageReader, VietOCR an YAGF. Zwee Unerkennungsmotore ginn ugebueden: e klassesche deen Text um Niveau vun eenzelne Charaktermuster erkennt, an en neien baséiert op der Notzung vun engem Maschinnléiersystem baséiert op engem LSTM widderhuelend neuralt Netzwierk, optiméiert fir ganz Strings z'erkennen an erlaabt eng bedeitend Erhéijung vun der Genauegkeet. Fäerdeg ausgebilte Modeller goufen fir 123 Sprooche publizéiert. Fir d'Performance ze optimiséieren, ginn Moduler mat OpenMP an SIMD Instruktioune AVX2, AVX, NEON oder SSE4.1 ugebueden.

Grouss Verbesserungen am Tesseract 5.1:

  • D'Kapazitéit fir Beräicher mat Biller a Linnen ze veraarbecht wann se an ALTO, hOCR an Textformater ausginn ass implementéiert.
  • Neie Parameter dobäigesat curl_timeout lkz curl_easy_setop.
  • Verbesserte Bausystem.
  • Aarbecht gouf gemaach fir net benotzte Code ze läschen
  • Fixéiert Crashen verursaacht duerch falsch Handhabung vun Nullpointer an der PageIterator :: Orientatiounsklass.

Source: opennet.ru

Setzt e Commentaire