Verëffentlechung vum Texterkennungssystem Tesseract 5.3.4

D'Verëffentlechung vum Tesseract 5.3.4 opteschen Texterkennungssystem gouf publizéiert, ënnerstëtzt d'Unerkennung vun UTF-8 Charakteren an Texter a méi wéi 100 Sproochen, dorënner Russesch, Kasachesch, Wäissrussland an Ukrainesch. D'Resultat kann am Einfachen Text oder an HTML (hOCR), ALTO (XML), PDF an TSV Formater gespäichert ginn. De System gouf ursprénglech am 1985-1995 am Laboratoire vun Hewlett Packard erstallt; 2005 gouf de Code ënner der Apache Lizenz opgemaach a gouf weider entwéckelt mat der Participatioun vu Google Mataarbechter. De Quellcode vum Projet gëtt ënner der Apache 2.0 Lizenz verdeelt.

Tesseract enthält e Konsol Utility an d'libtesseract Bibliothéik fir OCR Funktionalitéit an aner Uwendungen z'integréieren. Drëtt Partei GUI Interfaces déi Tesseract ënnerstëtzen enthalen gImageReader, VietOCR an YAGF. Zwee Unerkennungsmotore ginn ugebueden: e klassesche deen Text um Niveau vun eenzelne Charaktermuster erkennt, an en neien baséiert op der Notzung vun engem Maschinnléieresystem baséiert op engem LSTM widderhuelend neuralt Netzwierk, optiméiert fir ganz Strings z'erkennen an erlaabt eng bedeitend Erhéijung vun der Genauegkeet. Fäerdeg ausgebilte Modeller goufen fir 123 Sprooche publizéiert. Fir d'Performance ze optimiséieren, ginn Moduler mat OpenMP an SIMD Instruktiounen AVX2, AVX, AVX512F, NEON oder SSE4.1 ugebueden.

Main Verbesserungen:

  • Verbesserte Bilderkennung duerch URL mat Datei Download mat der Libcurl Bibliothéik. Beim Luede gëtt de User-Agent Header agestallt. Neie Parameter bäigefüügt curl_cookiefile fir eng Cookie Datei ze benotzen.
  • De ScrollView Server benotzt TCP als säi léifste Protokoll.
  • Wann Dir de Kommando "combine_tessdata -d" benotzt, gëtt d'Ausgab op stdout geliwwert anstatt stderr.
  • Fixéiert Bauprobleemer wann Dir Autoconf a Clang benotzt.

Source: opennet.ru

Setzt e Commentaire