Verëffentlechung vum Texterkennungssystem Tesseract 5.0

D'Verëffentlechung vum Tesseract 4.1 opteschen Texterkennungssystem gouf publizéiert, ënnerstëtzt d'Unerkennung vun UTF-8 Charakteren an Texter a méi wéi 100 Sproochen, dorënner Russesch, Kasachesch, Wäissrussland an Ukrainesch. D'Resultat kann am Einfachen Text oder an HTML (hOCR), ALTO (XML), PDF an TSV Formater gespäichert ginn. De System gouf ursprénglech am 1985-1995 am Laboratoire vun Hewlett Packard erstallt; 2005 gouf de Code ënner der Apache Lizenz opgemaach a gouf weider entwéckelt mat der Participatioun vu Google Mataarbechter. De Quellcode vum Projet gëtt ënner der Apache 2.0 Lizenz verdeelt.

Tesseract enthält e Konsol Utility an d'libtesseract Bibliothéik fir OCR Funktionalitéit an aner Uwendungen z'integréieren. Drëtt Partei GUI Interfaces déi Tesseract ënnerstëtzen enthalen gImageReader, VietOCR an YAGF. Zwee Unerkennungsmotore ginn ugebueden: e klassesche deen Text um Niveau vun eenzelne Charaktermuster erkennt, an en neien baséiert op der Notzung vun engem Maschinnléiersystem baséiert op engem LSTM widderhuelend neuralt Netzwierk, optiméiert fir ganz Strings z'erkennen an erlaabt eng bedeitend Erhéijung vun der Genauegkeet. Fäerdeg ausgebilte Modeller goufen fir 123 Sprooche publizéiert. Fir d'Performance ze optimiséieren, ginn Moduler mat OpenMP an SIMD Instruktioune AVX2, AVX, NEON oder SSE4.1 ugebueden.

Grouss Verbesserungen am Tesseract 5.0:

  • Eng bedeitend Ännerung vun der Versiounsnummer ass wéinst Ännerungen, déi un der API gemaach goufen, déi d'Kompatibilitéit briechen. Besonnesch déi ëffentlech verfügbar libtesseract API ass net méi un de propriétaire GenericVector a STRING Datentypen gebonnen, zugonschte vun std :: string an std :: vector.
  • De Quelltextbaum gouf nei organiséiert. Ëffentlech Headerdateien goufen an den Inkludéieren / Tesseract Verzeechnes geplënnert.
  • Erënnerung Gestioun gouf nei designt, all malloc a gratis Uriff goufen duerch C ++ Code ersat. Eng allgemeng Moderniséierung vum Code gouf duerchgefouert.
  • Optimisatiounen bäigefüügt fir ARM an ARM64 Architekturen; ARM NEON Instruktioune gi benotzt fir Berechnungen ze beschleunegen. Leeschtungsoptimiséierung gemeinsam fir all Architekturen gouf duerchgefouert.
  • Nei Modi fir Trainingsmodeller an Texterkennung baséiert op der Benotzung vu Floating Point Berechnungen goufen ëmgesat. Déi nei Modi bidden méi héich Leeschtung a manner Erënnerungsverbrauch. Am LSTM-Moteur ass de Float32 Schnellmodus als Standard aktivéiert.
  • En Iwwergank gouf gemaach fir d'Unicode Normaliséierung mat der NFC (Normalization Form Canonical) Form ze benotzen.
  • Eng Optioun bäigefüügt fir Log Detailer ze konfiguréieren (--loglevel).
  • De Bausystem baséiert op Autotools gouf nei designt a gewiesselt fir am net-rekursive Modus ze bauen.
  • D'"Master" Filial am Git gouf op "Main" ëmbenannt.
  • Zousätzlech Ënnerstëtzung fir nei Verëffentlechunge vu MacOS an Apple Systemer baséiert op dem M1 Chip.

    Source: opennet.ru

Setzt e Commentaire