Vrystelling van die teksherkenningstelsel Tesseract 5.1

Die vrystelling van die Tesseract 5.1 optiese teksherkenningstelsel is gepubliseer, wat herkenning van UTF-8 karakters en tekste in meer as 100 tale ondersteun, insluitend Russies, Kazaks, Wit-Russies en Oekraïens. Die resultaat kan in duidelike teks en in HTML (hOCR), ALTO (XML), PDF en TSV formate gestoor word. Aanvanklik is die stelsel in 1985-1995 in die laboratorium van Hewlett Packard geskep, in 2005 is die kode onder die Apache-lisensie geopen en verder ontwikkel met die deelname van Google-werknemers. Die brontekste van die projek word onder die Apache 2.0-lisensie versprei.

Tesseract bevat 'n konsole-hulpmiddel en die libtesseract-biblioteek vir die inbedding van OCR-funksies in ander toepassings. Tesseract-ondersteunende derdeparty-GUI's sluit gImageReader, VietOCR en YAGF in. Twee herkenningsenjins word voorgestel: 'n klassieke een wat teks op die vlak van individuele karakterpatrone herken, en 'n nuwe een gebaseer op die gebruik van 'n masjienleerstelsel gebaseer op 'n herhalende neurale netwerk LSTM, geoptimaliseer vir herkenning van hele lyne en wat 'n aansienlike toename in akkuraatheid. Gereed-opgeleide modelle is vir 123 tale gepubliseer. Om werkverrigting te optimaliseer, word modules aangebied wat OpenMP- en SIMD-instruksies AVX2, AVX, NEON of SSE4.1 gebruik.

Sleutelverbeterings in Tesseract 5.1:

  • Die vermoë om areas met beelde en lyne te verwerk wanneer dit in ALTO-, hOCR- en teksformate uitgevoer word, is geïmplementeer.
  • Bygevoeg nuwe parameter curl_timeout lkz curl_easy_setop.
  • Verbeterde boustelsel.
  • Werk is gedoen om ongebruikte kode te verwyder
  • Vaste ineenstortings veroorsaak deur verkeerde hantering van nulwysers in die PageIterator::Orientation-klas.

Bron: opennet.ru

Voeg 'n opmerking