Vrystelling van die teksherkenningstelsel Tesseract 5.3.4

Die vrystelling van die Tesseract 5.3.4 optiese teksherkenningstelsel is gepubliseer, wat herkenning van UTF-8 karakters en tekste in meer as 100 tale ondersteun, insluitend Russies, Kazaks, Wit-Russies en Oekraïens. Die resultaat kan in duidelike teks en in HTML (hOCR), ALTO (XML), PDF en TSV formate gestoor word. Aanvanklik is die stelsel in 1985-1995 in die laboratorium van Hewlett Packard geskep, in 2005 is die kode onder die Apache-lisensie geopen en verder ontwikkel met die deelname van Google-werknemers. Die brontekste van die projek word onder die Apache 2.0-lisensie versprei.

Tesseract bevat 'n konsole-hulpmiddel en die libtesseract-biblioteek om OCR-funksies in ander toepassings in te sluit. Derdeparty-GUI-koppelvlakke wat Tesseract ondersteun, sluit in gImageReader, VietOCR en YAGF. Twee herkenningsenjins word aangebied: 'n klassieke een wat teks op die vlak van individuele karakterpatrone herken, en 'n nuwe een gebaseer op die gebruik van 'n masjienleerstelsel gebaseer op 'n LSTM herhalende neurale netwerk, geoptimaliseer vir die herkenning van hele stringe en voorsiening te maak vir 'n aansienlike toename in akkuraatheid. Klaargemaakte opgeleide modelle is vir 123 tale gepubliseer. Om werkverrigting te optimaliseer, word modules wat OpenMP- en SIMD-instruksies AVX2, AVX, AVX512F, NEON of SSE4.1 gebruik, aangebied.

Belangrikste verbeterings:

  • Verbeterde beeldherkenning deur URL met lêer aflaai met behulp van die libcurl-biblioteek. Wanneer laai, is die User-Agent-opskrif gestel. Bygevoeg nuwe parameter curl_cookiefile vir die gebruik van 'n koekie lêer.
  • Die ScrollView-bediener gebruik TCP as sy voorkeurprotokol.
  • Wanneer die "combine_tessdata -d" opdrag gebruik word, word afvoer verskaf aan stdout in plaas van stderr.
  • Bouprobleme opgelos wanneer outoconf en clang gebruik word.

Bron: opennet.ru

Voeg 'n opmerking