Utjefte fan it tekstherkenningssysteem Tesseract 5.3.4

De frijlitting fan it optyske tekstherkenningssysteem Tesseract 5.3.4 is publisearre, en stipet erkenning fan UTF-8-tekens en teksten yn mear as 100 talen, ynklusyf Russysk, Kazachsk, Wyt-Russysk en Oekraynsk. It resultaat kin wurde bewarre yn platte tekst of yn HTML (hOCR), ALTO (XML), PDF en TSV formaten. It systeem waard oarspronklik makke yn 1985-1995 yn it Hewlett Packard laboratoarium; yn 2005 waard de koade iepene ûnder de Apache-lisinsje en waard fierder ûntwikkele mei de dielname fan Google-meiwurkers. De boarnekoade fan it projekt wurdt ferspraat ûnder de Apache 2.0-lisinsje.

Tesseract omfettet in konsole-hulpprogramma en de libtesseract-bibleteek foar it ynbêdzjen fan OCR-funksjonaliteit yn oare applikaasjes. GUI-ynterfaces fan tredden dy't Tesseract stypje omfetsje gImageReader, VietOCR en YAGF. Twa herkenningsmotoren wurde oanbean: in klassiker dy't tekst herkent op it nivo fan yndividuele karakterpatroanen, en in nije basearre op it brûken fan in masine-learsysteem basearre op in LSTM weromkommend neural netwurk, optimalisearre foar it werkennen fan heule snaren en it tastean fan in signifikante tanimming fan krektens. Ready-made trained modellen binne publisearre foar 123 talen. Om de prestaasjes te optimalisearjen wurde modules mei OpenMP en SIMD ynstruksjes AVX2, AVX, AVX512F, NEON of SSE4.1 oanbean.

Main ferbetterings:

  • Ferbettere ôfbyldingsherkenning troch URL mei bestândownload mei de libcurl-bibleteek. By it laden wurdt de koptekst User-Agent ynsteld. Nije parameter curl_cookiefile tafoege foar it brûken fan in koekjebestân.
  • De ScrollView-tsjinner brûkt TCP as it foarkommende protokol.
  • By it brûken fan it kommando "combine_tessdata -d" wurdt útfier levere oan stdout ynstee fan stderr.
  • Bouproblemen reparearre by it brûken fan autoconf en clang.

Boarne: opennet.ru

Add a comment