Lëshimi i sistemit të njohjes së tekstit Tesseract 5.3.4

Është publikuar lëshimi i sistemit optik të njohjes së tekstit Tesseract 5.3.4, i cili mbështet njohjen e karaktereve dhe teksteve UTF-8 në më shumë se 100 gjuhë, duke përfshirë rusishten, kazakishten, bjellorusishten dhe ukrainishten. Rezultati mund të ruhet në tekst të thjeshtë ose në formate HTML (hOCR), ALTO (XML), PDF dhe TSV. Sistemi u krijua fillimisht në 1985-1995 në laboratorin Hewlett Packard; në 2005, kodi u hap nën licencën Apache dhe u zhvillua më tej me pjesëmarrjen e punonjësve të Google. Kodi burimor i projektit shpërndahet nën licencën Apache 2.0.

Tesseract përfshin një mjet konsole dhe bibliotekën libtesseract për futjen e funksionalitetit OCR në aplikacione të tjera. Ndërfaqet GUI të palëve të treta që mbështesin Tesseract përfshijnë gImageReader, VietOCR dhe YAGF. Ofrohen dy motorë njohjeje: një klasik që njeh tekstin në nivelin e modeleve individuale të karaktereve dhe një i ri i bazuar në përdorimin e një sistemi të mësimit të makinës bazuar në një rrjet nervor periodik LSTM, i optimizuar për njohjen e vargjeve të tëra dhe duke lejuar një rritje e ndjeshme e saktësisë. Janë publikuar modele të gatshme të trajnuara për 123 gjuhë. Për të optimizuar performancën, ofrohen module që përdorin udhëzimet OpenMP dhe SIMD AVX2, AVX, AVX512F, NEON ose SSE4.1.

Përmirësimet kryesore:

  • Njohja e përmirësuar e imazhit nga URL-ja me shkarkimin e skedarit duke përdorur bibliotekën libcurl. Kur ngarkohet, caktohet titulli i agjentit përdorues. U shtua parametri i ri curl_cookiefile për përdorimin e një skedari cookie.
  • Serveri ScrollView përdor TCP si protokollin e tij të preferuar.
  • Kur përdorni komandën "combine_tessdata -d", dalja ofrohet në stdout në vend të stderr.
  • Rregulloi problemet e ndërtimit kur përdorni autoconf dhe cang.

Burimi: opennet.ru

Shto një koment