Lëshimi i sistemit të njohjes së tekstit Tesseract 5.1

Është publikuar lëshimi i sistemit optik të njohjes së tekstit Tesseract 5.1, i cili mbështet njohjen e karaktereve dhe teksteve UTF-8 në më shumë se 100 gjuhë, duke përfshirë rusishten, kazakishten, bjellorusishten dhe ukrainishten. Rezultati mund të ruhet në tekst të thjeshtë ose në formate HTML (hOCR), ALTO (XML), PDF dhe TSV. Sistemi u krijua fillimisht në 1985-1995 në laboratorin Hewlett Packard; në 2005, kodi u hap nën licencën Apache dhe u zhvillua më tej me pjesëmarrjen e punonjësve të Google. Kodi burimor i projektit shpërndahet nën licencën Apache 2.0.

Tesseract përfshin një mjet konsole dhe bibliotekën libtesseract për futjen e funksionalitetit OCR në aplikacione të tjera. Ndërfaqet GUI të palëve të treta që mbështesin Tesseract përfshijnë gImageReader, VietOCR dhe YAGF. Ofrohen dy motorë njohjeje: një klasik që njeh tekstin në nivelin e modeleve individuale të karaktereve dhe një i ri i bazuar në përdorimin e një sistemi të mësimit të makinës bazuar në një rrjet nervor LSTM, i optimizuar për njohjen e vargjeve të tëra dhe duke lejuar një rritje e ndjeshme e saktësisë. Modele të gatshme të trajnuara janë publikuar për 123 gjuhë. Për të optimizuar performancën, ofrohen module që përdorin udhëzimet OpenMP dhe SIMD AVX2, AVX, NEON ose SSE4.1.

Përmirësime të mëdha në Tesseract 5.1:

  • Është zbatuar aftësia për të përpunuar zona me imazhe dhe linja gjatë daljes në formate ALTO, hOCR dhe tekst.
  • U shtua parametri i ri curl_timeout lkz curl_easy_setop.
  • Sistemi i përmirësuar i ndërtimit.
  • Është punuar për të hequr kodin e papërdorur
  • Rregullohen ndërprerjet e shkaktuara nga trajtimi i gabuar i treguesve null në klasën PageIterator::Orientation.

Burimi: opennet.ru

Shto një koment