Tekstintunnistusjärjestelmän Tesseract julkaisu 5.3.4

Tesseract 5.3.4 optisen tekstintunnistusjärjestelmän julkaisu on julkaistu, ja se tukee UTF-8-merkkien ja tekstien tunnistamista yli 100 kielellä, mukaan lukien venäjäksi, kazakstaniksi, valkovenäläiseksi ja ukrainaksi. Tulos voidaan tallentaa pelkkänä tekstinä tai HTML (hOCR), ALTO (XML), PDF- ja TSV-muodoissa. Järjestelmä luotiin alun perin vuosina 1985-1995 Hewlett Packardin laboratoriossa; vuonna 2005 koodi avattiin Apache-lisenssillä ja sitä kehitettiin edelleen Googlen työntekijöiden osallistuessa. Projektin lähdekoodia jaetaan Apache 2.0 -lisenssillä.

Tesseract sisältää konsoliapuohjelman ja libtesseract-kirjaston tekstintunnistustoimintojen upottamiseen muihin sovelluksiin. Tesseractia tukevia kolmansien osapuolien graafisia käyttöliittymiä ovat gImageReader, VietOCR ja YAGF. Tarjolla on kaksi tunnistusmoottoria: klassinen, joka tunnistaa tekstin yksittäisten merkkimallien tasolla, ja uusi, joka perustuu LSTM:n toistuvaan hermoverkkoon perustuvaan koneoppimisjärjestelmään, joka on optimoitu kokonaisten merkkijonojen tunnistamiseen ja mahdollistaa tarkkuuden merkittävä lisäys. Valmiita koulutettuja malleja on julkaistu 123 kielelle. Suorituskyvyn optimoimiseksi tarjotaan moduuleja, jotka käyttävät OpenMP- ja SIMD-ohjeita AVX2, AVX, AVX512F, NEON tai SSE4.1.

Tärkeimmät parannukset:

  • Parannettu kuvien tunnistus URL-osoitteen perusteella lataamalla tiedostot libcurl-kirjaston avulla. Ladattaessa User-Agent-otsikko asetetaan. Lisätty uusi parametri curl_cookiefile evästetiedoston käyttöä varten.
  • ScrollView-palvelin käyttää TCP:tä ensisijaisena protokollana.
  • Käytettäessä "combine_tessdata -d" -komentoa tuloste annetaan stdoutille stderr:n sijaan.
  • Korjattu koontiongelmat autoconfia ja clangia käytettäessä.

Lähde: opennet.ru

Lisää kommentti