Tekstintunnistusjärjestelmän Tesseract julkaisu 5.2

Tesseract 5.2 optisen tekstintunnistusjärjestelmän julkaisu on julkaistu, ja se tukee UTF-8-merkkien ja tekstien tunnistamista yli 100 kielellä, mukaan lukien venäjäksi, kazakstaniksi, valkovenäläiseksi ja ukrainaksi. Tulos voidaan tallentaa pelkkänä tekstinä tai HTML (hOCR), ALTO (XML), PDF- ja TSV-muodoissa. Järjestelmä luotiin alun perin vuosina 1985-1995 Hewlett Packardin laboratoriossa; vuonna 2005 koodi avattiin Apache-lisenssillä ja sitä kehitettiin edelleen Googlen työntekijöiden osallistuessa. Projektin lähdekoodia jaetaan Apache 2.0 -lisenssillä.

Tesseract sisältää konsoliapuohjelman ja libtesseract-kirjaston tekstintunnistustoimintojen upottamiseen muihin sovelluksiin. Tesseractia tukevia kolmansien osapuolien graafisia käyttöliittymiä ovat gImageReader, VietOCR ja YAGF. Tarjolla on kaksi tunnistusmoottoria: klassinen, joka tunnistaa tekstin yksittäisten merkkimallien tasolla, ja uusi, joka perustuu LSTM:n toistuvaan hermoverkkoon perustuvaan koneoppimisjärjestelmään, joka on optimoitu kokonaisten merkkijonojen tunnistamiseen ja mahdollistaa tarkkuuden merkittävä lisäys. Valmiita koulutettuja malleja on julkaistu 123 kielelle. Suorituskyvyn optimoimiseksi tarjotaan moduuleja, jotka käyttävät OpenMP- ja SIMD-ohjeita AVX2, AVX, AVX512F, NEON tai SSE4.1.

Suuret parannukset Tesseract 5.2:ssa:

  • Lisätty optimointeja, jotka on toteutettu Intel AVX512F -ohjeilla.
  • C-sovellusliittymä toteuttaa toiminnon tesseraktin alustamiseksi lataamalla koneoppimismallin muistista.
  • Lisätty invert_threshold-parametri, joka määrittää tekstimerkkijonojen inversiotason. Oletusarvo on 0.7. Voit poistaa inversion käytöstä asettamalla arvoksi 0.
  • Paranneltu erittäin suurten asiakirjojen käsittelyä 32-bittisillä isännillä.
  • Siirtyminen std::regex-funktioista std::string-funktioon on tehty.
  • Parannetut koontiskriptit Autotoolsille, CMakelle ja jatkuvalle integraatiojärjestelmille.

    Lähde: opennet.ru

Lisää kommentti