Tekstintunnistusjärjestelmän Tesseract julkaisu 4.1

Valmis optisen tekstintunnistusjärjestelmän vapauttaminen Tesseact 4.1, joka tukee UTF-8-merkkien ja tekstien tunnistamista yli 100 kielellä, mukaan lukien venäjä, kazakstani, valkovenäläinen ja ukraina. Tulos voidaan tallentaa pelkkänä tekstinä tai HTML (hOCR), ALTO (XML), PDF- ja TSV-muodoissa. Järjestelmä luotiin alun perin vuosina 1985-1995 Hewlett Packardin laboratoriossa; vuonna 2005 koodi avattiin Apache-lisenssillä ja sitä kehitettiin edelleen Googlen työntekijöiden osallistuessa. Hankkeen lähteet levitän lisensoitu Apache 2.0:lla.

Tesseract sisältää konsoliapuohjelman ja libtesseract-kirjaston tekstintunnistustoimintojen upottamiseen muihin sovelluksiin. Tesseactia tukevilta kolmansilta osapuolilta GUI-liitännät voit huomata gImageReader, VietOCR и YAGF. Tarjolla on kaksi tunnistusmoottoria: klassinen, joka tunnistaa tekstin yksittäisten merkkimallien tasolla, ja uusi, joka perustuu LSTM:n toistuvaan hermoverkkoon perustuvaan koneoppimisjärjestelmään, joka on optimoitu kokonaisten merkkijonojen tunnistamiseen ja mahdollistaa tarkkuuden merkittävä lisäys. Valmiita koulutettuja malleja julkaistaan 123 kieltä. Suorituskyvyn optimoimiseksi tarjotaan OpenMP- ja AVX2-, AVX- tai SSE4.1 SIMD -ohjeita käyttäviä moduuleja.

Pääasiallinen parannuksia Tesseract 4.1:ssä:

  • Lisätty mahdollisuus tulostaa XML-muodossa HIGH (Analysoitu asettelu ja tekstiobjekti). Jos haluat käyttää tätä muotoa, sinun tulee suorittaa sovellus muodossa "tessaract image_name alto output_dir";
  • Lisätty uudet renderöintimoduulit LSTMBox ja WordStrBox, mikä yksinkertaistaa koneen koulutusta;
  • Lisätty tuki pseudografialle hOCR (HTML) -lähtöön;
  • Lisätty vaihtoehtoisia Pythonilla kirjoitettuja komentosarjoja koneoppimiseen perustuvan moottorin kouluttamiseen;
  • Laajennetut optimoinnit AVX-, AVX2- ja SSE-ohjeiden avulla;
  • OpenMP-tuki on oletuksena poistettu käytöstä johtuen ongelmia tuottavuuden kanssa;
  • Lisätty tuki valkoisille ja mustille listoille LSTM-moottorissa;
  • Parannetut Cmake-pohjaiset koontiskriptit.

Lähde: opennet.ru

Lisää kommentti