Paglabas ng sistema ng pagkilala sa teksto na Tesseract 5.1

Ang paglabas ng Tesseract 5.1 optical text recognition system ay nai-publish, na sumusuporta sa pagkilala sa UTF-8 na mga character at teksto sa higit sa 100 mga wika, kabilang ang Russian, Kazakh, Belarusian at Ukrainian. Maaaring i-save ang resulta sa plain text o sa HTML (hOCR), ALTO (XML), PDF at TSV na mga format. Ang sistema ay orihinal na nilikha noong 1985-1995 sa laboratoryo ng Hewlett Packard; noong 2005, ang code ay binuksan sa ilalim ng lisensya ng Apache at higit pang binuo kasama ang paglahok ng mga empleyado ng Google. Ang source code ng proyekto ay ipinamahagi sa ilalim ng lisensya ng Apache 2.0.

Kasama sa Tesseract ang console utility at ang libtesseract library para sa pag-embed ng OCR functionality sa ibang mga application. Kasama sa mga interface ng third-party na GUI na sumusuporta sa Tesseract ang gImageReader, VietOCR at YAGF. Dalawang makina ng pagkilala ang inaalok: isang klasikong kumikilala ng teksto sa antas ng mga indibidwal na pattern ng character, at isang bago batay sa paggamit ng isang machine learning system batay sa isang LSTM na paulit-ulit na neural network, na na-optimize para sa pagkilala sa buong mga string at nagbibigay-daan para sa isang makabuluhang pagtaas sa katumpakan. Ang mga nakahanda nang sinanay na modelo ay nai-publish para sa 123 mga wika. Para ma-optimize ang performance, ang mga module na gumagamit ng OpenMP at SIMD na mga tagubilin ay AVX2, AVX, NEON o SSE4.1 ay inaalok.

Mga pangunahing pagpapabuti sa Tesseract 5.1:

  • Ang kakayahang magproseso ng mga lugar na may mga larawan at linya kapag nag-output sa ALTO, hOCR at mga format ng teksto ay ipinatupad.
  • Nagdagdag ng bagong parameter curl_timeout lkz curl_easy_setop.
  • Pinahusay na build system.
  • Ang trabaho ay ginawa upang alisin ang hindi nagamit na code
  • Inayos ang mga pag-crash na dulot ng hindi tamang paghawak ng mga null pointer sa klase ng PageIterator::Orientation.

Pinagmulan: opennet.ru

Magdagdag ng komento