Paglabas ng sistema ng pagkilala sa teksto na Tesseract 5.0

Ang paglabas ng Tesseract 4.1 optical text recognition system ay nai-publish, na sumusuporta sa pagkilala sa UTF-8 na mga character at teksto sa higit sa 100 mga wika, kabilang ang Russian, Kazakh, Belarusian at Ukrainian. Maaaring i-save ang resulta sa plain text o sa HTML (hOCR), ALTO (XML), PDF at TSV na mga format. Ang sistema ay orihinal na nilikha noong 1985-1995 sa laboratoryo ng Hewlett Packard; noong 2005, ang code ay binuksan sa ilalim ng lisensya ng Apache at higit pang binuo kasama ang paglahok ng mga empleyado ng Google. Ang source code ng proyekto ay ipinamahagi sa ilalim ng lisensya ng Apache 2.0.

Kasama sa Tesseract ang console utility at ang libtesseract library para sa pag-embed ng OCR functionality sa ibang mga application. Kasama sa mga interface ng third-party na GUI na sumusuporta sa Tesseract ang gImageReader, VietOCR at YAGF. Dalawang makina ng pagkilala ang inaalok: isang klasikong kumikilala ng teksto sa antas ng mga indibidwal na pattern ng character, at isang bago batay sa paggamit ng isang machine learning system batay sa isang LSTM na paulit-ulit na neural network, na na-optimize para sa pagkilala sa buong mga string at nagbibigay-daan para sa isang makabuluhang pagtaas sa katumpakan. Ang mga nakahanda nang sinanay na modelo ay nai-publish para sa 123 mga wika. Para ma-optimize ang performance, ang mga module na gumagamit ng OpenMP at SIMD na mga tagubilin ay AVX2, AVX, NEON o SSE4.1 ay inaalok.

Mga pangunahing pagpapabuti sa Tesseract 5.0:

  • Ang isang makabuluhang pagbabago sa numero ng bersyon ay dahil sa mga pagbabagong ginawa sa API na sumisira sa compatibility. Sa partikular, ang pampublikong libtesseract API ay hindi na nakatali sa pagmamay-ari na GenericVector at STRING na mga uri ng data, pabor sa std::string at std::vector.
  • Ang source text tree ay muling naayos. Ang mga pampublikong header file ay inilipat sa isama/tesseract na direktoryo.
  • Ang pamamahala ng memorya ay muling idinisenyo, lahat ng malloc at libreng tawag ay pinalitan ng C++ code. Ang isang pangkalahatang modernisasyon ng code ay isinagawa.
  • Nagdagdag ng mga pag-optimize para sa mga arkitektura ng ARM at ARM64; Ang mga tagubilin sa ARM NEON ay ginagamit upang pabilisin ang mga kalkulasyon. Ang pag-optimize ng pagganap na karaniwan sa lahat ng mga arkitektura ay isinagawa.
  • Ang mga bagong mode para sa mga modelo ng pagsasanay at pagkilala sa teksto batay sa paggamit ng mga kalkulasyon ng floating point ay ipinatupad. Ang mga bagong mode ay nag-aalok ng mas mataas na pagganap at mas mababang memory consumption. Sa LSTM engine, ang float32 fast mode ay pinagana bilang default.
  • Isang transition ang ginawa sa paggamit ng Unicode normalization gamit ang NFC (Normalization Form Canonical) form.
  • Nagdagdag ng opsyon para i-configure ang pagdedetalye ng log (--loglevel).
  • Ang build system na batay sa Autotools ay muling idinisenyo at inilipat sa build sa non-recursive mode.
  • Ang "master" na sangay sa Git ay pinalitan ng pangalan sa "pangunahing".
  • Nagdagdag ng suporta para sa mga bagong release ng macOS at Apple system batay sa M1 chip.

    Pinagmulan: opennet.ru

Magdagdag ng komento