Paglabas ng sistema ng pagkilala sa teksto na Tesseract 4.1

Inihanda paglabas ng optical text recognition system Tesseract 4.1, na sumusuporta sa pagkilala sa mga UTF-8 na character at teksto sa higit sa 100 mga wika, kabilang ang Russian, Kazakh, Belarusian at Ukrainian. Maaaring i-save ang resulta sa plain text o sa HTML (hOCR), ALTO (XML), PDF at TSV na mga format. Ang sistema ay orihinal na nilikha noong 1985-1995 sa laboratoryo ng Hewlett Packard; noong 2005, ang code ay binuksan sa ilalim ng lisensya ng Apache at higit pang binuo kasama ang paglahok ng mga empleyado ng Google. Mga mapagkukunan ng proyekto kumalat lisensyado sa ilalim ng Apache 2.0.

Kasama sa Tesseract ang console utility at ang libtesseract library para sa pag-embed ng OCR functionality sa ibang mga application. Mula sa mga third party na sumusuporta sa Tesseract Mga interface ng GUI maaari mong tandaan gImageReader, VietOCR ΠΈ YAGF. Dalawang makina ng pagkilala ang inaalok: isang klasikong kumikilala ng teksto sa antas ng mga indibidwal na pattern ng character, at isang bago batay sa paggamit ng isang machine learning system batay sa isang LSTM na paulit-ulit na neural network, na na-optimize para sa pagkilala sa buong mga string at nagbibigay-daan para sa isang makabuluhang pagtaas sa katumpakan. Inilathala ang mga ready-made na sinanay na modelo para sa 123 wika. Upang i-optimize ang pagganap, ang mga module na gumagamit ng OpenMP at AVX2, AVX o SSE4.1 SIMD na mga tagubilin ay inaalok.

Ang pangunahing mga pagpapabuti sa Tesseract 4.1:

  • Idinagdag ang kakayahang mag-output sa XML na format ALTO (Nasuri na Layout at Text Object). Upang magamit ang format na ito, dapat mong patakbuhin ang application bilang "tessarac image_name alto output_dir";
  • Nagdagdag ng mga bagong rendering module na LSTMBox at WordStrBox, na nagpapasimple sa pagsasanay sa makina;
  • Nagdagdag ng suporta para sa pseudographics sa hOCR (HTML) na output;
  • Nagdagdag ng mga alternatibong script na nakasulat sa Python para sa pagsasanay ng makina batay sa machine learning;
  • Mga pinalawak na pag-optimize gamit ang mga tagubilin ng AVX, AVX2 at SSE;
  • Ang suporta sa OpenMP ay hindi pinagana bilang default dahil sa mga problema may pagiging produktibo;
  • Nagdagdag ng suporta para sa puti at itim na listahan sa LSTM engine;
  • Mga pinahusay na build script batay sa Cmake.

Pinagmulan: opennet.ru

Magdagdag ng komento