Kutolewa kwa mfumo wa utambuzi wa maandishi Tesseract 5.1

Utoaji wa mfumo wa utambuzi wa maandishi ya macho wa Tesseract 5.1 umechapishwa, ukisaidia utambuzi wa herufi na maandishi ya UTF-8 katika lugha zaidi ya 100, zikiwemo Kirusi, Kikazaki, Kibelarusi na Kiukreni. Matokeo yanaweza kuhifadhiwa kwa maandishi wazi au katika muundo wa HTML (hOCR), ALTO (XML), PDF na TSV. Mfumo huo uliundwa awali mnamo 1985-1995 katika maabara ya Hewlett Packard; mnamo 2005, nambari hiyo ilifunguliwa chini ya leseni ya Apache na iliendelezwa zaidi kwa ushiriki wa wafanyikazi wa Google. Msimbo wa chanzo wa mradi unasambazwa chini ya leseni ya Apache 2.0.

Tesseract inajumuisha matumizi ya kiweko na maktaba ya libtesseract ya kupachika utendaji wa OCR kwenye programu zingine. Njia za kuingiliana za GUI za wahusika wengine zinazotumia Tesseract ni pamoja na gImageReader, VietOCR na YAGF. Injini mbili za utambuzi hutolewa: ya kawaida ambayo inatambua maandishi katika kiwango cha muundo wa wahusika binafsi, na mpya kulingana na matumizi ya mfumo wa kujifunza kwa mashine kulingana na mtandao wa neva unaojirudia wa LSTM, ulioboreshwa kwa ajili ya kutambua mifuatano yote na kuruhusu ongezeko kubwa la usahihi. Miundo iliyotayarishwa tayari imechapishwa kwa lugha 123. Ili kuboresha utendakazi, moduli zinazotumia OpenMP na maagizo ya SIMD AVX2, AVX, NEON au SSE4.1 hutolewa.

Maboresho makuu katika Tesseract 5.1:

  • Uwezo wa kuchakata maeneo yenye picha na mistari wakati wa kutoa katika ALTO, hOCR na umbizo la maandishi umetekelezwa.
  • Imeongeza kigezo kipya curl_timeout lkz curl_easy_setop.
  • Mfumo wa ujenzi ulioboreshwa.
  • Kazi imefanywa ili kuondoa msimbo ambao haujatumiwa
  • Mivurugo isiyobadilika inayosababishwa na utunzaji usio sahihi wa viashiria batili katika darasa la PageIterator::Mwelekeo.

Chanzo: opennet.ru

Kuongeza maoni