Kutolewa kwa mfumo wa utambuzi wa maandishi Tesseract 5.0

Utoaji wa mfumo wa utambuzi wa maandishi ya macho wa Tesseract 4.1 umechapishwa, ukisaidia utambuzi wa herufi na maandishi ya UTF-8 katika lugha zaidi ya 100, zikiwemo Kirusi, Kikazaki, Kibelarusi na Kiukreni. Matokeo yanaweza kuhifadhiwa kwa maandishi wazi au katika muundo wa HTML (hOCR), ALTO (XML), PDF na TSV. Mfumo huo uliundwa awali mnamo 1985-1995 katika maabara ya Hewlett Packard; mnamo 2005, nambari hiyo ilifunguliwa chini ya leseni ya Apache na iliendelezwa zaidi kwa ushiriki wa wafanyikazi wa Google. Msimbo wa chanzo wa mradi unasambazwa chini ya leseni ya Apache 2.0.

Tesseract inajumuisha matumizi ya kiweko na maktaba ya libtesseract ya kupachika utendaji wa OCR kwenye programu zingine. Njia za kuingiliana za GUI za wahusika wengine zinazotumia Tesseract ni pamoja na gImageReader, VietOCR na YAGF. Injini mbili za utambuzi hutolewa: ya kawaida ambayo inatambua maandishi katika kiwango cha muundo wa wahusika binafsi, na mpya kulingana na matumizi ya mfumo wa kujifunza kwa mashine kulingana na mtandao wa neva unaojirudia wa LSTM, ulioboreshwa kwa ajili ya kutambua mifuatano yote na kuruhusu ongezeko kubwa la usahihi. Miundo iliyotayarishwa tayari imechapishwa kwa lugha 123. Ili kuboresha utendakazi, moduli zinazotumia OpenMP na maagizo ya SIMD AVX2, AVX, NEON au SSE4.1 hutolewa.

Maboresho makuu katika Tesseract 5.0:

  • Mabadiliko makubwa katika nambari ya toleo yanatokana na mabadiliko yaliyofanywa kwa API ambayo yanavunja uoanifu. Hasa, API ya libtesseract inayopatikana kwa umma haifungamani tena na aina za data za GenericVector na STRING, kwa ajili ya std::string na std::vector.
  • Mti wa maandishi chanzo umepangwa upya. Faili za vichwa vya umma zimehamishwa hadi kwenye saraka ya pamoja/tesseract.
  • Usimamizi wa kumbukumbu umeundwa upya, simu zote zisizolipishwa na zisizolipishwa zimebadilishwa na msimbo wa C++. Uboreshaji wa jumla wa kanuni umefanywa.
  • Uboreshaji ulioongezwa kwa usanifu wa ARM na ARM64; Maagizo ya ARM NEON hutumiwa kuharakisha hesabu. Uboreshaji wa utendaji unaojulikana kwa usanifu wote umefanywa.
  • Njia mpya za miundo ya mafunzo na utambuzi wa maandishi kulingana na utumiaji wa hesabu za sehemu zinazoelea zimetekelezwa. Njia mpya hutoa utendaji wa juu na matumizi ya chini ya kumbukumbu. Katika injini ya LSTM, hali ya haraka ya float32 imewezeshwa kwa chaguo-msingi.
  • Mpito umefanywa wa kutumia urekebishaji wa Unicode kwa kutumia fomu ya NFC (Fomu ya Kusawazisha Canonical).
  • Imeongeza chaguo la kusanidi maelezo ya kumbukumbu (--loglevel).
  • Mfumo wa uundaji kulingana na Zana za Kiotomatiki umeundwa upya na kubadilishwa ili kuunda katika hali isiyojirudia.
  • Tawi la "bwana" huko Git limepewa jina la "kuu".
  • Usaidizi ulioongezwa kwa matoleo mapya ya mifumo ya macOS na Apple kulingana na chip ya M1.

    Chanzo: opennet.ru

Kuongeza maoni