Eisiúint an chórais aitheantais téacs Tesseract 5.3.4

Foilsíodh eisiúint an chórais aitheantais optúla téacs Tesseract 5.3.4, a thacaíonn le haithint carachtair agus téacsanna UTF-8 i níos mó ná 100 teanga, lena n-áirítear Rúisis, Casaicis, Bealarúisis agus Úcráinis. Is féidir an toradh a shábháil i ngnáth-théacs nó i bhformáidí HTML (HOCR), ALTO (XML), PDF agus TSV. Cruthaíodh an córas ar dtús i 1985-1995 i saotharlann Hewlett Packard; i 2005, osclaíodh an cód faoi cheadúnas Apache agus rinneadh é a fhorbairt tuilleadh le rannpháirtíocht fostaithe Google. Déantar cód foinse an tionscadail a dháileadh faoi cheadúnas Apache 2.0.

Áirítear le Tesseract áirgiúlacht consól agus an leabharlann libtesseract chun feidhmiúlacht OCR a leabú i bhfeidhmchláir eile. I measc na gcomhéadain GUI tríú páirtí a thacaíonn le Tesseract tá gImageReader, VietOCR agus YAGF. Cuirtear dhá inneall aitheantais ar fáil: ceann clasaiceach a aithníonn téacs ag leibhéal na bpatrún carachtair aonair, agus ceann nua atá bunaithe ar úsáid córas meaisínfhoghlama bunaithe ar líonra néarach athfhillteach LSTM, atá optamaithe chun teaghráin iomlána a aithint agus a cheadaíonn do a méadú suntasach ar chruinneas. Tá múnlaí oilte réamhdhéanta foilsithe do 123 teanga. Chun feidhmíocht a bharrfheabhsú, tairgtear modúil a úsáideann treoracha OpenMP agus SIMD AVX2, AVX, AVX512F, NEON nó SSE4.1.

Príomhfheabhsúcháin:

  • Aitheantas feabhsaithe íomhá trí URL le híoslódáil comhaid ag baint úsáide as an leabharlann libcurl. Agus é á luchtú, socraítear an ceanntásc Úsáideora-Gníomhaire. Curl_cookiefile paraiméadar nua leis chun comhad fianán a úsáid.
  • Úsáideann an freastalaí ScrollView TCP mar an prótacal is fearr leis.
  • Agus an t-ordú "combine_tessdata -d" á úsáid, soláthraítear aschur chuig stdout in ionad stderr.
  • Saincheisteanna tógála seasta agus autoconf agus clang á n-úsáid.

Foinse: oscailtenet.ru

Add a comment