Eisiúint an chórais aitheantais téacs Tesseract 5.1

Foilsíodh eisiúint an chórais aitheantais optúla téacs Tesseract 5.1, a thacaíonn le haithint carachtair agus téacsanna UTF-8 i níos mó ná 100 teanga, lena n-áirítear Rúisis, Casaicis, Bealarúisis agus Úcráinis. Is féidir an toradh a shábháil i ngnáth-théacs nó i bhformáidí HTML (HOCR), ALTO (XML), PDF agus TSV. Cruthaíodh an córas ar dtús i 1985-1995 i saotharlann Hewlett Packard; i 2005, osclaíodh an cód faoi cheadúnas Apache agus rinneadh é a fhorbairt tuilleadh le rannpháirtíocht fostaithe Google. Déantar cód foinse an tionscadail a dháileadh faoi cheadúnas Apache 2.0.

Áirítear le Tesseract áirgiúlacht consól agus an leabharlann libtesseract chun feidhmiúlacht OCR a leabú i bhfeidhmchláir eile. I measc na gcomhéadain GUI tríú páirtí a thacaíonn le Tesseract tá gImageReader, VietOCR agus YAGF. Tairgtear dhá inneall aitheantais: ceann clasaiceach a aithníonn téacs ag leibhéal na bpatrún carachtair aonair, agus ceann nua atá bunaithe ar úsáid córas meaisínfhoghlama bunaithe ar líonra néarach athfhillteach LSTM, atá optamaithe chun teaghráin iomlána a aithint agus a cheadaíonn do a méadú suntasach ar chruinneas. Foilsíodh múnlaí oilte réamhdhéanta do 123 teanga. Chun an fheidhmíocht a bharrfheabhsú, tairgtear modúil a úsáideann treoracha OpenMP agus SIMD AVX2, AVX, NEON nó SSE4.1.

Feabhsuithe móra ar Tesseract 5.1:

  • Tá an cumas chun réimsí a phróiseáil le híomhánna agus línte agus aschur i bhformáidí ALTO, hOCR agus téacs curtha i bhfeidhm.
  • Cuireadh paraiméadar nua leis curl_timeout lkz curl_easy_setop.
  • Córas tógála feabhsaithe.
  • Tá obair déanta chun cód nár úsáideadh a bhaint
  • Tuairteanna seasta de bharr láimhseáil mhícheart na dtreoir nialasach sa PageIterator::Aicme treoshuímh.

Foinse: oscailtenet.ru

Add a comment