Eisiúint an chórais aitheantais téacs Tesseract 5.2

Foilsíodh eisiúint an chórais aitheantais optúla téacs Tesseract 5.2, a thacaíonn le haithint carachtair agus téacsanna UTF-8 i níos mó ná 100 teanga, lena n-áirítear Rúisis, Casaicis, Bealarúisis agus Úcráinis. Is féidir an toradh a shábháil i ngnáth-théacs nó i bhformáidí HTML (HOCR), ALTO (XML), PDF agus TSV. Cruthaíodh an córas ar dtús i 1985-1995 i saotharlann Hewlett Packard; i 2005, osclaíodh an cód faoi cheadúnas Apache agus rinneadh é a fhorbairt tuilleadh le rannpháirtíocht fostaithe Google. Déantar cód foinse an tionscadail a dháileadh faoi cheadúnas Apache 2.0.

Áirítear le Tesseract áirgiúlacht consól agus an leabharlann libtesseract chun feidhmiúlacht OCR a leabú i bhfeidhmchláir eile. I measc na gcomhéadain GUI tríú páirtí a thacaíonn le Tesseract tá gImageReader, VietOCR agus YAGF. Cuirtear dhá inneall aitheantais ar fáil: ceann clasaiceach a aithníonn téacs ag leibhéal na bpatrún carachtair aonair, agus ceann nua atá bunaithe ar úsáid córas meaisínfhoghlama bunaithe ar líonra néarach athfhillteach LSTM, atá optamaithe chun teaghráin iomlána a aithint agus a cheadaíonn do a méadú suntasach ar chruinneas. Tá múnlaí oilte réamhdhéanta foilsithe do 123 teanga. Chun feidhmíocht a bharrfheabhsú, tairgtear modúil a úsáideann treoracha OpenMP agus SIMD AVX2, AVX, AVX512F, NEON nó SSE4.1.

Feabhsuithe móra ar Tesseract 5.2:

  • Leas iomlán a bhaint curtha i bhfeidhm ag baint úsáide as treoracha Intel AVX512F.
  • Cuireann an C API feidhm i bhfeidhm chun tesseract a thosú trí shamhail meaisínfhoghlama a luchtú ón gcuimhne.
  • Cuireadh an paraiméadar invert_threshold leis, a chinneann leibhéal inbhéartaithe teaghráin téacs. Is é 0.7 an luach réamhshocraithe. Chun inbhéartú a dhíchumasú, socraigh an luach go 0.
  • Próiseáil feabhsaithe doiciméad an-mhór ar óstach 32-giotán.
  • Rinneadh an t-aistriú ó úsáid a bhaint as feidhmeanna std::regex go std::teaghrán.
  • Scripteanna tógála feabhsaithe le haghaidh Autotools, CMake agus córais comhtháthú leanúnach.

    Foinse: oscailtenet.ru

Add a comment