Sgaoileadh siostam aithne teacsa Tesseract 5.2

Chaidh siostam aithneachadh teacsa optigeach Tesseract 5.2 fhoillseachadh, a’ toirt taic do bhith ag aithneachadh charactaran UTF-8 agus teacsaichean ann an còrr air 100 cànan, a’ gabhail a-steach Ruisis, Kazakh, Bealarúisis agus Ucràinis. Faodar an toradh a shàbhaladh ann an teacsa shìmplidh no ann an cruthan HTML (hOCR), ALTO (XML), PDF agus TSV. Chaidh an siostam a chruthachadh an toiseach ann an 1985-1995 ann an obair-lann Hewlett Packard; ann an 2005, chaidh an còd fhosgladh fo chead Apache agus chaidh a leasachadh a bharrachd le com-pàirt luchd-obrach Google. Tha còd stòr a’ phròiseict air a sgaoileadh fo chead Apache 2.0.

Tha Tesseract a’ toirt a-steach goireas tòcan agus an leabharlann libtesseract airson gnìomhachd OCR a fhighe a-steach do thagraidhean eile. Tha eadar-aghaidh GUI treas-phàrtaidh a bheir taic do Tesseract a’ toirt a-steach gImageReader, VietOCR agus YAGF. Thathas a’ tabhann dà einnsean aithneachaidh: fear clasaigeach a dh’ aithnicheas teacsa aig ìre pàtrain caractar fa leth, agus fear ùr stèidhichte air cleachdadh siostam ionnsachaidh inneal stèidhichte air lìonra neural ath-chuairteach LSTM, air a bharrrachadh airson teudan slàn aithneachadh agus a’ ceadachadh a àrdachadh mòr ann an cruinneas. Chaidh modalan le trèanadh deiseil fhoillseachadh airson 123 cànan. Gus coileanadh a bharrachadh, thathas a’ tabhann mhodalan a’ cleachdadh stiùiridhean OpenMP agus SIMD AVX2, AVX, AVX512F, NEON no SSE4.1.

Leasachaidhean mòra ann an Tesseract 5.2:

  • Leasachaidhean a bharrachd air an cur an gnìomh a’ cleachdadh stiùireadh Intel AVX512F.
  • Bidh an C API a’ cur an gnìomh gnìomh gus tesseract a thòiseachadh le bhith a’ luchdachadh modal ionnsachaidh inneal bhon chuimhne.
  • Chuir sinn am paramadair invert_threshold ris, a tha a’ dearbhadh ìre tionndaidh nan sreangan teacsa. Is e an luach bunaiteach 0.7. Gus tionndadh a chur à comas, suidhich an luach gu 0.
  • Giullachd nas fheàrr air sgrìobhainnean glè mhòr air luchd-aoigheachd 32-bit.
  • Chaidh an eadar-ghluasad a dhèanamh bho bhith a’ cleachdadh gnìomhan std :: regex gu std :: sreang.
  • Sgriobtaichean togail nas fheàrr airson Autotools, CMake agus siostaman amalachaidh leantainneach.

    Source: fosgailtenet.ru

Cuir beachd ann