Sgaoileadh siostam aithne teacsa Tesseract 5.1

Chaidh siostam aithneachadh teacsa optigeach Tesseract 5.1 fhoillseachadh, a’ toirt taic do bhith ag aithneachadh charactaran UTF-8 agus teacsaichean ann an còrr air 100 cànan, a’ gabhail a-steach Ruisis, Kazakh, Bealarúisis agus Ucràinis. Faodar an toradh a shàbhaladh ann an teacsa shìmplidh no ann an cruthan HTML (hOCR), ALTO (XML), PDF agus TSV. Chaidh an siostam a chruthachadh an toiseach ann an 1985-1995 ann an obair-lann Hewlett Packard; ann an 2005, chaidh an còd fhosgladh fo chead Apache agus chaidh a leasachadh a bharrachd le com-pàirt luchd-obrach Google. Tha còd stòr a’ phròiseict air a sgaoileadh fo chead Apache 2.0.

Tha Tesseract a’ toirt a-steach goireas tòcan agus an leabharlann libtesseract airson gnìomhachd OCR a fhighe a-steach do thagraidhean eile. Tha eadar-aghaidh GUI treas-phàrtaidh a bheir taic do Tesseract a’ toirt a-steach gImageReader, VietOCR agus YAGF. Thathas a’ tabhann dà einnsean aithneachaidh: fear clasaigeach a dh’ aithnicheas teacsa aig ìre pàtrain caractar fa-leth, agus fear ùr stèidhichte air cleachdadh siostam ionnsachaidh inneal stèidhichte air lìonra neural ath-chuairteach LSTM, air a bharrrachadh airson teudan slàn aithneachadh agus a’ ceadachadh a àrdachadh mòr ann an cruinneas. Chaidh modalan le trèanadh deiseil fhoillseachadh airson 123 cànan. Gus coileanadh a bharrachadh, thathas a’ tabhann mhodalan a’ cleachdadh stiùiridhean OpenMP agus SIMD AVX2, AVX, NEON no SSE4.1.

Leasachaidhean mòra ann an Tesseract 5.1:

  • Chaidh an comas raointean a phròiseasadh le ìomhaighean agus loidhnichean nuair a thathar a’ cur a-mach ann an cruthan ALTO, hOCR agus teacsa.
  • Chaidh paramadair ùr a chur ris curl_timeout lkz curl_easy_setop.
  • Siostam togail nas fheàrr.
  • Chaidh obair a dhèanamh gus còd nach deach a chleachdadh a thoirt air falbh
  • Tubaistean stèidhichte air adhbhrachadh le làimhseachadh ceàrr air comharran null anns a’ PageIterator :: Clas treòrachaidh.

Source: fosgailtenet.ru

Cuir beachd ann