Sgaoileadh siostam aithne teacsa Tesseract 5.3.4

Chaidh siostam aithneachadh teacsa optigeach Tesseract 5.3.4 fhoillseachadh, a’ toirt taic do bhith ag aithneachadh charactaran UTF-8 agus teacsaichean ann an còrr air 100 cànan, a’ gabhail a-steach Ruisis, Kazakh, Bealarúisis agus Ucràinis. Faodar an toradh a shàbhaladh ann an teacsa shìmplidh no ann an cruthan HTML (hOCR), ALTO (XML), PDF agus TSV. Chaidh an siostam a chruthachadh an toiseach ann an 1985-1995 ann an obair-lann Hewlett Packard; ann an 2005, chaidh an còd fhosgladh fo chead Apache agus chaidh a leasachadh a bharrachd le com-pàirt luchd-obrach Google. Tha còd stòr a’ phròiseict air a sgaoileadh fo chead Apache 2.0.

Tha Tesseract a’ toirt a-steach goireas tòcan agus an leabharlann libtesseract airson gnìomhachd OCR a fhighe a-steach do thagraidhean eile. Tha eadar-aghaidh GUI treas-phàrtaidh a bheir taic do Tesseract a’ toirt a-steach gImageReader, VietOCR agus YAGF. Thathas a’ tabhann dà einnsean aithneachaidh: fear clasaigeach a dh’ aithnicheas teacsa aig ìre pàtrain caractar fa leth, agus fear ùr stèidhichte air cleachdadh siostam ionnsachaidh inneal stèidhichte air lìonra neural ath-chuairteach LSTM, air a bharrrachadh airson teudan slàn aithneachadh agus a’ ceadachadh a àrdachadh mòr ann an cruinneas. Chaidh modalan le trèanadh deiseil fhoillseachadh airson 123 cànan. Gus coileanadh a bharrachadh, thathas a’ tabhann mhodalan a’ cleachdadh stiùiridhean OpenMP agus SIMD AVX2, AVX, AVX512F, NEON no SSE4.1.

Prìomh leasachaidhean:

  • Aithneachadh ìomhaigh nas fheàrr le URL le luchdachadh sìos faidhle a’ cleachdadh leabharlann libcurl. Nuair a bhios tu a’ luchdachadh, tha an bann-cinn User-Agent air a shuidheachadh. Curl_cookiefile paramadair ùr air a chur ris airson faidhle briosgaid a chleachdadh.
  • Bidh am frithealaiche ScrollView a’ cleachdadh TCP mar am pròtacal as fheàrr leotha.
  • Nuair a bhios tu a’ cleachdadh an àithne “combine_tessdata -d”, thèid toradh a thoirt do stdout an àite stderr.
  • Cùisean togail stèidhichte nuair a bhios tu a’ cleachdadh autoconf agus clang.

Source: fosgailtenet.ru

Cuir beachd ann