Sgaoileadh siostam aithne teacsa Tesseract 5.0

Chaidh siostam aithneachadh teacsa optigeach Tesseract 4.1 fhoillseachadh, a’ toirt taic do bhith ag aithneachadh charactaran UTF-8 agus teacsaichean ann an còrr air 100 cànan, a’ gabhail a-steach Ruisis, Kazakh, Bealarúisis agus Ucràinis. Faodar an toradh a shàbhaladh ann an teacsa shìmplidh no ann an cruthan HTML (hOCR), ALTO (XML), PDF agus TSV. Chaidh an siostam a chruthachadh an toiseach ann an 1985-1995 ann an obair-lann Hewlett Packard; ann an 2005, chaidh an còd fhosgladh fo chead Apache agus chaidh a leasachadh a bharrachd le com-pàirt luchd-obrach Google. Tha còd stòr a’ phròiseict air a sgaoileadh fo chead Apache 2.0.

Tha Tesseract a’ toirt a-steach goireas tòcan agus an leabharlann libtesseract airson gnìomhachd OCR a fhighe a-steach do thagraidhean eile. Tha eadar-aghaidh GUI treas-phàrtaidh a bheir taic do Tesseract a’ toirt a-steach gImageReader, VietOCR agus YAGF. Thathas a’ tabhann dà einnsean aithneachaidh: fear clasaigeach a dh’ aithnicheas teacsa aig ìre pàtrain caractar fa-leth, agus fear ùr stèidhichte air cleachdadh siostam ionnsachaidh inneal stèidhichte air lìonra neural ath-chuairteach LSTM, air a bharrrachadh airson teudan slàn aithneachadh agus a’ ceadachadh a àrdachadh mòr ann an cruinneas. Chaidh modalan le trèanadh deiseil fhoillseachadh airson 123 cànan. Gus coileanadh a bharrachadh, thathas a’ tabhann mhodalan a’ cleachdadh stiùiridhean OpenMP agus SIMD AVX2, AVX, NEON no SSE4.1.

Leasachaidhean mòra ann an Tesseract 5.0:

  • Tha atharrachadh mòr ann an àireamh an tionndaidh mar thoradh air atharrachaidhean a chaidh a dhèanamh air an API a bhriseas co-chòrdalachd. Gu sònraichte, chan eil an API libtesseract a tha ri fhaighinn gu poblach ceangailte tuilleadh ris na seòrsaichean dàta GenericVector agus STRING seilbh, a thaobh std ::string agus std :: vector.
  • Chaidh craobh an teacsa tùsail ath-eagrachadh. Chaidh faidhlichean cinn poblach a ghluasad chun eòlaire gabhail a-steach / tesseract.
  • Chaidh riaghladh cuimhne ath-dhealbhadh, chaidh còd C ++ a chuir an àite a h-uile gairm malloc agus an-asgaidh. Chaidh ùrachadh coitcheann a dhèanamh air a’ chòd.
  • Optimizations a bharrachd airson ailtireachd ARM agus ARM64; Thathas a ’cleachdadh stiùireadh ARM NEON gus àireamhachadh a luathachadh. Chaidh optimization coileanaidh a tha cumanta do gach ailtireachd a dhèanamh.
  • Chaidh modhan ùra airson modalan trèanaidh agus aithneachadh teacsa stèidhichte air cleachdadh àireamhachadh puing fleòdraidh a chuir an gnìomh. Bidh na modhan ùra a’ tabhann coileanadh nas àirde agus caitheamh cuimhne nas ìsle. Anns an einnsean LSTM, tha modh luath float32 air a chomasachadh gu bunaiteach.
  • Chaidh eadar-ghluasad a dhèanamh gu bhith a’ cleachdadh gnàthachadh Unicode a’ cleachdadh an fhoirm NFC (Foirm Normalization Canonical).
  • Chaidh roghainn a chuir ris gus mion-fhiosrachadh loga a rèiteachadh (--loglevel).
  • Chaidh an siostam togail stèidhichte air Autotools ath-dhealbhadh agus atharrachadh gus togail ann am modh neo-ath-chuairteach.
  • Chaidh am meur “master” ann an Git ath-ainmeachadh gu “prìomh”.
  • Taic a bharrachd airson fiosan ùra de shiostaman macOS agus Apple stèidhichte air a’ chip M1.

    Source: fosgailtenet.ru

Cuir beachd ann