Chaidh siostam aithneachadh teacsa optigeach Tesseract 4.1 fhoillseachadh, a’ toirt taic do bhith ag aithneachadh charactaran UTF-8 agus teacsaichean ann an còrr air 100 cànan, a’ gabhail a-steach Ruisis, Kazakh, Bealarúisis agus Ucràinis. Faodar an toradh a shàbhaladh ann an teacsa shìmplidh no ann an cruthan HTML (hOCR), ALTO (XML), PDF agus TSV. Chaidh an siostam a chruthachadh an toiseach ann an 1985-1995 ann an obair-lann Hewlett Packard; ann an 2005, chaidh an còd fhosgladh fo chead Apache agus chaidh a leasachadh a bharrachd le com-pàirt luchd-obrach Google. Tha còd stòr a’ phròiseict air a sgaoileadh fo chead Apache 2.0.
Tha Tesseract a’ toirt a-steach goireas tòcan agus an leabharlann libtesseract airson gnìomhachd OCR a fhighe a-steach do thagraidhean eile. Tha eadar-aghaidh GUI treas-phàrtaidh a bheir taic do Tesseract a’ toirt a-steach gImageReader, VietOCR agus YAGF. Thathas a’ tabhann dà einnsean aithneachaidh: fear clasaigeach a dh’ aithnicheas teacsa aig ìre pàtrain caractar fa-leth, agus fear ùr stèidhichte air cleachdadh siostam ionnsachaidh inneal stèidhichte air lìonra neural ath-chuairteach LSTM, air a bharrrachadh airson teudan slàn aithneachadh agus a’ ceadachadh a àrdachadh mòr ann an cruinneas. Chaidh modalan le trèanadh deiseil fhoillseachadh airson 123 cànan. Gus coileanadh a bharrachadh, thathas a’ tabhann mhodalan a’ cleachdadh stiùiridhean OpenMP agus SIMD AVX2, AVX, NEON no SSE4.1.
Leasachaidhean mòra ann an Tesseract 5.0:
- Tha atharrachadh mòr ann an àireamh an tionndaidh mar thoradh air atharrachaidhean a chaidh a dhèanamh air an API a bhriseas co-chòrdalachd. Gu sònraichte, chan eil an API libtesseract a tha ri fhaighinn gu poblach ceangailte tuilleadh ris na seòrsaichean dàta GenericVector agus STRING seilbh, a thaobh std ::string agus std :: vector.
- Chaidh craobh an teacsa tùsail ath-eagrachadh. Chaidh faidhlichean cinn poblach a ghluasad chun eòlaire gabhail a-steach / tesseract.
- Chaidh riaghladh cuimhne ath-dhealbhadh, chaidh còd C ++ a chuir an àite a h-uile gairm malloc agus an-asgaidh. Chaidh ùrachadh coitcheann a dhèanamh air a’ chòd.
- Optimizations a bharrachd airson ailtireachd ARM agus ARM64; Thathas a ’cleachdadh stiùireadh ARM NEON gus àireamhachadh a luathachadh. Chaidh optimization coileanaidh a tha cumanta do gach ailtireachd a dhèanamh.
- Chaidh modhan ùra airson modalan trèanaidh agus aithneachadh teacsa stèidhichte air cleachdadh àireamhachadh puing fleòdraidh a chuir an gnìomh. Bidh na modhan ùra a’ tabhann coileanadh nas àirde agus caitheamh cuimhne nas ìsle. Anns an einnsean LSTM, tha modh luath float32 air a chomasachadh gu bunaiteach.
- Chaidh eadar-ghluasad a dhèanamh gu bhith a’ cleachdadh gnàthachadh Unicode a’ cleachdadh an fhoirm NFC (Foirm Normalization Canonical).
- Chaidh roghainn a chuir ris gus mion-fhiosrachadh loga a rèiteachadh (--loglevel).
- Chaidh an siostam togail stèidhichte air Autotools ath-dhealbhadh agus atharrachadh gus togail ann am modh neo-ath-chuairteach.
- Chaidh am meur “master” ann an Git ath-ainmeachadh gu “prìomh”.
- Taic a bharrachd airson fiosan ùra de shiostaman macOS agus Apple stèidhichte air a’ chip M1.
Source: fosgailtenet.ru