Tekstituvastussüsteemi Tesseract väljalase 5.1

Avaldatud on optilise tekstituvastussüsteemi Tesseract 5.1 väljalase, mis toetab UTF-8 märkide ja tekstide tuvastamist enam kui 100 keeles, sealhulgas vene, kasahhi, valgevene ja ukraina keeles. Tulemust saab salvestada lihttekstina või HTML (hOCR), ALTO (XML), PDF ja TSV vormingus. Süsteem loodi algselt aastatel 1985-1995 Hewlett Packardi laboris, 2005. aastal avati kood Apache litsentsi all ning seda arendati edasi Google'i töötajate osalusel. Projekti lähtekoodi levitatakse Apache 2.0 litsentsi all.

Tesseract sisaldab konsooli utiliiti ja libtesseracti teeki OCR-i funktsioonide manustamiseks teistesse rakendustesse. Tesseracti toetavate kolmandate osapoolte GUI liideste hulka kuuluvad gImageReader, VietOCR ja YAGF. Pakutakse kahte tuvastusmootorit: klassikaline, mis tuvastab teksti üksikute märgimustrite tasemel, ja uus, mis põhineb LSTM-i korduval närvivõrgul põhineval masinõppesüsteemil, mis on optimeeritud tervete stringide tuvastamiseks ja võimaldab täpsuse märkimisväärne tõus. Valmis väljaõppega mudeleid on avaldatud 123 keeles. Jõudluse optimeerimiseks pakutakse OpenMP ja SIMD juhiseid AVX2, AVX, NEON või SSE4.1 kasutavaid mooduleid.

Tesseracti 5.1 peamised täiustused:

  • Rakendatud on ALTO-, hOCR- ja tekstivormingus väljastamisel piltide ja joontega alade töötlemise võimalus.
  • Lisatud on uus parameeter curl_timeout lkz curl_easy_setop.
  • Täiustatud ehitussüsteem.
  • Kasutamata koodi eemaldamiseks on tehtud tööd
  • Parandatud krahhid, mis on põhjustatud null-osutite valest käsitlemisest klassis PageIterator::Orientation.

Allikas: opennet.ru

Lisa kommentaar