GNU Ocrad 0.28 OCR-süsteemi väljalase

Pärast kolme aastat pärast viimast väljalaset on välja antud GNU projekti egiidi all välja töötatud tekstituvastussüsteem Ocrad 0.28 (Optical Character Recognition). Ocradi saab kasutada nii teegi kujul OCR-i funktsioonide integreerimiseks teistesse rakendustesse kui ka eraldi utiliidi kujul, mis sisendisse edastatud pildi põhjal toodab teksti UTF-8 või 8-bitise kodeeringuga.

Optiliseks tuvastamiseks kasutab Ocrad funktsioonide eraldamise meetodit. Sisaldab lehekülje paigutuse analüsaatorit, mis võimaldab prinditud dokumentides õigesti eraldada veerge ja tekstiplokke. Tuvastamist toetatakse ainult "ascii", "iso-8859-9" ja "iso-8859-15" kodeeringus olevate märkide puhul (kirillitsa tähestikku ei toetata).

Märgitakse, et uus versioon sisaldab suurt osa väiksemaid parandusi ja täiustusi. Kõige olulisem muudatus oli PNG-pildivormingu tugi, mida rakendati libpng teegi abil, mis lihtsustas oluliselt programmiga töötamist, kuna varem sai sisestada ainult PNM-vormingus pilte.

Allikas: opennet.ru

Lisa kommentaar