Izdaja sistema GNU Ocrad 0.28 OCR

Po treh letih od zadnje izdaje je izšel sistem za prepoznavanje besedila Ocrad 0.28 (Optical Character Recognition), ki je nastal pod okriljem projekta GNU. Ocrad se lahko uporablja tako v obliki knjižnice za integracijo funkcij OCR v druge aplikacije kot v obliki ločenega pripomočka, ki na podlagi slike, posredovane na vhod, ustvari besedilo v UTF-8 ali 8-bitnem kodiranju.

Za optično prepoznavanje Ocrad uporablja metodo ekstrakcije značilnosti. Vključuje analizator postavitve strani, ki vam omogoča pravilno ločevanje stolpcev in blokov besedila v natisnjenih dokumentih. Prepoznavanje je podprto samo za znake iz kodirnic "ascii", "iso-8859-9" in "iso-8859-15" (ni podpore za cirilico).

Opozoriti je treba, da nova izdaja vključuje velik del manjših popravkov in izboljšav. Najpomembnejša sprememba je bila podpora za slikovni format PNG, implementiran s pomočjo knjižnice libpng, ki je zelo poenostavila delo s programom, saj je bilo prej možno vnašati samo slike v formatih PNM.

Vir: opennet.ru

Dodaj komentar