Wydanie systemu OCR GNU Ocrad 0.28

Po trzech latach od ostatniej wersji ukazał się system rozpoznawania tekstu Ocrad 0.28 (Optical Character Recognition), opracowany w ramach projektu GNU. Ocrad można wykorzystać zarówno w formie biblioteki do integracji funkcji OCR z innymi aplikacjami, jak i w formie osobnego narzędzia, które na podstawie obrazu przekazanego na wejście generuje tekst w kodowaniu UTF-8 lub 8-bitowym.

Do rozpoznawania optycznego Ocrad wykorzystuje metodę ekstrakcji cech. Zawiera analizator układu strony, który pozwala poprawnie oddzielić kolumny i bloki tekstu w drukowanych dokumentach. Rozpoznawanie jest obsługiwane tylko dla znaków z kodowania „ascii”, „iso-8859-9” i „iso-8859-15” (cyrylica nie jest obsługiwana).

Należy zauważyć, że nowe wydanie zawiera dużą część drobnych poprawek i ulepszeń. Najważniejszą zmianą była obsługa formatu obrazu PNG, zaimplementowana przy użyciu biblioteki libpng, co znacznie ułatwiło pracę z programem, gdyż wcześniej można było wprowadzać tylko obrazy w formatach PNM.

Źródło: opennet.ru

Dodaj komentarz