์ค๋น๋ ๊ด๋ฌธ์ ์ธ์ ์์คํ
์ถ์ ํ
์๋ ํธ 4.1, ๋ฌ์์์ด, ์นด์ํ์ด, ๋ฒจ๋ก๋ฃจ์์ด ๋ฐ ์ฐํฌ๋ผ์ด๋์ด๋ฅผ ํฌํจํ 8๊ฐ ์ด์์ ์ธ์ด๋ก UTF-100 ๋ฌธ์ ๋ฐ ํ
์คํธ ์ธ์์ ์ง์ํฉ๋๋ค. ๊ฒฐ๊ณผ๋ ์ผ๋ฐ ํ
์คํธ๋ HTML(hOCR), ALTO(XML), PDF ๋ฐ TSV ํ์์ผ๋ก ์ ์ฅํ ์ ์์ต๋๋ค. ์ด ์์คํ
์ ์๋ Hewlett Packard ์ฐ๊ตฌ์์์ 1985~1995๋
์ ๋ง๋ค์ด์ก์ผ๋ฉฐ, 2005๋
์ ์ฝ๋๋ Apache ๋ผ์ด์ผ์ค์ ๋ฐ๋ผ ๊ณต๊ฐ๋์์ผ๋ฉฐ Google ์ง์์ ์ฐธ์ฌ๋ก ๋์ฑ ๊ฐ๋ฐ๋์์ต๋๋ค. ํ๋ก์ ํธ ์์ค ํ์ฐ Apache 2.0์ ๋ฐ๋ผ ๋ผ์ด์ผ์ค๊ฐ ๋ถ์ฌ๋์์ต๋๋ค.
Tesseract์๋ OCR ๊ธฐ๋ฅ์ ๋ค๋ฅธ ์ ํ๋ฆฌ์ผ์ด์
์ ๋ด์ฅํ๊ธฐ ์ํ ์ฝ์ ์ ํธ๋ฆฌํฐ์ libtesseract ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ํฌํจ๋์ด ์์ต๋๋ค. Tesseract๋ฅผ ์ง์ํ๋ ์ XNUMX์๋ก๋ถํฐ GUI ์ธํฐํ์ด์ค ๋น์ ์ ์ฐธ๊ณ ํ ์ ์์ต๋๋ค gImageReader, ๋ฒ ํธ๋จOCR ะธ ์ผํ. ๋ ๊ฐ์ง ์ธ์ ์์ง์ด ์ ๊ณต๋ฉ๋๋ค. ๊ฐ๋ณ ๋ฌธ์ ํจํด ์์ค์์ ํ
์คํธ๋ฅผ ์ธ์ํ๋ ํด๋์ ์์ง๊ณผ LSTM ์ํ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ๊ธฐ๊ณ ํ์ต ์์คํ
์ ์ฌ์ฉํ๋ ์๋ก์ด ์์ง์ ์ ์ฒด ๋ฌธ์์ด์ ์ธ์ํ๊ณ ์ ํ๋๊ฐ ํฌ๊ฒ ํฅ์๋ฉ๋๋ค. ๊ธฐ์ฑ ํ์ต ๋ชจ๋ธ์ด ๊ฒ์๋์์ต๋๋ค. 123 ๊ฐ ์ธ์ด. ์ฑ๋ฅ์ ์ต์ ํํ๊ธฐ ์ํด OpenMP ๋ฐ AVX2, AVX ๋๋ SSE4.1 SIMD ๋ช
๋ น์ด๋ฅผ ์ฌ์ฉํ๋ ๋ชจ๋์ด ์ ๊ณต๋ฉ๋๋ค.
์ฃผ์ ๊ฐ๋ Tesseract 4.1์์ :
- XML ํ์์ผ๋ก ์ถ๋ ฅํ๋ ๊ธฐ๋ฅ ์ถ๊ฐ HIGH (๋ถ์๋ ๋ ์ด์์ ๋ฐ ํ
์คํธ ๊ฐ์ฒด). ์ด ํ์์ ์ฌ์ฉํ๋ ค๋ฉด โtessaract image_name alto output_dirโ๋ก ์ ํ๋ฆฌ์ผ์ด์
์ ์คํํด์ผ ํฉ๋๋ค.
- ์๋ก์ด ๋ ๋๋ง ๋ชจ๋ LSTMBox ๋ฐ WordStrBox๋ฅผ ์ถ๊ฐํ์ฌ ์์ง ํ๋ จ์ ๋จ์ํํ์ต๋๋ค.
- hOCR(HTML) ์ถ๋ ฅ์ ์์ฌ๊ทธ๋ํฝ์ ๋ํ ์ง์์ด ์ถ๊ฐ๋์์ต๋๋ค.
- ๊ธฐ๊ณ ํ์ต์ ๊ธฐ๋ฐ์ผ๋ก ์์ง์ ํ๋ จํ๊ธฐ ์ํด Python์ผ๋ก ์์ฑ๋ ๋์ฒด ์คํฌ๋ฆฝํธ๋ฅผ ์ถ๊ฐํ์ต๋๋ค.
- AVX, AVX2 ๋ฐ SSE ์ง์นจ์ ์ฌ์ฉํ ํ์ฅ๋ ์ต์ ํ
- OpenMP ์ง์์ ๊ธฐ๋ณธ์ ์ผ๋ก ๋นํ์ฑํ๋์ด ์์ต๋๋ค. ะฟัะพะฑะปะตะผ ์์ฐ์ฑ์ผ๋ก;
- LSTM ์์ง์ ํ์ดํธ๋ฆฌ์คํธ ๋ฐ ๋ธ๋๋ฆฌ์คํธ์ ๋ํ ์ง์์ด ์ถ๊ฐ๋์์ต๋๋ค.
- Cmake๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋น๋ ์คํฌ๋ฆฝํธ๊ฐ ๊ฐ์ ๋์์ต๋๋ค.
์ถ์ฒ : opennet.ru