Itusilẹ ti eto idanimọ ọrọ Tesseract 5.1

Itusilẹ ti eto idanimọ ọrọ opitika Tesseract 5.1 ti ṣe atẹjade, atilẹyin idanimọ ti awọn ohun kikọ UTF-8 ati awọn ọrọ ni diẹ sii ju awọn ede 100, pẹlu Russian, Kazakh, Belarusian ati Ukrainian. Abajade le wa ni fipamọ ni ọrọ itele tabi ni HTML (hOCR), ALTO (XML), PDF ati awọn ọna kika TSV. Eto naa ni ipilẹṣẹ ni akọkọ ni ọdun 1985-1995 ni yàrá Hewlett Packard; ni ọdun 2005, koodu naa ṣii labẹ iwe-aṣẹ Apache ati pe o ni idagbasoke siwaju pẹlu ikopa ti awọn oṣiṣẹ Google. Awọn koodu orisun ti ise agbese na pin labẹ iwe-aṣẹ Apache 2.0.

Tesseract pẹlu ohun elo console ati ile-ikawe libtesseract fun fifi iṣẹ ṣiṣe OCR sinu awọn ohun elo miiran. Awọn atọkun GUI ẹni-kẹta ti o ṣe atilẹyin Tesseract pẹlu gImageReader, VietOCR ati YAGF. Awọn ẹrọ idanimọ meji ni a funni: Ayebaye kan ti o ṣe idanimọ ọrọ ni ipele ti awọn ilana ihuwasi ẹni kọọkan, ati tuntun kan ti o da lori lilo eto ẹkọ ẹrọ ti o da lori nẹtiwọọki ti nwaye loorekoore LSTM, iṣapeye fun idanimọ gbogbo awọn okun ati gbigba fun significant ilosoke ninu išedede. Awọn awoṣe ikẹkọ ti o ti ṣetan ti ṣe atẹjade fun awọn ede 123. Lati mu iṣẹ ṣiṣe pọ si, awọn modulu lilo OpenMP ati awọn ilana SIMD AVX2, AVX, NEON tabi SSE4.1 ti funni.

Awọn ilọsiwaju pataki ni Tesseract 5.1:

  • Agbara lati ṣe ilana awọn agbegbe pẹlu awọn aworan ati awọn laini nigbati o ba njade ni ALTO, hOCR ati awọn ọna kika ọrọ ti ni imuse.
  • Ti ṣafikun paramita tuntun curl_timeout lkz curl_easy_setop.
  • Dara si Kọ eto.
  • Iṣẹ ti ṣe lati yọ koodu ti ko lo
  • Awọn ipadanu ti o wa titi ti o ṣẹlẹ nipasẹ mimu ti ko tọ ti awọn itọka asan ni PageIterator :: Kilasi Iṣalaye.

orisun: opennet.ru

Fi ọrọìwòye kun