Itusilẹ ti eto idanimọ ọrọ Tesseract 5.3.4

Itusilẹ ti eto idanimọ ọrọ opitika Tesseract 5.3.4 ti ṣe atẹjade, atilẹyin idanimọ ti awọn ohun kikọ UTF-8 ati awọn ọrọ ni diẹ sii ju awọn ede 100, pẹlu Russian, Kazakh, Belarusian ati Ukrainian. Abajade le wa ni fipamọ ni ọrọ itele tabi ni HTML (hOCR), ALTO (XML), PDF ati awọn ọna kika TSV. Eto naa ni ipilẹṣẹ ni akọkọ ni ọdun 1985-1995 ni yàrá Hewlett Packard; ni ọdun 2005, koodu naa ṣii labẹ iwe-aṣẹ Apache ati pe o ni idagbasoke siwaju pẹlu ikopa ti awọn oṣiṣẹ Google. Awọn koodu orisun ti ise agbese na pin labẹ iwe-aṣẹ Apache 2.0.

Tesseract pẹlu ohun elo console ati ile-ikawe libtesseract fun fifi iṣẹ ṣiṣe OCR sinu awọn ohun elo miiran. Awọn atọkun GUI ẹni-kẹta ti o ṣe atilẹyin Tesseract pẹlu gImageReader, VietOCR ati YAGF. Awọn ẹrọ idanimọ meji ni a funni: Ayebaye kan ti o ṣe idanimọ ọrọ ni ipele ti awọn ilana ihuwasi ẹni kọọkan, ati tuntun kan ti o da lori lilo eto ẹkọ ẹrọ ti o da lori nẹtiwọọki ti nwaye loorekoore LSTM, iṣapeye fun idanimọ gbogbo awọn okun ati gbigba fun significant ilosoke ninu išedede. Awọn awoṣe ikẹkọ ti o ti ṣetan ti ṣe atẹjade fun awọn ede 123. Lati mu iṣẹ ṣiṣe pọ si, awọn modulu lilo OpenMP ati awọn ilana SIMD AVX2, AVX, AVX512F, NEON tabi SSE4.1 ti funni.

Awọn ilọsiwaju akọkọ:

  • Ilọsiwaju idanimọ aworan nipasẹ URL pẹlu igbasilẹ faili ni lilo ile-ikawe libcurl. Nigbati o ba n ṣajọpọ, a ṣeto akọsori Olumulo-Aṣoju. Ti ṣafikun paramita tuntun curl_cookiefile fun lilo faili kuki kan.
  • Olupin ScrollView nlo TCP gẹgẹbi ilana ti o fẹ.
  • Nigbati o ba nlo aṣẹ "combine_tessdata -d", o ti pese iṣẹjade si stdout dipo stderr.
  • Awọn ọran kikọ ti o wa titi nigba lilo autoconf ati clang.

orisun: opennet.ru

Fi ọrọìwòye kun