Itusilẹ ti eto idanimọ ọrọ Tesseract 4.1

Ti pese sile itusilẹ eto idanimọ ọrọ opitika Tesseract 4.1, atilẹyin idanimọ awọn ohun kikọ UTF-8 ati awọn ọrọ ni diẹ sii ju awọn ede 100, pẹlu Russian, Kazakh, Belarusian ati Yukirenia. Abajade le wa ni fipamọ ni ọrọ itele tabi ni HTML (hOCR), ALTO (XML), PDF ati awọn ọna kika TSV. Eto naa ni ipilẹṣẹ ni akọkọ ni ọdun 1985-1995 ni yàrá Hewlett Packard; ni ọdun 2005, koodu naa ṣii labẹ iwe-aṣẹ Apache ati pe o ni idagbasoke siwaju pẹlu ikopa ti awọn oṣiṣẹ Google. Awọn orisun ise agbese tànkálẹ iwe-aṣẹ labẹ Apache 2.0.

Tesseract pẹlu ohun elo console ati ile-ikawe libtesseract fun fifi iṣẹ ṣiṣe OCR sinu awọn ohun elo miiran. Lati awọn ẹgbẹ kẹta ti o ṣe atilẹyin Tesseract GUI atọkun o le ṣe akiyesi gImageReader, VietnamOCR и YAGF. Awọn ẹrọ idanimọ meji ni a funni: Ayebaye kan ti o ṣe idanimọ ọrọ ni ipele ti awọn ilana ihuwasi ẹni kọọkan, ati tuntun kan ti o da lori lilo eto ẹkọ ẹrọ ti o da lori nẹtiwọọki ti nwaye loorekoore LSTM, iṣapeye fun idanimọ gbogbo awọn okun ati gbigba fun significant ilosoke ninu išedede. Ṣetan-ṣe oṣiṣẹ si dede ti wa ni atejade fun 123 ede. Lati mu iṣẹ ṣiṣe pọ si, awọn modulu lilo OpenMP ati AVX2, AVX tabi SSE4.1 Awọn ilana SIMD ti funni.

akọkọ awọn ilọsiwaju Ninu Tesseract 4.1:

  • Ṣe afikun agbara lati ṣejade ni ọna kika XML Titi (Itupalẹ Ifilelẹ ati Nkan Ọrọ). Lati lo ọna kika yii, o yẹ ki o ṣiṣẹ ohun elo naa bi “tessaract image_name alto output_dir”;
  • Fi kun titun Rendering modulu LSTMBox ati WordStrBox, simplifying engine ikẹkọ;
  • Atilẹyin ti a ṣafikun fun awọn pseudographics ni iṣelọpọ hOCR (HTML);
  • Awọn iwe afọwọkọ omiiran ti a ṣafikun ti a kọ sinu Python fun ikẹkọ ẹrọ ti o da lori ikẹkọ ẹrọ;
  • Awọn iṣapeye ti o gbooro sii nipa lilo awọn ilana AVX, AVX2 ati SSE;
  • Atilẹyin OpenMP jẹ alaabo nipasẹ aiyipada nitori awọn iṣoro pẹlu ise sise;
  • Atilẹyin ti a ṣafikun fun awọn atokọ funfun ati dudu ninu ẹrọ LSTM;
  • Awọn iwe afọwọkọ ti o ni ilọsiwaju ti o da lori Cmake.

orisun: opennet.ru

Fi ọrọìwòye kun