Itusilẹ ti eto idanimọ ọrọ Tesseract 5.2

Itusilẹ ti eto idanimọ ọrọ opitika Tesseract 5.2 ti ṣe atẹjade, atilẹyin idanimọ ti awọn ohun kikọ UTF-8 ati awọn ọrọ ni diẹ sii ju awọn ede 100, pẹlu Russian, Kazakh, Belarusian ati Ukrainian. Abajade le wa ni fipamọ ni ọrọ itele tabi ni HTML (hOCR), ALTO (XML), PDF ati awọn ọna kika TSV. Eto naa ni ipilẹṣẹ ni akọkọ ni ọdun 1985-1995 ni yàrá Hewlett Packard; ni ọdun 2005, koodu naa ṣii labẹ iwe-aṣẹ Apache ati pe o ni idagbasoke siwaju pẹlu ikopa ti awọn oṣiṣẹ Google. Awọn koodu orisun ti ise agbese na pin labẹ iwe-aṣẹ Apache 2.0.

Tesseract pẹlu ohun elo console ati ile-ikawe libtesseract fun fifi iṣẹ ṣiṣe OCR sinu awọn ohun elo miiran. Awọn atọkun GUI ẹni-kẹta ti o ṣe atilẹyin Tesseract pẹlu gImageReader, VietOCR ati YAGF. Awọn ẹrọ idanimọ meji ni a funni: Ayebaye kan ti o ṣe idanimọ ọrọ ni ipele ti awọn ilana ihuwasi ẹni kọọkan, ati tuntun kan ti o da lori lilo eto ẹkọ ẹrọ ti o da lori nẹtiwọọki ti nwaye loorekoore LSTM, iṣapeye fun idanimọ gbogbo awọn okun ati gbigba fun significant ilosoke ninu išedede. Awọn awoṣe ikẹkọ ti o ti ṣetan ti ṣe atẹjade fun awọn ede 123. Lati mu iṣẹ ṣiṣe pọ si, awọn modulu lilo OpenMP ati awọn ilana SIMD AVX2, AVX, AVX512F, NEON tabi SSE4.1 ti funni.

Awọn ilọsiwaju pataki ni Tesseract 5.2:

  • Добавлены оптимизации, реализованные с использованием инструкций Intel AVX512F.
  • В C API реализована функция для инициализации tesseract с загрузкой из памяти модели машинного обучения.
  • Добавлен параметр invert_threshold, определяющий уровень инвертирования текстовых строк. По умолчанию выставлено значение 0.7. Для отключения инвертирования следует выставить значение 0.
  • Налажена обработка очень больших документов на 32-разрядных хостах.
  • Осуществлён переход с использования функций std::regex на std::string.
  • Улучшены сборочные сценарии для Autotools, CMake и систем непрерывной интеграции.

    orisun: opennet.ru

Fi ọrọìwòye kun