Hoʻokuʻu ʻia o ka ʻōnaehana ʻike kikokikona Tesseract 5.3.4

Ua paʻi ʻia ka hoʻokuʻu ʻana o Tesseract 5.3.4 optical text recognition system, e kākoʻo ana i ka ʻike ʻana i nā huaʻōlelo UTF-8 a me nā kikokikona ma mua o 100 mau ʻōlelo, me ka Russian, Kazakh, Belarusian a me Ukrainian. Hiki ke mālama ʻia ka hopena ma ka kikokikona maʻamau a i ʻole HTML (hOCR), ALTO (XML), PDF a me nā palapala TSV. Ua hoʻokumu mua ʻia ka ʻōnaehana ma 1985-1995 i ka hale hana Hewlett Packard; ma 2005, ua wehe ʻia ke code ma lalo o ka laikini Apache a ua hoʻomohala hou ʻia me ke komo ʻana o nā limahana Google. Hāʻawi ʻia ke kumu kumu o ka papahana ma lalo o ka laikini Apache 2.0.

Loaʻa iā Tesseract kahi mea hoʻohana console a me ka waihona libtesseract no ka hoʻopili ʻana i ka hana OCR i nā noi ʻē aʻe. ʻO nā loulou GUI ʻaoʻao ʻekolu e kākoʻo ana iā Tesseract me gImageReader, VietOCR a me YAGF. Hāʻawi ʻia ʻelua mau ʻenekini hoʻomaopopo: ʻo kahi mea maʻamau e ʻike i ka kikokikona ma ke ʻano o nā ʻano hiʻohiʻona o kēlā me kēia kanaka, a me kahi mea hou e pili ana i ka hoʻohana ʻana i kahi ʻōnaehana aʻo mīkini e pili ana i kahi LSTM recurrent neural network, i hoʻopaʻa ʻia no ka ʻike ʻana i nā kaula holoʻokoʻa a hiki i kahi. piʻi nui i ka pololei. Ua paʻi ʻia nā kumu hoʻohālike i mākaukau no 123 mau ʻōlelo. No ka hoʻomaikaʻi ʻana i ka hana, hāʻawi ʻia nā modula e hoʻohana ana i nā kuhikuhi OpenMP a me SIMD AVX2, AVX, AVX512F, NEON a i ʻole SSE4.1.

Nā hoʻomaikaʻi nui:

  • Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.
  • В сервере ScrollView в качестве приоритетного протокола задействован TCP.
  • При использовании команды «combine_tessdata -d» обеспечен вывод в поток stdout вместо stderr.
  • Устранены проблемы со сборкой при использовании autoconf и clang.

Source: opennet.ru

Pākuʻi i ka manaʻo hoʻopuka