Lage sistèm rekonesans tèks Tesseract 5.3.4

Yo te pibliye piblikasyon Tesseract 5.3.4 sistèm nan rekonesans tèks optik, sipòte rekonesans nan karaktè UTF-8 ak tèks nan plis pase 100 lang, ki gen ladan Ris, Kazakh, Belarisyen ak Ukrainian. Rezilta a ka sove nan tèks klè oswa nan fòma HTML (hOCR), ALTO (XML), PDF ak TSV. Yo te kreye sistèm nan okòmansman an 1985-1995 nan laboratwa Hewlett Packard la; an 2005, kòd la te louvri anba lisans Apache e li te devlope plis ak patisipasyon anplwaye Google yo. Kòd sous pwojè a distribye anba lisans Apache 2.0.

Tesseract gen ladan yon sèvis piblik konsole ak bibliyotèk libtesseract pou entegre fonksyon OCR nan lòt aplikasyon. Entèfas GUI twazyèm pati ki sipòte Tesseract gen ladan gImageReader, VietOCR ak YAGF. Yo ofri de motè rekonesans: yon sèl klasik ki rekonèt tèks nan nivo modèl karaktè endividyèl yo, ak yon nouvo ki baze sou itilizasyon yon sistèm aprantisaj machin ki baze sou yon rezo neral renouvlab LSTM, ki optimize pou rekonèt kòd antye epi ki pèmèt yon ogmantasyon siyifikatif nan presizyon. Yo te pibliye modèl fòmasyon ki pare pou 123 lang. Pou optimize pèfòmans, modil ki itilize OpenMP ak SIMD enstriksyon AVX2, AVX, AVX512F, NEON oswa SSE4.1 yo ofri.

Gwo amelyorasyon:

  • Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.
  • В сервере ScrollView в качестве приоритетного протокола задействован TCP.
  • При использовании команды «combine_tessdata -d» обеспечен вывод в поток stdout вместо stderr.
  • Устранены проблемы со сборкой при использовании autoconf и clang.

Sous: opennet.ru

Add nouvo kòmantè