Lage sistèm rekonesans tèks Tesseract 5.2

Yo te pibliye piblikasyon Tesseract 5.2 sistèm nan rekonesans tèks optik, sipòte rekonesans nan karaktè UTF-8 ak tèks nan plis pase 100 lang, ki gen ladan Ris, Kazakh, Belarisyen ak Ukrainian. Rezilta a ka sove nan tèks klè oswa nan fòma HTML (hOCR), ALTO (XML), PDF ak TSV. Yo te kreye sistèm nan okòmansman an 1985-1995 nan laboratwa Hewlett Packard la; an 2005, kòd la te louvri anba lisans Apache e li te devlope plis ak patisipasyon anplwaye Google yo. Kòd sous pwojè a distribye anba lisans Apache 2.0.

Tesseract gen ladan yon sèvis piblik konsole ak bibliyotèk libtesseract pou entegre fonksyon OCR nan lòt aplikasyon. Entèfas GUI twazyèm pati ki sipòte Tesseract gen ladan gImageReader, VietOCR ak YAGF. Yo ofri de motè rekonesans: yon sèl klasik ki rekonèt tèks nan nivo modèl karaktè endividyèl yo, ak yon nouvo ki baze sou itilizasyon yon sistèm aprantisaj machin ki baze sou yon rezo neral renouvlab LSTM, ki optimize pou rekonèt kòd antye epi ki pèmèt yon ogmantasyon siyifikatif nan presizyon. Yo te pibliye modèl fòmasyon ki pare pou 123 lang. Pou optimize pèfòmans, modil ki itilize OpenMP ak SIMD enstriksyon AVX2, AVX, AVX512F, NEON oswa SSE4.1 yo ofri.

Gwo amelyorasyon nan Tesseract 5.2:

  • Добавлены оптимизации, реализованные с использованием инструкций Intel AVX512F.
  • В C API реализована функция для инициализации tesseract с загрузкой из памяти модели машинного обучения.
  • Добавлен параметр invert_threshold, определяющий уровень инвертирования текстовых строк. По умолчанию выставлено значение 0.7. Для отключения инвертирования следует выставить значение 0.
  • Налажена обработка очень больших документов на 32-разрядных хостах.
  • Осуществлён переход с использования функций std::regex на std::string.
  • Улучшены сборочные сценарии для Autotools, CMake и систем непрерывной интеграции.

    Sous: opennet.ru

Add nouvo kòmantè