मजकूर ओळख प्रणालीचे प्रकाशन टेसरॅक्ट 5.0

Tesseract 4.1 ऑप्टिकल मजकूर ओळख प्रणालीचे प्रकाशन प्रकाशित केले गेले आहे, रशियन, कझाक, बेलारशियन आणि युक्रेनियनसह 8 पेक्षा जास्त भाषांमध्ये UTF-100 वर्ण आणि मजकूर ओळखण्यास समर्थन देते. परिणाम साध्या मजकूरात किंवा HTML (hOCR), ALTO (XML), PDF आणि TSV फॉरमॅटमध्ये जतन केला जाऊ शकतो. ही प्रणाली मूळतः 1985-1995 मध्ये हेवलेट पॅकार्ड प्रयोगशाळेत तयार करण्यात आली होती; 2005 मध्ये, कोड अपाचे परवान्याअंतर्गत उघडण्यात आला आणि Google कर्मचार्‍यांच्या सहभागाने पुढे विकसित करण्यात आला. प्रकल्पाचा स्त्रोत कोड Apache 2.0 लायसन्स अंतर्गत वितरित केला जातो.

Tesseract मध्ये कन्सोल युटिलिटी आणि libtesseract लायब्ररी इतर अनुप्रयोगांमध्ये OCR कार्यक्षमता एम्बेड करण्यासाठी समाविष्ट आहे. Tesseract चे समर्थन करणारे तृतीय-पक्ष GUI इंटरफेसमध्ये gImageReader, VietOCR आणि YAGF यांचा समावेश होतो. दोन ओळख इंजिन ऑफर केले जातात: एक क्लासिक जे वैयक्तिक वर्ण नमुन्यांच्या पातळीवर मजकूर ओळखते आणि एक नवीन LSTM रिकरंट न्यूरल नेटवर्कवर आधारित मशीन लर्निंग सिस्टमच्या वापरावर आधारित, संपूर्ण स्ट्रिंग ओळखण्यासाठी ऑप्टिमाइझ केलेले आणि परवानगी देते. अचूकतेमध्ये लक्षणीय वाढ. 123 भाषांसाठी तयार प्रशिक्षित मॉडेल प्रकाशित करण्यात आले आहेत. कार्यप्रदर्शन ऑप्टिमाइझ करण्यासाठी, OpenMP आणि SIMD सूचना AVX2, AVX, NEON किंवा SSE4.1 वापरून मॉड्यूल ऑफर केले जातात.

Tesseract 5.0 मधील प्रमुख सुधारणा:

  • Значительное изменение номера версии связано с внесением в API изменений, нарушающих совместимость. В частности, публично доступный API libtesseract больше не привязан к проприетарным типам данных GenericVector и STRING, вместо которых в коде задействованы std::string и std::vector.
  • Проведена реорганизация дерева исходных текстов. Публичные заголовочные файлы перемещены в каталог include/tesseract.
  • Переработано управление памятью, все вызовы malloc и free заменены на код C++. Проведена общая модернизация кода.
  • Добавлены оптимизации для архитектур ARM и ARM64, для ускорения вычислений задействованы инструкции ARM NEON. Проведена общая для всех архитектур оптимизация производительности.
  • Реализованы новые режимы тренировки моделей и распознавания текста, основанные на использовании вычислений с плавающей запятой. Новые режимы отличаются более высокой производительностью и снижением потребления памяти. В движке LSTM быстрый режим float32 включён по умолчанию.
  • Осуществлён переход на использование нормализации Unicode с использованием формы NFC (Normalization Form Canonical).
  • Добавлена опция для настройки детализации логов (—loglevel).
  • Переработана система сборки на основе Autotools, которая переведена на сборку в нерекурсивном режиме.
  • Ветка «master» в Git переименована в «main».
  • Добавлена поддержка новых выпусков macOS и систем Apple на базе чипа M1.

    स्त्रोत: opennet.ru

एक टिप्पणी जोडा