Metin tanıma sistemi Tesseract 5.0'in piyasaya sürülmesi

UTF-4.1 karakterlerinin ve metinlerinin Rusça, Kazakça, Belarusça ve Ukraynaca dahil 8'den fazla dilde tanınmasını destekleyen Tesseract 100 optik metin tanıma sisteminin sürümü yayınlandı. Sonuç düz metin olarak veya HTML (hOCR), ALTO (XML), PDF ve TSV formatlarında kaydedilebilir. Sistem ilk olarak 1985-1995 yıllarında Hewlett Packard laboratuvarında oluşturuldu; 2005 yılında kod Apache lisansı altında açıldı ve Google çalışanlarının katılımıyla daha da geliştirildi. Projenin kaynak kodu Apache 2.0 lisansı altında dağıtılmaktadır.

Tesseract, OCR işlevselliğini diğer uygulamalara yerleştirmek için bir konsol yardımcı programı ve libtesseract kitaplığı içerir. Tesseract'ı destekleyen üçüncü taraf GUI arayüzleri arasında gImageReader, VietOCR ve YAGF bulunur. İki tanıma motoru sunulmaktadır: metni bireysel karakter desenleri düzeyinde tanıyan klasik bir motor ve tüm dizeleri tanımak ve tek bir karakter dizisine izin vermek için optimize edilmiş, LSTM tekrarlayan sinir ağını temel alan bir makine öğrenimi sisteminin kullanımına dayanan yeni bir motor. doğrulukta önemli bir artış. 123 dil için hazır eğitimli modeller yayınlandı. Performansı optimize etmek için OpenMP ve SIMD talimatlarını AVX2, AVX, NEON veya SSE4.1 kullanan modüller sunulmaktadır.

Tesseract 5.0'daki önemli iyileştirmeler:

  • Значительное изменение номера версии связано с внесением в API изменений, нарушающих совместимость. В частности, публично доступный API libtesseract больше не привязан к проприетарным типам данных GenericVector и STRING, вместо которых в коде задействованы std::string и std::vector.
  • Проведена реорганизация дерева исходных текстов. Публичные заголовочные файлы перемещены в каталог include/tesseract.
  • Переработано управление памятью, все вызовы malloc и free заменены на код C++. Проведена общая модернизация кода.
  • Добавлены оптимизации для архитектур ARM и ARM64, для ускорения вычислений задействованы инструкции ARM NEON. Проведена общая для всех архитектур оптимизация производительности.
  • Реализованы новые режимы тренировки моделей и распознавания текста, основанные на использовании вычислений с плавающей запятой. Новые режимы отличаются более высокой производительностью и снижением потребления памяти. В движке LSTM быстрый режим float32 включён по умолчанию.
  • Осуществлён переход на использование нормализации Unicode с использованием формы NFC (Normalization Form Canonical).
  • Добавлена опция для настройки детализации логов (—loglevel).
  • Переработана система сборки на основе Autotools, которая переведена на сборку в нерекурсивном режиме.
  • Ветка «master» в Git переименована в «main».
  • Добавлена поддержка новых выпусков macOS и систем Apple на базе чипа M1.

    Kaynak: opennet.ru

Yorum ekle