Tesseract matnni aniqlash tizimining chiqarilishi 5.1

UTF-5.1 belgilar va matnlarni 8 dan ortiq tillarda, jumladan rus, qozoq, belarus va ukrain tillarida tanib olishni qo‘llab-quvvatlaydigan Tesseract 100 optik matnni aniqlash tizimining chiqarilishi chop etildi. Natija oddiy matnda yoki HTML (hOCR), ALTO (XML), PDF va TSV formatlarida saqlanishi mumkin. Tizim dastlab 1985-1995 yillarda Hewlett Packard laboratoriyasida yaratilgan, 2005 yilda kod Apache litsenziyasi ostida ochilgan va Google xodimlari ishtirokida yanada ishlab chiqilgan. Loyihaning manba kodi Apache 2.0 litsenziyasi ostida tarqatiladi.

Tesseract o'z ichiga konsol yordam dasturini va OCR funksiyasini boshqa ilovalarga joylashtirish uchun libtesseract kutubxonasini o'z ichiga oladi. Tesseract-ni qo'llab-quvvatlaydigan uchinchi tomon GUI interfeyslariga gImageReader, VietOCR va YAGF kiradi. Ikkita tanib olish mexanizmi taklif etiladi: matnni individual belgilar namunalari darajasida taniydigan klassik va butun satrlarni tanib olish uchun optimallashtirilgan va LSTM takroriy neyron tarmog‘iga asoslangan mashinani o‘rganish tizimidan foydalanishga asoslangan yangi. aniqlikning sezilarli darajada oshishi. Tayyor o'qitilgan modellar 123 tilda nashr etilgan. Ishlashni optimallashtirish uchun OpenMP va SIMD ko'rsatmalaridan foydalanadigan modullar AVX2, AVX, NEON yoki SSE4.1 taklif etiladi.

Tesseract 5.1 dagi asosiy yaxshilanishlar:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • Yaxshilangan qurilish tizimi.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

Manba: opennet.ru

a Izoh qo'shish