Tesseract matnni aniqlash tizimining chiqarilishi 5.2

UTF-5.2 belgilar va matnlarni 8 dan ortiq tillarda, jumladan rus, qozoq, belarus va ukrain tillarida tanib olishni qo‘llab-quvvatlaydigan Tesseract 100 optik matnni aniqlash tizimining chiqarilishi chop etildi. Natija oddiy matnda yoki HTML (hOCR), ALTO (XML), PDF va TSV formatlarida saqlanishi mumkin. Tizim dastlab 1985-1995 yillarda Hewlett Packard laboratoriyasida yaratilgan, 2005 yilda kod Apache litsenziyasi ostida ochilgan va Google xodimlari ishtirokida yanada ishlab chiqilgan. Loyihaning manba kodi Apache 2.0 litsenziyasi ostida tarqatiladi.

Tesseract o'z ichiga konsol yordam dasturini va OCR funksiyasini boshqa ilovalarga joylashtirish uchun libtesseract kutubxonasini o'z ichiga oladi. Tesseract-ni qo'llab-quvvatlaydigan uchinchi tomon GUI interfeyslariga gImageReader, VietOCR va YAGF kiradi. Ikkita tanib olish mexanizmi taklif etiladi: matnni individual belgilar namunalari darajasida taniydigan klassik va butun satrlarni tanib olish uchun optimallashtirilgan va LSTM takroriy neyron tarmog‘iga asoslangan mashinani o‘rganish tizimidan foydalanishga asoslangan yangi. aniqlikning sezilarli darajada oshishi. Tayyor o'qitilgan modellar 123 tilda nashr etilgan. Ishlashni optimallashtirish uchun AVX2, AVX, AVX512F, NEON yoki SSE4.1 OpenMP va SIMD ko'rsatmalaridan foydalanadigan modullar taklif etiladi.

Tesseract 5.2 dagi asosiy yaxshilanishlar:

  • Intel AVX512F ko'rsatmalari yordamida amalga oshirilgan qo'shilgan optimallashtirish.
  • C API xotiradan mashinani o'rganish modelini yuklash bilan tesseractni ishga tushirish funksiyasini amalga oshiradi.
  • Matn satrlarining inversiya darajasini belgilaydigan invert_threshold parametri qo'shildi. Standart qiymat 0.7. Inversiyani o'chirish uchun qiymatni 0 ga o'rnating.
  • 32-bitli xostlarda juda katta hajmdagi hujjatlarni qayta ishlash yaxshilandi.
  • std::regex funksiyalaridan std::string ga o‘tish amalga oshirildi.
  • Autotools, CMake va uzluksiz integratsiya tizimlari uchun takomillashtirilgan qurilish skriptlari.

    Manba: opennet.ru

a Izoh qo'shish