Tesseract matnni aniqlash tizimining chiqarilishi 5.0

UTF-4.1 belgilar va matnlarni 8 dan ortiq tillarda, jumladan rus, qozoq, belarus va ukrain tillarida tanib olishni qo‘llab-quvvatlaydigan Tesseract 100 optik matnni aniqlash tizimining chiqarilishi chop etildi. Natija oddiy matnda yoki HTML (hOCR), ALTO (XML), PDF va TSV formatlarida saqlanishi mumkin. Tizim dastlab 1985-1995 yillarda Hewlett Packard laboratoriyasida yaratilgan, 2005 yilda kod Apache litsenziyasi ostida ochilgan va Google xodimlari ishtirokida yanada ishlab chiqilgan. Loyihaning manba kodi Apache 2.0 litsenziyasi ostida tarqatiladi.

Tesseract o'z ichiga konsol yordam dasturini va OCR funksiyasini boshqa ilovalarga joylashtirish uchun libtesseract kutubxonasini o'z ichiga oladi. Tesseract-ni qo'llab-quvvatlaydigan uchinchi tomon GUI interfeyslariga gImageReader, VietOCR va YAGF kiradi. Ikkita tanib olish mexanizmi taklif etiladi: matnni individual belgilar namunalari darajasida taniydigan klassik va butun satrlarni tanib olish uchun optimallashtirilgan va LSTM takroriy neyron tarmog‘iga asoslangan mashinani o‘rganish tizimidan foydalanishga asoslangan yangi. aniqlikning sezilarli darajada oshishi. Tayyor o'qitilgan modellar 123 tilda nashr etilgan. Ishlashni optimallashtirish uchun OpenMP va SIMD ko'rsatmalaridan foydalanadigan modullar AVX2, AVX, NEON yoki SSE4.1 taklif etiladi.

Tesseract 5.0 dagi asosiy yaxshilanishlar:

  • Versiya raqamining sezilarli o'zgarishi API-ga kiritilgan o'zgarishlar bilan bog'liq bo'lib, bu muvofiqlikni buzadi. Xususan, umumiy foydalanish mumkin bo‘lgan libtesseract API endi std::string va std::vector foydasiga GenericVector va STRING xususiy ma’lumotlar turlariga bog‘lanmaydi.
  • Manba matn daraxti qayta tashkil etildi. Umumiy sarlavha fayllari include/tesseract katalogiga ko'chirildi.
  • Xotira boshqaruvi qayta ishlab chiqildi, barcha malloc va bepul qo'ng'iroqlar C++ kodi bilan almashtirildi. Kodeksning umumiy modernizatsiyasi amalga oshirildi.
  • ARM va ARM64 arxitekturalari uchun optimallashtirish qoʻshildi; ARM NEON koʻrsatmalari hisob-kitoblarni tezlashtirish uchun ishlatiladi. Barcha arxitekturalar uchun umumiy ishlashni optimallashtirish amalga oshirildi.
  • Suzuvchi nuqta hisoblaridan foydalanishga asoslangan modellarni o'qitish va matnni aniqlashning yangi rejimlari joriy etildi. Yangi rejimlar yuqori unumdorlik va kam xotira sarfini taklif qiladi. LSTM dvigatelida sukut bo'yicha float32 tezkor rejimi yoqilgan.
  • NFC (Normalization Form Canonical) shaklidan foydalanib, Unicode normalizatsiyasidan foydalanishga o'tish amalga oshirildi.
  • Jurnal tafsilotlarini sozlash imkoniyati qo'shildi (--loglevel).
  • Autotools-ga asoslangan qurish tizimi qayta ishlab chiqilgan va rekursiv bo'lmagan rejimda qurishga o'tkazildi.
  • Gitdagi "master" filiali "asosiy" deb o'zgartirildi.
  • M1 chipi asosidagi macOS va Apple tizimlarining yangi versiyalari uchun qo'shimcha qo'llab-quvvatlash.

    Manba: opennet.ru

a Izoh qo'shish