Tesseract matnni aniqlash tizimining chiqarilishi 4.1

Tayyorlangan optik matnni aniqlash tizimining chiqarilishi Tesseract 4.1, UTF-8 belgilari va matnlarini 100 dan ortiq tillarda, jumladan rus, qozoq, belarus va ukrain tillarida tanib olishni qo‘llab-quvvatlaydi. Natija oddiy matnda yoki HTML (hOCR), ALTO (XML), PDF va TSV formatlarida saqlanishi mumkin. Tizim dastlab 1985-1995 yillarda Hewlett Packard laboratoriyasida yaratilgan, 2005 yilda kod Apache litsenziyasi ostida ochilgan va Google xodimlari ishtirokida yanada ishlab chiqilgan. Loyiha manbalari tarqaldi Apache 2.0 ostida litsenziyalangan.

Tesseract o'z ichiga konsol yordam dasturini va OCR funksiyasini boshqa ilovalarga joylashtirish uchun libtesseract kutubxonasini o'z ichiga oladi. Tesseractni qo'llab-quvvatlaydigan uchinchi tomonlardan GUI interfeyslari qayd etishingiz mumkin gImageReader, VietOCR и YAGF. Ikkita tanib olish mexanizmi taklif etiladi: matnni individual belgilar namunalari darajasida taniydigan klassik va butun satrlarni tanib olish uchun optimallashtirilgan va LSTM takroriy neyron tarmog‘iga asoslangan mashinani o‘rganish tizimidan foydalanishga asoslangan yangi. aniqlikning sezilarli darajada oshishi. Tayyor o'qitilgan modellar uchun nashr etiladi 123 ta til. Ishlashni optimallashtirish uchun OpenMP va AVX2, AVX yoki SSE4.1 SIMD ko'rsatmalaridan foydalanadigan modullar taklif etiladi.

asosiy yaxshilanishlar Tesseract 4.1 da:

  • XML formatida chiqarish imkoniyati qo'shildi ALTO (Tahlil qilingan tartib va ​​matn ob'ekti). Ushbu formatdan foydalanish uchun dasturni “tessaract image_name alto output_dir” sifatida ishga tushirishingiz kerak;
  • Dvigatelni o'qitishni soddalashtirgan LSTMBox va WordStrBox yangi renderlash modullari qo'shildi;
  • hOCR (HTML) chiqishida psevdografiya uchun qo'shimcha yordam;
  • Mashinani o'rganish asosida dvigatelni o'rgatish uchun Python-da yozilgan muqobil skriptlar qo'shildi;
  • AVX, AVX2 va SSE ko'rsatmalaridan foydalangan holda kengaytirilgan optimallashtirish;
  • OpenMP qo'llab-quvvatlashi sukut bo'yicha o'chirib qo'yilgan muammolar mahsuldorlik bilan;
  • LSTM dvigatelida oq va qora ro'yxatlar uchun qo'shimcha yordam;
  • Cmake asosida yaxshilangan tuzilma skriptlari.

Manba: opennet.ru

a Izoh qo'shish