انتشار سیستم تشخیص متن Tesseract 5.1

انتشار سیستم تشخیص متن نوری Tesseract 5.1 منتشر شده است که از تشخیص کاراکترها و متون UTF-8 به بیش از 100 زبان از جمله روسی، قزاقستانی، بلاروسی و اوکراینی پشتیبانی می کند. نتیجه را می توان در متن ساده یا در فرمت های HTML (hOCR)، ALTO (XML)، PDF و TSV ذخیره کرد. این سیستم در ابتدا در سال های 1985-1995 در آزمایشگاه هیولت پاکارد ایجاد شد؛ در سال 2005، کد تحت مجوز آپاچی باز شد و با مشارکت کارمندان گوگل بیشتر توسعه یافت. کد منبع پروژه تحت مجوز آپاچی 2.0 توزیع شده است.

Tesseract شامل یک ابزار کنسول و کتابخانه libtesseract برای تعبیه عملکرد OCR در سایر برنامه ها است. رابط های رابط کاربری گرافیکی شخص ثالث که از Tesseract پشتیبانی می کنند عبارتند از gImageReader، VietOCR و YAGF. دو موتور تشخیص ارائه شده است: موتور کلاسیک که متن را در سطح الگوهای کاراکترهای فردی تشخیص می‌دهد، و موتور جدید مبتنی بر استفاده از یک سیستم یادگیری ماشینی مبتنی بر یک شبکه عصبی تکراری LSTM، بهینه‌سازی شده برای تشخیص کل رشته‌ها و اجازه دادن به افزایش قابل توجه در دقت مدل های آماده آموزش دیده برای 123 زبان منتشر شده است. برای بهینه سازی عملکرد، ماژول هایی با استفاده از دستورالعمل های OpenMP و SIMD AVX2، AVX، NEON یا SSE4.1 ارائه می شوند.

پیشرفت های عمده در Tesseract 5.1:

  • قابلیت پردازش مناطق با تصاویر و خطوط هنگام خروجی در فرمت های ALTO، hOCR و متن پیاده سازی شده است.
  • پارامتر جدید curl_timeout lkz curl_easy_setop اضافه شد.
  • سیستم ساخت بهبود یافته
  • کار برای حذف کدهای استفاده نشده انجام شده است
  • رفع خرابی های ناشی از مدیریت نادرست نشانگرهای تهی در کلاس PageIterator::Orientation.

منبع: opennet.ru

اضافه کردن نظر