انتشار سیستم تشخیص متن Tesseract 5.3.4

انتشار سیستم تشخیص متن نوری Tesseract 5.3.4 منتشر شده است که از تشخیص کاراکترها و متون UTF-8 به بیش از 100 زبان از جمله روسی، قزاقستانی، بلاروسی و اوکراینی پشتیبانی می کند. نتیجه را می توان در متن ساده یا در فرمت های HTML (hOCR)، ALTO (XML)، PDF و TSV ذخیره کرد. این سیستم در ابتدا در سال های 1985-1995 در آزمایشگاه هیولت پاکارد ایجاد شد؛ در سال 2005، کد تحت مجوز آپاچی باز شد و با مشارکت کارمندان گوگل بیشتر توسعه یافت. کد منبع پروژه تحت مجوز آپاچی 2.0 توزیع شده است.

Tesseract شامل یک ابزار کنسول و کتابخانه libtesseract برای تعبیه عملکرد OCR در سایر برنامه ها است. رابط های رابط کاربری گرافیکی شخص ثالث که از Tesseract پشتیبانی می کنند عبارتند از gImageReader، VietOCR و YAGF. دو موتور تشخیص ارائه شده است: موتور کلاسیک که متن را در سطح الگوهای کاراکترهای فردی تشخیص می‌دهد، و موتور جدید مبتنی بر استفاده از یک سیستم یادگیری ماشینی مبتنی بر شبکه عصبی تکرارشونده LSTM، بهینه‌سازی شده برای تشخیص کل رشته‌ها و اجازه دادن به افزایش قابل توجه در دقت مدل های آماده آموزش دیده برای 123 زبان منتشر شده است. برای بهینه سازی عملکرد، ماژول هایی با استفاده از دستورالعمل های OpenMP و SIMD AVX2، AVX، AVX512F، NEON یا SSE4.1 ارائه می شوند.

بهبودهای اصلی:

  • بهبود تشخیص تصویر توسط URL با دانلود فایل با استفاده از کتابخانه libcurl. هنگام بارگذاری، هدر User-Agent تنظیم می شود. پارامتر جدید curl_cookiefile برای استفاده از یک فایل کوکی اضافه شد.
  • سرور ScrollView از TCP به عنوان پروتکل ترجیحی خود استفاده می کند.
  • هنگام استفاده از دستور "combine_tessdata -d"، خروجی به جای stderr برای stdout ارائه می شود.
  • رفع مشکلات ساخت هنگام استفاده از autoconf و cang.

منبع: opennet.ru

اضافه کردن نظر