انتشار سیستم تشخیص متن Tesseract 5.2

انتشار سیستم تشخیص متن نوری Tesseract 5.2 منتشر شده است که از تشخیص کاراکترها و متون UTF-8 به بیش از 100 زبان از جمله روسی، قزاقستانی، بلاروسی و اوکراینی پشتیبانی می کند. نتیجه را می توان در متن ساده یا در فرمت های HTML (hOCR)، ALTO (XML)، PDF و TSV ذخیره کرد. این سیستم در ابتدا در سال های 1985-1995 در آزمایشگاه هیولت پاکارد ایجاد شد؛ در سال 2005، کد تحت مجوز آپاچی باز شد و با مشارکت کارمندان گوگل بیشتر توسعه یافت. کد منبع پروژه تحت مجوز آپاچی 2.0 توزیع شده است.

Tesseract شامل یک ابزار کنسول و کتابخانه libtesseract برای تعبیه عملکرد OCR در سایر برنامه ها است. رابط های رابط کاربری گرافیکی شخص ثالث که از Tesseract پشتیبانی می کنند عبارتند از gImageReader، VietOCR و YAGF. دو موتور تشخیص ارائه شده است: موتور کلاسیک که متن را در سطح الگوهای کاراکترهای فردی تشخیص می‌دهد، و موتور جدید مبتنی بر استفاده از یک سیستم یادگیری ماشینی مبتنی بر شبکه عصبی تکرارشونده LSTM، بهینه‌سازی شده برای تشخیص کل رشته‌ها و اجازه دادن به افزایش قابل توجه در دقت مدل های آماده آموزش دیده برای 123 زبان منتشر شده است. برای بهینه سازی عملکرد، ماژول هایی با استفاده از دستورالعمل های OpenMP و SIMD AVX2، AVX، AVX512F، NEON یا SSE4.1 ارائه می شوند.

پیشرفت های عمده در Tesseract 5.2:

  • بهینه سازی اضافه شده با استفاده از دستورالعمل های Intel AVX512F پیاده سازی شده است.
  • C API تابعی را برای مقداردهی اولیه تسراکت با بارگذاری یک مدل یادگیری ماشین از حافظه پیاده سازی می کند.
  • پارامتر invert_threshold اضافه شد که سطح وارونگی رشته های متنی را تعیین می کند. مقدار پیش فرض 0.7 است. برای غیرفعال کردن وارونگی، مقدار را روی 0 قرار دهید.
  • پردازش اسناد بسیار بزرگ در میزبان های 32 بیتی بهبود یافته است.
  • انتقال از استفاده از توابع std::regex به std::string انجام شده است.
  • اسکریپت های ساخت بهبود یافته برای Autotools، CMake و سیستم های یکپارچه سازی مداوم.

    منبع: opennet.ru

اضافه کردن نظر