انتشار سیستم تشخیص متن Tesseract 4.1

آماده شده انتشار سیستم تشخیص متن نوری Tesseract 4.1پشتیبانی از تشخیص کاراکترها و متون UTF-8 به بیش از 100 زبان، از جمله روسی، قزاقستانی، بلاروسی و اوکراینی. نتیجه را می توان در متن ساده یا در فرمت های HTML (hOCR)، ALTO (XML)، PDF و TSV ذخیره کرد. این سیستم در ابتدا در سال‌های 1985-1995 در آزمایشگاه هیولت پاکارد ایجاد شد؛ در سال 2005، کد تحت مجوز آپاچی باز شد و با مشارکت کارکنان گوگل بیشتر توسعه یافت. منابع پروژه گسترش دارای مجوز Apache 2.0.

Tesseract شامل یک ابزار کنسول و کتابخانه libtesseract برای تعبیه عملکرد OCR در سایر برنامه ها است. از اشخاص ثالثی که از Tesseract پشتیبانی می کنند رابط های رابط کاربری گرافیکی می توانید توجه داشته باشید gImageReader, VietOCR и YAGF. دو موتور تشخیص ارائه شده است: موتور کلاسیک که متن را در سطح الگوهای کاراکترهای فردی تشخیص می‌دهد، و موتور جدید مبتنی بر استفاده از یک سیستم یادگیری ماشینی مبتنی بر یک شبکه عصبی تکراری LSTM، بهینه‌سازی شده برای تشخیص کل رشته‌ها و اجازه دادن به افزایش قابل توجه در دقت مدل های آماده آموزش دیده برای 123 زبان. برای بهینه سازی عملکرد، ماژول هایی با استفاده از دستورالعمل های OpenMP و AVX2، AVX یا SSE4.1 SIMD ارائه می شوند.

اصلی پیشرفت ها در Tesseract 4.1:

  • اضافه شدن قابلیت خروجی در فرمت XML ALTO (تحلیل چیدمان و شیء متن). برای استفاده از این فرمت، باید برنامه را به صورت “tessaract image_name alto output_dir” اجرا کنید.
  • اضافه شدن ماژول های رندر جدید LSTMBox و WordStrBox، آموزش موتور را ساده می کند.
  • اضافه شدن پشتیبانی برای شبه نگاری در خروجی hOCR (HTML).
  • اسکریپت های جایگزین نوشته شده در پایتون برای آموزش موتور بر اساس یادگیری ماشین اضافه شده است.
  • بهینه سازی های گسترده با استفاده از دستورالعمل های AVX، AVX2 و SSE.
  • پشتیبانی OpenMP به طور پیش فرض غیرفعال است به دلیل چالش ها و مسائل با بهره وری؛
  • اضافه شدن پشتیبانی از لیست های سفید و سیاه در موتور LSTM.
  • اسکریپت های ساخت بهبود یافته بر اساس Cmake.

منبع: opennet.ru

اضافه کردن نظر