إطلاق نظام التعرف على النص Tesseract 5.4.0

تم نشر إصدار نظام التعرف البصري على النص Tesseract 5.4.0، والذي يدعم التعرف على أحرف ونصوص UTF-8 بأكثر من 100 لغة، بما في ذلك الروسية والكازاخستانية والبيلاروسية والأوكرانية. يمكن حفظ النتيجة بنص واضح وبتنسيقات HTML (hOCR) وALTO (XML) وPDF وTSV. في البداية، تم إنشاء النظام في 1985-1995 في مختبر شركة Hewlett Packard، وفي عام 2005 تم فتح الكود بموجب ترخيص Apache وتم تطويره بمشاركة موظفي Google. يتم توزيع النصوص المصدرية للمشروع بموجب ترخيص Apache 2.0.

يتضمن Tesseract أداة مساعدة لوحدة التحكم ومكتبة libtesseract لتضمين وظيفة التعرف الضوئي على الحروف في تطبيقات أخرى. تتضمن واجهات واجهة المستخدم الرسومية التابعة لجهات خارجية التي تدعم Tesseract gImageReader وVietOCR وYAGF. يتم تقديم محركين للتعرف: محرك كلاسيكي يتعرف على النص على مستوى أنماط الأحرف الفردية، ومحرك جديد يعتمد على استخدام نظام التعلم الآلي يعتمد على شبكة عصبية متكررة LSTM، مُحسّنة للتعرف على السلاسل بأكملها والسماح بـ زيادة كبيرة في الدقة. وقد تم نشر النماذج المدربة الجاهزة بـ 123 لغة. لتحسين الأداء، يتم تقديم الوحدات التي تستخدم تعليمات OpenMP وSIMD AVX2 أو AVX أو AVX512F أو NEON أو SSE4.1.

التحسينات الرئيسية:

  • تمت إضافة دعم للعرض والتصدير بتنسيق PAGE-XML.
  • أصبح من الممكن الآن تدريب النموذج باستخدام ملفات PNG بدلاً من ملفات LSTMF.
  • تحسين العرض إلى تنسيق PDF.
  • تم توسيع واجهة برمجة التطبيقات (API) لتحديد إمالة النص.
  • تم إصلاح مشكلات الأداء التي تم تحديدها عند المسح في نظام التغطية.

المصدر: opennet.ru

إضافة تعليق