إطلاق نظام التعرف على النص Tesseract 5.1

تم نشر إصدار نظام التعرف البصري على النص Tesseract 5.1، والذي يدعم التعرف على أحرف ونصوص UTF-8 بأكثر من 100 لغة، بما في ذلك الروسية والكازاخستانية والبيلاروسية والأوكرانية. يمكن حفظ النتيجة بنص واضح وبتنسيقات HTML (hOCR) وALTO (XML) وPDF وTSV. في البداية، تم إنشاء النظام في 1985-1995 في مختبر شركة Hewlett Packard، وفي عام 2005 تم فتح الكود بموجب ترخيص Apache وتم تطويره بمشاركة موظفي Google. يتم توزيع النصوص المصدرية للمشروع بموجب ترخيص Apache 2.0.

يتضمن Tesseract أداة مساعدة لوحدة التحكم ومكتبة libtesseract لتضمين وظيفة التعرف الضوئي على الحروف في التطبيقات الأخرى. تتضمن واجهات المستخدم الرسومية التابعة لجهات خارجية الداعمة لـ Tesseract gImageReader وVietOCR وYAGF. تم اقتراح محركين للتعرف: محرك كلاسيكي يتعرف على النص على مستوى أنماط الأحرف الفردية، ومحرك جديد يعتمد على استخدام نظام التعلم الآلي يعتمد على شبكة عصبية متكررة LSTM، مُحسّنة للتعرف على الخطوط بأكملها والسماح بـ زيادة كبيرة في الدقة. وقد تم نشر النماذج المدربة الجاهزة بـ 123 لغة. لتحسين الأداء، يتم تقديم الوحدات التي تستخدم تعليمات OpenMP وSIMD AVX2 أو AVX أو NEON أو SSE4.1.

التحسينات الرئيسية في Tesseract 5.1:

  • تم تنفيذ القدرة على معالجة المناطق بالصور والخطوط عند الإخراج بتنسيقات ALTO وhOCR والنص.
  • تمت إضافة معلمة جديدة curl_timeout lkz curl_easy_setop.
  • نظام بناء محسن.
  • تم العمل على إزالة الكود غير المستخدم
  • تم إصلاح الأعطال الناتجة عن المعالجة غير الصحيحة للمؤشرات الفارغة في فئة PageIterator::Orientation.

المصدر: opennet.ru

إضافة تعليق