إطلاق نظام التعرف على النص Tesseract 5.0

تم نشر إصدار نظام التعرف البصري على النص Tesseract 4.1، والذي يدعم التعرف على أحرف ونصوص UTF-8 بأكثر من 100 لغة، بما في ذلك الروسية والكازاخستانية والبيلاروسية والأوكرانية. يمكن حفظ النتيجة بنص واضح وبتنسيقات HTML (hOCR) وALTO (XML) وPDF وTSV. في البداية، تم إنشاء النظام في 1985-1995 في مختبر شركة Hewlett Packard، وفي عام 2005 تم فتح الكود بموجب ترخيص Apache وتم تطويره بمشاركة موظفي Google. يتم توزيع النصوص المصدرية للمشروع بموجب ترخيص Apache 2.0.

يتضمن Tesseract أداة مساعدة لوحدة التحكم ومكتبة libtesseract لتضمين وظيفة التعرف الضوئي على الحروف في التطبيقات الأخرى. تتضمن واجهات المستخدم الرسومية التابعة لجهات خارجية الداعمة لـ Tesseract gImageReader وVietOCR وYAGF. تم اقتراح محركين للتعرف: محرك كلاسيكي يتعرف على النص على مستوى أنماط الأحرف الفردية، ومحرك جديد يعتمد على استخدام نظام التعلم الآلي يعتمد على شبكة عصبية متكررة LSTM، مُحسّنة للتعرف على الخطوط بأكملها والسماح بـ زيادة كبيرة في الدقة. وقد تم نشر النماذج المدربة الجاهزة بـ 123 لغة. لتحسين الأداء، يتم تقديم الوحدات التي تستخدم تعليمات OpenMP وSIMD AVX2 أو AVX أو NEON أو SSE4.1.

التحسينات الرئيسية في Tesseract 5.0:

  • يرجع التغيير الكبير في رقم الإصدار إلى التغييرات في واجهة برمجة التطبيقات (API) التي تؤدي إلى انقطاع التوافق. على وجه الخصوص، لم تعد واجهة برمجة التطبيقات libtesseract المتاحة للعامة مرتبطة بأنواع البيانات الخاصة GenericVector وSTRING، وبدلاً من ذلك يتم استخدام std::string وstd::vector في التعليمات البرمجية.
  • تمت إعادة تنظيم شجرة المصدر. تم نقل ملفات الرأس العامة إلى دليل التضمين/tesseract.
  • تمت إعادة تصميم إدارة الذاكرة، وتم استبدال جميع المكالمات إلى malloc والمجانية برمز C++. تم تنفيذ ترقية التعليمات البرمجية العامة.
  • تمت إضافة تحسينات على بنيات ARM وARM64، ويتم استخدام تعليمات ARM NEON لتسريع العمليات الحسابية. تم إجراء تحسين الأداء العام لجميع البنى.
  • تم تنفيذ أوضاع جديدة للتدريب النموذجي والتعرف على النص، بناءً على استخدام حسابات الفاصلة العائمة. تتميز الأوضاع الجديدة بأداء أعلى واستهلاك أقل للذاكرة. في محرك LSTM، يتم تمكين الوضع السريع float32 افتراضيًا.
  • تم الانتقال إلى استخدام تطبيع Unicode باستخدام نموذج NFC (نموذج التطبيع الكنسي).
  • تمت إضافة خيار لتكوين تفاصيل السجل (-مستوى السجل).
  • تمت إعادة تصميم نظام التجميع المعتمد على Autotools، والذي تم تحويله إلى التجميع في الوضع غير العودي.
  • تمت إعادة تسمية الفرع "الرئيسي" في Git إلى "الرئيسي".
  • تمت إضافة دعم للإصدارات الجديدة من أنظمة macOS وApple المستندة إلى شريحة M1.

    المصدر: opennet.ru

إضافة تعليق