إطلاق نظام التعرف على النص Tesseract 4.1

مُعد إطلاق نظام التعرف البصري على النصوص تسراكت 4.1، يدعم التعرف على أحرف ونصوص UTF-8 بأكثر من 100 لغة، بما في ذلك الروسية والكازاخستانية والبيلاروسية والأوكرانية. يمكن حفظ النتيجة بنص عادي أو بتنسيقات HTML (hOCR) وALTO (XML) وPDF وTSV. تم إنشاء النظام في الأصل في 1985-1995 في مختبر هيوليت باكارد، وفي عام 2005، تم فتح الكود بموجب ترخيص أباتشي وتم تطويره بمشاركة موظفي جوجل. مصادر المشروع الانتشار مرخص بموجب Apache 2.0.

يتضمن Tesseract أداة مساعدة لوحدة التحكم ومكتبة libtesseract لتضمين وظيفة التعرف الضوئي على الحروف في تطبيقات أخرى. من الجهات الخارجية التي تدعم Tesseract واجهات واجهة المستخدم الرسومية يمكنك أن تلاحظ gImageReader, فيتوكر и ياغف. يتم تقديم محركين للتعرف: محرك كلاسيكي يتعرف على النص على مستوى أنماط الأحرف الفردية، ومحرك جديد يعتمد على استخدام نظام التعلم الآلي يعتمد على شبكة عصبية متكررة LSTM، مُحسّنة للتعرف على السلاسل بأكملها والسماح بـ زيادة كبيرة في الدقة. يتم نشر النماذج المدربة الجاهزة ل 123 لغة. لتحسين الأداء، يتم تقديم الوحدات التي تستخدم تعليمات OpenMP وAVX2 أو AVX أو SSE4.1 SIMD.

رئيسي تحسينات في تسراكت 4.1:

  • تمت إضافة القدرة على الإخراج بتنسيق XML ارتفاع (تحليل التخطيط وكائن النص). لاستخدام هذا التنسيق، يجب عليك تشغيل التطبيق كـ "tessaract image_name altoput_dir"؛
  • تمت إضافة وحدات عرض جديدة LSTMBox وWordStrBox، مما يبسط تدريب المحرك؛
  • تمت إضافة دعم للرسومات الزائفة في مخرجات hOCR (HTML)؛
  • تمت إضافة نصوص بديلة مكتوبة بلغة بايثون لتدريب المحرك بناءً على التعلم الآلي؛
  • تحسينات موسعة باستخدام تعليمات AVX وAVX2 وSSE؛
  • يتم تعطيل دعم OpenMP بشكل افتراضي بسبب проблем مع الإنتاجية؛
  • تمت إضافة دعم للقوائم البيضاء والسوداء في محرك LSTM؛
  • تحسين البرامج النصية بناء على Cmake.

المصدر: opennet.ru

إضافة تعليق