የጽሑፍ ማወቂያ ስርዓት መለቀቅ Tesseract 5.0

የቴሴራክት 4.1 የጨረር ጽሁፍ ማወቂያ ስርዓት ታትሟል፣ ይህም UTF-8 ቁምፊዎችን እና ጽሑፎችን ከ100 በሚበልጡ ቋንቋዎች ማወቅን የሚደግፍ ሲሆን ይህም ሩሲያኛ፣ ካዛክኛ፣ ቤላሩስኛ እና ዩክሬንኛን ጨምሮ። ውጤቱ በሁለቱም ግልጽ በሆነ ጽሑፍ እና በኤችቲኤምኤል (hOCR) ፣ ALTO (ኤክስኤምኤል) ፣ ፒዲኤፍ እና TSV ቅርፀቶች ሊቀመጥ ይችላል። መጀመሪያ ላይ ስርዓቱ በ 1985-1995 በ Hewlett Packard የላቦራቶሪ ውስጥ ተፈጠረ ፣ በ 2005 ኮዱ በአፓቼ ፈቃድ ተከፍቷል እና በ Google ሰራተኞች ተሳትፎ የበለጠ አዳብሯል። የፕሮጀክቱ ምንጭ ጽሑፎች በApache 2.0 ፍቃድ ስር ተሰራጭተዋል።

Tesseract የኮንሶል መገልገያ እና የlibtesseract ቤተ-መጽሐፍትን የ OCR ተግባርን በሌሎች መተግበሪያዎች ውስጥ ያካትታል። Tesseract የሚደግፉ የሶስተኛ ወገን GUIs gImageReader፣ VietOCR እና YAGFን ያካትታሉ። ሁለት የማወቂያ ሞተሮች ቀርበዋል፡- ጽሑፍን በነጠላ የገጸ-ባህሪያት ደረጃ የሚያውቅ ክላሲክ እና አዲስ በተደጋጋሚ የነርቭ አውታረ መረብ LSTM ላይ የተመሰረተ የማሽን መማሪያ ስርዓትን በመጠቀም ለጠቅላላው መስመሮች እውቅና ለመስጠት የተመቻቸ እና ከፍተኛ ትክክለኛነት መጨመር. ዝግጁ የሰለጠኑ ሞዴሎች ለ123 ቋንቋዎች ታትመዋል። አፈጻጸምን ለማመቻቸት የOpenMP እና SIMD መመሪያዎችን AVX2፣ AVX፣ NEON ወይም SSE4.1 የሚጠቀሙ ሞጁሎች ቀርበዋል።

በTesseract 5.0 ውስጥ ቁልፍ ማሻሻያዎች፡-

  • ጉልህ የሆነ የስሪት ቁጥር ለውጥ በኤፒአይ ላይ ተኳሃኝነትን በሚያበላሹ ለውጦች ምክንያት ነው። በተለይ በይፋ የሚገኘው libtesseract ኤፒአይ ከአሁን በኋላ ከባለቤትነት የውሂብ አይነቶች GenericVector እና STRING ጋር የተሳሰረ አይደለም፣ በምትኩ std::string እና std:: vector በኮዱ ውስጥ ጥቅም ላይ ይውላሉ።
  • የዛፉ ምንጭ እንደገና ተስተካክሏል. የወል ራስጌ ፋይሎቹ ወደ ማካተት/የተረጋገጠ ማውጫ ተወስደዋል።
  • የማህደረ ትውስታ አስተዳደር በአዲስ መልክ ተዘጋጅቷል፣ ሁሉም ጥሪዎች ወደ malloc እና ነፃ በC++ ኮድ ተተክተዋል። አጠቃላይ የኮድ ማሻሻያ ተካሂዷል።
  • ለ ARM እና ARM64 አርክቴክቸር የተጨመሩ የ ARM NEON መመሪያዎች ስሌቶችን ለማፋጠን ያገለግላሉ። ለሁሉም አርክቴክቸር አጠቃላይ አፈጻጸም ማትባት ተከናውኗል።
  • ተንሳፋፊ ነጥብ ስሌት አጠቃቀም ላይ የተመሠረተ, ሞዴል ስልጠና እና ጽሑፍ ማወቂያ አዲስ ሁነታዎች ተተግብሯል. አዲሶቹ ሁነታዎች በከፍተኛ አፈፃፀም እና በተቀነሰ የማህደረ ትውስታ ፍጆታ ተለይተው ይታወቃሉ። በ LSTM ሞተር ውስጥ፣ float32 ፈጣን ሁነታ በነባሪነት ነቅቷል።
  • የ NFC ቅጽ (የመደበኛ ቅፅ ቀኖናዊ) በመጠቀም ወደ ዩኒኮድ መደበኛነት አጠቃቀም ሽግግር ተደርጓል።
  • የምዝግብ ማስታወሻ ዝርዝሮችን (-loglevel) ለማዋቀር አማራጭ ታክሏል።
  • በ "Autotools" ላይ የተመሰረተው የመሰብሰቢያ ስርዓት እንደገና ተዘጋጅቷል, ይህም በማይለዋወጥ ሁነታ ወደ ስብሰባ ተቀይሯል.
  • በጊት የሚገኘው የ'ማስተር' ቅርንጫፍ ወደ 'ዋና' ተቀይሯል።
  • በM1 ቺፕ ላይ ለተመሰረተ አዲስ የ macOS እና Apple ስርዓቶች ድጋፍ ታክሏል።

    ምንጭ: opennet.ru

አስተያየት ያክሉ