የጽሑፍ ማወቂያ ስርዓት መለቀቅ Tesseract 5.3.4

የቴሴራክት 5.3.4 የጨረር ጽሁፍ ማወቂያ ስርዓት ታትሟል፣ ይህም UTF-8 ቁምፊዎችን እና ጽሑፎችን ከ100 በሚበልጡ ቋንቋዎች ማወቅን የሚደግፍ ሲሆን ይህም ሩሲያኛ፣ ካዛክኛ፣ ቤላሩስኛ እና ዩክሬንኛን ጨምሮ። ውጤቱ በሁለቱም ግልጽ በሆነ ጽሑፍ እና በኤችቲኤምኤል (hOCR) ፣ ALTO (ኤክስኤምኤል) ፣ ፒዲኤፍ እና TSV ቅርፀቶች ሊቀመጥ ይችላል። መጀመሪያ ላይ ስርዓቱ በ 1985-1995 በ Hewlett Packard የላቦራቶሪ ውስጥ ተፈጠረ ፣ በ 2005 ኮዱ በአፓቼ ፈቃድ ተከፍቷል እና በ Google ሰራተኞች ተሳትፎ የበለጠ አዳብሯል። የፕሮጀክቱ ምንጭ ጽሑፎች በApache 2.0 ፍቃድ ስር ተሰራጭተዋል።

Tesseract የኮንሶል መገልገያ እና የlibtesseract ቤተ-መጽሐፍትን የ OCR ተግባርን ወደ ሌሎች መተግበሪያዎች ለመክተት ያካትታል። Tesseractን የሚደግፉ የሶስተኛ ወገን GUI በይነገጾች gImageReader፣ VietOCR እና YAGF ያካትታሉ። ሁለት የማወቂያ ሞተሮች ቀርበዋል፡ ጽሑፍን በግለሰብ የቁምፊ ቅጦች ደረጃ የሚያውቅ ክላሲክ እና አዲስ በ LSTM ተደጋጋሚ የነርቭ አውታረ መረብ ላይ የተመሰረተ የማሽን መማሪያ ስርዓትን በመጠቀም ሙሉ ገመዶችን ለመለየት እና ለመፍቀድ የተሻሻለ ከፍተኛ ትክክለኛነት መጨመር. ለ123 ቋንቋዎች ዝግጁ የሆኑ የሰለጠኑ ሞዴሎች ታትመዋል። አፈጻጸምን ለማመቻቸት OpenMP እና SIMD መመሪያዎችን AVX2, AVX, AVX512F, NEON ወይም SSE4.1 የሚጠቀሙ ሞጁሎች ቀርበዋል.

ዋና ማሻሻያዎች፡-

  • የተሻሻለ የምስል ማወቂያ በዩአርኤል ከፋይል ማውረድ ጋር የlibcurl ቤተ-መጽሐፍትን በመጠቀም። በሚጫኑበት ጊዜ የተጠቃሚ-ወኪሉ ራስጌ ተዘጋጅቷል። የኩኪ ፋይል ለመጠቀም አዲስ መለኪያ curl_cookiefile ታክሏል።
  • የScrollView አገልጋይ TCP እንደ ተመራጭ ፕሮቶኮል ይጠቀማል።
  • የ"combine_tessdata -d" ትዕዛዙን ሲጠቀሙ ከ stderr ይልቅ ውፅዓት ወደ stdout ይቀርባል።
  • autoconf እና clang ሲጠቀሙ ቋሚ የግንባታ ችግሮች።

ምንጭ: opennet.ru

አስተያየት ያክሉ