የጽሑፍ ማወቂያ ስርዓት መለቀቅ Tesseract 5.1

የቴሴራክት 5.1 የጨረር ጽሁፍ ማወቂያ ስርዓት ታትሟል፣ ይህም UTF-8 ቁምፊዎችን እና ጽሑፎችን ከ100 በሚበልጡ ቋንቋዎች ማወቅን የሚደግፍ ሲሆን ይህም ሩሲያኛ፣ ካዛክኛ፣ ቤላሩስኛ እና ዩክሬንኛን ጨምሮ። ውጤቱ በሁለቱም ግልጽ በሆነ ጽሑፍ እና በኤችቲኤምኤል (hOCR) ፣ ALTO (ኤክስኤምኤል) ፣ ፒዲኤፍ እና TSV ቅርፀቶች ሊቀመጥ ይችላል። መጀመሪያ ላይ ስርዓቱ በ 1985-1995 በ Hewlett Packard የላቦራቶሪ ውስጥ ተፈጠረ ፣ በ 2005 ኮዱ በአፓቼ ፈቃድ ተከፍቷል እና በ Google ሰራተኞች ተሳትፎ የበለጠ አዳብሯል። የፕሮጀክቱ ምንጭ ጽሑፎች በApache 2.0 ፍቃድ ስር ተሰራጭተዋል።

Tesseract የኮንሶል መገልገያ እና የlibtesseract ቤተ-መጽሐፍትን የ OCR ተግባርን በሌሎች መተግበሪያዎች ውስጥ ያካትታል። Tesseract የሚደግፉ የሶስተኛ ወገን GUIs gImageReader፣ VietOCR እና YAGFን ያካትታሉ። ሁለት የማወቂያ ሞተሮች ቀርበዋል፡- ጽሑፍን በነጠላ የገጸ-ባህሪያት ደረጃ የሚያውቅ ክላሲክ እና አዲስ በተደጋጋሚ የነርቭ አውታረ መረብ LSTM ላይ የተመሰረተ የማሽን መማሪያ ስርዓትን በመጠቀም ለጠቅላላው መስመሮች እውቅና ለመስጠት የተመቻቸ እና ከፍተኛ ትክክለኛነት መጨመር. ዝግጁ የሰለጠኑ ሞዴሎች ለ123 ቋንቋዎች ታትመዋል። አፈጻጸምን ለማመቻቸት የOpenMP እና SIMD መመሪያዎችን AVX2፣ AVX፣ NEON ወይም SSE4.1 የሚጠቀሙ ሞጁሎች ቀርበዋል።

በTesseract 5.1 ውስጥ ቁልፍ ማሻሻያዎች፡-

  • በ ALTO ፣ hOCR እና የጽሑፍ ቅርጸቶች ውስጥ በሚወጡበት ጊዜ ቦታዎችን በምስሎች እና በመስመሮች የማስኬድ ችሎታ ተተግብሯል።
  • አዲስ መለኪያ ታክሏል curl_timeout lkz curl_easy_setop።
  • የተሻሻለ የግንባታ ስርዓት.
  • ጥቅም ላይ ያልዋለ ኮድ ለማስወገድ ስራ ተሰርቷል።
  • በ PageIterator ::የቅንብር ክፍል ውስጥ ባዶ ጠቋሚዎችን በተሳሳተ መንገድ በመያዝ የተከሰቱ ቋሚ ብልሽቶች።

ምንጭ: opennet.ru

አስተያየት ያክሉ