စာသားအသိအမှတ်ပြုစနစ် Tesseract 5.0 ကိုဖြန့်ချိသည်။

Tesseract 4.1 optical text recognition system ကို ထုတ်ဝေခဲ့ပြီး၊ ရုရှား၊ ကာဇက်၊ ဘီလာရုနှင့် ယူကရိန်းအပါအဝင် ဘာသာစကား 8 ကျော်ဖြင့် UTF-100 စာလုံးများနှင့် စာသားများကို အသိအမှတ်ပြုခြင်းကို ပံ့ပိုးပေးထားသည်။ ရလဒ်ကို ရိုးရိုးစာသား သို့မဟုတ် HTML (hOCR)၊ ALTO (XML)၊ PDF နှင့် TSV ဖော်မတ်များဖြင့် သိမ်းဆည်းနိုင်သည်။ စနစ်ကို Hewlett Packard ၏ ဓာတ်ခွဲခန်းတွင် 1985-1995 တွင် မူလက ဖန်တီးခဲ့ပြီး 2005 ခုနှစ်တွင် ကုဒ်ကို Apache လိုင်စင်အောက်တွင် ဖွင့်လှစ်ခဲ့ပြီး Google ဝန်ထမ်းများ၏ ပူးပေါင်းပါဝင်မှုဖြင့် ထပ်မံတီထွင်ခဲ့သည်။ ပရောဂျက်၏အရင်းအမြစ်ကုဒ်ကို Apache 2.0 လိုင်စင်အောက်တွင် ဖြန့်ဝေထားသည်။

Tesseract တွင် အခြားအပလီကေးရှင်းများထဲသို့ OCR လုပ်ဆောင်ချက်ကို ထည့်သွင်းရန်အတွက် ကွန်ဆိုး အသုံးဝင်ပုံနှင့် libtesseract စာကြည့်တိုက်တို့ ပါဝင်သည်။ Tesseract ကို ပံ့ပိုးပေးသည့် ပြင်ပအဖွဲ့အစည်း GUI အင်တာဖေ့စ်များသည် gImageReader၊ VietOCR နှင့် YAGF တို့ ပါဝင်သည်။ အသိအမှတ်ပြုမှုအင်ဂျင်နှစ်ခုကို ကမ်းလှမ်းသည်- တစ်ဦးချင်းဇာတ်ကောင်ပုံစံများအဆင့်တွင် စာသားကိုမှတ်မိသည့် ဂန္တဝင်တစ်ခု၊ နှင့် အသစ်တစ်ခုသည် LSTM အာရုံကြောကွန်ရက်ကိုအခြေခံသည့် စက်သင်ယူမှုစနစ်အသုံးပြုမှုအပေါ်အခြေခံ၍ အသစ်တစ်ခု၊ strings တစ်ခုလုံးကို အသိအမှတ်ပြုရန်နှင့် ခွင့်ပြုရန်အတွက် အကောင်းဆုံးဖြစ်သည် တိကျမှုသိသိသာသာတိုးလာ။ အဆင်သင့်လုပ်ထားသော လေ့ကျင့်ထားသော မော်ဒယ်များကို ဘာသာစကား ၁၂၃ မျိုးဖြင့် ထုတ်ဝေခဲ့သည်။ စွမ်းဆောင်ရည်ကို ပိုကောင်းအောင်ပြုလုပ်ရန်၊ OpenMP နှင့် SIMD လမ်းညွှန်ချက်များကို AVX123၊ AVX၊ NEON သို့မဟုတ် SSE2 အသုံးပြုသည့် မော်ဂျူးများကို ပေးဆောင်ထားပါသည်။

Tesseract 5.0 တွင် အဓိကတိုးတက်မှုများ-

  • ဗားရှင်းနံပါတ်တွင် သိသာထင်ရှားသောပြောင်းလဲမှုသည် လိုက်ဖက်ညီမှုကိုချိုးဖျက်သော API တွင်ပြုလုပ်ထားသောပြောင်းလဲမှုများကြောင့်ဖြစ်သည်။ အထူးသဖြင့်၊ အများသူငှာရရှိနိုင်သော libtesseract API ကို std::string နှင့် std::vector ၏မျက်နှာသာဖြင့် မူပိုင် GenericVector နှင့် STRING ဒေတာအမျိုးအစားများနှင့် ဆက်စပ်မှုမရှိတော့ပါ။
  • အရင်းအမြစ်စာသားသစ်ပင်ကို ပြန်လည်ဖွဲ့စည်းထားပါသည်။ အများသူငှာ ခေါင်းစီးဖိုင်များကို ပါဝင်သော/testeract လမ်းညွှန်သို့ ရွှေ့လိုက်ပါပြီ။
  • မန်မိုရီစီမံခန့်ခွဲမှုကို ပြန်လည်ဒီဇိုင်းဆွဲထားပြီး၊ malloc နှင့် အခမဲ့ခေါ်ဆိုမှုများအားလုံးကို C++ ကုဒ်ဖြင့် အစားထိုးထားသည်။ ကုဒ်၏ ယေဘူယျ ခေတ်မီအောင် ဆောင်ရွက်ခဲ့ပါသည်။
  • ARM နှင့် ARM64 ဗိသုကာများ အတွက် ပိုမိုကောင်းမွန်အောင် လုပ်ဆောင်မှုများ ၊ ARM NEON လမ်းညွှန်ချက်များကို တွက်ချက်မှုများကို အရှိန်မြှင့်ရန် အသုံးပြုပါသည်။ ဗိသုကာအားလုံးအတွက် စွမ်းဆောင်ရည် ပိုမိုကောင်းမွန်အောင် လုပ်ဆောင်ပြီးပါပြီ။
  • Floating Point တွက်ချက်မှုများကို အသုံးပြုမှုအပေါ် အခြေခံ၍ လေ့ကျင့်ရေးမော်ဒယ်များနှင့် စာသားမှတ်မိခြင်းအတွက် မုဒ်အသစ်များကို အကောင်အထည်ဖော်ခဲ့သည်။ မုဒ်အသစ်များသည် စွမ်းဆောင်ရည်မြင့်မားပြီး မှတ်ဉာဏ်သုံးစွဲမှု နည်းပါးသည်။ LSTM အင်ဂျင်တွင်၊ float32 အမြန်မုဒ်ကို မူရင်းအတိုင်း ဖွင့်ထားသည်။
  • NFC (Normalization Form Canonical) ဖောင်ကို အသုံးပြု၍ ယူနီကုဒ် ပုံမှန်ပြုလုပ်ခြင်းကို အသုံးပြုခြင်းသို့ အသွင်ကူးပြောင်းမှု ပြုလုပ်ခဲ့သည်။
  • မှတ်တမ်းအသေးစိတ် (--loglevel) ကို စီစဉ်သတ်မှတ်ရန် ရွေးချယ်ခွင့်တစ်ခု ပေါင်းထည့်ထားသည်။
  • Autotools ကိုအခြေခံထားသော တည်ဆောက်မှုစနစ်အား ပြန်လည်ဒီဇိုင်းရေးဆွဲပြီး ပြန်ကောက်ချက်မရှိသည့်မုဒ်တွင် တည်ဆောက်ရန် ပြောင်းလဲထားသည်။
  • Git ရှိ "မာစတာ" ဌာနခွဲကို "ပင်မ" ဟု အမည်ပြောင်းထားသည်။
  • M1 ချစ်ပ်ကို အခြေခံ၍ macOS နှင့် Apple စနစ်များ အသစ်ထွက်ရှိမှုအတွက် ပံ့ပိုးမှု ပေါင်းထည့်ထားသည်။

    source: opennet.ru

မှတ်ချက် Add