စာသားအသိအမှတ်ပြုစနစ် Tesseract 5.1 ကိုဖြန့်ချိသည်။

Tesseract 5.1 optical text recognition system ကို ထုတ်ဝေခဲ့ပြီး၊ ရုရှား၊ ကာဇက်၊ ဘီလာရုနှင့် ယူကရိန်းအပါအဝင် ဘာသာစကား 8 ကျော်ဖြင့် UTF-100 စာလုံးများနှင့် စာသားများကို အသိအမှတ်ပြုခြင်းကို ပံ့ပိုးပေးထားသည်။ ရလဒ်ကို ရိုးရိုးစာသား သို့မဟုတ် HTML (hOCR)၊ ALTO (XML)၊ PDF နှင့် TSV ဖော်မတ်များဖြင့် သိမ်းဆည်းနိုင်သည်။ စနစ်ကို Hewlett Packard ၏ ဓာတ်ခွဲခန်းတွင် 1985-1995 တွင် မူလက ဖန်တီးခဲ့ပြီး 2005 ခုနှစ်တွင် ကုဒ်ကို Apache လိုင်စင်အောက်တွင် ဖွင့်လှစ်ခဲ့ပြီး Google ဝန်ထမ်းများ၏ ပူးပေါင်းပါဝင်မှုဖြင့် ထပ်မံတီထွင်ခဲ့သည်။ ပရောဂျက်၏အရင်းအမြစ်ကုဒ်ကို Apache 2.0 လိုင်စင်အောက်တွင် ဖြန့်ဝေထားသည်။

Tesseract တွင် အခြားအပလီကေးရှင်းများထဲသို့ OCR လုပ်ဆောင်ချက်ကို ထည့်သွင်းရန်အတွက် ကွန်ဆိုး အသုံးဝင်ပုံနှင့် libtesseract စာကြည့်တိုက်တို့ ပါဝင်သည်။ Tesseract ကို ပံ့ပိုးပေးသည့် ပြင်ပအဖွဲ့အစည်း GUI အင်တာဖေ့စ်များသည် gImageReader၊ VietOCR နှင့် YAGF တို့ ပါဝင်သည်။ အသိအမှတ်ပြုမှုအင်ဂျင်နှစ်ခုကို ကမ်းလှမ်းသည်- တစ်ဦးချင်းဇာတ်ကောင်ပုံစံများအဆင့်တွင် စာသားကိုမှတ်မိသည့် ဂန္တဝင်တစ်ခု၊ နှင့် အသစ်တစ်ခုသည် LSTM အာရုံကြောကွန်ရက်ကိုအခြေခံသည့် စက်သင်ယူမှုစနစ်အသုံးပြုမှုအပေါ်အခြေခံ၍ အသစ်တစ်ခု၊ strings တစ်ခုလုံးကို အသိအမှတ်ပြုရန်နှင့် ခွင့်ပြုရန်အတွက် အကောင်းဆုံးဖြစ်သည် တိကျမှုသိသိသာသာတိုးလာ။ အဆင်သင့်လုပ်ထားသော လေ့ကျင့်ထားသော မော်ဒယ်များကို ဘာသာစကား ၁၂၃ မျိုးဖြင့် ထုတ်ဝေခဲ့သည်။ စွမ်းဆောင်ရည်ကို ပိုကောင်းအောင်ပြုလုပ်ရန်၊ OpenMP နှင့် SIMD လမ်းညွှန်ချက်များကို AVX123၊ AVX၊ NEON သို့မဟုတ် SSE2 အသုံးပြုသည့် မော်ဂျူးများကို ပေးဆောင်ထားပါသည်။

Tesseract 5.1 တွင် အဓိကတိုးတက်မှုများ-

  • ALTO၊ hOCR နှင့် စာသားဖော်မတ်များကို ထုတ်ပေးသည့်အခါ ပုံများနှင့် မျဉ်းများပါသည့် ဧရိယာများကို စီမံဆောင်ရွက်နိုင်မှုစွမ်းရည်။
  • ကန့်သတ်ချက်အသစ် curl_timeout lkz curl_easy_setop ကို ထည့်ထားသည်။
  • ပိုမိုကောင်းမွန်သောတည်ဆောက်မှုစနစ်။
  • အသုံးမပြုသောကုဒ်ကို ဖယ်ရှားရန် အလုပ်ပြီးပါပြီ။
  • PageIterator::Orientation အတန်းတွင် null pointers များကို မှားယွင်းစွာ ကိုင်တွယ်ခြင်းကြောင့် ဖြစ်ပေါ်လာသော ပျက်စီးမှုများ

source: opennet.ru

မှတ်ချက် Add