စာသားအသိအမှတ်ပြုစနစ် Tesseract 5.3.4 ကိုဖြန့်ချိသည်။

Tesseract 5.3.4 optical text recognition system ကို ထုတ်ဝေခဲ့ပြီး၊ ရုရှား၊ ကာဇက်၊ ဘီလာရုနှင့် ယူကရိန်းအပါအဝင် ဘာသာစကား 8 ကျော်ဖြင့် UTF-100 စာလုံးများနှင့် စာသားများကို အသိအမှတ်ပြုခြင်းကို ပံ့ပိုးပေးထားသည်။ ရလဒ်ကို ရိုးရိုးစာသား သို့မဟုတ် HTML (hOCR)၊ ALTO (XML)၊ PDF နှင့် TSV ဖော်မတ်များဖြင့် သိမ်းဆည်းနိုင်သည်။ စနစ်ကို Hewlett Packard ၏ ဓာတ်ခွဲခန်းတွင် 1985-1995 တွင် မူလက ဖန်တီးခဲ့ပြီး 2005 ခုနှစ်တွင် ကုဒ်ကို Apache လိုင်စင်အောက်တွင် ဖွင့်လှစ်ခဲ့ပြီး Google ဝန်ထမ်းများ၏ ပူးပေါင်းပါဝင်မှုဖြင့် ထပ်မံတီထွင်ခဲ့သည်။ ပရောဂျက်၏အရင်းအမြစ်ကုဒ်ကို Apache 2.0 လိုင်စင်အောက်တွင် ဖြန့်ဝေထားသည်။

Tesseract တွင် အခြားအပလီကေးရှင်းများထဲသို့ OCR လုပ်ဆောင်ချက်ကို ထည့်သွင်းရန်အတွက် ကွန်ဆိုး အသုံးဝင်ပုံနှင့် libtesseract စာကြည့်တိုက်တို့ ပါဝင်သည်။ Tesseract ကို ပံ့ပိုးပေးသည့် ပြင်ပအဖွဲ့အစည်း GUI အင်တာဖေ့စ်များသည် gImageReader၊ VietOCR နှင့် YAGF တို့ ပါဝင်သည်။ အသိအမှတ်ပြုမှုအင်ဂျင်နှစ်ခုကို ကမ်းလှမ်းထားသည်- တစ်ဦးချင်းဇာတ်ကောင်ပုံစံများအဆင့်တွင် စာသားကိုမှတ်မိသည့် ဂန္တဝင်တစ်ခု၊ နှင့် အသစ်တစ်ခုသည် LSTM အာရုံကြောကွန်ရက်ကိုအခြေခံသည့် စက်သင်ယူမှုစနစ်အသုံးပြုမှုအပေါ်အခြေခံ၍ အသစ်တစ်ခု၊ strings တစ်ခုလုံးကို အသိအမှတ်ပြုရန်နှင့် ခွင့်ပြုရန်အတွက် အကောင်းဆုံးပြင်ဆင်ထားသည်။ တိကျမှုသိသိသာသာတိုးလာ။ အဆင်သင့်လုပ်ထားသော လေ့ကျင့်ထားသော မော်ဒယ်များကို ဘာသာစကား ၁၂၃ မျိုးဖြင့် ထုတ်ဝေခဲ့သည်။ စွမ်းဆောင်ရည်ကို ပိုကောင်းအောင်ပြုလုပ်ရန်၊ OpenMP နှင့် SIMD လမ်းညွှန်ချက်များကို AVX123၊ AVX၊ AVX2F၊ NEON သို့မဟုတ် SSE512 ကိုအသုံးပြုသည့် မော်ဂျူးများကို ကမ်းလှမ်းထားသည်။

အဓိက တိုးတက်မှုများ-

  • libcurl စာကြည့်တိုက်ကို အသုံးပြု၍ ဖိုင်ဒေါင်းလုဒ်လုပ်ခြင်းဖြင့် URL ဖြင့် ရုပ်ပုံအသိအမှတ်ပြုခြင်းကို မြှင့်တင်ထားသည်။ တင်သည့်အခါ၊ User-Agent ခေါင်းစီးကို သတ်မှတ်ပေးထားသည်။ cookie ဖိုင်ကိုအသုံးပြုရန်အတွက် ကန့်သတ်ချက်အသစ် curl_cookiefile ကို ထည့်ထားသည်။
  • ScrollView ဆာဗာသည် TCP ကို ​​၎င်း၏နှစ်သက်ရာ ပရိုတိုကောအဖြစ် အသုံးပြုသည်။
  • "combine_tessdata -d" အမိန့်ကိုအသုံးပြုသည့်အခါ stderr အစား stdout သို့ output ကိုထောက်ပံ့ပေးသည်။
  • autoconf နှင့် clang ကိုအသုံးပြုသည့်အခါ တည်ဆောက်မှုပြဿနာများကို ဖြေရှင်းပေးသည်။

source: opennet.ru

မှတ်ချက် Add