рдкрд╛рда рдкрд╣рдЪрд╛рди рдкреНрд░рдгрд╛рд▓реА Tesseract 5.0 рдХрд╛ рд╡рд┐рдореЛрдЪрди

рд░реВрд╕реА, рдХрдЬрд╝рд╛рдЦ, рдмреЗрд▓рд╛рд░реВрд╕реА рдФрд░ рдпреВрдХреНрд░реЗрдиреА рд╕рд╣рд┐рдд 4.1 рд╕реЗ рдЕрдзрд┐рдХ рднрд╛рд╖рд╛рдУрдВ рдореЗрдВ рдпреВрдЯреАрдПрдл -8 рд╡рд░реНрдгреЛрдВ рдФрд░ рдЧреНрд░рдВрдереЛрдВ рдХреА рдкрд╣рдЪрд╛рди рдХрд╛ рд╕рдорд░реНрдерди рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдЯреЗрд╕реЗрд░реИрдХреНрдЯ 100 рдСрдкреНрдЯрд┐рдХрд▓ рдЯреЗрдХреНрд╕реНрдЯ рд░рд┐рдХрдЧреНрдирд┐рд╢рди рд╕рд┐рд╕реНрдЯрдо рдХреА рд░рд┐рд▓реАрдЬрд╝ рдкреНрд░рдХрд╛рд╢рд┐рдд рдХреА рдЧрдИ рд╣реИред рдкрд░рд┐рдгрд╛рдо рд╕рд╛рджреЗ рдкрд╛рда рдпрд╛ HTML (hOCR), ALTO (XML), PDF рдФрд░ TSV рдкреНрд░рд╛рд░реВрдкреЛрдВ рдореЗрдВ рд╕рд╣реЗрдЬрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред рд╕рд┐рд╕реНрдЯрдо рдореВрд▓ рд░реВрдк рд╕реЗ 1985-1995 рдореЗрдВ рд╣реЗрд╡рд▓реЗрдЯ рдкреИрдХрд░реНрдб рдкреНрд░рдпреЛрдЧрд╢рд╛рд▓рд╛ рдореЗрдВ рдмрдирд╛рдпрд╛ рдЧрдпрд╛ рдерд╛; 2005 рдореЗрдВ, рдЕрдкрд╛рдЪреЗ рд▓рд╛рдЗрд╕реЗрдВрд╕ рдХреЗ рддрд╣рдд рдХреЛрдб рдЦреЛрд▓рд╛ рдЧрдпрд╛ рдерд╛ рдФрд░ Google рдХрд░реНрдордЪрд╛рд░рд┐рдпреЛрдВ рдХреА рднрд╛рдЧреАрджрд╛рд░реА рдХреЗ рд╕рд╛рде рдЗрд╕реЗ рдФрд░ рд╡рд┐рдХрд╕рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред рдкреНрд░реЛрдЬреЗрдХреНрдЯ рдХрд╛ рд╕реЛрд░реНрд╕ рдХреЛрдб рдЕрдкрд╛рдЪреЗ 2.0 рд▓рд╛рдЗрд╕реЗрдВрд╕ рдХреЗ рддрд╣рдд рд╡рд┐рддрд░рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред

Tesseract рдореЗрдВ рдЕрдиреНрдп рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдореЗрдВ OCR рдХрд╛рд░реНрдпрдХреНрд╖рдорддрд╛ рдХреЛ рдПрдореНрдмреЗрдб рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдХрдВрд╕реЛрд▓ рдЙрдкрдпреЛрдЧрд┐рддрд╛ рдФрд░ libtesseract рд▓рд╛рдЗрдмреНрд░реЗрд░реА рд╢рд╛рдорд┐рд▓ рд╣реИред Tesseract рдХрд╛ рд╕рдорд░реНрдерди рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рддреГрддреАрдп-рдкрдХреНрд╖ GUI рдЗрдВрдЯрд░рдлрд╝реЗрд╕ рдореЗрдВ gImageReader, VietOCR рдФрд░ YAGF рд╢рд╛рдорд┐рд▓ рд╣реИрдВред рджреЛ рдкрд╣рдЪрд╛рди рдЗрдВрдЬрди рдкреЗрд╢ рдХрд┐рдП рдЬрд╛рддреЗ рд╣реИрдВ: рдПрдХ рдХреНрд▓рд╛рд╕рд┐рдХ рдЬреЛ рд╡реНрдпрдХреНрддрд┐рдЧрдд рдЪрд░рд┐рддреНрд░ рдкреИрдЯрд░реНрди рдХреЗ рд╕реНрддрд░ рдкрд░ рдкрд╛рда рдХреЛ рдкрд╣рдЪрд╛рдирддрд╛ рд╣реИ, рдФрд░ рдПрдХ рдирдпрд╛ LSTM рдЖрд╡рд░реНрддреА рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдкрд░ рдЖрдзрд╛рд░рд┐рдд рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рд╕рд┐рд╕реНрдЯрдо рдХреЗ рдЙрдкрдпреЛрдЧ рдкрд░ рдЖрдзрд╛рд░рд┐рдд рд╣реИ, рдЬреЛ рд╕рдВрдкреВрд░реНрдг рд╕реНрдЯреНрд░рд┐рдВрдЧ рдХреЛ рдкрд╣рдЪрд╛рдирдиреЗ рдФрд░ рдЕрдиреБрдорддрд┐ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдЕрдиреБрдХреВрд▓рд┐рдд рд╣реИред рд╕рдЯреАрдХрддрд╛ рдореЗрдВ рдЙрд▓реНрд▓реЗрдЦрдиреАрдп рд╡реГрджреНрдзрд┐. 123 рднрд╛рд╖рд╛рдУрдВ рдХреЗ рд▓рд┐рдП рддреИрдпрд╛рд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдореЙрдбрд▓ рдкреНрд░рдХрд╛рд╢рд┐рдд рдХрд┐рдП рдЧрдП рд╣реИрдВред рдкреНрд░рджрд░реНрд╢рди рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, OpenMP рдФрд░ SIMD рдирд┐рд░реНрджреЗрд╢реЛрдВ AVX2, AVX, NEON рдпрд╛ SSE4.1 рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдореЙрдбреНрдпреВрд▓ рдкреЗрд╢ рдХрд┐рдП рдЬрд╛рддреЗ рд╣реИрдВред

Tesseract 5.0 рдореЗрдВ рдкреНрд░рдореБрдЦ рд╕реБрдзрд╛рд░:

  • рд╕рдВрд╕реНрдХрд░рдг рд╕рдВрдЦреНрдпрд╛ рдореЗрдВ рдПрдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдкрд░рд┐рд╡рд░реНрддрди рдПрдкреАрдЖрдИ рдореЗрдВ рдХрд┐рдП рдЧрдП рдкрд░рд┐рд╡рд░реНрддрдиреЛрдВ рдХреЗ рдХрд╛рд░рдг рд╣реИ рдЬреЛ рд╕рдВрдЧрддрддрд╛ рдХреЛ рддреЛрдбрд╝рддрд╛ рд╣реИред рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ, рд╕рд╛рд░реНрд╡рдЬрдирд┐рдХ рд░реВрдк рд╕реЗ рдЙрдкрд▓рдмреНрдз libtesseract API рдЕрдм std::string рдФрд░ std::vector рдХреЗ рдкрдХреНрд╖ рдореЗрдВ рдорд╛рд▓рд┐рдХрд╛рдирд╛ GenericVector рдФрд░ STRING рдбреЗрдЯрд╛ рдкреНрд░рдХрд╛рд░реЛрдВ рд╕реЗ рдмрдВрдзрд╛ рдирд╣реАрдВ рд╣реИред
  • рд╕реНрд░реЛрдд рдкрд╛рда рд╡реГрдХреНрд╖ рдХреЛ рдкреБрдирд░реНрдЧрдард┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рд╕рд╛рд░реНрд╡рдЬрдирд┐рдХ рд╣реЗрдбрд░ рдлрд╝рд╛рдЗрд▓реЛрдВ рдХреЛ include/tesseract рдирд┐рд░реНрджреЗрд╢рд┐рдХрд╛ рдореЗрдВ рд▓реЗ рдЬрд╛рдпрд╛ рдЧрдпрд╛ рд╣реИред
  • рдореЗрдореЛрд░реА рдкреНрд░рдмрдВрдзрди рдХреЛ рдлрд┐рд░ рд╕реЗ рдбрд┐рдЬрд╝рд╛рдЗрди рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ, рд╕рднреА рдореЙрд▓реЛрдХ рдФрд░ рдореБрдлреНрдд рдХреЙрд▓ рдХреЛ C++ рдХреЛрдб рд╕реЗ рдмрджрд▓ рджрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рдХреЛрдб рдХрд╛ рд╕рд╛рдорд╛рдиреНрдп рдЖрдзреБрдирд┐рдХреАрдХрд░рдг рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред
  • ARM рдФрд░ ARM64 рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рдХреЗ рд▓рд┐рдП рдЕрдиреБрдХреВрд▓рди рдЬреЛрдбрд╝реЗ рдЧрдП; рдЧрдгрдирд╛рдУрдВ рдХреЛ рддреЗрдЬрд╝ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП ARM NEON рдирд┐рд░реНрджреЗрд╢реЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рд╕рднреА рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рдХреЗ рд▓рд┐рдП рд╕рд╛рдорд╛рдиреНрдп рдкреНрд░рджрд░реНрд╢рди рдЕрдиреБрдХреВрд▓рди рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред
  • рдлреНрд▓реЛрдЯрд┐рдВрдЧ рдкреЙрдЗрдВрдЯ рдЧрдгрдирд╛рдУрдВ рдХреЗ рдЙрдкрдпреЛрдЧ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдореЙрдбрд▓ рдФрд░ рдкрд╛рда рдкрд╣рдЪрд╛рди рдХреЗ рд▓рд┐рдП рдирдП рддрд░реАрдХреЗ рд▓рд╛рдЧреВ рдХрд┐рдП рдЧрдП рд╣реИрдВред рдирдП рдореЛрдб рдЙрдЪреНрдЪ рдкреНрд░рджрд░реНрд╢рди рдФрд░ рдХрдо рдореЗрдореЛрд░реА рдЦрдкрдд рдкреНрд░рджрд╛рди рдХрд░рддреЗ рд╣реИрдВред LSTM рдЗрдВрдЬрди рдореЗрдВ, рдлреНрд▓реЛрдЯ32 рдлрд╛рд╕реНрдЯ рдореЛрдб рдбрд┐рдлрд╝реЙрд▓реНрдЯ рд░реВрдк рд╕реЗ рд╕рдХреНрд╖рдо рд╣реИред
  • рдПрдирдПрдлрд╕реА (рдиреЙрд░реНрдорд▓рд╛рдЗрдЬрд╝реЗрд╢рди рдлреЙрд░реНрдо рдХреИрдиреЛрдирд┐рдХрд▓) рдлреЙрд░реНрдо рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдпреВрдирд┐рдХреЛрдб рд╕рд╛рдорд╛рдиреНрдпреАрдХрд░рдг рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдмрджрд▓рд╛рд╡ рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред
  • рд▓реЙрдЧ рдбрд┐рдЯреЗрд▓рд┐рдВрдЧ (--рд▓реЙрдЧрд▓реЗрд╡рд▓) рдХреЛ рдХреЙрдиреНрдлрд╝рд┐рдЧрд░ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рд╡рд┐рдХрд▓реНрдк рдЬреЛрдбрд╝рд╛ рдЧрдпрд╛ред
  • рдСрдЯреЛрдЯреВрд▓реНрд╕ рдкрд░ рдЖрдзрд╛рд░рд┐рдд рдмрд┐рд▓реНрдб рд╕рд┐рд╕реНрдЯрдо рдХреЛ рдлрд┐рд░ рд╕реЗ рдбрд┐рдЬрд╝рд╛рдЗрди рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ рдФрд░ рдЗрд╕реЗ рдЧреИрд░-рдкреБрдирд░рд╛рд╡рд░реНрддреА рдореЛрдб рдореЗрдВ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рд╕реНрд╡рд┐рдЪ рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред
  • Git рдореЗрдВ "рдорд╛рд╕реНрдЯрд░" рд╢рд╛рдЦрд╛ рдХрд╛ рдирд╛рдо рдмрджрд▓рдХрд░ "рдореБрдЦреНрдп" рдХрд░ рджрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред
  • M1 рдЪрд┐рдк рдкрд░ рдЖрдзрд╛рд░рд┐рдд macOS рдФрд░ Apple рд╕рд┐рд╕реНрдЯрдо рдХреА рдирдИ рд░рд┐рд▓реАрдЬрд╝ рдХреЗ рд▓рд┐рдП рд╕рдорд░реНрдерди рдЬреЛрдбрд╝рд╛ рдЧрдпрд╛ред

    рд╕реНрд░реЛрдд: opennet.ru

рдПрдХ рдЯрд┐рдкреНрдкрдгреА рдЬреЛрдбрд╝реЗрдВ