Tuuina atu o le faiga e iloagofie ai tusitusiga Tesseract 5.3.4

O le tatalaina o le Tesseract 5.3.4 opitika faiga e iloagofie ai tusitusiga ua lomia, lagolagoina le aloaia o UTF-8 mataitusi ma tusitusiga i le silia ma le 100 gagana, e aofia ai Rusia, Kazakh, Belarusian ma Ukrainian. E mafai ona fa'asaoina le fa'ai'uga i tusitusiga manino po'o le HTML (hOCR), ALTO (XML), PDF ma TSV formats. O le faiga na muai faia i le 1985-1995 i le falesuesue a Hewlett Packard; i le 2005, na tatalaina ai le code i lalo o le laisene Apache ma sa faʻalauteleina atili ma le auai o tagata faigaluega Google. O le faʻailoga autu o le poloketi o loʻo tufatufa atu i lalo ole laisene Apache 2.0.

Tesseract e aofia ai se faʻaoga faʻamafanafana ma le faletusi libtesseract mo le faʻapipiʻiina o galuega a le OCR i isi tusi talosaga. O feso'ota'iga GUI lona tolu e lagolagoina Tesseract e aofia ai le gImageReader, VietOCR ma le YAGF. E lua masini fa'ailoa e ofoina atu: o se mea masani e iloa ai tusitusiga i le tulaga o fa'ata'ita'iga o tagata ta'ito'atasi, ma se mea fou e fa'avae i luga o le fa'aogaina o se masini a'oa'oga fa'avae i luga ole LSTM feso'ota'iga neural faifaipea, fa'amalieina mo le iloaina o manoa atoa ma fa'ataga mo se matua faateleina i le sa'o. O fa'ata'ita'iga a'oa'oina ua saunia ua fa'asalalauina mo gagana e 123. Ina ia faʻamalieina le faʻatinoga, o faʻaoga e faʻaaoga ai OpenMP ma faʻatonuga SIMD AVX2, AVX, AVX512F, NEON poʻo SSE4.1 e ofoina atu.

Fa'aleleia autu:

  • Faʻaleleia le faʻalauiloaina o ata e le URL ma le failaina o faila e faʻaaoga ai le faletusi libcurl. Pe a utaina, ua seti le ulutala User-Agent. Fa'aopoopo le fa'ailoga fou curl_cookiefile mo le fa'aogaina o se faila kuki.
  • O le ScrollView server e fa'aogaina le TCP e fai ma ana fa'atonuga.
  • A faʻaaogaina le "combine_tessdata -d" poloaiga, o loʻo tuʻuina atu galuega i stdout nai lo stderr.
  • Fa'atonu fa'afitauli ile fa'aogaina ole autoconf ma clang.

puna: opennet.ru

Faaopoopo i ai se faamatalaga