Teksto atpažinimo sistemos Tesseract 5.3.4 išleidimas

Paskelbtas Tesseract 5.3.4 optinio teksto atpažinimo sistemos leidimas, palaikantis UTF-8 simbolių ir tekstų atpažinimą daugiau nei 100 kalbų, įskaitant rusų, kazachų, baltarusių ir ukrainiečių. Rezultatas gali būti išsaugotas paprastu tekstu arba HTML (hOCR), ALTO (XML), PDF ir TSV formatais. Iš pradžių sistema buvo sukurta 1985–1995 m. Hewlett Packard laboratorijoje, o 2005 m. kodas buvo atidarytas pagal Apache licenciją ir buvo toliau tobulinamas dalyvaujant „Google“ darbuotojams. Projekto šaltinio kodas platinamas pagal Apache 2.0 licenciją.

„Tesseract“ apima konsolės programą ir „libtesseract“ biblioteką, skirtą OCR funkcijoms įterpti į kitas programas. Trečiųjų šalių GUI sąsajos, palaikančios Tesseract, apima gImageReader, VietOCR ir YAGF. Siūlomi du atpažinimo varikliai: klasikinis, atpažįstantis tekstą atskirų simbolių modelių lygiu, ir naujas, pagrįstas mašininio mokymosi sistema, pagrįsta LSTM pasikartojančiu neuroniniu tinklu, optimizuota atpažinti visas eilutes ir leidžianti reikšmingas tikslumo padidėjimas. Paruošti apmokyti modeliai buvo paskelbti 123 kalbomis. Siekiant optimizuoti našumą, siūlomi moduliai naudojant OpenMP ir SIMD instrukcijas AVX2, AVX, AVX512F, NEON arba SSE4.1.

Pagrindiniai patobulinimai:

  • Patobulintas vaizdo atpažinimas pagal URL, atsisiunčiant failus naudojant libcurl biblioteką. Įkeliant nustatoma vartotojo agento antraštė. Pridėtas naujas parametras curl_cookiefile, skirtas naudoti slapukų failą.
  • ScrollView serveris naudoja TCP kaip pageidaujamą protokolą.
  • Naudojant komandą „combine_tessdata -d“, išvestis pateikiama stdout, o ne stderr.
  • Ištaisytos kūrimo problemos naudojant autoconf ir clang.

Šaltinis: opennet.ru

Добавить комментарий