Teksto atpažinimo sistemos Tesseract 5.2 išleidimas

Paskelbtas Tesseract 5.2 optinio teksto atpažinimo sistemos leidimas, palaikantis UTF-8 simbolių ir tekstų atpažinimą daugiau nei 100 kalbų, įskaitant rusų, kazachų, baltarusių ir ukrainiečių. Rezultatas gali būti išsaugotas paprastu tekstu arba HTML (hOCR), ALTO (XML), PDF ir TSV formatais. Iš pradžių sistema buvo sukurta 1985–1995 m. Hewlett Packard laboratorijoje, o 2005 m. kodas buvo atidarytas pagal Apache licenciją ir buvo toliau tobulinamas dalyvaujant „Google“ darbuotojams. Projekto šaltinio kodas platinamas pagal Apache 2.0 licenciją.

„Tesseract“ apima konsolės programą ir „libtesseract“ biblioteką, skirtą OCR funkcijoms įterpti į kitas programas. Trečiųjų šalių GUI sąsajos, palaikančios Tesseract, apima gImageReader, VietOCR ir YAGF. Siūlomi du atpažinimo varikliai: klasikinis, atpažįstantis tekstą atskirų simbolių modelių lygiu, ir naujas, pagrįstas mašininio mokymosi sistema, pagrįsta LSTM pasikartojančiu neuroniniu tinklu, optimizuota atpažinti visas eilutes ir leidžianti reikšmingas tikslumo padidėjimas. Paruošti apmokyti modeliai buvo paskelbti 123 kalbomis. Siekiant optimizuoti našumą, siūlomi moduliai naudojant OpenMP ir SIMD instrukcijas AVX2, AVX, AVX512F, NEON arba SSE4.1.

Pagrindiniai Tesseact 5.2 patobulinimai:

  • Pridėtas optimizavimas, įgyvendintas naudojant Intel AVX512F instrukcijas.
  • C API įgyvendina funkciją inicijuoti tesseraktą, įkeliant mašininio mokymosi modelį iš atminties.
  • Pridėtas parametras invert_threshold, kuris nustato teksto eilučių inversijos lygį. Numatytoji reikšmė yra 0.7. Norėdami išjungti inversiją, nustatykite reikšmę į 0.
  • Patobulintas labai didelių dokumentų apdorojimas 32 bitų pagrindiniuose kompiuteriuose.
  • Buvo atliktas perėjimas nuo std::regex funkcijų naudojimo į std::string.
  • Patobulinti Autotools, CMake ir nuolatinio integravimo sistemų kūrimo scenarijai.

    Šaltinis: opennet.ru

Добавить комментарий