Tekstituvastussüsteemi Tesseract väljalase 5.2

Avaldatud on optilise tekstituvastussüsteemi Tesseract 5.2 väljalase, mis toetab UTF-8 märkide ja tekstide tuvastamist enam kui 100 keeles, sealhulgas vene, kasahhi, valgevene ja ukraina keeles. Tulemust saab salvestada lihttekstina või HTML (hOCR), ALTO (XML), PDF ja TSV vormingus. Süsteem loodi algselt aastatel 1985-1995 Hewlett Packardi laboris, 2005. aastal avati kood Apache litsentsi all ning seda arendati edasi Google'i töötajate osalusel. Projekti lähtekoodi levitatakse Apache 2.0 litsentsi all.

Tesseract sisaldab konsooli utiliiti ja libtesseracti teeki OCR-i funktsioonide manustamiseks teistesse rakendustesse. Tesseracti toetavate kolmandate osapoolte GUI liideste hulka kuuluvad gImageReader, VietOCR ja YAGF. Pakutakse kahte tuvastusmootorit: klassikaline, mis tuvastab teksti üksikute märgimustrite tasemel, ja uus, mis põhineb LSTM-i korduval närvivõrgul põhineval masinõppesüsteemil, mis on optimeeritud tervete stringide tuvastamiseks ja võimaldab täpsuse märkimisväärne tõus. Valmis väljaõppega mudeleid on avaldatud 123 keeles. Jõudluse optimeerimiseks pakutakse OpenMP ja SIMD juhiseid AVX2, AVX, AVX512F, NEON või SSE4.1 kasutavaid mooduleid.

Tesseracti 5.2 peamised täiustused:

  • Lisatud optimeerimised, mis on rakendatud Intel AVX512F juhiste abil.
  • C API rakendab funktsiooni tesserakti lähtestamiseks, laadides mälust masinõppemudeli.
  • Lisatud parameeter invert_threshold, mis määrab tekstistringide inversiooni taseme. Vaikeväärtus on 0.7. Inversiooni keelamiseks määrake väärtuseks 0.
  • Väga suurte dokumentide täiustatud töötlemine 32-bitistes hostides.
  • Üleminek on tehtud funktsioonide std::regex kasutamiselt std::stringile.
  • Autotoolsi, CMake'i ja pideva integratsioonisüsteemide täiustatud ehitusskriptid.

    Allikas: opennet.ru

Lisa kommentaar