Lëshimi i sistemit të njohjes së tekstit Tesseract 5.2

Është publikuar lëshimi i sistemit optik të njohjes së tekstit Tesseract 5.2, i cili mbështet njohjen e karaktereve dhe teksteve UTF-8 në më shumë se 100 gjuhë, duke përfshirë rusishten, kazakishten, bjellorusishten dhe ukrainishten. Rezultati mund të ruhet në tekst të thjeshtë ose në formate HTML (hOCR), ALTO (XML), PDF dhe TSV. Sistemi u krijua fillimisht në 1985-1995 në laboratorin Hewlett Packard; në 2005, kodi u hap nën licencën Apache dhe u zhvillua më tej me pjesëmarrjen e punonjësve të Google. Kodi burimor i projektit shpërndahet nën licencën Apache 2.0.

Tesseract përfshin një mjet konsole dhe bibliotekën libtesseract për futjen e funksionalitetit OCR në aplikacione të tjera. Ndërfaqet GUI të palëve të treta që mbështesin Tesseract përfshijnë gImageReader, VietOCR dhe YAGF. Ofrohen dy motorë njohjeje: një klasik që njeh tekstin në nivelin e modeleve individuale të karaktereve dhe një i ri i bazuar në përdorimin e një sistemi të mësimit të makinës bazuar në një rrjet nervor periodik LSTM, i optimizuar për njohjen e vargjeve të tëra dhe duke lejuar një rritje e ndjeshme e saktësisë. Janë publikuar modele të gatshme të trajnuara për 123 gjuhë. Për të optimizuar performancën, ofrohen module që përdorin udhëzimet OpenMP dhe SIMD AVX2, AVX, AVX512F, NEON ose SSE4.1.

Përmirësime të mëdha në Tesseract 5.2:

  • Optimizimet e shtuara të zbatuara duke përdorur udhëzimet Intel AVX512F.
  • C API zbaton një funksion për të inicializuar teseraktin me ngarkimin e një modeli të mësimit të makinës nga memoria.
  • U shtua parametri invert_threshold, i cili përcakton nivelin e përmbysjes së vargjeve të tekstit. Vlera e paracaktuar është 0.7. Për të çaktivizuar përmbysjen, vendosni vlerën në 0.
  • Përpunimi i përmirësuar i dokumenteve shumë të mëdha në hostet 32-bit.
  • Është bërë kalimi nga përdorimi i funksioneve std::regex në std::string.
  • Skriptet e përmirësuara të ndërtimit për Autotools, CMake dhe sistemet e integrimit të vazhdueshëm.

    Burimi: opennet.ru

Shto një koment