Dimittis textus agnitionis systematis Tesserac 5.1

Emissio Tesseract 5.1 Ratio recognitionis optici textus divulgata est, adiuvans recognitionem characterum et textuum UTF-8 plusquam 100 linguarum, inclusas Russica, Kazakh, Belarusiana et Ucraina. Effectus servari potest in textu plano aut in HTML (hOCR), ALTO (XML), PDF et TSV format. Systema in laboratorio Hewlett Packard anno 1985-1995 creatum est, anno 2005, signum sub Apache licentiae patefactum est et amplius elaboratum est cum participatione Google conductorum. Fons codicis consilii sub Apache 2.0 licentia distribuitur.

Tesseract utilitas solari includit ac bibliothecam libtesseratam ad ocr emendationem functionis in alias applicationes comprehendit. Tertia factio GUI interfacies quae Tesserac sustinentia includunt gImage Lector, VietOCR et YAGF. Duae recognitiones machinae exhibentur: classica una quae textum agnoscit in ambitu exemplarium singulorum characterum, et nova fundata in usu machinae systematis discendi in LSTM recurrentis retis neuralis, optimized ad chordas integras cognoscendas et permittens ad aucta subtilitate significantes. Exemplaria erudita parata facta pro 123 linguis edita sunt. Ad optimize effectus, moduli utentes OpenMP et SIMD instructiones AVX2, AVX, NEON vel SSE4.1 offeruntur.

Emendationes maiores in Tesserac 5.1:

  • Facultas spatiandi cum imaginibus et lineis cum extraordinariis in ALTO, hOCR et textibus formatis ad effectum adducta est.
  • Novum modulum curl_timeout lkz curl_setop addidit.
  • Melior fabricandi ratio.
  • Opus factum est ad insueta remove codice
  • Fragores fixum ex falsa tractatione nulli indicium in PageIterator::Orientationis genere causantur.

Source: opennet.ru