Dimittis textus agnitionis systematis Tesserac 4.1

Paratus emittere optical text recognition systema Tesserac 4.1sustentans recognitionem UTF-8 characterum et textuum plusquam 100 linguarum, inclusarum Russiae, Kazakh, Belarusian et Ucrainae. Effectus servari potest in textu plano aut in HTML (hOCR), ALTO (XML), PDF et TSV format. Systema in laboratorio Hewlett Packard anno 1985-1995 creatum est, anno 2005, signum sub Apache licentiae patefactum est et amplius elaboratum est cum participatione Google conductorum. Project fontes propagatio licentiatus sub Apache 2.0.

Tesseractum consolatorium utilitatem ac bibliothecam libtesseractam includit ut munus in alias applicationes OCR emundet. Ex tribus partibus qui Tesseractum sustinent GUI interfaces potes note gImageReader, VietOCR ΠΈ YAGF. Duae recognitiones machinae exhibentur: classica una quae textum agnoscit in ambitu exemplarium singulorum characterum, et nova fundata in usu machinae systematis discendi in LSTM recurrentis retis neuralis, optimized ad chordas integras cognoscendas et permittens ad aucta subtilitate significantes. Paratus instructus exempla eduntur 123 linguarum. Ad optimize effectus, moduli usus OpenMP et AVX2, AVX vel SSE4.1 SIMD instructiones offeruntur.

Main improvements in Tesserac 4.1;

  • Addidit facultatem output in XML format Alto (Analysed Layout and Text Object). Hac forma utaris, applicatione ut "tessaractum image_name alto output_dir" debes;
  • Novas reddendi modulos LSTMBox et WordStrBox addiderunt, disciplinae machinae simpliciores;
  • Auxilia pseudographicis in output hOCR (HTML) addita;
  • Additur etiam scripta Pythone scripta ad exercendam machinam quae in machina discendi ratione nititur;
  • Expanded optimizationes utentes AVX, AVX2 et SSE instructiones;
  • OpenMP firmamentum est erret per default propter problems with fructibus;
  • Aluminium album et nigrum in LSTM machinam addidit;
  • Melior est scriptor constructum ex Cmake.

Source: opennet.ru