Lage sistèm rekonesans tèks Tesseract 4.1

Prepare lage nan sistèm rekonesans tèks optik Tesseract 4.1, sipòte rekonesans karaktè UTF-8 ak tèks nan plis pase 100 lang, tankou Ris, Kazakh, Belarisyen ak Ukrainian. Rezilta a ka sove nan tèks klè oswa nan fòma HTML (hOCR), ALTO (XML), PDF ak TSV. Sistèm nan te okòmansman kreye nan 1985-1995 nan laboratwa Hewlett Packard la; an 2005, kòd la te louvri anba lisans Apache e li te devlope plis ak patisipasyon anplwaye Google yo. Sous pwojè yo gaye ki gen lisans anba Apache 2.0.

Tesseract gen ladan yon sèvis piblik konsole ak bibliyotèk libtesseract pou entegre fonksyon OCR nan lòt aplikasyon. Soti nan twazyèm pati ki sipòte Tesseract Entèfas entèfas ou ka note gImageReader, VietOCR и YAGF. Yo ofri de motè rekonesans: yon sèl klasik ki rekonèt tèks nan nivo modèl karaktè endividyèl yo, ak yon nouvo youn ki baze sou itilizasyon yon sistèm aprantisaj machin ki baze sou yon rezo neral renouvlab LSTM, optimize pou rekonèt fisèl antye ak pèmèt yon ogmantasyon siyifikatif nan presizyon. Pare-made ki fòme modèl yo pibliye pou 123 lang. Pou optimize pèfòmans, modil ki itilize OpenMP ak AVX2, AVX oswa SSE4.1 enstriksyon SIMD yo ofri.

Prensipal la amelyorasyon nan Tesseract 4.1:

  • Te ajoute kapasite nan pwodiksyon nan fòma XML ALTO (Analize Layout ak objè tèks). Pou itilize fòma sa a, ou ta dwe kouri aplikasyon an kòm "tessaract image_name alto output_dir";
  • Te ajoute nouvo modil rann LSTMBox ak WordStrBox, senplifye fòmasyon motè;
  • Te ajoute sipò pou pseudographics nan pwodiksyon hOCR (HTML);
  • Te ajoute scripts altènatif ekri nan Python pou fòmasyon motè a ki baze sou aprantisaj machin;
  • Optimize elaji lè l sèvi avèk enstriksyon AVX, AVX2 ak SSE;
  • Sipò OpenMP enfim pa default akòz pwoblèm ak pwodiktivite;
  • Te ajoute sipò pou lis blan ak nwa nan motè LSTM;
  • Amelyore scripts bati ki baze sou Cmake.

Sous: opennet.ru

Add nouvo kòmantè