Lage sistèm rekonesans tèks Tesseract 5.1

Yo te pibliye piblikasyon Tesseract 5.1 sistèm nan rekonesans tèks optik, sipòte rekonesans nan karaktè UTF-8 ak tèks nan plis pase 100 lang, ki gen ladan Ris, Kazakh, Belarisyen ak Ukrainian. Rezilta a ka sove nan tèks klè oswa nan fòma HTML (hOCR), ALTO (XML), PDF ak TSV. Yo te kreye sistèm nan okòmansman an 1985-1995 nan laboratwa Hewlett Packard la; an 2005, kòd la te louvri anba lisans Apache e li te devlope plis ak patisipasyon anplwaye Google yo. Kòd sous pwojè a distribye anba lisans Apache 2.0.

Tesseract gen ladan yon sèvis piblik konsole ak bibliyotèk libtesseract pou entegre fonksyon OCR nan lòt aplikasyon. Entèfas GUI twazyèm pati ki sipòte Tesseract gen ladan gImageReader, VietOCR ak YAGF. Yo ofri de motè rekonesans: yon sèl klasik ki rekonèt tèks nan nivo modèl karaktè endividyèl yo, ak yon nouvo ki baze sou itilizasyon yon sistèm aprantisaj machin ki baze sou yon rezo neral renouvlab LSTM, ki optimize pou rekonèt kòd antye epi ki pèmèt yon ogmantasyon siyifikatif nan presizyon. Yo te pibliye modèl fòmasyon ki pare pou 123 lang. Pou optimize pèfòmans, modil ki itilize OpenMP ak SIMD enstriksyon AVX2, AVX, NEON oswa SSE4.1 yo ofri.

Gwo amelyorasyon nan Tesseract 5.1:

  • Kapasite nan trete zòn ak imaj ak liy lè pwodiksyon nan fòma ALTO, hOCR ak tèks yo te aplike.
  • Te ajoute nouvo paramèt curl_timeout lkz curl_easy_setop.
  • Amelyore sistèm bati.
  • Travay te fèt pou retire kòd ki pa itilize
  • Te fikse aksidan ki te koze pa manyen kòrèk nan endikasyon nil nan klas la PageIterator::Oryantasyon.

Sous: opennet.ru

Add nouvo kòmantè