Siideynta nidaamka aqoonsiga qoraalka Tesseract 4.1

La diyaariyay sii deynta nidaamka aqoonsiga qoraalka indhaha Tesseract 4.1, taageeridda aqoonsiga UTF-8 xarfaha iyo qoraallada in ka badan 100 luqadood, oo ay ku jiraan Ruush, Kazakh, Belarusian iyo Yukreeniyaan. Natiijadu waxay ku kaydsan kartaa qoraal cad ama HTML (hOCR), ALTO (XML), PDF iyo qaababka TSV. Nidaamka waxaa markii hore la abuuray 1985-1995 ee Hewlett Packard shaybaarka; 2005, koodka waxaa lagu furay shatiga Apache waxaana sii kordhay iyada oo ay ka qayb qaadanayaan shaqaalaha Google. Ilaha mashruuca faafin shatiga ku haysta Apache 2.0.

Tesseract waxaa ku jira utility console iyo maktabadda libteseract si loogu dhejiyo shaqeynta OCR ee codsiyada kale. Ka socota dhinacyada saddexaad ee taageera Tesseract interfaces GUI waad ogaan kartaa gImageReader, VietnamOCR ΠΈ YAGF. Laba matoorada aqoonsiga ayaa la bixiyaa: mid classic ah oo aqoonsanaya qoraalka heerka qaababka dabeecadaha shakhsi ahaaneed, iyo mid cusub oo ku salaysan isticmaalka nidaamka barashada mashiinka oo ku salaysan shabakada LSTM ee soo noqnoqda neerfayaasha, oo loo habeeyay aqoonsiga xargaha oo dhan iyo oggolaanshaha a koror weyn oo sax ah. Moodooyinka tababbaran ee diyaarsan ayaa loo daabacaa 123 luqadood. Si kor loogu qaado waxqabadka, modules isticmaalaya OpenMP iyo AVX2, AVX ama SSE4.1 tilmaamaha SIMD ayaa la bixiyaa.

Main horumar ku jira Tesseract 4.1:

  • Waxaa lagu daray awoodda wax-soo-saarka qaab XML ALTO (Nashqada Layout iyo Qoraalka La Lafa-guray). Si aad u isticmaasho qaabkan, waa in aad u socodsiisaa codsiga sida "tessaract image_name alto output_dir";
  • Waxaa lagu daray unugyo wax-qabad oo cusub LSTMBox iyo WordStrBox, fududaynta tababarka injiinka;
  • Taageero lagu daray sawir-gacmeedka hOCR (HTML);
  • Qoraalo kale oo lagu daray oo ku qoran Python si loogu tababaro mishiinka iyadoo lagu saleynayo barashada mashiinka;
  • Kordhinta ballaarinta iyadoo la adeegsanayo tilmaamaha AVX, AVX2 iyo SSE;
  • Taageerada OpenMP waa la naafo si caadi ah sababtoo ah dhibaatooyinka wax soo saar leh;
  • Taageerada lagu daray liisaska cadaanka iyo madow ee mashiinka LSTM;
  • Qoraallada la hagaajiyay ee ku salaysan Cmake.

Source: opennet.ru

Add a comment