ಪಠ್ಯ ಗುರುತಿಸುವಿಕೆ ವ್ಯವಸ್ಥೆಯ ಬಿಡುಗಡೆ ಟೆಸ್ಸೆರಾಕ್ಟ್ 5.3.4

Tesseract 5.3.4 ಆಪ್ಟಿಕಲ್ ಟೆಕ್ಸ್ಟ್ ರೆಕಗ್ನಿಷನ್ ಸಿಸ್ಟಮ್ ಬಿಡುಗಡೆಯನ್ನು ಪ್ರಕಟಿಸಲಾಗಿದೆ, ರಷ್ಯನ್, ಕಝಕ್, ಬೆಲರೂಸಿಯನ್ ಮತ್ತು ಉಕ್ರೇನಿಯನ್ ಸೇರಿದಂತೆ 8 ಕ್ಕೂ ಹೆಚ್ಚು ಭಾಷೆಗಳಲ್ಲಿ UTF-100 ಅಕ್ಷರಗಳು ಮತ್ತು ಪಠ್ಯಗಳ ಗುರುತಿಸುವಿಕೆಯನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ. ಫಲಿತಾಂಶವನ್ನು ಸರಳ ಪಠ್ಯದಲ್ಲಿ ಅಥವಾ HTML (hOCR), ALTO (XML), PDF ಮತ್ತು TSV ಸ್ವರೂಪಗಳಲ್ಲಿ ಉಳಿಸಬಹುದು. ಸಿಸ್ಟಮ್ ಅನ್ನು ಮೂಲತಃ 1985-1995 ರಲ್ಲಿ ಹೆವ್ಲೆಟ್ ಪ್ಯಾಕರ್ಡ್ ಪ್ರಯೋಗಾಲಯದಲ್ಲಿ ರಚಿಸಲಾಯಿತು; 2005 ರಲ್ಲಿ, ಕೋಡ್ ಅನ್ನು ಅಪಾಚೆ ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ತೆರೆಯಲಾಯಿತು ಮತ್ತು ಗೂಗಲ್ ಉದ್ಯೋಗಿಗಳ ಭಾಗವಹಿಸುವಿಕೆಯೊಂದಿಗೆ ಮತ್ತಷ್ಟು ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಯಿತು. ಯೋಜನೆಯ ಮೂಲ ಕೋಡ್ ಅನ್ನು Apache 2.0 ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ವಿತರಿಸಲಾಗಿದೆ.

ಟೆಸ್ಸೆರಾಕ್ಟ್ ಇತರ ಅಪ್ಲಿಕೇಶನ್‌ಗಳಲ್ಲಿ OCR ಕಾರ್ಯವನ್ನು ಎಂಬೆಡ್ ಮಾಡಲು ಕನ್ಸೋಲ್ ಉಪಯುಕ್ತತೆ ಮತ್ತು ಲಿಬ್ಟೆಸೆರಾಕ್ಟ್ ಲೈಬ್ರರಿಯನ್ನು ಒಳಗೊಂಡಿದೆ. ಟೆಸ್ಸೆರಾಕ್ಟ್ ಅನ್ನು ಬೆಂಬಲಿಸುವ ಮೂರನೇ ವ್ಯಕ್ತಿಯ GUI ಇಂಟರ್ಫೇಸ್‌ಗಳು gImageReader, VietOCR ಮತ್ತು YAGF ಅನ್ನು ಒಳಗೊಂಡಿವೆ. ಎರಡು ಗುರುತಿಸುವಿಕೆ ಎಂಜಿನ್‌ಗಳನ್ನು ನೀಡಲಾಗುತ್ತದೆ: ಪ್ರತ್ಯೇಕ ಅಕ್ಷರ ಮಾದರಿಗಳ ಮಟ್ಟದಲ್ಲಿ ಪಠ್ಯವನ್ನು ಗುರುತಿಸುವ ಕ್ಲಾಸಿಕ್ ಒಂದು, ಮತ್ತು ಹೊಸದು LSTM ಮರುಕಳಿಸುವ ನರಮಂಡಲದ ಆಧಾರದ ಮೇಲೆ ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಯ ಬಳಕೆಯನ್ನು ಆಧರಿಸಿ, ಸಂಪೂರ್ಣ ತಂತಿಗಳನ್ನು ಗುರುತಿಸಲು ಮತ್ತು ಅನುಮತಿಸಲು ಆಪ್ಟಿಮೈಸ್ ಮಾಡಲಾಗಿದೆ. ನಿಖರತೆಯಲ್ಲಿ ಗಮನಾರ್ಹ ಹೆಚ್ಚಳ. 123 ಭಾಷೆಗಳಿಗೆ ಸಿದ್ಧ ತರಬೇತಿ ಮಾದರಿಗಳನ್ನು ಪ್ರಕಟಿಸಲಾಗಿದೆ. ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಉತ್ತಮಗೊಳಿಸಲು, OpenMP ಮತ್ತು SIMD ಸೂಚನೆಗಳನ್ನು ಬಳಸುವ ಮಾಡ್ಯೂಲ್‌ಗಳನ್ನು AVX2, AVX, AVX512F, NEON ಅಥವಾ SSE4.1 ನೀಡಲಾಗುತ್ತದೆ.

ಮುಖ್ಯ ಸುಧಾರಣೆಗಳು:

  • libcurl ಲೈಬ್ರರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಫೈಲ್ ಡೌನ್‌ಲೋಡ್‌ನೊಂದಿಗೆ URL ಮೂಲಕ ಸುಧಾರಿತ ಇಮೇಜ್ ಗುರುತಿಸುವಿಕೆ. ಲೋಡ್ ಮಾಡುವಾಗ, ಬಳಕೆದಾರ-ಏಜೆಂಟ್ ಹೆಡರ್ ಅನ್ನು ಹೊಂದಿಸಲಾಗಿದೆ. ಕುಕೀ ಫೈಲ್ ಅನ್ನು ಬಳಸುವುದಕ್ಕಾಗಿ curl_cookiefile ಹೊಸ ನಿಯತಾಂಕವನ್ನು ಸೇರಿಸಲಾಗಿದೆ.
  • ScrollView ಸರ್ವರ್ TCP ಅನ್ನು ಅದರ ಆದ್ಯತೆಯ ಪ್ರೋಟೋಕಾಲ್ ಆಗಿ ಬಳಸುತ್ತದೆ.
  • "combine_tessdata -d" ಆಜ್ಞೆಯನ್ನು ಬಳಸುವಾಗ, stderr ಬದಲಿಗೆ stdout ಗೆ ಔಟ್‌ಪುಟ್ ಅನ್ನು ಒದಗಿಸಲಾಗುತ್ತದೆ.
  • ಆಟೋಕಾನ್ಫ್ ಮತ್ತು ಕ್ಲಾಂಗ್ ಬಳಸುವಾಗ ಬಿಲ್ಡ್ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲಾಗಿದೆ.

ಮೂಲ: opennet.ru

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ