ಪಠ್ಯ ಗುರುತಿಸುವಿಕೆ ವ್ಯವಸ್ಥೆಯ ಬಿಡುಗಡೆ ಟೆಸ್ಸೆರಾಕ್ಟ್ 5.2

Tesseract 5.2 ಆಪ್ಟಿಕಲ್ ಟೆಕ್ಸ್ಟ್ ರೆಕಗ್ನಿಷನ್ ಸಿಸ್ಟಮ್ ಬಿಡುಗಡೆಯನ್ನು ಪ್ರಕಟಿಸಲಾಗಿದೆ, ರಷ್ಯನ್, ಕಝಕ್, ಬೆಲರೂಸಿಯನ್ ಮತ್ತು ಉಕ್ರೇನಿಯನ್ ಸೇರಿದಂತೆ 8 ಕ್ಕೂ ಹೆಚ್ಚು ಭಾಷೆಗಳಲ್ಲಿ UTF-100 ಅಕ್ಷರಗಳು ಮತ್ತು ಪಠ್ಯಗಳ ಗುರುತಿಸುವಿಕೆಯನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ. ಫಲಿತಾಂಶವನ್ನು ಸರಳ ಪಠ್ಯದಲ್ಲಿ ಅಥವಾ HTML (hOCR), ALTO (XML), PDF ಮತ್ತು TSV ಸ್ವರೂಪಗಳಲ್ಲಿ ಉಳಿಸಬಹುದು. ಸಿಸ್ಟಮ್ ಅನ್ನು ಮೂಲತಃ 1985-1995 ರಲ್ಲಿ ಹೆವ್ಲೆಟ್ ಪ್ಯಾಕರ್ಡ್ ಪ್ರಯೋಗಾಲಯದಲ್ಲಿ ರಚಿಸಲಾಯಿತು; 2005 ರಲ್ಲಿ, ಕೋಡ್ ಅನ್ನು ಅಪಾಚೆ ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ತೆರೆಯಲಾಯಿತು ಮತ್ತು ಗೂಗಲ್ ಉದ್ಯೋಗಿಗಳ ಭಾಗವಹಿಸುವಿಕೆಯೊಂದಿಗೆ ಮತ್ತಷ್ಟು ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಯಿತು. ಯೋಜನೆಯ ಮೂಲ ಕೋಡ್ ಅನ್ನು Apache 2.0 ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ವಿತರಿಸಲಾಗಿದೆ.

ಟೆಸ್ಸೆರಾಕ್ಟ್ ಇತರ ಅಪ್ಲಿಕೇಶನ್‌ಗಳಲ್ಲಿ OCR ಕಾರ್ಯವನ್ನು ಎಂಬೆಡ್ ಮಾಡಲು ಕನ್ಸೋಲ್ ಉಪಯುಕ್ತತೆ ಮತ್ತು ಲಿಬ್ಟೆಸೆರಾಕ್ಟ್ ಲೈಬ್ರರಿಯನ್ನು ಒಳಗೊಂಡಿದೆ. ಟೆಸ್ಸೆರಾಕ್ಟ್ ಅನ್ನು ಬೆಂಬಲಿಸುವ ಮೂರನೇ ವ್ಯಕ್ತಿಯ GUI ಇಂಟರ್ಫೇಸ್‌ಗಳು gImageReader, VietOCR ಮತ್ತು YAGF ಅನ್ನು ಒಳಗೊಂಡಿವೆ. ಎರಡು ಗುರುತಿಸುವಿಕೆ ಎಂಜಿನ್‌ಗಳನ್ನು ನೀಡಲಾಗುತ್ತದೆ: ಪ್ರತ್ಯೇಕ ಅಕ್ಷರ ಮಾದರಿಗಳ ಮಟ್ಟದಲ್ಲಿ ಪಠ್ಯವನ್ನು ಗುರುತಿಸುವ ಕ್ಲಾಸಿಕ್ ಒಂದು, ಮತ್ತು ಹೊಸದು LSTM ಮರುಕಳಿಸುವ ನರಮಂಡಲದ ಆಧಾರದ ಮೇಲೆ ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಯ ಬಳಕೆಯನ್ನು ಆಧರಿಸಿ, ಸಂಪೂರ್ಣ ತಂತಿಗಳನ್ನು ಗುರುತಿಸಲು ಮತ್ತು ಅನುಮತಿಸಲು ಆಪ್ಟಿಮೈಸ್ ಮಾಡಲಾಗಿದೆ. ನಿಖರತೆಯಲ್ಲಿ ಗಮನಾರ್ಹ ಹೆಚ್ಚಳ. 123 ಭಾಷೆಗಳಿಗೆ ಸಿದ್ಧ ತರಬೇತಿ ಮಾದರಿಗಳನ್ನು ಪ್ರಕಟಿಸಲಾಗಿದೆ. ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಉತ್ತಮಗೊಳಿಸಲು, OpenMP ಮತ್ತು SIMD ಸೂಚನೆಗಳನ್ನು ಬಳಸುವ ಮಾಡ್ಯೂಲ್‌ಗಳನ್ನು AVX2, AVX, AVX512F, NEON ಅಥವಾ SSE4.1 ನೀಡಲಾಗುತ್ತದೆ.

Tesseract 5.2 ನಲ್ಲಿನ ಪ್ರಮುಖ ಸುಧಾರಣೆಗಳು:

  • Intel AVX512F ಸೂಚನೆಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಅಳವಡಿಸಲಾದ ಆಪ್ಟಿಮೈಸೇಶನ್‌ಗಳನ್ನು ಸೇರಿಸಲಾಗಿದೆ.
  • C API ಮೆಮೊರಿಯಿಂದ ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಯನ್ನು ಲೋಡ್ ಮಾಡುವ ಮೂಲಕ ಟೆಸ್ಸೆರಾಕ್ಟ್ ಅನ್ನು ಪ್ರಾರಂಭಿಸುವ ಕಾರ್ಯವನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುತ್ತದೆ.
  • ಪಠ್ಯ ತಂತಿಗಳ ವಿಲೋಮ ಮಟ್ಟವನ್ನು ನಿರ್ಧರಿಸುವ invert_threshold ನಿಯತಾಂಕವನ್ನು ಸೇರಿಸಲಾಗಿದೆ. ಡೀಫಾಲ್ಟ್ ಮೌಲ್ಯವು 0.7 ಆಗಿದೆ. ವಿಲೋಮವನ್ನು ನಿಷ್ಕ್ರಿಯಗೊಳಿಸಲು, ಮೌಲ್ಯವನ್ನು 0 ಗೆ ಹೊಂದಿಸಿ.
  • 32-ಬಿಟ್ ಹೋಸ್ಟ್‌ಗಳಲ್ಲಿ ಅತಿ ದೊಡ್ಡ ದಾಖಲೆಗಳ ಸುಧಾರಿತ ಪ್ರಕ್ರಿಯೆ.
  • std::regex ಫಂಕ್ಷನ್‌ಗಳನ್ನು ಬಳಸುವುದರಿಂದ std::string ಗೆ ಪರಿವರ್ತನೆ ಮಾಡಲಾಗಿದೆ.
  • Autotools, CMake ಮತ್ತು ನಿರಂತರ ಏಕೀಕರಣ ವ್ಯವಸ್ಥೆಗಳಿಗಾಗಿ ಸುಧಾರಿತ ಬಿಲ್ಡ್ ಸ್ಕ್ರಿಪ್ಟ್‌ಗಳು.

    ಮೂಲ: opennet.ru

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ