ಪಠ್ಯ ಗುರುತಿಸುವಿಕೆ ವ್ಯವಸ್ಥೆಯ ಬಿಡುಗಡೆ ಟೆಸ್ಸೆರಾಕ್ಟ್ 5.1

Tesseract 5.1 ಆಪ್ಟಿಕಲ್ ಟೆಕ್ಸ್ಟ್ ರೆಕಗ್ನಿಷನ್ ಸಿಸ್ಟಮ್ ಬಿಡುಗಡೆಯನ್ನು ಪ್ರಕಟಿಸಲಾಗಿದೆ, ರಷ್ಯನ್, ಕಝಕ್, ಬೆಲರೂಸಿಯನ್ ಮತ್ತು ಉಕ್ರೇನಿಯನ್ ಸೇರಿದಂತೆ 8 ಕ್ಕೂ ಹೆಚ್ಚು ಭಾಷೆಗಳಲ್ಲಿ UTF-100 ಅಕ್ಷರಗಳು ಮತ್ತು ಪಠ್ಯಗಳ ಗುರುತಿಸುವಿಕೆಯನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ. ಫಲಿತಾಂಶವನ್ನು ಸರಳ ಪಠ್ಯದಲ್ಲಿ ಅಥವಾ HTML (hOCR), ALTO (XML), PDF ಮತ್ತು TSV ಸ್ವರೂಪಗಳಲ್ಲಿ ಉಳಿಸಬಹುದು. ಸಿಸ್ಟಮ್ ಅನ್ನು ಮೂಲತಃ 1985-1995 ರಲ್ಲಿ ಹೆವ್ಲೆಟ್ ಪ್ಯಾಕರ್ಡ್ ಪ್ರಯೋಗಾಲಯದಲ್ಲಿ ರಚಿಸಲಾಯಿತು; 2005 ರಲ್ಲಿ, ಕೋಡ್ ಅನ್ನು ಅಪಾಚೆ ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ತೆರೆಯಲಾಯಿತು ಮತ್ತು ಗೂಗಲ್ ಉದ್ಯೋಗಿಗಳ ಭಾಗವಹಿಸುವಿಕೆಯೊಂದಿಗೆ ಮತ್ತಷ್ಟು ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಯಿತು. ಯೋಜನೆಯ ಮೂಲ ಕೋಡ್ ಅನ್ನು Apache 2.0 ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ವಿತರಿಸಲಾಗಿದೆ.

ಟೆಸ್ಸೆರಾಕ್ಟ್ ಇತರ ಅಪ್ಲಿಕೇಶನ್‌ಗಳಲ್ಲಿ OCR ಕಾರ್ಯವನ್ನು ಎಂಬೆಡ್ ಮಾಡಲು ಕನ್ಸೋಲ್ ಉಪಯುಕ್ತತೆ ಮತ್ತು ಲಿಬ್ಟೆಸ್ಸೆರಾಕ್ಟ್ ಲೈಬ್ರರಿಯನ್ನು ಒಳಗೊಂಡಿದೆ. ಟೆಸ್ಸೆರಾಕ್ಟ್ ಅನ್ನು ಬೆಂಬಲಿಸುವ ಮೂರನೇ ವ್ಯಕ್ತಿಯ GUI ಇಂಟರ್ಫೇಸ್‌ಗಳು gImageReader, VietOCR ಮತ್ತು YAGF ಅನ್ನು ಒಳಗೊಂಡಿವೆ. ಎರಡು ಗುರುತಿಸುವಿಕೆ ಎಂಜಿನ್‌ಗಳನ್ನು ನೀಡಲಾಗುತ್ತದೆ: ಪ್ರತ್ಯೇಕ ಅಕ್ಷರ ಮಾದರಿಗಳ ಮಟ್ಟದಲ್ಲಿ ಪಠ್ಯವನ್ನು ಗುರುತಿಸುವ ಕ್ಲಾಸಿಕ್, ಮತ್ತು ಹೊಸದು LSTM ಮರುಕಳಿಸುವ ನರಮಂಡಲದ ಆಧಾರದ ಮೇಲೆ ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಯ ಬಳಕೆಯನ್ನು ಆಧರಿಸಿದೆ, ಸಂಪೂರ್ಣ ತಂತಿಗಳನ್ನು ಗುರುತಿಸಲು ಮತ್ತು ಅನುಮತಿಸಲು ಆಪ್ಟಿಮೈಸ್ ಮಾಡಲಾಗಿದೆ. ನಿಖರತೆಯಲ್ಲಿ ಗಮನಾರ್ಹ ಹೆಚ್ಚಳ. 123 ಭಾಷೆಗಳಿಗೆ ಸಿದ್ಧ ತರಬೇತಿ ಮಾದರಿಗಳನ್ನು ಪ್ರಕಟಿಸಲಾಗಿದೆ. ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಉತ್ತಮಗೊಳಿಸಲು, OpenMP ಮತ್ತು SIMD ಸೂಚನೆಗಳನ್ನು ಬಳಸುವ ಮಾಡ್ಯೂಲ್‌ಗಳನ್ನು AVX2, AVX, NEON ಅಥವಾ SSE4.1 ನೀಡಲಾಗುತ್ತದೆ.

Tesseract 5.1 ನಲ್ಲಿನ ಪ್ರಮುಖ ಸುಧಾರಣೆಗಳು:

  • Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
  • Добавлен новый параметр curl_timeout lkz curl_easy_setop.
  • ಸುಧಾರಿತ ನಿರ್ಮಾಣ ವ್ಯವಸ್ಥೆ.
  • Проведена работа по удалению неиспользуемого кода
  • Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

ಮೂಲ: opennet.ru

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ