ಪಠ್ಯ ಗುರುತಿಸುವಿಕೆ ವ್ಯವಸ್ಥೆಯ ಬಿಡುಗಡೆ ಟೆಸ್ಸೆರಾಕ್ಟ್ 4.1

ತಯಾರಾದ ಆಪ್ಟಿಕಲ್ ಟೆಕ್ಸ್ಟ್ ರೆಕಗ್ನಿಷನ್ ಸಿಸ್ಟಮ್ ಬಿಡುಗಡೆ ಟೆಸ್ಸೆರಾಕ್ಟ್ 4.1, ರಷ್ಯನ್, ಕಝಕ್, ಬೆಲರೂಸಿಯನ್ ಮತ್ತು ಉಕ್ರೇನಿಯನ್ ಸೇರಿದಂತೆ 8 ಕ್ಕೂ ಹೆಚ್ಚು ಭಾಷೆಗಳಲ್ಲಿ UTF-100 ಅಕ್ಷರಗಳು ಮತ್ತು ಪಠ್ಯಗಳ ಗುರುತಿಸುವಿಕೆಯನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ. ಫಲಿತಾಂಶವನ್ನು ಸರಳ ಪಠ್ಯದಲ್ಲಿ ಅಥವಾ HTML (hOCR), ALTO (XML), PDF ಮತ್ತು TSV ಸ್ವರೂಪಗಳಲ್ಲಿ ಉಳಿಸಬಹುದು. ಸಿಸ್ಟಮ್ ಅನ್ನು ಮೂಲತಃ 1985-1995 ರಲ್ಲಿ ಹೆವ್ಲೆಟ್ ಪ್ಯಾಕರ್ಡ್ ಪ್ರಯೋಗಾಲಯದಲ್ಲಿ ರಚಿಸಲಾಯಿತು; 2005 ರಲ್ಲಿ, ಕೋಡ್ ಅನ್ನು ಅಪಾಚೆ ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ತೆರೆಯಲಾಯಿತು ಮತ್ತು ಗೂಗಲ್ ಉದ್ಯೋಗಿಗಳ ಭಾಗವಹಿಸುವಿಕೆಯೊಂದಿಗೆ ಮತ್ತಷ್ಟು ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಯಿತು. ಯೋಜನೆಯ ಮೂಲಗಳು ಹರಡು ಅಪಾಚೆ 2.0 ಅಡಿಯಲ್ಲಿ ಪರವಾನಗಿ ಪಡೆದಿದೆ.

ಟೆಸ್ಸೆರಾಕ್ಟ್ ಇತರ ಅಪ್ಲಿಕೇಶನ್‌ಗಳಲ್ಲಿ OCR ಕಾರ್ಯವನ್ನು ಎಂಬೆಡ್ ಮಾಡಲು ಕನ್ಸೋಲ್ ಉಪಯುಕ್ತತೆ ಮತ್ತು ಲಿಬ್ಟೆಸ್ಸೆರಾಕ್ಟ್ ಲೈಬ್ರರಿಯನ್ನು ಒಳಗೊಂಡಿದೆ. ಟೆಸರಾಕ್ಟ್ ಅನ್ನು ಬೆಂಬಲಿಸುವ ಮೂರನೇ ಪಕ್ಷಗಳಿಂದ GUI ಇಂಟರ್ಫೇಸ್ಗಳು ನೀವು ಗಮನಿಸಬಹುದು gImageReader, VietOCR и YAGF. ಎರಡು ಗುರುತಿಸುವಿಕೆ ಎಂಜಿನ್‌ಗಳನ್ನು ನೀಡಲಾಗುತ್ತದೆ: ಪ್ರತ್ಯೇಕ ಅಕ್ಷರ ಮಾದರಿಗಳ ಮಟ್ಟದಲ್ಲಿ ಪಠ್ಯವನ್ನು ಗುರುತಿಸುವ ಕ್ಲಾಸಿಕ್, ಮತ್ತು ಹೊಸದು LSTM ಮರುಕಳಿಸುವ ನರಮಂಡಲದ ಆಧಾರದ ಮೇಲೆ ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಯ ಬಳಕೆಯನ್ನು ಆಧರಿಸಿದೆ, ಸಂಪೂರ್ಣ ತಂತಿಗಳನ್ನು ಗುರುತಿಸಲು ಮತ್ತು ಅನುಮತಿಸಲು ಆಪ್ಟಿಮೈಸ್ ಮಾಡಲಾಗಿದೆ. ನಿಖರತೆಯಲ್ಲಿ ಗಮನಾರ್ಹ ಹೆಚ್ಚಳ. ಸಿದ್ಧಪಡಿಸಿದ ತರಬೇತಿ ಮಾದರಿಗಳನ್ನು ಪ್ರಕಟಿಸಲಾಗಿದೆ 123 ಭಾಷೆಗಳು. ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಉತ್ತಮಗೊಳಿಸಲು, OpenMP ಮತ್ತು AVX2, AVX ಅಥವಾ SSE4.1 SIMD ಸೂಚನೆಗಳನ್ನು ಬಳಸುವ ಮಾಡ್ಯೂಲ್‌ಗಳನ್ನು ನೀಡಲಾಗುತ್ತದೆ.

ಮುಖ್ಯ ಅಭಿವೃದ್ಧಿಗಳು ಟೆಸೆರಾಕ್ಟ್ 4.1 ರಲ್ಲಿ:

  • XML ಸ್ವರೂಪದಲ್ಲಿ ಔಟ್‌ಪುಟ್ ಮಾಡುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಸೇರಿಸಲಾಗಿದೆ ALTO (ವಿಶ್ಲೇಷಿತ ಲೇಔಟ್ ಮತ್ತು ಪಠ್ಯ ವಸ್ತು). ಈ ಸ್ವರೂಪವನ್ನು ಬಳಸಲು, ನೀವು ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು "tessaract image_name alto output_dir" ಎಂದು ರನ್ ಮಾಡಬೇಕು;
  • ಹೊಸ ರೆಂಡರಿಂಗ್ ಮಾಡ್ಯೂಲ್‌ಗಳನ್ನು LSTMBox ಮತ್ತು WordStrBox ಸೇರಿಸಲಾಗಿದೆ, ಎಂಜಿನ್ ತರಬೇತಿಯನ್ನು ಸರಳಗೊಳಿಸುತ್ತದೆ;
  • hOCR (HTML) ಔಟ್‌ಪುಟ್‌ನಲ್ಲಿ ಸ್ಯೂಡೋಗ್ರಾಫಿಕ್ಸ್‌ಗೆ ಬೆಂಬಲವನ್ನು ಸೇರಿಸಲಾಗಿದೆ;
  • ಯಂತ್ರ ಕಲಿಕೆಯ ಆಧಾರದ ಮೇಲೆ ಎಂಜಿನ್ ತರಬೇತಿಗಾಗಿ ಪೈಥಾನ್‌ನಲ್ಲಿ ಬರೆಯಲಾದ ಪರ್ಯಾಯ ಸ್ಕ್ರಿಪ್ಟ್‌ಗಳನ್ನು ಸೇರಿಸಲಾಗಿದೆ;
  • AVX, AVX2 ಮತ್ತು SSE ಸೂಚನೆಗಳನ್ನು ಬಳಸಿಕೊಂಡು ವಿಸ್ತೃತ ಆಪ್ಟಿಮೈಸೇಶನ್‌ಗಳು;
  • OpenMP ಬೆಂಬಲವನ್ನು ಡಿಫಾಲ್ಟ್ ಆಗಿ ನಿಷ್ಕ್ರಿಯಗೊಳಿಸಲಾಗಿದೆ ಸಮಸ್ಯೆಗಳು ಉತ್ಪಾದಕತೆಯೊಂದಿಗೆ;
  • LSTM ಎಂಜಿನ್‌ನಲ್ಲಿ ಬಿಳಿ ಮತ್ತು ಕಪ್ಪು ಪಟ್ಟಿಗಳಿಗೆ ಬೆಂಬಲವನ್ನು ಸೇರಿಸಲಾಗಿದೆ;
  • Cmake ಆಧರಿಸಿ ಸುಧಾರಿತ ಬಿಲ್ಡ್ ಸ್ಕ್ರಿಪ್ಟ್‌ಗಳು.

ಮೂಲ: opennet.ru

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ