Vosk ಲೈಬ್ರರಿಯಲ್ಲಿ ರಷ್ಯಾದ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆಗಾಗಿ ಹೊಸ ಮಾದರಿಗಳು

Vosk ಲೈಬ್ರರಿಯ ಅಭಿವರ್ಧಕರು ರಷ್ಯಾದ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆಗಾಗಿ ಹೊಸ ಮಾದರಿಗಳನ್ನು ಪ್ರಕಟಿಸಿದ್ದಾರೆ: ಸರ್ವರ್ vosk-model-ru-0.22 ಮತ್ತು ಮೊಬೈಲ್ Vosk-model-small-ru-0.22. ಮಾದರಿಗಳು ಹೊಸ ಭಾಷಣ ಡೇಟಾವನ್ನು ಬಳಸುತ್ತವೆ, ಜೊತೆಗೆ ಹೊಸ ನ್ಯೂರಲ್ ನೆಟ್ವರ್ಕ್ ಆರ್ಕಿಟೆಕ್ಚರ್ ಅನ್ನು ಬಳಸುತ್ತವೆ, ಇದು 10-20% ರಷ್ಟು ಗುರುತಿಸುವಿಕೆಯ ನಿಖರತೆಯನ್ನು ಹೆಚ್ಚಿಸಿದೆ. ಕೋಡ್ ಮತ್ತು ಡೇಟಾವನ್ನು ಅಪಾಚೆ 2.0 ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ವಿತರಿಸಲಾಗಿದೆ.

ಪ್ರಮುಖ ಬದಲಾವಣೆಗಳು:

  • ಧ್ವನಿ ಸ್ಪೀಕರ್‌ಗಳಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾದ ಹೊಸ ಡೇಟಾ ದೂರದಿಂದ ಮಾತನಾಡುವ ಮಾತಿನ ಆಜ್ಞೆಗಳ ಗುರುತಿಸುವಿಕೆಯನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಸುಧಾರಿಸುತ್ತದೆ.
  • ಹೊಸ ಆಡಿಯೊ ಹೊರತೆಗೆಯುವಿಕೆ ಯೋಜನೆಯು ವೈಡ್‌ಬ್ಯಾಂಡ್ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳಿಗೆ ಗುರುತಿಸುವಿಕೆಯ ನಿಖರತೆಯನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಸುಧಾರಿಸಿದೆ. ಅದೇ ಸಮಯದಲ್ಲಿ, ಟೆಲಿಫೋನಿ ಗುರುತಿಸುವಿಕೆಯ ನಿಖರತೆ ಕೂಡ ಸುಧಾರಿಸಿದೆ.
  • ಸಂಕೀರ್ಣ ತಾಂತ್ರಿಕ ದಾಖಲೆಗಳ ಗುರುತಿಸುವಿಕೆಯನ್ನು ಕಸ್ಟಮೈಸ್ ಮಾಡಲು ನಿಘಂಟು ವಿಸ್ತರಣೆ ಪ್ಯಾಕೇಜ್ ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ.

ಉತ್ತಮ ನಿಖರತೆಗಾಗಿ, ವ್ಯಾಕ್ಸ್ ಆವೃತ್ತಿಯನ್ನು 0.3.32 ಗೆ ನವೀಕರಿಸಲು ಶಿಫಾರಸು ಮಾಡಲಾಗಿದೆ. ನೀವು Vosk ನ ಹೊಸ ವೈಶಿಷ್ಟ್ಯಗಳಲ್ಲಿ ಸಹ ಆಸಕ್ತಿ ಹೊಂದಿರಬಹುದು - ಏಕತೆ, ಸ್ಥಳೀಯ ಸ್ಕ್ರಿಪ್ಟ್, ಜಿಗಾಸಿಯೊಂದಿಗೆ ಏಕೀಕರಣ. ಕಝಕ್ ಮತ್ತು ಉಕ್ರೇನಿಯನ್ ಭಾಷೆಗಳನ್ನು ಗುರುತಿಸುವ ಮಾದರಿಗಳು. ಸರ್ವರ್ ಮಾದರಿಯು ಕಾರ್ಯನಿರ್ವಹಿಸಲು ಆಧುನಿಕ ಪ್ರೊಸೆಸರ್ ಮತ್ತು 8GB ಮೆಮೊರಿಯ ಅಗತ್ಯವಿದೆ. ಮೊಬೈಲ್ ಮಾದರಿಯನ್ನು ಫೋನ್‌ಗಳಲ್ಲಿ ಮತ್ತು RaspberryPi 3+ ನಲ್ಲಿ ಬಳಸಬಹುದು.

ಮೂಲ: opennet.ru

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ