ಜನವರಿ 6 ರಂದು, ಹೆಚ್ಚಿನ ಕಾರ್ಯಕ್ಷಮತೆಯ ಸ್ವಯಂಚಾಲಿತ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ವ್ಯವಸ್ಥೆಯ 1.7.4 ಬಿಡುಗಡೆಯು ನಡೆಯಿತು. whisper.cpp, ಮಾದರಿಯನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುವುದು ವಿಸ್ಪರ್ OpenAI ಮೂಲಕ, C ಮತ್ತು C++ ನಲ್ಲಿ ಬರೆಯಲಾಗಿದೆ ಮತ್ತು MIT ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ವಿತರಿಸಲಾಗಿದೆ.
ಯೋಜನೆಯು ಲೇಖಕರ ಟೆನ್ಸರ್ ಯಂತ್ರ ಕಲಿಕೆ ಗ್ರಂಥಾಲಯವನ್ನು ಬಳಸುತ್ತದೆ GGML, C ನಲ್ಲಿ ಬರೆಯಲಾಗಿದೆ ಮತ್ತು ವಿವಿಧ ಬ್ಯಾಕೆಂಡ್ಗಳನ್ನು (CUDA, Vulkan, BLAS, SYCL, OpenCL, ಇತ್ಯಾದಿ) ಬಳಸಲು ಹೊಂದುವಂತೆ ಮಾಡಲಾಗಿದೆ.
ಸ್ಪೈಸೊಕ್ ಹೆಸರು:
- ಕಾರ್ಯಗತಗೊಳಿಸಬಹುದಾದ ಫೈಲ್ಗಳನ್ನು ಮರುಹೆಸರಿಸುವುದು:
ಮುಖ್ಯ -> ವಿಸ್ಪರ್-ಕ್ಲೈ ಬೆಂಚ್ -> ಪಿಸುಮಾತು-ಬೆಂಚ್ ಸ್ಟ್ರೀಮ್ -> ಪಿಸುಮಾತು-ಸ್ಟ್ರೀಮ್ ಕಮಾಂಡ್ -> ಪಿಸುಮಾತು-ಕಮಾಂಡ್ ಸರ್ವರ್ -> ಪಿಸುಮಾತು-ಸರ್ವರ್ ಟಾಕ್-ಲಾಮಾ -> ಪಿಸುಮಾತು-ಮಾತು-ಲಾಮಾ
- ತೆಗೆದುಹಾಕಲಾದ ಉದಾಹರಣೆಗಳು ಮಾತನಾಡಲು ಮತ್ತು ಮಾತನಾಡಲು.wasm.
- ನಾನ್-ಸ್ಪೀಚ್ ಟೋಕನ್ಗಳನ್ನು ನಿಗ್ರಹಿಸುವ ಆಯ್ಕೆಯನ್ನು ವಿಸ್ಪರ್-ಸರ್ವರ್ಗೆ ಸೇರಿಸಲಾಗಿದೆ.
- suppress_non_speech_tokens ಪ್ಯಾರಾಮೀಟರ್ ಅನ್ನು suppress_nst ಗೆ ಮರುಹೆಸರಿಸಲಾಗಿದೆ.
- ಪ್ರತಿಲೇಖನದ ಸಮಯದಲ್ಲಿ ಸೆಗ್ಮೆಂಟ್ ಮಟ್ಟದಲ್ಲಿ ಮಾತಿನ ಅನುಪಸ್ಥಿತಿಯ ಸಂಭವನೀಯತೆಯನ್ನು ಹೊಂದಿಸಲು API ಮತ್ತು ಉಪಯುಕ್ತತೆಗಳಿಗೆ no_speech_thold ಆಯ್ಕೆಯನ್ನು ಸೇರಿಸಲಾಗಿದೆ.
- ವಿಸ್ಪರ್-ಕ್ಲೈ ಗೆ --suppress_nst ಆಯ್ಕೆಯನ್ನು ಸೇರಿಸಲಾಗಿದೆ.
- ಇತರ ಸುಧಾರಣೆಗಳು ಮತ್ತು ದೋಷ ಪರಿಹಾರಗಳು.
ಮೂಲ: linux.org.ru
