Los días 17 y 19 de junio se lanzaron las versiones 1.9.0 y 1.9.1 del sistema de reconocimiento automático de voz de alto rendimiento. susurro.cpp, implementando el modelo Susurro de OpenAI y una biblioteca de aprendizaje automático basada en tensores. GGML y formato binario GUF-G.
Se proporcionan la biblioteca libwhisper, demostraciones y utilidades de consola: whisper-bench, whisper-cli, whisper-command, whisper-lsp, whisper-quantize, whisper-server, whisper-stream, whisper-vad-speech-segments, parakeet-cli y parakeet-quantize.
Los proyectos están escritos en C y C++ y se distribuyen bajo la licencia MIT.
Cambios:
- Se ha añadido la utilidad de consola parakeet-cli, que admite el modelo NVIDIA Parakeet;
- También se ha añadido compatibilidad con NVIDIA Parakeet al envoltorio de Ruby.
Algunos cambios importantes realizados en versiones intermedias desde la noticia susurro.cpp 1.8.0:
- Manejo de excepciones de C++ en la función whisper_init_with_params_no_state;
- Se ha reescrito por completo la compatibilidad con ffmpeg (sin utilizar código GPL tomado de los ejemplos de ffmpeg), y se ha aclarado el uso de ffmpeg en whisper.cpp;
- La utilidad whisper-cli ahora tiene una nueva opción, —version, para mostrar la versión.
Fuente: linux.org.ru




