Twórcy biblioteki Vosk opublikowali nowe modele rozpoznawania mowy rosyjskiej: serwer vosk-model-ru-0.22 i mobilny Vosk-model-small-ru-0.22. Modele wykorzystują nowe dane mowy, a także nową architekturę sieci neuronowej, która zwiększyła dokładność rozpoznawania o 10-20%. Kod i dane są rozpowszechniane na licencji Apache 2.0.
Ważne zmiany:
- Nowe dane zebrane w głośnikach głosowych znacznie poprawiają rozpoznawanie poleceń głosowych wypowiadanych na odległość.
- Nowy schemat ekstrakcji dźwięku znacznie poprawił dokładność rozpoznawania nagrań szerokopasmowych. Jednocześnie poprawiono także dokładność rozpoznawania połączeń telefonicznych.
- Pakiet rozszerzeń słownika umożliwia dostosowanie rozpoznawania złożonych zapisów technicznych.
Aby uzyskać najlepszą dokładność, zaleca się aktualizację wersji Wax do wersji 0.3.32. Być może zainteresują Cię także nowe funkcjonalności Voska - integracja z Unity, Nativescript, Jigasi. Modele rozpoznawania języka kazachskiego i ukraińskiego. Model serwerowy do działania wymaga nowoczesnego procesora i 8 GB pamięci. Model mobilny można stosować w telefonach i RaspberryPi 3+.
Źródło: opennet.ru