Nowe modele rozpoznawania mowy rosyjskiej w bibliotece Vosk

Twórcy biblioteki Vosk opublikowali nowe modele rozpoznawania mowy rosyjskiej: serwer vosk-model-ru-0.22 i mobilny Vosk-model-small-ru-0.22. Modele wykorzystują nowe dane mowy, a także nową architekturę sieci neuronowej, która zwiększyła dokładność rozpoznawania o 10-20%. Kod i dane są rozpowszechniane na licencji Apache 2.0.

Ważne zmiany:

  • Nowe dane zebrane w głośnikach głosowych znacznie poprawiają rozpoznawanie poleceń głosowych wypowiadanych na odległość.
  • Nowy schemat ekstrakcji dźwięku znacznie poprawił dokładność rozpoznawania nagrań szerokopasmowych. Jednocześnie poprawiono także dokładność rozpoznawania połączeń telefonicznych.
  • Pakiet rozszerzeń słownika umożliwia dostosowanie rozpoznawania złożonych zapisów technicznych.

Aby uzyskać najlepszą dokładność, zaleca się aktualizację wersji Wax do wersji 0.3.32. Być może zainteresują Cię także nowe funkcjonalności Voska - integracja z Unity, Nativescript, Jigasi. Modele rozpoznawania języka kazachskiego i ukraińskiego. Model serwerowy do działania wymaga nowoczesnego procesora i 8 GB pamięci. Model mobilny można stosować w telefonach i RaspberryPi 3+.

Źródło: opennet.ru

Dodaj komentarz