Nieuwe modellen voor Russische spraakherkenning in de Vosk-bibliotheek

De ontwikkelaars van de Vosk-bibliotheek hebben nieuwe modellen voor Russische spraakherkenning gepubliceerd: server vosk-model-ru-0.22 en mobiel Vosk-model-small-ru-0.22. De modellen maken gebruik van nieuwe spraakgegevens en een nieuwe neurale netwerkarchitectuur, waardoor de herkenningsnauwkeurigheid met 10-20% is toegenomen. De code en gegevens worden gedistribueerd onder de Apache 2.0-licentie.

Belangrijke wijzigingen:

  • Nieuwe gegevens verzameld in stemluidsprekers verbeteren de herkenning van spraakopdrachten die op afstand worden uitgesproken aanzienlijk.
  • Het nieuwe audio-extractieschema heeft de herkenningsnauwkeurigheid voor breedbandopnamen aanzienlijk verbeterd. Tegelijkertijd is ook de nauwkeurigheid van de telefonieherkenning verbeterd.
  • Met het woordenboekextensiepakket kunt u de herkenning van complexe technische records aanpassen.

Voor de beste nauwkeurigheid wordt aanbevolen om de Wax-versie bij te werken naar 0.3.32. Mogelijk bent u ook geïnteresseerd in de nieuwe functies van Vosk - integratie met Unity, Nativescript, Jigasi. Modellen voor het herkennen van Kazachse en Oekraïense talen. Het servermodel vereist een moderne processor en 8 GB geheugen om te kunnen werken. Het mobiele model kan worden gebruikt in telefoons en RaspberryPi 3+.

Bron: opennet.ru

Voeg een reactie