De ontwikkelaars van de Vosk-bibliotheek hebben nieuwe modellen voor Russische spraakherkenning gepubliceerd: server vosk-model-ru-0.22 en mobiel Vosk-model-small-ru-0.22. De modellen maken gebruik van nieuwe spraakgegevens en een nieuwe neurale netwerkarchitectuur, waardoor de herkenningsnauwkeurigheid met 10-20% is toegenomen. De code en gegevens worden gedistribueerd onder de Apache 2.0-licentie.
Belangrijke wijzigingen:
- Nieuwe gegevens verzameld in stemluidsprekers verbeteren de herkenning van spraakopdrachten die op afstand worden uitgesproken aanzienlijk.
- Het nieuwe audio-extractieschema heeft de herkenningsnauwkeurigheid voor breedbandopnamen aanzienlijk verbeterd. Tegelijkertijd is ook de nauwkeurigheid van de telefonieherkenning verbeterd.
- Met het woordenboekextensiepakket kunt u de herkenning van complexe technische records aanpassen.
Voor de beste nauwkeurigheid wordt aanbevolen om de Wax-versie bij te werken naar 0.3.32. Mogelijk bent u ook geïnteresseerd in de nieuwe functies van Vosk - integratie met Unity, Nativescript, Jigasi. Modellen voor het herkennen van Kazachse en Oekraïense talen. Het servermodel vereist een moderne processor en 8 GB geheugen om te kunnen werken. Het mobiele model kan worden gebruikt in telefoons en RaspberryPi 3+.
Bron: opennet.ru