🥇Neue Modelle zur Spracherkennung des Russischen in der Vosk-Bibliothek

Die Entwickler der Vosk-Bibliothek haben neue Modelle zur Sprachkennung veröffentlicht: das Servermodell vosk-model-ru-0.22 und das mobile Modell Vosk-model-small-ru-0.22. In diesen Modellen kommen neue Sprachdaten sowie eine neue neuronale Netzwerkarchitektur zum Einsatz, die die Erkennungsgenauigkeit um 10-20% verbessert hat. Code und Daten werden unter der Lizenz Apache 2.0 verbreitet.

Wichtige Änderungen:

Neue, in Sprachassistenten gesammelte Daten verbessern erheblich die Erkennung von Sprachbefehlen, die aus der Ferne ausgesprochen werden.
Das neue Schallschema hat die Erkennungsgenauigkeit für Breitbandaufzeichnungen erheblich verbessert. Gleichzeitig wurde auch die Erkennungsgenauigkeit im Telefonverkehr verbessert.
Das Paket zur Erweiterung des Wortschatzes ermöglicht die Anpassung der Erkennung an komplexe technische Aufzeichnungen.

Für die bestmögliche Genauigkeit wird empfohlen, auch die Vosk-Version auf 0.3.32 zu aktualisieren. Auch die neuen Integrationsmöglichkeiten von Vosk mit Unity, Nativescript und Jigasi könnten interessant sein. Modelle zur Erkennung von Kasachisch und Ukrainisch. Für das Servermodell wird benötigt ein moderner Prozessor und 8 GB RAM. Das mobile Modell kann in Smartphones und Raspberry Pi 3+ verwendet werden.

Quelle: opennet.ru

Neue Modelle zur Erkennung der russischen Sprache in der Vosk-Bibliothek

Juri Gagarin