Neue Modelle für die russische Spracherkennung in der Vosk-Bibliothek

Die Entwickler der Vosk-Bibliothek haben neue Modelle für die russische Spracherkennung veröffentlicht: serverseitiges vosk-model-ru-0.22 und mobiles Vosk-model-small-ru-0.22. Die Modelle nutzen neue Sprachdaten sowie eine neue neuronale Netzwerkarchitektur, wodurch die Erkennungsgenauigkeit um 10–20 % gesteigert werden konnte. Der Code und die Daten werden unter der Apache 2.0-Lizenz verteilt.

Wichtige Änderungen:

  • Die in den Sprachspalten gesammelten neuen Daten verbessern die Erkennung von aus der Ferne gesprochenen Sprachbefehlen deutlich.
  • Das neue Tonextraktionsschema hat die Erkennungsgenauigkeit bei Breitbandaufnahmen deutlich verbessert. Gleichzeitig hat sich auch die Genauigkeit der Telefonerkennung verbessert.
  • Mit dem Wörterbuch-Zusatzpaket können Sie die Erkennung komplexer technischer Einträge individuell anpassen.

Für eine optimale Genauigkeit wird empfohlen, auch die Wax-Version auf 0.3.32 zu aktualisieren. Möglicherweise interessieren Sie sich auch für die neuen Wax-Funktionen – Integration mit Unity, Nativescript, Jigasi. Modelle zur Erkennung kasachischer und ukrainischer Sprachen. Das Servermodell benötigt zum Betrieb einen modernen Prozessor und 8 GB Arbeitsspeicher. Das mobile Modell kann in Telefonen und RaspberryPi 3+ verwendet werden.

Source: opennet.ru

Kommentar hinzufügen