NVIDIA investiert 1.5 Millionen US-Dollar in das Mozilla Common Voice-Projekt

NVIDIA investiert 1.5 Millionen US-Dollar in das Mozilla Common Voice-Projekt. Das Interesse an Spracherkennungssystemen ergibt sich aus der Prognose, dass die Sprachtechnologie in den nächsten zehn Jahren zu einer der wichtigsten Möglichkeiten werden wird, mit denen Menschen mit Geräten interagieren, von Computern und Telefonen bis hin zu digitalen Assistenten und Kiosken.

Die Leistung von Sprachsystemen hängt stark von der Menge und Vielfalt der Sprachdaten ab, die für das Training von Modellen für maschinelles Lernen verfügbar sind. Die heutige Sprachtechnologie konzentriert sich hauptsächlich auf die Erkennung der englischen Sprache und deckt nicht die große Vielfalt an Sprachen, Akzenten und Sprachmustern ab. Die Investition wird dazu beitragen, das Wachstum öffentlicher Sprachdaten zu beschleunigen, mehr Gemeinden und Freiwillige einzubinden und die Zahl der Vollzeit-Projektmitarbeiter zu erhöhen.

Wir möchten Sie daran erinnern, dass das Common Voice-Projekt darauf abzielt, eine gemeinsame Arbeit zum Aufbau einer Datenbank mit Stimmmustern zu organisieren, die die Vielfalt der Stimmen und Sprachstile berücksichtigt. Benutzer werden aufgefordert, auf dem Bildschirm angezeigte Phrasen auszusprechen oder die Qualität der von anderen Benutzern hinzugefügten Daten zu bewerten. Die akkumulierte Datenbank mit Aufzeichnungen verschiedener Aussprachen typischer Phrasen der menschlichen Sprache kann ohne Einschränkungen in maschinellen Lernsystemen und in Forschungsprojekten verwendet werden.

Das Common Voice-Set enthält derzeit Aussprachebeispiele von über 164 Personen. Es wurden etwa 9 Stunden Sprachdaten in 60 verschiedenen Sprachen gesammelt. Das Set für die russische Sprache umfasst 1412 Teilnehmer und 111 Stunden Sprachmaterial, für die ukrainische Sprache 459 Teilnehmer und 30 Stunden. Zum Vergleich: Mehr als 66 Menschen beteiligten sich an der Vorbereitung der Materialien auf Englisch und diktierten 1686 Stunden verifizierter Sprache. Die vorgeschlagenen Sätze können in maschinellen Lernsystemen verwendet werden, um Spracherkennungs- und -synthesemodelle zu erstellen. Die Daten werden als Public Domain (CC0) veröffentlicht.

Laut dem Autor der kontinuierlichen Spracherkennungsbibliothek Vosk bestehen die Nachteile des Common Voice-Sets in der Einseitigkeit des Stimmmaterials (Vorherrschaft männlicher Menschen im Alter von 20 bis 30 Jahren und der Mangel an Material mit den Stimmen von Frauen). , Kinder und ältere Menschen), die mangelnde Variabilität im Wörterbuch (Wiederholung derselben Phrasen) und die Verbreitung von Aufnahmen im verzerrenden MP3-Format.

Source: opennet.ru

Kommentar hinzufügen